本文重点
中心极限定理保证了某些概率分布以正态分布为极限分布,这在机器学习中也是成立的,所以在机器学习中我们假设随机变量服从正态分布。在机器学习中有很多地方体现了正态分布的思想。
中心极限定理的支撑
中心极限定理是统计学中的核心理论,它指出在适当条件下,大量独立随机变量的均值经适当标准化后依分布收敛于正态分布。在机器学习中,我们经常处理大量独立或弱相关的数据点,如用户行为数据、传感器读数等。中心极限定理告诉我们,这些数据的统计量(如均值)往往近似服从正态分布,即使原始数据本身并不服从正态分布。
最大熵原理的体现
在信息论中,最大熵原理指出,在所有满足已知约束的概率分布中,熵最大的分布是最“无偏”的选择。对于已知均值和方差的连续随机变量,正态分布是唯一满足最大熵条件的分布。这一性质使得正态分布在机器学习中成为一种“保守”而合理的假设——当我们对数据的了解仅限于其均值和方差时,选择正态分布可以避免引入不必要的先验信息。这种特性在贝叶斯机器学习中尤为重要,在构建先验分布时,如果没有特定的领域知识,选择正态分布作为先验可以确保假设尽可能中立,避免对模型产生不恰当的偏向。
数据预处理中的广泛应用
特征标准化
特征缩放是提高机器学习模型性能的常见预处理步骤,标准化(Z-score标准化)是一种将特征转换为均值为0、方差为1的正态分布的技术。