为什么要假设变量为正态分布?

正态分布概念:

参见上篇简文中心极限定理与正态分布


好,进入本文重点,为什么很多模型都假设变量服从正态分布呢,尤其是回归模型

1.正态分布的奇妙之处就在于它是自然分布,任何看似没有规律可寻的随机事件其实是服从一个表达式就能表达的正态分布,不受人为影响。

eg:打靶,你每次射中点离中心的距离就是误差+方差,如果你每次射中点离中心点都离好远,那你就得提高自身的水平,即距离中心点的宽度(也就是方差),但你就算对自己的水平无限提高,你还是不能每次都射中中心点,这就是所谓的误差,所以如果你想射中点偏离中心点较小,就只能提高方差,也就是改变正态分布的方差,但是误差是呈现正态分

2.正态分布的信息熵最大,是最没有规则的分布,所以大自然嗜好这种分布。

为什么熵大好,这个要说很多分类模型中的特征选择标准了,想了解的童鞋请参见上篇简文信息增益与信息增益比

3.在线性回归中,使用最小二乘法估计是最小方差的无偏估计,所以要求误差项必须满足正态分布,那么在设定x值固定的情况下,y也满足正态分布,所以要求噪声u服从正态分布,即因变量服从正态分布

4.以数学理解为中心极限定理,即所有的随机事件取样本均值足够多的情况下都服从正态分布,所以就产生了对变量正态分布的假设(这个理解主要来自于中心极限定理概念里面提出的当随机变量受综合因素影响,且每一个因素影响较小时,该变量都服从正态分布的定理)而且虽然中心极限定理的前提条件是变量独立且同分布,但这也不是必要条件,粗略的就可以理解为如果一些变量服从相似的分布且相关性较弱,那么他们的平均值就接近正态分布

最后,怎么使自己的数据转换成正态分布,这个一般使用box-cox转换

你可能感兴趣的:(为什么要假设变量为正态分布?)