四十七.模型和正态分布(BoxCox)

1.为什么数据要服从正态分布

在深度学习和机器学习中,我们通常希望数据的分布为正态分布,因为在机器学习中,许多模型都是基于数据服从正态分布的假设(例如线性回归,它假设模型的残差服从均值为0方差为σ^2,标准化残差服从均数为0,方差为1 的正态分布)。因此,具有正态分布的数据会对模型的训练效果有着较为显著的提升。

2.BoxCox变换

对于不符合正态分布的特征,除了对数变换等,最常用的就是BoxCox变换。
BoxCox将因变量Y进行以下变换后:
Y ( λ ) = { Y λ − 1 λ , λ ≠ 0 ln ⁡ ( Y ) , λ = 0 Y^{(\lambda)}=\begin{cases} & \frac{Y^{\lambda}-1}{\lambda},\lambda\neq 0\\ & \ln(Y),\lambda =0 \end{cases} Y(λ)={λYλ1,λ=0ln(Y),λ=0
使因变量Y和自变量X的关系满足:
y ( λ ) = X β + e , e ∼ ( 0 , σ 2 I n ) y^{(\lambda)}=X\beta +e,e\sim (0,\sigma ^{2}I_{n}) y(λ)=Xβ+e,e(0,σ2In)
可以看到BoxCox是一个变换族,其变换的结果取决于 λ \lambda λ的选择。 λ \lambda λ的选择主要有极大似然法和贝叶斯方法。

3.sklearn-BoxCox

待更新

你可能感兴趣的:(机器学习理论基础,神经网络,sklearn)