Box-cox变换

Box-Cox变换

 Box和Cox于1964年提出了一种基于极大似然法的幂转换模型。Box-Cox幂分布族是一种十分有用的连续分布族。其转换模型为

y(λ)={yλ1λ,λ0lny,λ=0(1) (1) y ( λ ) = { y λ − 1 λ , λ ≠ 0 l n y , λ = 0

 这里 λ λ 是一个待定的变换参数。对不同的 λ λ ,所做的变换自然不同,所以就是一个变换族。对因
变量的观察值 y1,yn y 1 , ⋯ , y n ,应用上述变换,得到变换后的变量为:
y(λ)=(y(λ)1,,y(λ)n)(2) (2) y ( λ ) = ( y 1 ( λ ) , ⋯ , y n ( λ ) )

 这就是说,要求通过因变量的变换,使得变换后的 y(λ) y ( λ ) 与自变量具有线性依托关系。因此,Box-Cox变换是通过参数的适当选择,达到对原来数据的“综合治理”,使其满足一个线性模型条件。

 对于 λ λ 值的选择,可以通过极大似然法来估计。首先,在一个经验范围内选择参数 λ λ 的值,然后使用下式计算:
L(λ)=n2lnσ2+lnJ(λ,y)(3) (3) L ( λ ) = − n 2 l n σ 2 + l n J ( λ , y )
 上式中,对于所有的 λ λ ,有:

lnJ(λ,y)=i=1nWryi=i=1nyλ1i(4) (4) l n J ( λ , y ) = ∏ i = 1 n ∂ W r ∂ y i = ∏ i = 1 n y i λ − 1

 对于每一个 λ λ 来说, σ2 σ 2 y(λ) y ( λ ) 的极大似然估计,可通过式 (5) ( 5 ) 计算得到:
σ2a=1ni=1n(y(λ)iy¯¯¯(λ))2(5) (5) σ a 2 = 1 n ∑ i = 1 n ( y i ( λ ) − y ¯ ( λ ) ) 2

 经推导可得到如下方程:
L(λ)=n2ln[i=1n(y(λ)iy¯¯¯(λ))2n+(λ1)i=1nlnyi(6) (6) L ( λ ) = − n 2 l n [ ∑ i = 1 n ( y i ( λ ) − y ¯ ( λ ) ) 2 n + ( λ − 1 ) ⋅ ∑ i = 1 n l n y i

 上式中,
y¯¯¯(λ)=1ni=1ny(λ)i y ¯ ( λ ) = 1 n ∑ i = 1 n y i ( λ )

 每一个 λ λ 对应的 λ(λ) λ ( λ ) 都可得到相应的 L(λ) L ( λ ) 。由此可以描绘相应的 λ λ L(λ) L ( λ ) 的关系图,从中我们可以得到相应的最优 λ λ ∗ ,使得 L(λ) L ( λ ) 最大;该优化的 λ λ ∗ 对应了最优的转换模型。

Box-cox变换_第1张图片

你可能感兴趣的:(机器学习)