多元回归中的最大似然和最小二乘估计
- 最大似然估计
最大似然估计:对于因变量 Y Y ,最大似然估计就是去找到 Y Y 的参数估计值 θ θ ,使其发生概率最大,利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
函数 Y Y 中的自变量是相互独立,变量发生的概率联合分布可以写作当个边际分布的乘积,我们通常最大化的似然函数:
Λ(θ)=∏i=1Nf(yi:θ) Λ ( θ ) = ∏ i = 1 N f ( y i : θ )
也就是联合所有的y的取值,所有 N 个变量发生概率乘积.
∏Ni=1 ∏ i = 1 N 为乘积算子,用乘积计算往往造成大量计算上的困难,概率乘积得到的结果会越来越小,有可能超过计算机可以计算的最小值,即数值下溢现象
通过取其对数函数:
ln[Λ(θ)]=λ[θ] l n [ Λ ( θ ) ] = λ [ θ ]
在独立同分布前提下, Λ(θ) Λ ( θ ) 写作:
λ(θ)=ln[∏i=1Nf(y:θ)]=∑i=1Nln[f(y:θ)] λ ( θ ) = l n [ ∏ i = 1 N f ( y : θ ) ] = ∑ i = 1 N l n [ f ( y : θ ) ]
θ θ 的解被称之为最大似然估计量(Maximum Likehood Estimator,MLE)
记为 θ̂ θ ^ 它的值被称作最大似然估计值
在正态分布中
λ(μ)=∑i=1Nln[12πσ2‾‾‾‾‾√e−(y−μ)2σ2] λ ( μ ) = ∑ i = 1 N l n [ 1 2 π σ 2 e − ( y − μ ) 2 σ 2 ]
=−N⋅ln2πσ2‾‾‾‾‾√−12σ2∑i=1N(y−μ)2 = − N ⋅ ln 2 π σ 2 − 1 2 σ 2 ∑ i = 1 N ( y − μ ) 2
此处 y为观察值,
−N(ln2πσ2‾‾‾‾‾√) − N ( l n 2 π σ 2 )
不依赖于y,暂时不予考虑.
−12σ2 − 1 2 σ 2 作为参数因子,因为假设
σ2 σ 2 已知,暂时也忽略.
对数似然的最重要部分是:
−∑i=1N(y−μ)2 − ∑ i = 1 N ( y − μ ) 2
最大似然的最大值等价求解于最小二乘求解的最小值。
所以这所谓的高斯-马尔可夫定理(Gauss-Markov Assumptions)
对上式关于 μ μ 的一阶导 使之等于0,求此时 μ μ 的值
ϑϑμ[−∑i=1N(y−μ)2]=2∑i=1Ny−2N⋅μ ϑ ϑ μ [ − ∑ i = 1 N ( y − μ ) 2 ] = 2 ∑ i = 1 N y − 2 N ⋅ μ
得到 μ μ 的最大似然估计量:
μ̂=∑Ni=1yN μ ^ = ∑ i = 1 N y N
二阶导:
ϑ2ϑμ=−12σ22N=−Nσ2 ϑ 2 ϑ μ = − 1 2 σ 2 2 N = − N σ 2
因为 −Nσ2 − N σ 2 总是小于0 ,所以我们求得的解为最大值.
高斯密度函数有两个参数,即期望和方差,有时我们也需要获得最大似然关于方差这个估计量,也可以通过求二阶导来完成.
对于多元函数来讲, μ=Xβ μ = X β 中的 μ μ 表示其中N 个自变量的期望,也就是 N×1 N × 1 维向量, β β 为 p×1 p × 1 参数向量,我们通过相似的方法求最大似然解:
λ(β)=−N(ln2πσ2‾‾‾‾‾√)−12σ2∑i=1N(y−xiβ)2 λ ( β ) = − N ( l n 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 N ( y − x i β ) 2
对于某一个变量上的参数,其偏导为
ϑλ(β)ϑβk=∑Ni=1(yi−xiβ)σ2 ϑ λ ( β ) ϑ β k = ∑ i = 1 N ( y i − x i β ) σ 2
得到最大似然解:
β̂=(X′X)−1X′Y β ^ = ( X ′ X ) − 1 X ′ Y
如果熟悉回归方程系数的话,你会发现:
β̂=X′Y(X′X)−1=cov(X,Y)var(X)=∑(x−⎯μx)⋅(y−⎯μy)var(x) β ^ = X ′ Y ( X ′ X ) − 1 = c o v ( X , Y ) v a r ( X ) = ∑ ( x − ¯ μ x ) ⋅ ( y − ¯ μ y ) v a r ( x )
其二阶导数为
ϑ2λ(β)ϑβϑβ=−X′Xσ2 ϑ 2 λ ( β ) ϑ β ϑ β = − X ′ X σ 2
因为
X′X X ′ X 是一个正定矩阵 ,
1σ2 1 σ 2 也必须是正值。所以二阶导数的矩阵是负定,也就告诉我们,所求解的这个多元回归是 方程最大值。
也就是说,最小二乘法假设建立的关于参数的函数(方程)是正确的,通过降低模型与真实值之间的(欧式)距离得到目的,函数是关于方程模型取值与真实值之差,最小的时参数的取值。最大似然是假设变量最有可能发生的时候,此时参数的取值。度量的是经验的概率分布与模型的概率分布之间的差异,即Kullback-Leibler divergence,KL散度,或者相对熵,严格来说不是距离,因为二者是不具备对乘关系。