多元回归中的最大似然和最小二乘估计

多元回归中的最大似然和最小二乘估计

  1. 最大似然估计

最大似然估计:对于因变量 Y Y ,最大似然估计就是去找到 Y Y 的参数估计值 θ θ ,使其发生概率最大,利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

函数 Y Y 中的自变量是相互独立,变量发生的概率联合分布可以写作当个边际分布的乘积,我们通常最大化的似然函数:

Λ(θ)=i=1Nf(yi:θ) Λ ( θ ) = ∏ i = 1 N f ( y i : θ )

也就是联合所有的y的取值,所有 N 个变量发生概率乘积.
Ni=1 ∏ i = 1 N 为乘积算子,用乘积计算往往造成大量计算上的困难,概率乘积得到的结果会越来越小,有可能超过计算机可以计算的最小值,即数值下溢现象
通过取其对数函数:

ln[Λ(θ)]=λ[θ] l n [ Λ ( θ ) ] = λ [ θ ]

在独立同分布前提下, Λ(θ) Λ ( θ ) 写作:

λ(θ)=ln[i=1Nf(y:θ)]=i=1Nln[f(y:θ)] λ ( θ ) = l n [ ∏ i = 1 N f ( y : θ ) ] = ∑ i = 1 N l n [ f ( y : θ ) ]

θ θ 的解被称之为最大似然估计量(Maximum Likehood Estimator,MLE)
记为 θ̂ θ ^ 它的值被称作最大似然估计值

在正态分布中

λ(μ)=i=1Nln[12πσ2e(yμ)2σ2] λ ( μ ) = ∑ i = 1 N l n [ 1 2 π σ 2 e − ( y − μ ) 2 σ 2 ]

=Nln2πσ212σ2i=1N(yμ)2 = − N ⋅ ln ⁡ 2 π σ 2 − 1 2 σ 2 ∑ i = 1 N ( y − μ ) 2

此处 y为观察值,

N(ln2πσ2) − N ( l n 2 π σ 2 )

不依赖于y,暂时不予考虑.
12σ2 − 1 2 σ 2 作为参数因子,因为假设 σ2 σ 2 已知,暂时也忽略.

对数似然的最重要部分是:

i=1N(yμ)2 − ∑ i = 1 N ( y − μ ) 2

最大似然的最大值等价求解于最小二乘求解的最小值。
所以这所谓的高斯-马尔可夫定理(Gauss-Markov Assumptions)

对上式关于 μ μ 的一阶导 使之等于0,求此时 μ μ 的值

ϑϑμ[i=1N(yμ)2]=2i=1Ny2Nμ ϑ ϑ μ [ − ∑ i = 1 N ( y − μ ) 2 ] = 2 ∑ i = 1 N y − 2 N ⋅ μ

得到 μ μ 的最大似然估计量:

μ̂=Ni=1yN μ ^ = ∑ i = 1 N y N

二阶导:

ϑ2ϑμ=12σ22N=Nσ2 ϑ 2 ϑ μ = − 1 2 σ 2 2 N = − N σ 2

因为 Nσ2 − N σ 2 总是小于0 ,所以我们求得的解为最大值.
高斯密度函数有两个参数,即期望和方差,有时我们也需要获得最大似然关于方差这个估计量,也可以通过求二阶导来完成.
对于多元函数来讲, μ=Xβ μ = X β 中的 μ μ 表示其中N 个自变量的期望,也就是 N×1 N × 1 维向量, β β p×1 p × 1 参数向量,我们通过相似的方法求最大似然解:

λ(β)=N(ln2πσ2)12σ2i=1N(yxiβ)2 λ ( β ) = − N ( l n 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 N ( y − x i β ) 2

对于某一个变量上的参数,其偏导为

ϑλ(β)ϑβk=Ni=1(yixiβ)σ2 ϑ λ ( β ) ϑ β k = ∑ i = 1 N ( y i − x i β ) σ 2

得到最大似然解:

β̂=(XX)1XY β ^ = ( X ′ X ) − 1 X ′ Y

如果熟悉回归方程系数的话,你会发现:

β̂=XY(XX)1=cov(X,Y)var(X)=(xμx)(yμy)var(x) β ^ = X ′ Y ( X ′ X ) − 1 = c o v ( X , Y ) v a r ( X ) = ∑ ( x − ¯ μ x ) ⋅ ( y − ¯ μ y ) v a r ( x )

其二阶导数为

ϑ2λ(β)ϑβϑβ=XXσ2 ϑ 2 λ ( β ) ϑ β ϑ β = − X ′ X σ 2

因为 XX X ′ X 是一个正定矩阵 , 1σ2 1 σ 2 也必须是正值。所以二阶导数的矩阵是负定,也就告诉我们,所求解的这个多元回归是 方程最大值。
也就是说,最小二乘法假设建立的关于参数的函数(方程)是正确的,通过降低模型与真实值之间的(欧式)距离得到目的,函数是关于方程模型取值与真实值之差,最小的时参数的取值。最大似然是假设变量最有可能发生的时候,此时参数的取值。度量的是经验的概率分布与模型的概率分布之间的差异,即Kullback-Leibler divergence,KL散度,或者相对熵,严格来说不是距离,因为二者是不具备对乘关系。

你可能感兴趣的:(统计学)