本文以线性回归模型为例,介绍了两种参数估计方法,即最小二乘法和极大似然估计法,阐述了两者之间的区别与联系。
最小二乘法,又称最小平方法,通过最小化误差平方和得到参数估计值,使得模型能够最好地拟合样本数据。
已知 N N N组数据 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x N , y N ) } {D=\{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)\}} D={(x1,y1),(x2,y2),⋯,(xN,yN)},其中 x i = ( x i 1 , x i 2 , ⋯ , x i p ) T {x_i=(x_{i1}, x_{i2}, \cdots, x_{ip})^T} xi=(xi1,xi2,⋯,xip)T, p p p表示有 p p p个特征,设参数 w = ( w 1 , w 2 , ⋯ , w p ) T w=(w_1, w_2, \cdots, w_p)^T w=(w1,w2,⋯,wp)T。
最小二乘法的目标函数是
L ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 L(w)=\sum_{i=1}^N||w^Tx_i-y_i||^2 L(w)=i=1∑N∣∣wTxi−yi∣∣2
令 X = ( x 1 , x 2 , ⋯ , x N ) T X=(x_1, x_2, \cdots, x_N)^T X=(x1,x2,⋯,xN)T, Y = ( y 1 , y 2 , ⋯ , y N ) T Y=(y_1, y_2, \cdots, y_N)^T Y=(y1,y2,⋯,yN)T, X X X为 N × p N\times p N×p维, Y Y Y为 N × 1 N\times 1 N×1维, w w w为 p × 1 p\times 1 p×1维,将 L ( w ) L(w) L(w)表达为矩阵形式:
L ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 = ∑ i = 1 N ( w T x i − y i ) 2 = ( w T x 1 − y 1 , ⋯ , w T x N − y N ) ⋅ ( w T x 1 − y 1 , ⋯ , w T x N − y N ) T = ( w T X T − Y T ) ⋅ ( w T X T − Y T ) T = ( w T X T − Y T ) ⋅ ( X w − Y ) = w T X T X w − w T X T Y − Y T X w + Y T Y = w T X T X w − 2 w T X T Y + Y T Y \begin{aligned} L(w) &= \sum_{i=1}^N||w^Tx_i-y_i||^2\\ & = \sum_{i=1}^N(w^Tx_i-y_i)^2\\ &= (w^Tx_1-y_1, \cdots, w^Tx_N-y_N)\cdot(w^Tx_1-y_1, \cdots, w^Tx_N-y_N)^T\\ &= (w^TX^T-Y^T)\cdot(w^TX^T-Y^T)^T\\ &= (w^TX^T-Y^T)\cdot(Xw-Y)\\ &= w^TX^TXw - w^TX^TY - Y^TXw + Y^TY\\ &= w^TX^TXw - 2w^TX^TY + Y^TY \end{aligned} L(w)=i=1∑N∣∣wTxi−yi∣∣2=i=1∑N(wTxi−yi)2=(wTx1−y1,⋯,wTxN−yN)⋅(wTx1−y1,⋯,wTxN−yN)T=(wTXT−YT)⋅(wTXT−YT)T=(wTXT−YT)⋅(Xw−Y)=wTXTXw−wTXTY−YTXw+YTY=wTXTXw−2wTXTY+YTY
要使得 L ( w ) L(w) L(w)最小,得到参数 w ^ = a r g m i n L ( w ) {\hat{w}=argmin\ L(w)} w^=argmin L(w)
∂ L ( w ) ∂ w = 2 X T X w − 2 X T Y = 0 X T X w = X T Y w = ( X T X ) − 1 X T Y \frac{\partial L(w)}{\partial w}=2X^TXw-2X^TY=0\\ X^TXw=X^TY\\ w=(X^TX)^{-1}X^TY ∂w∂L(w)=2XTXw−2XTY=0XTXw=XTYw=(XTX)−1XTY
如果矩阵 X T X X^TX XTX非奇异,则 w w w有唯一解。
极大似然估计的目标是通过选择参数,使得从模型中抽取N组样本观测值的概率最大,即使得样本出现的可能性最大。
似然函数 L ( w ∣ x 1 , ⋯ , x N ) L(w|x_1, \cdots, x_N) L(w∣x1,⋯,xN),简记为 L ( w ) L(w) L(w):
L ( w ) = p ( x 1 , x 2 , ⋯ , x N ∣ w ) L(w)=p(x_1, x_2, \cdots, x_N|w) L(w)=p(x1,x2,⋯,xN∣w)
可以理解为当参数为 w w w时,各组样本同时出现的概率。
假设样本独立同分布,似然函数可写为:
L ( w ) = p ( x 1 , x 2 , ⋯ , x N ∣ w ) = p ( x 1 ∣ w ) p ( x 2 ∣ w ) ⋯ p ( x N ∣ w ) L(w)=p(x_1, x_2, \cdots, x_N|w)\\ =p(x_1|w)p(x_2|w)\cdots p(x_N|w) L(w)=p(x1,x2,⋯,xN∣w)=p(x1∣w)p(x2∣w)⋯p(xN∣w)
下面为线性回归中使用极大似然估计的例子:
假设预测值 w T x i w^Tx_i wTxi与真实值 y i y_i yi之间的误差 ξ i \xi_i ξi服从均值为0,方差为 σ 2 \sigma^2 σ2的正态分布,即
ξ i ∼ N ( 0 , σ 2 ) {\xi_i \sim N(0, \sigma^2)} ξi∼N(0,σ2)
ξ i \xi_i ξi的概率密度函数为:
p ( ξ i ) = 1 2 π σ e − ξ i 2 2 σ 2 p(\xi_i)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\xi_i^2}{2\sigma^2}} p(ξi)=2πσ1e−2σ2ξi2
将 ξ i = y i − w T x i \xi_i=y_i-w^Tx_i ξi=yi−wTxi代入得:
p ( y i ∣ x i ; w ) = 1 2 π σ e − ( y i − w T x i ) 2 2 σ 2 p(y_i\mid x_i;w)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}} p(yi∣xi;w)=2πσ1e−2σ2(yi−wTxi)2
p ( y i ∣ x i ; w ) p(y_i\mid x_i;w) p(yi∣xi;w)可以理解为当参数为 w w w时,若给定 x i x_i xi,则 y i y_i yi出现的概率。
给定N个样本,似然函数为:
L ( w ) = l o g ∏ i = 1 N p ( y i ∣ x i ; w ) = ∑ i = 1 N ( l o g 1 2 π σ + l o g ( e − ( y i − w T x i ) 2 2 σ 2 ) ) = ∑ i = 1 N ( l o g 1 2 π σ − ( y i − w T x i ) 2 2 σ 2 ) = N l o g 1 2 π σ − 1 2 σ 2 ∑ i = 1 N ( y i − w T x i ) 2 \begin{aligned} L(w)&=log\prod_{i=1}^N p(y_i\mid x_i;w)\\ &=\sum_{i=1}^N (log\frac{1}{\sqrt{2\pi}\sigma} + log(e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}}))\\ &=\sum_{i=1}^N (log\frac{1}{\sqrt{2\pi}\sigma} - \frac{(y_i-w^Tx_i)^2}{2\sigma^2})\\ &=Nlog\frac{1}{\sqrt{2\pi}\sigma} - \frac{1}{2\sigma^2} \sum_{i=1}^N (y_i-w^Tx_i)^2 \end{aligned} L(w)=logi=1∏Np(yi∣xi;w)=i=1∑N(log2πσ1+log(e−2σ2(yi−wTxi)2))=i=1∑N(log2πσ1−2σ2(yi−wTxi)2)=Nlog2πσ1−2σ21i=1∑N(yi−wTxi)2
要使得似然函数取最大值:
w ^ = a r g m a x L ( w ) = a r g m a x − 1 2 σ 2 ∑ i = 1 N ( y i − w T x i ) 2 = a r g m i n ∑ i = 1 N ( y i − w T x i ) 2 \begin{aligned} \hat{w} &= argmax\ L(w)\\ &= argmax\ - \frac{1}{2\sigma^2} \sum_{i=1}^N (y_i-w^Tx_i)^2 \\ &= argmin\ \sum_{i=1}^N (y_i-w^Tx_i)^2 \end{aligned} w^=argmax L(w)=argmax −2σ21i=1∑N(yi−wTxi)2=argmin i=1∑N(yi−wTxi)2
可以发现,在假定样本独立同分布且误差 ξ \xi ξ服从 N ( 0 , σ 2 ) {N(0, \sigma^2)} N(0,σ2)的前提下,极大似然估计最终的目标函数与最小二乘法的相同。
最小二乘法的出发点在于找到合适的参数去拟合样本数据,最小化损失函数,使预测值与真实值之间的误差最小。
极大似然估计的出发点在于找到合适的参数,使样本出现的可能性最大,以最大化似然概率函数为目标。
在假定样本独立同分布且误差服从 N ( 0 , σ 2 ) {N(0, \sigma^2)} N(0,σ2)的前提下,极大似然估计和最小二乘法最终的目标函数相同。