最小二乘法与极大似然估计

本文以线性回归模型为例,介绍了两种参数估计方法,即最小二乘法和极大似然估计法,阐述了两者之间的区别与联系。

目录

    • 一、最小二乘法
    • 二、极大似然估计
    • 三、总结

一、最小二乘法

最小二乘法,又称最小平方法,通过最小化误差平方和得到参数估计值,使得模型能够最好地拟合样本数据。

已知 N N N组数据 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } {D=\{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)\}} D={(x1,y1),(x2,y2),,(xN,yN)},其中 x i = ( x i 1 , x i 2 , ⋯   , x i p ) T {x_i=(x_{i1}, x_{i2}, \cdots, x_{ip})^T} xi=(xi1,xi2,,xip)T p p p表示有 p p p个特征,设参数 w = ( w 1 , w 2 , ⋯   , w p ) T w=(w_1, w_2, \cdots, w_p)^T w=(w1,w2,,wp)T

最小二乘法的目标函数是
L ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 L(w)=\sum_{i=1}^N||w^Tx_i-y_i||^2 L(w)=i=1NwTxiyi2
X = ( x 1 , x 2 , ⋯   , x N ) T X=(x_1, x_2, \cdots, x_N)^T X=(x1,x2,,xN)T Y = ( y 1 , y 2 , ⋯   , y N ) T Y=(y_1, y_2, \cdots, y_N)^T Y=(y1,y2,,yN)T X X X N × p N\times p N×p维, Y Y Y N × 1 N\times 1 N×1维, w w w p × 1 p\times 1 p×1维,将 L ( w ) L(w) L(w)表达为矩阵形式:
L ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 = ∑ i = 1 N ( w T x i − y i ) 2 = ( w T x 1 − y 1 , ⋯   , w T x N − y N ) ⋅ ( w T x 1 − y 1 , ⋯   , w T x N − y N ) T = ( w T X T − Y T ) ⋅ ( w T X T − Y T ) T = ( w T X T − Y T ) ⋅ ( X w − Y ) = w T X T X w − w T X T Y − Y T X w + Y T Y = w T X T X w − 2 w T X T Y + Y T Y \begin{aligned} L(w) &= \sum_{i=1}^N||w^Tx_i-y_i||^2\\ & = \sum_{i=1}^N(w^Tx_i-y_i)^2\\ &= (w^Tx_1-y_1, \cdots, w^Tx_N-y_N)\cdot(w^Tx_1-y_1, \cdots, w^Tx_N-y_N)^T\\ &= (w^TX^T-Y^T)\cdot(w^TX^T-Y^T)^T\\ &= (w^TX^T-Y^T)\cdot(Xw-Y)\\ &= w^TX^TXw - w^TX^TY - Y^TXw + Y^TY\\ &= w^TX^TXw - 2w^TX^TY + Y^TY \end{aligned} L(w)=i=1NwTxiyi2=i=1N(wTxiyi)2=(wTx1y1,,wTxNyN)(wTx1y1,,wTxNyN)T=(wTXTYT)(wTXTYT)T=(wTXTYT)(XwY)=wTXTXwwTXTYYTXw+YTY=wTXTXw2wTXTY+YTY

要使得 L ( w ) L(w) L(w)最小,得到参数 w ^ = a r g m i n   L ( w ) {\hat{w}=argmin\ L(w)} w^=argmin L(w)
∂ L ( w ) ∂ w = 2 X T X w − 2 X T Y = 0 X T X w = X T Y w = ( X T X ) − 1 X T Y \frac{\partial L(w)}{\partial w}=2X^TXw-2X^TY=0\\ X^TXw=X^TY\\ w=(X^TX)^{-1}X^TY wL(w)=2XTXw2XTY=0XTXw=XTYw=(XTX)1XTY
如果矩阵 X T X X^TX XTX非奇异,则 w w w有唯一解。

二、极大似然估计

极大似然估计的目标是通过选择参数,使得从模型中抽取N组样本观测值的概率最大,即使得样本出现的可能性最大。

似然函数 L ( w ∣ x 1 , ⋯   , x N ) L(w|x_1, \cdots, x_N) L(wx1,,xN),简记为 L ( w ) L(w) L(w)
L ( w ) = p ( x 1 , x 2 , ⋯   , x N ∣ w ) L(w)=p(x_1, x_2, \cdots, x_N|w) L(w)=p(x1,x2,,xNw)
可以理解为当参数为 w w w时,各组样本同时出现的概率。

假设样本独立同分布,似然函数可写为:
L ( w ) = p ( x 1 , x 2 , ⋯   , x N ∣ w ) = p ( x 1 ∣ w ) p ( x 2 ∣ w ) ⋯ p ( x N ∣ w ) L(w)=p(x_1, x_2, \cdots, x_N|w)\\ =p(x_1|w)p(x_2|w)\cdots p(x_N|w) L(w)=p(x1,x2,,xNw)=p(x1w)p(x2w)p(xNw)

下面为线性回归中使用极大似然估计的例子:

假设预测值 w T x i w^Tx_i wTxi与真实值 y i y_i yi之间的误差 ξ i \xi_i ξi服从均值为0,方差为 σ 2 \sigma^2 σ2的正态分布,即
ξ i ∼ N ( 0 , σ 2 ) {\xi_i \sim N(0, \sigma^2)} ξiN(0,σ2)
ξ i \xi_i ξi的概率密度函数为:
p ( ξ i ) = 1 2 π σ e − ξ i 2 2 σ 2 p(\xi_i)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\xi_i^2}{2\sigma^2}} p(ξi)=2π σ1e2σ2ξi2
ξ i = y i − w T x i \xi_i=y_i-w^Tx_i ξi=yiwTxi代入得:
p ( y i ∣ x i ; w ) = 1 2 π σ e − ( y i − w T x i ) 2 2 σ 2 p(y_i\mid x_i;w)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}} p(yixi;w)=2π σ1e2σ2(yiwTxi)2
p ( y i ∣ x i ; w ) p(y_i\mid x_i;w) p(yixi;w)可以理解为当参数为 w w w时,若给定 x i x_i xi,则 y i y_i yi出现的概率。

给定N个样本,似然函数为:
L ( w ) = l o g ∏ i = 1 N p ( y i ∣ x i ; w ) = ∑ i = 1 N ( l o g 1 2 π σ + l o g ( e − ( y i − w T x i ) 2 2 σ 2 ) ) = ∑ i = 1 N ( l o g 1 2 π σ − ( y i − w T x i ) 2 2 σ 2 ) = N l o g 1 2 π σ − 1 2 σ 2 ∑ i = 1 N ( y i − w T x i ) 2 \begin{aligned} L(w)&=log\prod_{i=1}^N p(y_i\mid x_i;w)\\ &=\sum_{i=1}^N (log\frac{1}{\sqrt{2\pi}\sigma} + log(e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}}))\\ &=\sum_{i=1}^N (log\frac{1}{\sqrt{2\pi}\sigma} - \frac{(y_i-w^Tx_i)^2}{2\sigma^2})\\ &=Nlog\frac{1}{\sqrt{2\pi}\sigma} - \frac{1}{2\sigma^2} \sum_{i=1}^N (y_i-w^Tx_i)^2 \end{aligned} L(w)=logi=1Np(yixi;w)=i=1N(log2π σ1+log(e2σ2(yiwTxi)2))=i=1N(log2π σ12σ2(yiwTxi)2)=Nlog2π σ12σ21i=1N(yiwTxi)2
要使得似然函数取最大值:
w ^ = a r g m a x   L ( w ) = a r g m a x   − 1 2 σ 2 ∑ i = 1 N ( y i − w T x i ) 2 = a r g m i n   ∑ i = 1 N ( y i − w T x i ) 2 \begin{aligned} \hat{w} &= argmax\ L(w)\\ &= argmax\ - \frac{1}{2\sigma^2} \sum_{i=1}^N (y_i-w^Tx_i)^2 \\ &= argmin\ \sum_{i=1}^N (y_i-w^Tx_i)^2 \end{aligned} w^=argmax L(w)=argmax 2σ21i=1N(yiwTxi)2=argmin i=1N(yiwTxi)2
可以发现,在假定样本独立同分布且误差 ξ \xi ξ服从 N ( 0 , σ 2 ) {N(0, \sigma^2)} N(0,σ2)的前提下,极大似然估计最终的目标函数与最小二乘法的相同。

三、总结

  1. 最小二乘法的出发点在于找到合适的参数去拟合样本数据,最小化损失函数,使预测值与真实值之间的误差最小。

  2. 极大似然估计的出发点在于找到合适的参数,使样本出现的可能性最大,以最大化似然概率函数为目标。

  3. 在假定样本独立同分布且误差服从 N ( 0 , σ 2 ) {N(0, \sigma^2)} N(0,σ2)的前提下,极大似然估计和最小二乘法最终的目标函数相同。

你可能感兴趣的:(机器学习之路,最小二乘法,机器学习,极大似然估计)