普通最小二乘-OLS原理简介

最小二乘法是做拟合问题的一个常用的方法,最小二乘法的来源是怎样的呢?下面我们一起来探究一下,参考资料—–Andrew Ng 机器学习课程。

回顾一下线性回归问题的优化目标

θ=argminθ12ni=1(θTxiyi)2=argminθ12||Xθy||2 θ ∗ = a r g m i n θ 1 2 ∑ i = 1 n ( θ T x i − y i ) 2 = a r g m i n θ 1 2 | | X θ − y | | 2 .

注意到偏移项被吸入到了 θ θ 中。
就直观地理解而言,我们当然希望预测值与真实值之间的误差尽可能小。接下来我们从极大似然估计的方法,来推导出OLS的优化目标。

一般认为:在线性回归问题中,真实值与预测值之间的误差服从 (0,σ2) N ( 0 , σ 2 )

因此令 yi=θTxi+ϵi y i = θ T x i + ϵ i 。那么有 ϵ ϵ ~ (0,σ2) N ( 0 , σ 2 )

显然地,对于只有一个样本 (x1,y1) ( x 1 , y 1 ) 的训练集,我们有

P(y|x;θ)=12πσe(θTx1y1)22σ2 P ( y | x ; θ ) = 1 2 π σ e − ( θ T x 1 − y 1 ) 2 2 σ 2

对于有n个训练样本的数据集 (x1,y1),,(xn,yn) ( x 1 , y 1 ) , … , ( x n , y n ) ,由高中概率学可知

P(y|x;θ)=ni=112πσe(θTxiyi)22σ2 P ( y | x ; θ ) = ∏ i = 1 n 1 2 π σ e − ( θ T x i − y i ) 2 2 σ 2

极大似然估计的思想就是,找出一个参数 θ θ ,使得训练集样本出现“这种”结果的可能性达到最大。“这种”的含义即训练样本与其对应的观测。也就是说,我们需要极大化 P(y|x;θ) P ( y | x ; θ ) 。因为在训练集中, x x y y 都是给定的, P(y|x;θ) P ( y | x ; θ ) 可以被看成是关于 θ θ 的函数 L(θ) L ( θ )

我们把 L(θ) L ( θ ) 称为 P(y|x;θ) P ( y | x ; θ ) 似然函数。极大化似然函数的过程就是极大似然估计(Maximum Likelihood Estimation)。相应的最优解 θ θ 即是最优参数,因此

θ=argmaxθL(θ)=P(y|x;θ) θ ∗ = a r g m a x θ L ( θ ) = P ( y | x ; θ )

极大化上述问题等价于极大化对数似然:

θ=argmaxθlog L(θ)=argmaxθni=1(log(2πσ)(θTxiyi)22σ2)=argminθ12ni=1(θTxiyi)2 θ ∗ = a r g m a x θ l o g   L ( θ ) = a r g m a x θ ∑ i = 1 n ( − l o g ( 2 π σ ) − ( θ T x i − y i ) 2 2 σ 2 ) = a r g m i n θ 1 2 ∑ i = 1 n ( θ T x i − y i ) 2

这也就得到了OLS的形式。

求解OLS的方法有多种:
1. 直接给出解析解:令 J(θ)=12ni=1(θTxiyi)2 J ( θ ) = 1 2 ∑ i = 1 n ( θ T x i − y i ) 2 ,令 θJ(θ)=0 ∂ ∂ θ J ( θ ) = 0 可得 θ=(XTX)1XTy θ ∗ = ( X T X ) − 1 X T y ,然而现实情况下 (XTX)1 ( X T X ) − 1 往往不满秩,所以 θ θ ∗ 有多组解。这时往往有学习器的归纳偏好决定最优 θ θ
2. 梯度下降法: θ(j+1)=θ(j)αθJ(θ(j)) θ ( j + 1 ) = θ ( j ) − α ∇ θ J ( θ ( j ) )
3. 随机梯度下降:一次选取一个样本进行梯度下降,需要比梯度下降更多的迭代次数。

你可能感兴趣的:(Machine,learning,机器学习,OLS,极大似然估计)