最小二乘法是做拟合问题的一个常用的方法,最小二乘法的来源是怎样的呢?下面我们一起来探究一下,参考资料—–Andrew Ng 机器学习课程。
回顾一下线性回归问题的优化目标
θ∗=argminθ12∑ni=1(θTxi−yi)2=argminθ12||Xθ−y||2 θ ∗ = a r g m i n θ 1 2 ∑ i = 1 n ( θ T x i − y i ) 2 = a r g m i n θ 1 2 | | X θ − y | | 2 .
注意到偏移项被吸入到了 θ θ 中。
就直观地理解而言,我们当然希望预测值与真实值之间的误差尽可能小。接下来我们从极大似然估计的方法,来推导出OLS的优化目标。
一般认为:在线性回归问题中,真实值与预测值之间的误差服从 (0,σ2) N ( 0 , σ 2 ) 。
因此令 yi=θTxi+ϵi y i = θ T x i + ϵ i 。那么有 ϵ ϵ ~ (0,σ2) N ( 0 , σ 2 ) ,
显然地,对于只有一个样本 (x1,y1) ( x 1 , y 1 ) 的训练集,我们有
P(y|x;θ)=12π√σe−(θTx1−y1)22σ2 P ( y | x ; θ ) = 1 2 π σ e − ( θ T x 1 − y 1 ) 2 2 σ 2 。
对于有n个训练样本的数据集 (x1,y1),…,(xn,yn) ( x 1 , y 1 ) , … , ( x n , y n ) ,由高中概率学可知
P(y|x;θ)=∏ni=112π√σe−(θTxi−yi)22σ2 P ( y | x ; θ ) = ∏ i = 1 n 1 2 π σ e − ( θ T x i − y i ) 2 2 σ 2 。
极大似然估计的思想就是,找出一个参数 θ θ ,使得训练集样本出现“这种”结果的可能性达到最大。“这种”的含义即训练样本与其对应的观测。也就是说,我们需要极大化 P(y|x;θ) P ( y | x ; θ ) 。因为在训练集中, x x 和y y 都是给定的, P(y|x;θ) P ( y | x ; θ ) 可以被看成是关于 θ θ 的函数 L(θ) L ( θ ) 。
我们把 L(θ) L ( θ ) 称为 P(y|x;θ) P ( y | x ; θ ) 的似然函数。极大化似然函数的过程就是极大似然估计(Maximum Likelihood Estimation)。相应的最优解 θ θ 即是最优参数,因此
θ∗=argmaxθL(θ)=P(y|x;θ) θ ∗ = a r g m a x θ L ( θ ) = P ( y | x ; θ ) 。
极大化上述问题等价于极大化对数似然:
θ∗=argmaxθlog L(θ)=argmaxθ∑ni=1(−log(2π‾‾‾√σ)−(θTxi−yi)22σ2)=argminθ12∑ni=1(θTxi−yi)2 θ ∗ = a r g m a x θ l o g L ( θ ) = a r g m a x θ ∑ i = 1 n ( − l o g ( 2 π σ ) − ( θ T x i − y i ) 2 2 σ 2 ) = a r g m i n θ 1 2 ∑ i = 1 n ( θ T x i − y i ) 2 。
这也就得到了OLS的形式。
求解OLS的方法有多种:
1. 直接给出解析解:令 J(θ)=12∑ni=1(θTxi−yi)2 J ( θ ) = 1 2 ∑ i = 1 n ( θ T x i − y i ) 2 ,令 ∂∂θJ(θ)=0 ∂ ∂ θ J ( θ ) = 0 可得 θ∗=(XTX)−1XTy θ ∗ = ( X T X ) − 1 X T y ,然而现实情况下 (XTX)−1 ( X T X ) − 1 往往不满秩,所以 θ∗ θ ∗ 有多组解。这时往往有学习器的归纳偏好决定最优 θ θ 。
2. 梯度下降法: θ(j+1)=θ(j)−α∇θJ(θ(j)) θ ( j + 1 ) = θ ( j ) − α ∇ θ J ( θ ( j ) )
3. 随机梯度下降:一次选取一个样本进行梯度下降,需要比梯度下降更多的迭代次数。