PRML读书笔记(一):重访曲线拟合(最小二乘法的统计学原理)

学过一点统计的人都会知道最小二乘法,最简单的曲线拟合方式。最小二乘法是通过最小化误差平方和来求解模型参数 ω 的,记为:

Min12i=1n{y(x,ω)t}2

但这一优化目标难免出现模型过拟合的情况,所以通常会在误差平方和之上在加上一项 λωTω ,以惩罚过于复杂的模型(以多项式模型为例,系数 ω 的平方和越大,说明模型的复杂程度越高,而 λ 表明这个惩罚的力度),记为:
Min12i=1n{y(x,ω)t}2+λωTω

但不知道大家考虑过没有,这个优化目标只是我们直觉上认为最好的目标,它的统计学原理在哪里呢?
通常我们认为因变量t是由某个系统方程 y(x,ω) 加上一个服从零均值正态分布的随机扰动,记为:
p(t|x,ω,β)=N{t|y(x,ω,β1)}

注意这里的 β=1σ2 ,代表随机扰动的强度, β 的值越大,扰动越弱。
PRML读书笔记(一):重访曲线拟合(最小二乘法的统计学原理)_第1张图片
那么如果整个训练集有n个样本点,那么从极大似然估计的角度看,基于该训练集的似然函数是:
p(t|x,ω,β)=i=1nN(ti|y(xi,w),β1)

相应的对数似然函数为:
lnp(t|x,ω,β)=β2i=1n{y(xi,w)ti}2+n2lnβn2ln(2π)

那么如果只对 ω 求似然函数极大值,对数似然函数等式右侧的后两项不包含 ω ,可以先去除,而第一项的系数 β2 替换成1不影响参数 ω 的极值点位置,而将第一项的负号变成正号,那么就由原来求对数似然函数的极大值就变成了求以下函数的极小值:
Mini=1n{y(xi,ω)ti}2

而这恰恰是最小二乘法的优化目标。所以说最小二乘法的统计学原理即是在默认因变量受到的干扰为零均值正态分布的情况下,由最大似然估计推导出的优化目标。
而进一步将贝叶斯方法引入对参数的估计。我们先验地认为参数 ω 服从均值为0方差相同且相互独立的正态分布,参数 α 代表着先验的认为参数的波动程度, α 越大,波动越小,记为:
p(ω|α)=N(ω|0,α1I)=(α2π)M+12exp{α2ωTω}

其中(M+1)代表着一个有M+1个参数。
由贝叶斯定理知,后验分布同先验分布和似然函数的乘积成正比,记为:
p(ω|x,t,α,β)p(t|x,ω,β)p(ω|α)

得到后验分布后取对数似然函数(与参数 ω 无关的项先去除),记为:
lnp(ω|x,t,α,β)=β2i=1n{y(xi,ω)ti}2α2ωTω

方程左右同时除以 β ,取相反值之后就变成了带惩罚项的最小二乘法(岭回归)的优化目标。注意在最开始的地方衡量对模型复杂度惩罚力度的 λ 参数,现在变成了 αβ ,即与先验分布参数 ω 的波动程度 α 成正比, α 越大,先验的认为参数波动越小,对模型复杂程度的惩罚力度就应该越强,而与 β 成反比关系, β 越小,因变量围绕均值的波动越大,对模型复杂程度的惩罚力度越大。就后一点说明一下,如果因变量受到的随机扰动越强,那么样本点的散布状况很有可能是随机扰动造成的,我们就不能允许模型通过提高复杂程度去捕捉这种散布状况,所以说 β λ 成反比关系。

你可能感兴趣的:(机器学习,统计学,曲线拟合)