从极大既然估计的角度推导均方误差最小化

问题背景

曲线拟合问题,给定参数 w w w和输入 x x x,用多项式函数来拟合曲线,其中 M M M表示多项式的次数:
y ( x , w ) = w 0 + w 1 x + w 2 x 2 + . . . + w M x M y(x,w) = w_0 + w_1x+w_2x^2+...+w_Mx^M y(x,w)=w0+w1x+w2x2+...+wMxM
如下图所示:
从极大既然估计的角度推导均方误差最小化_第1张图片

推导

我们都知道曲线拟合问题,可以用均方误差最小化来解决,也就是使以下函数的值最小化:
E ( w ) = 1 2 ∑ n = 1 N ( y ( x n , w ) − t n ) 2 E(\textbf{w}) = \frac{1}{2}\sum_{n=1}^{N}{(y(x_n,\textbf{w} )-t_n)}^2 E(w)=21n=1N(y(xn,w)tn)2

下面推导:均方误差最小化等价于正态分布的极大似然估计。
我们假设对于输入值 x x x,输出值 t t t出现的概率服从均值为 y ( x , w ) y(x,w) y(x,w),方差为 1 β \frac{1}{β} β1的正态分布,其中, β − 1 = σ 2 β^{-1} = σ^2 β1=σ2,用下列式子表示:
p ( t ∣ x , w , β ) = N ( t ∣ y ( x , w ) , β − 1 ) p(t|x,w,β) = Ν(t|y(x,w),β^{-1}) p(tx,w,β)=N(ty(x,w),β1)
这里用{ x , t {\textbf{x},\textbf{t}} x,t}来表示数据中的所有数据对,似然函数可以表示为:
p ( t ∣ x , w , β ) = ∏ n = 1 N N ( t n ∣ y ( x n , w ) , β − 1 ) p(\textbf{t}|\textbf{x},w,β) = \prod_{n=1}^{N}N(t_n|y(x_n,w),β^{-1}) p(tx,w,β)=n=1NN(tny(xn,w),β1)对似然函数取对数,得到:
l n ( p ( t ∣ x , w , β ) ) = − β 2 ∑ n = 1 N ( y ( x n , w ) − t n ) 2 + N 2 l n β − N 2 l n ( 2 π ) ln(p(t|x,w,β)) = -\frac{β}{2}\sum_{n=1}^{N}(y(x_n,w)-t_n)^2+\frac{N}{2}lnβ -\frac{N}{2}ln(2\pi) ln(p(tx,w,β))=2βn=1N(y(xn,w)tn)2+2Nlnβ2Nln(2π)
先最大化 w w w,可以先消除上面式子的后两项。由于在此时 β β β是常数,可以用 1 2 \frac{1}{2} 21代替 β 2 \frac{β}{2} 2β,得到以下式子:
l n ( p ( t ∣ x , w , β ) ) = − 1 2 ∑ n = 1 N ( y ( x n , w ) − t n ) 2 ln(p(t|x,w,β)) = -\frac{1}{2}\sum_{n=1}^{N}(y(x_n,w)-t_n)^2 ln(p(tx,w,β))=21n=1N(y(xn,w)tn)2
到这一步,我们可以看到,均方误差最小化等价于基于正态分布假设的极大似然估计。

参考文献

《Pattern Recognition And Machine Learning》

你可能感兴趣的:(机器学习,概率论,机器学习,算法)