李航《统计学习方法》习题答案

前言:本系列习题系笔者主观完成,一家之言难免有错误之处
持续更新中…

第一章

  • 1.2 经过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

先说极大似然估计(多参数可以参考极大似然估计)。设X1,X2,…Xn是来自 X X X的样本,则X1,X2,…Xn的联合分布律为:
∏ i = 1 n p ( x i ; θ ) \prod_{i=1}^n p(x_i;\theta) i=1np(xi;θ)
其中 x 1 , . . . x i x_1,...x_i x1,...xi为X1,…Xn中的取值,即实例(instance), θ \theta θ是参数(如高斯分布中的均值和方差). 则事件{ X 1 = x 1 , . . . X n = x n X_1=x_1,...X_n=x_n X1=x1,...Xn=xn}发生的概率为:
L ( θ ) = L ( x 1 , x 2 , . . . x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) ; θ ∈ Θ L(\theta)=L(x_1,x_2,...x_n;\theta)=\prod_{i=1}^np(x_i;\theta); \theta\in\Theta L(θ)=L(x1,x2,...xn;θ)=i=1np(xi;θ);θΘ
这里 Θ \Theta Θ θ \theta θ的参数空间,即 θ \theta θ所有可能的取值都在这里面。而极大似然估计的目的即是要固定样本 X X X不变下找到 Θ \Theta Θ中的 θ = θ ^ \theta=\hat\theta θ=θ^使得似然函数 L ( θ ) L(\theta) L(θ)最大,并用 θ ^ \hat\theta θ^作为参数 θ \theta θ的估计值。通俗地说:因为联合分布律表示事件发生的概率,我们的目的是要找到某个参数使得事件发生的可能性最大,这就是极大似然估计。因此
θ = arg max L ( θ ) = arg max ∏ i = 1 n p ( x i ; θ ) \theta=\text{arg max}L(\theta)=\text{arg max}\prod_{i=1}^np(x_i;\theta) θ=arg maxL(θ)=arg maxi=1np(xi;θ)上面的式子即是极大似然估计的目的。对于数据集{ ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . ( x n , y n ) (x_1,y_1),(x_2,y_2),...(x_n,y_n) (x1,y1),(x2,y2),...(xn,yn)},则目的为:
θ = arg ⁡ max ⁡ p ( y 1 , y 2 , . . . y n ∣ x 1 , x 2 , . . . x n ; θ ) \theta=\arg \max p(y_1,y_2,...y_n|x_1,x_2,...x_n;\theta) θ=argmaxp(y1,y2,...ynx1,x2,...xn;θ)表示给定数据集 X X X,找到参数 θ \theta θ使得 Y Y Y出现的概率最大。值得注意的是,这里的 Y Y Y是数据集里的label,所以也可以说是:令样本属于其真实标记的概率越大越好。(《机器学习》p59中间)。如此得到的参数即是使得训练误差最小时对应的参数。
需要注意到的是 ( x 1 , y 1 ) , ( x 2 , y 2 ) . . . (x_1,y_1),(x_2,y_2)... (x1,y1),(x2,y2)...独立同分布(i.i.d),即表示数据集服从同一个未知潜在的分布 χ \chi χ,且各个feature之间是独立的。此时有:
p ( y 1 , y 2 . . . y n ∣ x 1 , x 2 , . . . x n ; θ ) = p ( y 1 , y 2 , . . . y n , x 1 , x 2 , . . . x n ; θ ) p ( x 1 , x 2 , . . . x n ; θ ) = p ( y 1 , x 1 ; θ ) p ( y 2 , x 2 ; θ ) . . . p ( y n , x n ; θ ) p ( x 1 ; θ ) p ( x 2 ; θ ) . . . p ( x n ; θ ) p(y_1,y_2...y_n|x_1,x_2,...x_n;\theta)=\frac{p(y_1,y_2,...y_n,x_1,x_2,...x_n;\theta)}{p(x_1,x_2,...x_n;\theta)}=\frac{p(y_1,x_1;\theta)p(y_2,x_2;\theta)...p(y_n,x_n;\theta)}{p(x_1;\theta)p(x_2;\theta)...p(x_n;\theta)} p(y1,y2...ynx1,x2,...xn;θ)=p(x1,x2,...xn;θ)p(y1,y2,...yn,x1,x2,...xn;θ)=p(x1;θ)p(x2;θ)...p(xn;θ)p(y1,x1;θ)p(y2,x2;θ)...p(yn,xn;θ)上式子后边可以进一步简化为:
p ( y 1 , x 1 ; θ ) p ( x 1 ; θ ) p ( y 2 , x 2 ; θ ) p ( x 2 ; θ ) . . . p ( y n , x n ; θ ) p ( x n ; θ ) = p ( y 1 ∣ x 1 ; θ ) . . . p ( y n ∣ x n ; θ ) = ∏ i = 1 n p ( y i ∣ x i ; θ ) \frac{p(y_1,x_1;\theta)}{p(x1;\theta)}\frac{p(y_2,x_2;\theta)}{p(x_2;\theta)}...\frac{p(y_n,x_n;\theta)}{p(x_n;\theta)}=p(y_1|x_1;\theta)...p(y_n|x_n;\theta)=\prod_{i=1}^np(y_i|x_i;\theta) p(x1;θ)p(y1,x1;θ)p(x2;θ)p(y2,x2;θ)...p(xn;θ)p(yn,xn;θ)=p(y1x1;θ)...p(ynxn;θ)=i=1np(yixi;θ)

现在我们开始考虑经验风险最小化问题。
模型是条件概率分布,损失函数是对数损失函数。则empirical risk为:
R e m p = 1 N ∑ i = 1 N ( − log  p ( y i ∣ x i ) ) = − 1 N log ⁡ ( ∏ i = 1 N p ( y i ∣ x i ) ) R_{emp}=\frac{1}{N}\sum_{i=1}^N(-\text{log}~p(y_i|x_i))=-\frac{1}{N}\log (\prod_{i=1}^Np(y_i|x_i)) Remp=N1i=1N(log p(yixi))=N1log(i=1Np(yixi))
所以
min ⁡ R e m p = max ⁡ log ⁡ ( ∏ i = 1 N p ( y i ∣ x i ) ) = max ⁡ ∏ i = 1 N p ( y i ∣ x i ) \min R_{emp}=\max\log(\prod_{i=1}^Np(y_i|x_i))=\max\prod_{i=1}^Np(y_i|x_i) minRemp=maxlog(i=1Np(yixi))=maxi=1Np(yixi)
θ = arg ⁡ max ⁡ ∏ i = 1 N p ( y i ∣ x i ; θ ) \theta=\arg \max \prod_{i=1}^Np(y_i|x_i;\theta) θ=argmaxi=1Np(yixi;θ)
所以两者是等价的。
证毕!

参考文献:
1.《概率论与数理统计》P152 最大似然估计法
2.《高等数学》(物理类川大)第三册p245贝叶斯公式
3. 极大似然估计)

你可能感兴趣的:(统计学习方法)