先说极大似然估计(多参数可以参考极大似然估计)。设X1,X2,…Xn是来自 X X X的样本,则X1,X2,…Xn的联合分布律为:
∏ i = 1 n p ( x i ; θ ) \prod_{i=1}^n p(x_i;\theta) i=1∏np(xi;θ)
其中 x 1 , . . . x i x_1,...x_i x1,...xi为X1,…Xn中的取值,即实例(instance), θ \theta θ是参数(如高斯分布中的均值和方差). 则事件{ X 1 = x 1 , . . . X n = x n X_1=x_1,...X_n=x_n X1=x1,...Xn=xn}发生的概率为:
L ( θ ) = L ( x 1 , x 2 , . . . x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) ; θ ∈ Θ L(\theta)=L(x_1,x_2,...x_n;\theta)=\prod_{i=1}^np(x_i;\theta); \theta\in\Theta L(θ)=L(x1,x2,...xn;θ)=i=1∏np(xi;θ);θ∈Θ
这里 Θ \Theta Θ是 θ \theta θ的参数空间,即 θ \theta θ所有可能的取值都在这里面。而极大似然估计的目的即是要固定样本 X X X不变下找到 Θ \Theta Θ中的 θ = θ ^ \theta=\hat\theta θ=θ^使得似然函数 L ( θ ) L(\theta) L(θ)最大,并用 θ ^ \hat\theta θ^作为参数 θ \theta θ的估计值。通俗地说:因为联合分布律表示事件发生的概率,我们的目的是要找到某个参数使得事件发生的可能性最大,这就是极大似然估计。因此
θ = arg max L ( θ ) = arg max ∏ i = 1 n p ( x i ; θ ) \theta=\text{arg max}L(\theta)=\text{arg max}\prod_{i=1}^np(x_i;\theta) θ=arg maxL(θ)=arg maxi=1∏np(xi;θ)上面的式子即是极大似然估计的目的。对于数据集{ ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . ( x n , y n ) (x_1,y_1),(x_2,y_2),...(x_n,y_n) (x1,y1),(x2,y2),...(xn,yn)},则目的为:
θ = arg max p ( y 1 , y 2 , . . . y n ∣ x 1 , x 2 , . . . x n ; θ ) \theta=\arg \max p(y_1,y_2,...y_n|x_1,x_2,...x_n;\theta) θ=argmaxp(y1,y2,...yn∣x1,x2,...xn;θ)表示给定数据集 X X X,找到参数 θ \theta θ使得 Y Y Y出现的概率最大。值得注意的是,这里的 Y Y Y是数据集里的label,所以也可以说是:令样本属于其真实标记的概率越大越好。(《机器学习》p59中间)。如此得到的参数即是使得训练误差最小时对应的参数。
需要注意到的是 ( x 1 , y 1 ) , ( x 2 , y 2 ) . . . (x_1,y_1),(x_2,y_2)... (x1,y1),(x2,y2)...是独立同分布(i.i.d),即表示数据集服从同一个未知潜在的分布 χ \chi χ,且各个feature之间是独立的。此时有:
p ( y 1 , y 2 . . . y n ∣ x 1 , x 2 , . . . x n ; θ ) = p ( y 1 , y 2 , . . . y n , x 1 , x 2 , . . . x n ; θ ) p ( x 1 , x 2 , . . . x n ; θ ) = p ( y 1 , x 1 ; θ ) p ( y 2 , x 2 ; θ ) . . . p ( y n , x n ; θ ) p ( x 1 ; θ ) p ( x 2 ; θ ) . . . p ( x n ; θ ) p(y_1,y_2...y_n|x_1,x_2,...x_n;\theta)=\frac{p(y_1,y_2,...y_n,x_1,x_2,...x_n;\theta)}{p(x_1,x_2,...x_n;\theta)}=\frac{p(y_1,x_1;\theta)p(y_2,x_2;\theta)...p(y_n,x_n;\theta)}{p(x_1;\theta)p(x_2;\theta)...p(x_n;\theta)} p(y1,y2...yn∣x1,x2,...xn;θ)=p(x1,x2,...xn;θ)p(y1,y2,...yn,x1,x2,...xn;θ)=p(x1;θ)p(x2;θ)...p(xn;θ)p(y1,x1;θ)p(y2,x2;θ)...p(yn,xn;θ)上式子后边可以进一步简化为:
p ( y 1 , x 1 ; θ ) p ( x 1 ; θ ) p ( y 2 , x 2 ; θ ) p ( x 2 ; θ ) . . . p ( y n , x n ; θ ) p ( x n ; θ ) = p ( y 1 ∣ x 1 ; θ ) . . . p ( y n ∣ x n ; θ ) = ∏ i = 1 n p ( y i ∣ x i ; θ ) \frac{p(y_1,x_1;\theta)}{p(x1;\theta)}\frac{p(y_2,x_2;\theta)}{p(x_2;\theta)}...\frac{p(y_n,x_n;\theta)}{p(x_n;\theta)}=p(y_1|x_1;\theta)...p(y_n|x_n;\theta)=\prod_{i=1}^np(y_i|x_i;\theta) p(x1;θ)p(y1,x1;θ)p(x2;θ)p(y2,x2;θ)...p(xn;θ)p(yn,xn;θ)=p(y1∣x1;θ)...p(yn∣xn;θ)=i=1∏np(yi∣xi;θ)
现在我们开始考虑经验风险最小化问题。
模型是条件概率分布,损失函数是对数损失函数。则empirical risk为:
R e m p = 1 N ∑ i = 1 N ( − log p ( y i ∣ x i ) ) = − 1 N log ( ∏ i = 1 N p ( y i ∣ x i ) ) R_{emp}=\frac{1}{N}\sum_{i=1}^N(-\text{log}~p(y_i|x_i))=-\frac{1}{N}\log (\prod_{i=1}^Np(y_i|x_i)) Remp=N1i=1∑N(−log p(yi∣xi))=−N1log(i=1∏Np(yi∣xi))
所以
min R e m p = max log ( ∏ i = 1 N p ( y i ∣ x i ) ) = max ∏ i = 1 N p ( y i ∣ x i ) \min R_{emp}=\max\log(\prod_{i=1}^Np(y_i|x_i))=\max\prod_{i=1}^Np(y_i|x_i) minRemp=maxlog(i=1∏Np(yi∣xi))=maxi=1∏Np(yi∣xi)即
θ = arg max ∏ i = 1 N p ( y i ∣ x i ; θ ) \theta=\arg \max \prod_{i=1}^Np(y_i|x_i;\theta) θ=argmaxi=1∏Np(yi∣xi;θ)
所以两者是等价的。
证毕!
参考文献:
1.《概率论与数理统计》P152 最大似然估计法
2.《高等数学》(物理类川大)第三册p245贝叶斯公式
3. 极大似然估计)