1)模型:贝叶斯估计与最大似然估计最后寻找都是条件概率分布
2)策略:最大似然估计是经验风险最小化,贝叶斯估计是结构风险最小化
3)算法:最大似然估计是显式的解析解,贝叶斯估计是用数值计算的方法求解
伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
伯努利分布也叫01分布,其概率分布函数为 P(x)=px(1−p)1−x,其中0<p<1,x∈{0,1}
P ( x ) = p x ( 1 − p ) 1 − x , 其 中 0 < p < 1 , x ∈ { 0 , 1 } P(x) = p^{x}(1-p)^{1-x},其中 0
n次独立伯努利实验的样本集 D = { x 1 , x 2 , . . . , x n } D=\{x_{1},x_{2},...,x_{n}\} D={x1,x2,...,xn},对数似然函数为
L = P ( D ∣ p ) = ln [ ∏ i = 1 n p x i ( 1 − p ) 1 − x i ] = ∑ i = 1 n ln [ p x i ( 1 − p ) 1 − x i ] = ∑ i = 1 n [ x i ln p + ( 1 − x i ) ln ( 1 − p ) ] L=P(D|p)=\ln[\prod_{i=1}^np^{x_{i}}(1-p)^{1-x_{i}}]=\sum_{i=1}^{n}\ln[p^{x_{i}}(1-p)^{1-x_{i}}]=\sum_{i=1}^{n}[x_{i}\ln p+(1-x_{i})\ln(1-p)] L=P(D∣p)=ln[i=1∏npxi(1−p)1−xi]=i=1∑nln[pxi(1−p)1−xi]=i=1∑n[xilnp+(1−xi)ln(1−p)]
然后对参数p的极大似然估计就是求上式的最大值:
p ^ = arg max P ( D ∣ p ) p = arg max p ∑ i = 1 n [ x i ln p + ( 1 − x i ) ln ( 1 − p ) ] \widehat{p} = \underset{p}{{\arg\max} \, P(D|p)} = \underset{p}{{\arg\max} } \sum_{i=1}^{n}[x_{i}\ln p+(1-x_{i})\ln(1-p)] p =pargmaxP(D∣p)=pargmaxi=1∑n[xilnp+(1−xi)ln(1−p)]
最大似然估计即求似然函数的极值点,对p求偏导并令其等于0得
∂ L ∂ p = ∑ i = 1 n ( x i p − 1 − x i 1 − p ) = 0 \frac{ \partial L }{ \partial p } = \sum_{i=1}^{n}(\frac{x_{i} }{ p }-\frac{1-x_{i}}{1-p})=0 ∂p∂L=i=1∑n(pxi−1−p1−xi)=0
解得
p ^ = 1 n ∑ i = 1 n x i \widehat{p}=\frac{1}{n}\sum_{i=1}^{n}x_{i} p =n1i=1∑nxi
由于n次独立实验中有k次结果为1,因此 p ^ = k n \widehat{p}=\frac{k}{n} p =nk
采用极大似然估计结果为1的概率为
P ( x = 1 ) = p x ( 1 − p ) 1 − x = p = k n P(x=1) = p^{x}(1-p)^{1-x}=p =\frac{k}{n} P(x=1)=px(1−p)1−x=p=nk
由题得样本集为 D = { x 1 , x 2 , . . . , x n } D=\{x_{1},x_{2},...,x_{n}\} D={x1,x2,...,xn}
对参数p的贝叶斯公式为
P ( p ∣ D ) = P ( D ∣ p ) P ( p ) P ( D ) P(p|D)=\frac{P(D|p)P(p)}{P(D)} P(p∣D)=P(D)P(D∣p)P(p)
其中 P ( p ) P(p) P(p)是先验概率,P(D|p)是似然函数,P(p|D)是后验概率。贝叶斯估计是在已知观察结果D的条件下,使p出现概率最大的值,即使得P(p|D)最大。
由于P(D)与参数p无关,因此要使P(p|D)最大,即要使得分子最大。所以
p ^ = arg max P ( p ∣ D ) p = arg max p P ( p ) P ( D ∣ p ) \widehat{p} = \underset{p}{{\arg\max} \, P(p|D)}=\underset{p}{{\arg\max} \, }P(p)P(D|p) p =pargmaxP(p∣D)=pargmaxP(p)P(D∣p)
把p视为随机变量,假设其符合β分布(贝塔分布是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称β分布,是指一组定义在(0,1) 区间的连续概率分布。),则有
P ( p ) = β ( p ; a , b ) = p a − 1 ( 1 − p ) b − 1 C , C 为 常 数 , a , b 需 选 定 P(p) =β(p;a,b)=\frac{p^{a-1}(1-p)^{b-1}}{C}, C为常数,a ,b需选定 P(p)=β(p;a,b)=Cpa−1(1−p)b−1,C为常数,a,b需选定
n次伯努利实验即为二项分布,由题得n次实验为1的次数为k,似然函数为
P ( D ∣ p ) = ∏ i = 1 n P ( x i ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = p k ( 1 − p ) n − k P(D|p)=\prod_{i=1}^nP(x_{i})=\prod_{i=1}^np^{x_{i}}(1-p)^{1-x_{i}}=p^{k}(1-p)^{n-k} P(D∣p)=i=1∏nP(xi)=i=1∏npxi(1−p)1−xi=pk(1−p)n−k
因此
p ^ = arg max p P ( D ∣ p ) P ( p ) = arg max p ∏ i = 1 n P ( x i ) P ( p ) = arg max p p k ( 1 − p ) n − k p a − 1 ( 1 − p ) b − 1 C \widehat{p} = \underset{p}{{\arg\max} \, }P(D|p)P(p)=\underset{p}{{\arg\max} \, }\prod_{i=1}^nP(x_{i})P(p)=\underset{p}{{\arg\max} \, }p^{k}(1-p)^{n-k}\frac{p^{a-1}(1-p)^{b-1}}{C} p =pargmaxP(D∣p)P(p)=pargmaxi=1∏nP(xi)P(p)=pargmaxpk(1−p)n−kCpa−1(1−p)b−1
ln P ( D ∣ p ) P ( p ) = ln [ p k ( 1 − p ) n − k p a − 1 ( 1 − p ) b − 1 C ] = ( k + a − 1 ) ln p + ( n − k + b − 1 ) ln ( 1 − p ) − ln C \ln P(D|p)P(p)=\ln[ p^{k}(1-p)^{n-k}\frac{p^{a-1}(1-p)^{b-1}}{C}]=(k+a-1)\ln p+(n-k+b-1)\ln(1-p)-\ln C lnP(D∣p)P(p)=ln[pk(1−p)n−kCpa−1(1−p)b−1]=(k+a−1)lnp+(n−k+b−1)ln(1−p)−lnC
为求上式极值点,令其对参数p的偏导数为0有
∂ ln P ( D ∣ p ) P ( p ) ∂ p = k + a − 1 p − n − k + b − 1 1 − p = 0 \frac{\partial \ln P(D|p)P(p)}{\partial p} = \frac{k+a-1}{p}-\frac{n-k+b-1}{1-p}=0 ∂p∂lnP(D∣p)P(p)=pk+a−1−1−pn−k+b−1=0
求得
p = k + a − 1 n + a + b − 2 p=\frac{k+a-1}{n+a+b-2} p=n+a+b−2k+a−1
在假设空间F中,经验风险最小化可以用下式表示
R E R M = arg min f ∈ F 1 N ∑ i = 1 n L ( y i , f ( x i ) ) R_{ERM}= \underset{f \in F}{{\arg\min} \, }\frac{1}{N}\sum_{i=1}^{n} L(y_{i},f(x_{i})) RERM=f∈FargminN1i=1∑nL(yi,f(xi))
当损失函数为对数,模型是条件概率分布,即
f ( x i ) = P ( y i ∣ x i ) , L ( y i , f ( x i ) ) = − log P ( y i ∣ x i ) f(x_{i})=P(y_{i}|x_{i}),L(y_{i},f(x_{i}))=-\log P(y_{i}|x_{i}) f(xi)=P(yi∣xi),L(yi,f(xi))=−logP(yi∣xi)
带入经验风险得
R E R M = arg min f ∈ F 1 N ∑ i = 1 n − log P ( y i ∣ x i ) = arg max f ∈ F 1 N ∑ i = 1 n log P ( y i ∣ x i ) ( 1 ) R_{ERM}= \underset{f \in F}{{\arg\min} \, }\frac{1}{N}\sum_{i=1}^{n} -\log P(y_{i}|x_{i})=\underset{f \in F}{{\arg\max} \, }\frac{1}{N}\sum_{i=1}^{n} \log P(y_{i}|x_{i})(1) RERM=f∈FargminN1i=1∑n−logP(yi∣xi)=f∈FargmaxN1i=1∑nlogP(yi∣xi)(1)
由于模型是条件概率分布,则似然函数如下
P ( Y ∣ X ) = ∏ i = 1 n P ( y i ∣ x i ) P(Y|X) = \prod_{i=1}^nP(y_{i}|x_{i}) P(Y∣X)=i=1∏nP(yi∣xi)
极大似然估计即求思涵函数的最大值,即
f = arg max f ∈ F ∏ i = 1 n P ( y i ∣ x i ) = arg max f ∈ F log ∏ i = 1 n P ( y i ∣ x i ) = arg max f ∈ F ∑ i = 1 n log P ( y i ∣ x i ) ( 2 ) f = \underset{f \in F}{{\arg\max} \, }\prod_{i=1}^nP(y_{i}|x_{i})=\underset{f \in F}{{\arg\max} \, }\log\prod_{i=1}^nP(y_{i}|x_{i})=\underset{f \in F}{{\arg\max} \, }\sum_{i=1}^{n} \log P(y_{i}|x_{i})(2) f=f∈Fargmaxi=1∏nP(yi∣xi)=f∈Fargmaxlogi=1∏nP(yi∣xi)=f∈Fargmaxi=1∑nlogP(yi∣xi)(2)
对比(1)和(2)命题得证