Maximum Likelihood Estimation极大似然估计

Welcome To My Blog

贝叶斯公式

现通过分类问题解释贝叶斯公式:

1.png

P(c)是类别c的先验(prior)概率
P(x|c)是似然概率(likelihood probability),或者说是样本x相对于类别c的类条件概率(class-conditional probability)
P(x)是用于归一化的证据(evidence)因子,通过全概率公式将P(x)展开,即上式第二个等号右边分母,
固定x观察c,可以看出,对于任意一个P(c|x),分母都是一样的,所以通过似然概率和先验概率便能估计P(c|x)

伯努利大数定理

下面的说明会用到这个定理

2.png

先验与似然的进一步说明

  1. 类别c的先验概率P(c)表达了样本空间中各类样本所占的比例,根据伯努利大数定理,当训练集包含充足的独立同分布样本时,P(c)可通过各类样本出现的频率来近似
  2. 对于类条件概率P(x|c),x可以是个n维列向量,也就是说样本x中有很多特征(或说属性),所以P(x|c)=P(x1,x2,...,xn|c)涉及关于x的所有特征(属性)的联合概率,假设第i个特征xi有wi种取值,那么对于任意一个类别c而言,共有∏wi种可能,在现实应用中∏wi往往远远大于样本总数,这就是说,很多可能的情况并没有被采样到,其出现频率为0,会被估计成0,显然是不合理的,因为"被采样(观测)"到和"出现概率为0"通常是不同的.
  3. 在朴素贝叶斯法(NaiveBayes)那篇文章中也提过类似的问题,联合概率导致参数数量太过庞大,这就是为什么朴素贝叶斯法要假设条件独立,假设条件独立后条件联合概率就可写成各个条件概率的乘积.
    针对某个样本条件,对其属于各个类别的概率值进行估计,这样就大大简化了估计过程.当然也难免会有某个值频率为零的情况,这种情况下可使用拉普拉斯平滑(Laplace smoothing)解决.具体见之前文章Naive Bayes朴素贝叶斯法中的"为什么需要假设条件独立"及"贝叶斯估计"两小节
  4. 朴素贝叶斯法通过假设条件独立减少条件联合概率参数(取值个数)过多的问题,极大似然估计采取其他办法,常用的一种策略是先假定样本x服从某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计,这种方法就不再是用频率估计概率了,而是直接优化之前假设的概率分布的参数

极大似然估计

极大似然估计(Maximum Likelihood Estimation)是频率派提出的.


3.png

4.png

下溢(underflow)

似然概率容易出现下溢的情况,什么是下溢?
连续数学在数字计算机上的根本困难是,我们需要通过有限数量的位模式来表示无限多的实数.这意味着我们在计算机中表示实数时,几乎总会引入一些近似误差.在许多情况下,这仅仅是舍入误差.舍入误差会导致一些问题,特别是当许多
操作复合时,即使是理论上可行的算法,如果在设计时没有考虑最小化舍入误差的累积,在实践时也可能会导致算法失效.
一种极具毁灭性的舍入误差是下溢(underflow).当接近零的数被四舍五入为零时发生下溢.许多函数在其参数为零而不是一个很小的正数时才会表现出质的不同.例如,我们通常要避免被零除(一些软件环境将在这种情况下抛出异常,有些会返回一个非数字(not-a-number, NaN)的占位符)或避免取零的对数(这通常被视为-∞,进一步的算术运算会使其变成非数字)
另一个极具破坏力的数值错误形式是上溢(overflow).当大量级的数被近似为+∞或-∞时发生上溢.进一步的运算通常会导致这些无限值变为非数字.
必须对上溢和下溢进行数值稳定的一个例子是softmax函数

对数似然解决下溢

因为似然概率中有连乘的形式,每个因式都小于1,过多的连乘会导致数值大小,进而被当成0发生下溢.
解决办法是利用对数似然,由连乘变为相加

5.png

6.png

以高斯分布为例

7.png

可以发现,通过极大似然法得到的正态分布的均值就是无偏估计的样本均值,方差是有偏估计的样本方差
关于无偏估计,可参考之前的文章:Unbiased Estimation 无偏估计

假设分布带来的问题

需要注意的是,估计类条件概率时,虽然假设某种确定的概率分布形式能使类条件概率的估计变得简单,但是估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布.
在现实应用中,欲做出能较好地接近潜在真实分布的假设,往往需在一定程度上利用关于应用任务本身的经验知识,否则仅凭猜测来假设概率分布形式,很可能产生误导性的结果

总结

  1. 联合概率导致参数指数级增长,假设独立后参数空间减小很多
  2. 朴素贝叶斯假设条件独立;极大似然法假设x的分布,模型的好坏很大程度上取决于假设的分布的好坏
    参考:
    周志华,机器学习
    Ian Goodfellow,深度学习

你可能感兴趣的:(Maximum Likelihood Estimation极大似然估计)