机器学习笔记06---极大似然估计

    估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。具体地,记关于类别c的类条件概率为P(x|c),假设P(x|c)具有确定形式并且被参数向量θc唯一确定,则我们的任务就是利用训练集D估计参数θc。为了明确起见,我们将P(x|c)记为P(x|θc)。

    事实上,概率模型的训练过程就是参数估计(parameter estimation)过程。对于参数估计,统计学界的两个学派分别提供了不同的解决方案:频率主义学派认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值;贝叶斯学派则认为参数是未观察到的随机变量,其本身也可有分布,因此,可假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。本文介绍源自频率主义学派的极大似然估计,是根据数据采样来估计概率分布参数的经典方法。(亦称极大似然法)

    令Dc表示训练集D种第c类样本组成的的集合,假设这些样本是独立同分布的,则参数θc对于数据集Dc的似然是:

 对θc进行极大似然估计,就是去寻找能最大化似然P(Dc|θc)的参数值θ'c。直观上看,极大似然估计是试图在θc所有可能的取值中,找到一个能使数据出现的“可能性”最大的值。

    不过上式的连乘操作容易造成下溢,通常使用对数似然(log-likelihood):

 此时参数θc的极大似然估计θ'c为:

    例如,在连续属性情形下,假设概率密度函数p(x|c)~N(μ,σ²),则参数μ和σ²的极大似然估计为:

 也就是说,通过极大似然法得到的正态分布均值就是样本均值,方差就是(x-μ')(x-μ')T的均值,这显然是一个符合直觉的结果。在离散属性情形下,也可通过类似的方式估计类条件概率。

    值得注意的是,这种参数化的方法虽然可以使条件概率估计变得相对简单,但是估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中,欲做出能较好地接近潜在真实分布的假设,往往需在一定程度上利用关于应用任务本身的经验知识,否则若仅凭“猜测”来假设概率分布形式,很可能产生误导性结果。

参考周志华《机器学习》

你可能感兴趣的:(Machine,Learning,机器学习,人工智能,算法)