参数方法——类密度模型参数的估计

介绍
第一部分 参数方法——类密度模型参数估计
第二部分 监督学习——分类(基于似然的方法)
第三部分 监督学习——分类(基于判别式的方法)(参数方法——判别式参数估计)
第四部分 监督学习——回归
第五部分 监督学习——关联规则
第六部分 维度规约(特征的提取和组合)
第七部分 半参数方法
第八部分 非监督学习——聚类
第九部分 非参数方法——密度估计
第十部分 非参数方法——决策树实现的判别式
第十一部分 多层感知器——非参数估计器
第十二部分 局部模型
第十三部分 支持向量机与核机器
第十四部分 隐马尔科夫模型
第十五部分 参数的贝叶斯估计
第十六部分 集成学习——组合多学习器
第十七部分 增强学习
第十八部分 机器学习实验
第十九部分 特征工程与数据预处理

本节介绍基于类密度的参数方法。从训练集中估计概率分布。通过训练样本提供的信息进行决策。

假设样本取自服从已知模型的某个分布,如高斯分布。模型定义在少数参数上,通过样本估计这些参数,就知道了整个分布。对参数的估计方式有很多。如贝叶斯估计将参数看作是一个具有某种概率分布的随机变量。

最大似然估计

设独立同分布样本从某个定义在参数上的概率密度组抽取实例。我们希望找到这样的,使X尽可能像使从抽取的。是独立的,所以给定参数,样本X的似然(likelihood):

最大似然估计(MLE)中,希望找到这样的,是X最想是从中抽取的。所以,寻找最大化样本似然的.

计算中尝试用对数似然:

各概率分布的最大似然估计计算,可查阅相关教材。

利用先验信息进行估计

在样本之外,可能存在一些有关参数的可能取值的先验(prior)信息。尤其当样本较小时,应当把这些先验信息利用起来。通过把参数看作一个随机变量,并为它定义先验密度来对的不确定性建模。先验密度告诉我们在得到样本之前的可能取值。我们把它与样本数据告诉我们的(似然密度)结合起来,利用贝叶斯规则,得到的后验密度。后验密度告诉我们,在得到样本之后的可能取值。

,其中。

有了对参数的估计,进而可估计样本x分布的概率密度:

只要知道,就了解了分布的一切。这样使用所有的值,按后验概率加权求得x的分布。然而除非后验有很好的形式,否则该积分很难求得。经常把后验缩减为单个点,不计算积分,常用下面两种方法。

        最大后验估计

如果可以假定后验在其众数周围与一个窄峰,则使用最大后验估计(MAP)可使计算比较容易:

这样取单点计算,不计算积分比较容易。。

如果没有先验信息来偏向的某些值,既先验是扁平的。后验则与似然有相同的形式

,MAP估计等价于MLE。

        贝叶斯估计

其定义参数为后验密度的期望值

取期望的原因是,随机变量的最佳估计是它的均值。在正态分布情况下,众数就是期望值。所说义如果是正态分布,那么。

最大后验估计和贝叶斯估计两种方法,都将后验密度归约到单个点(,)上,损失了信息。

在《贝叶斯估计》一节,不再将后验约束为单个值,而是在所有可能的参数上计算估计分布的加权和(a)。


对评价的估计

X是取自参数给定的总体上的样本,令是的一个估计。评价估计的质量,就看其与的不同,及度量。由于估计依赖于样本是随机变量,所以需要在可能的X上取平均。故考虑估计的均方误差:

估计的偏倚(bias)是:。如果对都有,则d是的无偏估计。

均方误差可以写为:

\begin{align*}  r(d,\theta) &=E[(d-\theta)^2] \\  &= E[(d-E[d]+E[d]-\theta)^2]  \\   &= E[(d-E[d])^2+(E[d]-\theta)^2+2(E[d]-\theta)(d-E[d])] \\ &= E[(d-E[d])^2]+E[(E[d]-\theta)^2]+2E[(E[d]-\theta)(d-E[d])] \\ &= E[(d-E[d])^2]+(E[d]-\theta)^2+2(E[d]-\theta)E[d-E[d]] \\&= E[(d-E[d])^2]+(E[d]-\theta)^2\end{align*}

第一项是方差,度量在平均状态下,不同数据下估计得到的在期望值附近附近的变化程度。后一项是偏倚,反应期望值偏离正确值的程度。


上面介绍了对类密度的模型参数进行估计的常用方法。而在机器学习中,除了对类密度建模来解决问题,直接判别式直接建模也是一种常用的方法。在基于判别式的方法中需要对判别式的参数进行估计,也属于参数方法。具体的内容见《监督学习——分类(基于判别式的方法)》

你可能感兴趣的:(参数方法——类密度模型参数的估计)