概率图模型的一些总结

概率图模型是统计机器学习中比较重要的内容。在自然语言处理、时间序列分析、交通流量建模等领域有着比较广泛的应用。

概率图模型不像LR、SVM、GBDT等机器学习算法比较简单和直观,理解起来往往比较抽象和困难:

  • 首先,从建模型上讲,概率图模型把训练数据抽象为相关的随机变量及其互相之间的依赖关系。LR、SVM等分类器更多的是把原始数据映射到一个高维的欧几里德空间。显然,从建模上讲,概率图模型没有明显的几何解释。不同变量之间的依赖关系,需要比较多的领域知识,相当于给模型加一个比较强的先验,即不同的变量的分部符合一个常见的合理的概率分部,不同的随机变量之间的的依赖关系或者讲叫相关性,也是模型预先设定好的。
  • 其次,从算法上讲,概率图模型的学习算法一般都是一些迭代算法,不像linear regression这种模型有公式解,也不像SVM这样通过一些二次优化算法比较形式化的推到。例如比较入门级的EM算法,参数序列\Theta 和\Theta ^{i}\Theta ^{^{i}}就比较容易混淆。前者是一个变量,后者是一个序列,\Theta ^{^{i}}用来逼近\Theta 和\Theta ^{i}。在E步骤中,联合分布P(Z,X;\Theta 和\Theta ^{i})的似然函数是用\Theta 和\Theta ^{i}来推断的,然而隐变量的条件分布P(Z|Y,\Theta ^{^{i}})却是用\Theta ^{^{i}}来推断的。

由于很多模型中的隐变量过多,有很模型难以精确求解,这就涉及到一些近似求解算法。

  • 比如吉布斯采样,需要构造一个马氏链,通过条件转移矩阵不断迭代,来获取一个联合分布/边缘分布的采样。马氏链的收敛性证明也比较复杂,需要一些矩阵普分解的知识,不过证明的结果比较容易理解。涉及到具体应用时,如何构造马氏链,则是具体问题具体分析了,比如条件分布从样本中如何估计才比较合理
  • 另一个常用的方法是变分贝叶斯推断。变分法初看起来比较抽象,其实如果作为一个数据工具来使用并不是太复杂。主要是很多ML教课书中没有对变分法没有太多说明。如果只是看周老师的西瓜书想看懂是比较难。这点在bishop的PRML里面有比较详细的说明,ian goodefellow的DLBook里面也有些介绍。所谓的变分贝叶斯的核心思想是为目标分布P求得一个近似Q,Q使得相对熵H(Q||P)最小化。而Q是如何求出的呢,就是通过变分法求出的。最小化H(Q||P)用到了拉格朗日乘数法和积分求导。变分法主要是用在积分求导上。
  • 最后需要说明的是,只有变分贝叶斯推断,还是无法求解带隐变量的模型。即使比较简单的模型,例如贝叶斯LinearRegression,也需要用变分贝叶斯+EM算法一起求解。变分贝叶斯主要是用于EM中E步,用来近似隐变量的似然函数。

你可能感兴趣的:(算法)