机器学习-概率图模型初探

outline

  • 数学基础
  • HMM
  • CRF
  • 主题模型

数学基础

贝叶斯公式:

联概 = 条概*边概
条件概率 = 联合概率/边缘概率


贝叶斯公式.png

概率图模型(Probabilistic graphical model,PGM)是一类由图来表示变量相关关系的概率模型

在概率模型中,利用已知变量推测未知变量的分布称为"推断"
联概--> 条概

生成式模型直接对联合分布进行建模
判别式模型则对条件分布进行建模

概率图模型.png
从马尔可夫性说起
马尔可夫性.png

隐马尔科夫模型(Hidden Markov Model,HMM)

HMM的结构

HMM是结构最简单的动态贝叶斯网。

如下图所示为HMM的结构,HMM的变量可分为两组:

  • x为观测变量
  • y为状态变量(隐变量-hidden variable),y的取值范围通常是有N个可能取值的离散空间


    HMM-graph.png

如上图所示,在任意时刻,x的取值仅依赖于y(x<--y,x由y确定);
下一刻的状态仅由当前状态决定,不依赖于以往的任何状态,由y(t-1)确定y(t),与其它状态无关
基于这种依赖关系的联合概率分布如下:


HMM-公式.png
确定一个HMM的三组参数
  • 状态转移概率:
    y(t) --> y(t+1)的转移矩阵-- A
  • 输出观测概率:
    y-->x 的矩阵 -- B
  • 初始状态概率:
    表示模型的初始状态为s的概率 -- π


    微信图片_20190225234849.png

当确定这三组参数,可按如下过程产生观测变量x:


image.png
HMM模型有三个基本问题:
  • 概率计算问题
  • 预测问题(解码问题)
    求解最可能的隐状态序列
  • 学习问题


    image.png
image.png
概率计算问题
  • 前向算法:


    微信图片_20190225234852.png
  • 后向算法

条件随机场(Conditional Random Field,CRF)

CRF是一种判别式无向图模型
CRF的目标是构建条件概率模型P(y|x)


image.png

在现实应用中,最常用的是如下图的链式结构,“链式条件随机场”


image.png

与HMM相同,CRF也有类似的三个基本问题

主题模型(topic model)概述

topic model是一族生成式有向图模型。
主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。
主题就是一个概念、一个方面。它表现为一系列相关的词语。主题就是词汇表上词语的条件概率分布 。与主题关系越密切的词语,它的条件概率越大,反之则越小。

image.png

主题模型训练推理的方法:

  • pLSA(Probabilistic Latent Semantic Analysis)
    主要使用的是EM(期望最大化)算法
  • LDA(Latent Dirichlet Allocation)
    采用的是Gibbs sampling方法。

主题模型的优点:

  • 它可以衡量文档之间的语义相似性。对于一篇文档,我们求出来的主题分布可以看作是对它的一个抽象表示。对于概率分布,我们可以通过一些距离公式(比如KL距离)来计算出两篇文档的语义距离,从而得到它们之间的相似度。
  • 它可以解决多义词的问题。回想最开始的例子,“苹果”可能是水果,也可能指苹果公司。通过我们求出来的“词语-主题”概率分布,我们就可以知道“苹果”都属于哪些主题,就可以通过主题的匹配来计算它与其他文字之间的相似度。
  • 它可以排除文档中噪音的影响。一般来说,文档中的噪音往往处于次要主题中,我们可以把它们忽略掉,只保持文档中最主要的主题。
  • 它是无监督的,完全自动化的。我们只需要提供训练文档,它就可以自动训练出各种概率,无需任何人工标注过程。
  • 它是跟语言无关的。任何语言只要能够对它进行分词,就可以进行训练,得到它的主题分布。

<机器学习>第14章概率图模型-周志华
隐马尔科夫模型HMM的前向算法和后向算法

你可能感兴趣的:(机器学习-概率图模型初探)