数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导

文章目录

    • 一 从应用问题引入
      • 1.1 从HMM到CRF
      • 1.2 [如何轻松愉快地理解条件随机场(CRF)?](https://www.jianshu.com/p/55755fc649b1)
    • 二 概率无向图模型
      • 2.1 概率图模型定义
      • 2.2 概率无向图的因子分解
    • 三 条件随机场(CRF)基本问题
      • 3.1 条件随机场定义
      • 3.2 CRF参数化形式
      • 3.3 CRF简化形式
      • 3.4 CRF矩阵形式
    • 四 CRF概率计算问题

   摘要:数学之美致力于普通人群也能看懂,所以选取的例子通俗易懂,这篇文章也从文本分析等实际应用入手,进入概率图模型。然后得到条件随机场(CRF)模型,其主要问题与上一篇隐马尔科夫模型中涉及的 概率计算模型训练预测算法一致。另外,吴军博士关于条件随机场的介绍有一个重要的关键词就是最大熵模型,所以简单区分一下最大熵模型,HMM,CRF的区别。参数训练【就是牛顿,改进迭代等优化算法】和 预测【维特比】在上一节都提到过,不再整理。

一 从应用问题引入

1.1 从HMM到CRF

  条件随机场(CRF)是给定一组输入随机变量的条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。CRF可以用于不同的预测问题,但是在《统计学习方法》只讨论了用于标记问题的随机场。从用于标注问题这个角度来说,条件随机场与第九章HMM关系密切,也可以看作通信模型来理解。如果两个模型用于语音识别,他们都是根据听到的语音进行解码得到真实的信息,也就是得到 P ( I ∣ O ) P(I|O) P(IO)。在此之前我们需要得到模型的参数,如何得到模型的参数就是HMM与CRF用于标注问题最大的区别了。
  HMM是一个生成模型,怎么理解呢,就是要学习观测序列 O O O与状态序列 I I I的联合分布,得到 P ( O , I ) P(O,I) P(O,I),当有一个新状态的时候就会按照这个联合分布生成新的观测。好比,我们知道拟合了高斯分布,如果新的 x x x过来,就会按照这个高斯分布的参数 μ , ∑ \mu,\sum μ,来生成 y y y。这时,如果进行概率计算,即计算某个特定的输出序列的概率,直接根据学习得到的观测序列与状态序列的联合概率分布就可以得到了;如果对得到的语音进行解码得到 P ( I ∣ O ) P(I|O) P(IO)则需要进行概率公式近似计算,或者维特比算法求得最优路径。
  CRF是一个判别模型[注: X X X表示观测序列, Y Y Y表示状态序列],要做的是什么呢,直接学习 P ( Y ∣ X ) P(Y|X) P(YX),就是说不管你是什么分布,我只负责学习给定观测序列下得到某个状态的概率的模型。如果对得到的语音进行解码,根据得到的有参数的 P ( Y ∣ X ) P(Y|X) P(YX)模型进行计算,运用维特比算法求解最优序列,也就是使这个条件概率最大的输出序列 Y Y Y

1.2 如何轻松愉快地理解条件随机场(CRF)?

  假设你有许多小明同学一天内不同时段的照片,从小明提裤子起床到脱裤子睡觉各个时间段都有(小明是照片控!)。现在的任务是对这些照片进行分类。比如有的照片是吃饭,那就给它打上吃饭的标签;有的照片是跑步时拍的,那就打上跑步的标签;有的照片是开会时拍的,那就打上开会的标签。问题来了,你准备怎么干?
  一个简单直观的办法就是,不管这些照片之间的时间顺序,想办法训练出一个多元分类器。就是用一些打好标签的照片作为训练数据,训练出一个模型,直接根据照片的特征来分类。例如,如果照片是早上6:00拍的,且画面是黑暗的,那就给它打上睡觉的标签;如果照片上有车,那就给它打上开车的标签。
  这样可行吗?
  乍一看可以!但实际上,由于我们忽略了这些照片之间的时间顺序这一重要信息,我们的分类器会有缺陷的。举个例子,假如有一张小明闭着嘴的照片,怎么分类?显然难以直接判断,需要参考闭嘴之前的照片,如果之前的照片显示小明在吃饭,那这个闭嘴的照片很可能是小明在咀嚼食物准备下咽,可以给它打上吃饭的标签;如果之前的照片显示小明在唱歌,那这个闭嘴的照片很可能是小明唱歌瞬间的抓拍,可以给它打上唱歌的标签。
  所以,为了让我们的分类器能够有更好的表现,在为一张照片分类时,我们必须将与它相邻的照片的标签信息考虑进来。而CRF就是这样一个可以考虑前后照片状态对照片进行分类的模型。那么也许会想到,HMM也是这样一个序列分类器啊,不足在哪呢,HMM是有向马尔可夫链,他的状态只与前一个状态有关,且他的输出(观测)只与相应的状态有关,而CRF 是无向马尔可夫链,前后状态均有关系,并且,输出(观测)可以根据前后几个状态决定,对于连续照片分类更有效,功能比HMM更强大

二 概率无向图模型

  那么介绍CRF之前,需要一些概率无向图的基本知识,补充之。
  概率无向图==马尔可夫随机场,是一个可以由无向图表示的联合概率分布

2.1 概率图模型定义

  首先图的定义不多说,就是 G = ( V , E ) G=(V,E) G=(V,E) V V V表示节点, E E E表示边,无向图就是没有方向的图。数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第1张图片数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第2张图片数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第3张图片

2.2 概率无向图的因子分解

  团与最大团:G中任何两个节点均有连接的节点子集就是团;若C是G的一个团,并且加进任何一个节点都会导致C不是一个团,也就是不会称为一个更大的团,则C就是最大团。数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第4张图片
最大团与最大连通子图不一样,最大连通子图是把图的所有结点用最少的边将其连接起来的子图,所以极大连通子图不唯一数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第5张图片

三 条件随机场(CRF)基本问题

  条件随机场是计算联合概率分布的有效模型。
  概率图模型==马尔可夫随机场-------->条件随机场
  也就是在给定随机变量X的条件下,计算随机变量Y的马尔科夫随机场。主要学习的是线性链条随机场,用于标注问题,这时计算 P ( Y ∣ X ) P(Y|X) P(YX),X表示输入变量,与观测序列对应,Y表示输出序列,需要标注的序列,也就是状态序列。
  训练(学习)时,利用训练数据集利用极大似然估计或者正则化的极大似然估计得到条件概率模型 P ^ ( Y ∣ X ) \widehat{P}(Y|X) P (YX)
  预测时:对于给定的输入序列 x x x,求出使条件概率 P ^ ( y ∣ x ) \widehat{P}(y|x) P (yx)最大的输出序列 y ^ \widehat{y} y

3.1 条件随机场定义

  数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第6张图片

3.2 CRF参数化形式

数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第7张图片数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第8张图片

3.3 CRF简化形式

数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第9张图片数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第10张图片

3.4 CRF矩阵形式

数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第11张图片数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第12张图片

四 CRF概率计算问题

数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第13张图片数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第14张图片数学之美到统计学习方法第十一章条件随机场 ——从应用到公式推导_第15张图片

你可能感兴趣的:(机器学习,统计学习方法学习总结与实现)