从分类问题出发,朴素贝叶斯-隐马尔科夫模型-最大熵马尔科夫模型-条件随机场

在统计学习中,有两种模型:概率模型和非概率模型;
软分类:使用的是概率模型,输出不同类对应的概率,最后的分类结果取概率最大的类,如多SVM组合分类;有逻辑回归,朴素贝叶斯-隐马尔科夫模型-最大熵马尔科夫模型-条件随机场等
硬分类:使用的是非概率模型,形式为决策函数,即输入x到输出y的一个映射,且输出唯一,分类结果就是决策函数的决策结果;SVM,LDA,PLA等
对于分类问题,若是将概率引入,变为概率图模型,包括逻辑回归,朴素贝叶斯-隐马尔科夫模型-最大熵马尔科夫模型-条件随机场,今天就说说概率图模型,若有错误,请大佬们指正。

逻辑回归(logistic regression)是一个判别模型,对后验概率P(Y|X)建模。

贝叶斯网络是一个有向概率图模型,又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model);朴素贝叶斯是一个生成模型,对联合概率密度P(X,Y)建模(然后再求P(Y|X)=P(X,Y) / P(X)) = P(X|Y) * P(Y) / P(X),朴素假设指的是在给定类别Y的情况下,输入之间X(x1,x2,x3,)之间是相互独立,朴素贝叶斯分类器的条件独立性假设太强(比如在标注问题当中,一个句子当中每个字之间是有关系的,不会独立),但是在实际应用中,朴素贝叶斯分类器在很多任务上也能得到很好的结果,并且模型简单,可以有效防止过拟合。
从分类问题出发,朴素贝叶斯-隐马尔科夫模型-最大熵马尔科夫模型-条件随机场_第1张图片
若是将输入输出变为一个序列形式,则可以变为隐马尔科夫模型,此时隐状态是离散的,若隐状态是线性连续的,则是kalman filter 模型,若隐状态是非线性连续,则是partical filter模型。从分类问题出发,朴素贝叶斯-隐马尔科夫模型-最大熵马尔科夫模型-条件随机场_第2张图片
HMM有两个基本假设,三个基本问题,五个基本参数。
两个假设:
1延续朴素假设,有观测独立假设,输出序列之间相互独立,只和当前隐状态有关
2齐次一阶马尔科夫假设,齐次代表隐状态之间服从相同的分布,一阶代表只和上一时刻的隐状态有关(和语言模型的bi-gram一样)
五个基本参数
1隐状态qt,隐状态序列和隐状态的变量集合不一样,一个句子和一个汉语词典的关系
2观察值ot,观察序列和观测的集合不一样,同上
3pi,初始的状态转移矩阵q0到q1,pi = p(i1 = q1)
4A,状态转移矩阵A= 【a(ij)】,a(ij) = p(i(t+1)= q(j) | i(t)= q(i))
5 B,发射矩阵B= 【bj(k)】,bj(k)= p(v(t)= o(k)| i(t)= q(j))
三个问题:
1evaluation问题,即概率计算问题,给定模型参数pi,A, B,求序列O的概率P(O)是多少,可以通过前向递归算法/后向递归算法求解
2learning问题,求解模型的基本参数pi,A, B,通过baum welch算法求解
3decoding问题,又称预测/解码问题,序列标注问题,求解给定参数和观测序列,求解最大的隐状态序列,例如NER,给定一句话,求解其每个词的实体是什么。通过viterbi算法。
将HMM扩展到state space model中,inference中不止有decoding问题
inference(求解后验概率)
1decoding:求argmax p(i | v),i是隐状态,v是观测值,viterbi 算法
2prob of evidence:即为概率计算问题,前向/后向算法
3filtering:p(qt | o1,o2,o3…ot),前向算法
4smoothing:p(qt | o1,o2,o3…ot…oT),T为一个句子的长度,前向-后向算法
5prediction:p(qt +1 | o1,o2,o3…ot),由filtering可以求出

最大熵马尔科夫模型(MEMM)
由于HMM的两个假设过于理想,就出现了最大熵马尔科夫模型(MEMM),它打破观测独立假设(在序列标注问题时,生成模型对联合概率建模有点多余,判别模型对条件概率建模更简单),MEMM属于判别式模型从分类问题出发,朴素贝叶斯-隐马尔科夫模型-最大熵马尔科夫模型-条件随机场_第3张图片
建模公式为
在这里插入图片描述
用最大熵得到下列公式

在这里插入图片描述
MEMM当前隐藏状态 it应该是依赖当前时刻的观测节点 ot和上一时刻的隐藏节点 it-1(给定it的情况下,it-1与ot是相互独立的)。由于MEMM的局部归一化,出现了label bias problem。同样有三个基本问题,概率计算问题,模型参数计算问题,解码问题(序列标注问题)

由于局部归一化的问题,就出现了条件随机场,其无向图天然就有全局归一化的特性,解决了label bias problem,也打破了HMM的齐次一阶马尔科夫假设。

条件随机场(CRF):通常是指chain structure CRF,是一个判别模型。
条件:其是一个判别模型
随机场:其是一个马尔科夫网络

概率图模型:
从分类问题出发,朴素贝叶斯-隐马尔科夫模型-最大熵马尔科夫模型-条件随机场_第4张图片
建模公式为:
在这里插入图片描述

特征函数,最大团等具体这里就不详细说明。同样有三个基本问题,概率计算问题,模型参数计算问题,解码问题(序列标注问题)。

总结:
HMM 到 MEMM: HMM模型中存在两个假设:一观察严格独立,二当前状态只与前一状态有关。但实际上例如序列标注问题应考虑观察序列的长度,上下文等等。MEMM解决了HMM观测独立性假设。因为HMM只限定在了观测与状态之间的依赖,而MEMM引入自定义特征函数,不仅可以表达观测之间的依赖,还可表示当前观测与前后多个状态之间的复杂依赖。
MEMM 到 CRF:CRF在MEMM基础上解决了MEMM的标注偏置问题,MEMM容易陷入局部最优是因为只在局部做归一化,而CRF由于无向性,统计了全局概率,在做归一化时考虑了数据在全局的分布,使得序列标注的解码变得最优解。
这三个模型主要应用在序列标注问题上。

https://zhuanlan.zhihu.com/p/33397147

你可能感兴趣的:(概率图模型,序列标注问题)