02-隐马尔科夫模型(HMM)一

1、HMM定义

1) HMM可用于标注问题,在语音识别、NLP、生物信息、模式识别、等领域被时间证明是有效的算法。
2)HMM是关于时序的概率模型,描述一个隐藏的马尔科夫链生成不可观测的状态随机序列,在由各个状态生成观测随机序列的过程
3)马尔科夫模型随机生成的状态随机序列,称为状态序列;每个状态生成一个观测,由此生产的观测随机序列,称为观测序列。
序列的每一个位置可以看做是一个时刻

2、HMM的贝叶斯网络

02-隐马尔科夫模型(HMM)一_第1张图片

HMM由初始概率分布π,状态转移概率分布A以及观测概率分布B确定。
γ = (A,B,π)

3、HMM参数 γ =(A,B,π)

1)Q是所有可能的状态的集合,该集合的长度为N
2) V是所有可能的观测的集合,该集合长度为M

02-隐马尔科夫模型(HMM)一_第2张图片

I是长度为T的状态序列, O是对应的观测序列

A是状态转移概率矩阵
02-隐马尔科夫模型(HMM)一_第3张图片

02-隐马尔科夫模型(HMM)一_第4张图片

参数总结
HMM由初始概率分布π(向量)、状态转移概率分布A(矩阵)以及观测概率分布B(矩阵)确定。π和A决定状态序列,B决定观测序列。因此HMM可以用三元符号来表示,称为HMM的三要素:

4、HMM示例

假设有是哪个盒子,编号为1,2,3,每个盒子都装有红白两种颜色的小球,数目如下:
盒子号 1 2 3
红球数 5 4 7
白球数 5 6 3
按照下面的方法抽取小球,得到球的颜色的观测序列为:
1、按照π=(0.2,0.4,0.4)(自己拍脑门的,随便给的值)的概率选择一个盒子,从盒子中随机抽取一个球,记录颜色后放回盒子;
2、按照某条件概率选择新的盒子,重复上述过程;
3、最终得到观测序列:“红红白白红”

该示例的各个参数:
状态集合:Q={盒子1,盒子2,盒子3}
观测结合:V={红,白}
观测序列和状态序列的长度T = 5
初始概率分布为π;
状态转移概率分布A;
观测概率分布B。


02-隐马尔科夫模型(HMM)一_第5张图片

中分词是如何利用HMM模型的???
中文分词问题:
是已知:A,B,π以及观测序列,求状态序列
例如:在给定一段文本(观测序列)每一个字代表不同时刻的观测值,
状态集合为:{S,B,E,M}
S:单独成词
B:开始
E:结尾
M:中间
如何求观测序列,将在后面的文章中有说明。

5、HMM的三个基本问题

1)概率计算问题:前向-后向算法——动态规划
评估观察序列概率。即给定模型λ=(A,B,Π)和观测序列O={o1,o2,...oT},计算在模型λ下观测序列O出现的概率P(O|λ)。这个问题的求解需要用到前向后向算法
2)模型参数学习问题。即给定观测序列O={o1,o2,...oT},估计模型λ=(A,B,Π)的参数,使该模型下观测序列的条件概率P(O|λ)最大。这个问题的求解需要用到基于EM算法的鲍姆-韦尔奇算法,
预测问题,也称为解码问题。即给定模型λ=(A,B,Π)和观测序列O={o1,o2,...oT},求给定观测序列条件下,最可能出现的对应的状态序列,这个问题的求解需要用到基于动态规划的维特比算法,

你可能感兴趣的:(02-隐马尔科夫模型(HMM)一)