《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介 ---- 分词算法原理(HMM)

文章大纲

  • 序列标注
  • 概率图模型
  • 隐马尔可夫模型(Hidden Markov Model,HMM)
  • 维特比算法
  • 参考文献


序列标注

作为序列标注算法系列文章的第一篇,我们首先看看什么是序列标注问题?

“数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。

在自然语言处理领域,语句便是序列,对其进行标注是最常见的任务之一,只要涉及对一个序列中的各个元素进行打标签的问题,都可以通过序列标注模型解决。

比如,汉语分词标注【B,M,S,E】

词性标注为,名词,动词 等

命名实体识别标注为【BA,MA,EA,BO,MO,EO,BP,MP,EP,O】


概率图模型

概率图模型,即在概率模型的基础上,用图的形式表达概率分布的模型


隐马尔可夫模型(Hidden Markov Model,HMM)

隐含马尔科夫模型 简称HMM 是将分词作为字在字串中的序列标注任务来实现的。其基本思路是:将词中的字划分为:

B-词首
M-词中
E-词尾
S-单独成词
(实际工程中构词标签会更多)
那么分词结果就可以表示成逐字标注模式。
如 :
中文/分词
中/B 文/E分/B词/E

首先,我

你可能感兴趣的:(自然语言处理实战入门)