HMM中文分词_CodingPark编程公园

文章介绍

新词识别OVV是中文分词一大难点,为此我们从词语级模型切换到字符级模型,将中文分词任务转换为序列标注问题。
作为新手起步,我们尝试了最简单的序列标注模型----隐马尔可夫模型

HMM中文分词流程

  1. 映射

    1. 标注集:将标注集{B,M,E,S}映射为连续的整形id
    2. 词表:将字符映射为另一套id,
  2. 语料转换
    我们必须把语料库转换为(x,y)二元组才能训练HMM

  3. 训练
    HMMTrainer #train

  4. 预测
    HMMSegmenter #sgment

  5. 评价
    HMM中文分词_CodingPark编程公园_第1张图片

  6. 误差分析
    一阶HMM
    对比以前算法,对于一阶HMM来说Roov召回率大幅提高IV分数大不如前,这表明模型太简单在机器学习中称之为

你可能感兴趣的:(NLP学习之路)