学习笔记-基于语言模型的中文分词器

1、中文分词

中文分词的使用场景:搜索引擎、新闻网站

体验分词:http://ai.baidu.com/tech/nlp/lexical

常见分析方法:

  • 词典的机械切分
  • 模型的序列标注

中文分词的难点:

  • 歧义切分
  • 未登录词识别(新词)

2、语言模型

2.1原理

一个句子是否合理,就看它的概率大小如何,我们可以将一个句子表示为词的联合概率,并用条件概率公式写出来,可以使用频率估计条件概率,复杂的条件概率比较难计算,马尔可夫假设被提出,句子的联合概率可以被改写成N-Gram形式的条件概率,语言模型随着元数据的增加,时间空间复杂度都很高,而且会遇到零概率的问题,这导致语言模型不能处理更长期的依赖,语言模型的悬链就是统计条件概率,处理零概率可以使用一些平滑策略。

2.1.1联合概率

学习笔记-基于语言模型的中文分词器_第1张图片

2.2.2条件概率估计

学习笔记-基于语言模型的中文分词器_第2张图片 

分子是联合概率,分母是边缘概率,根据大数定理,只要统计量足够,我们可以用频率代替概率

例:我喜欢他他也喜欢我但他不喜欢他 我们都喜欢打球

p(他|喜欢)=p(喜欢,他)/p(喜欢)=(count(喜欢,他)/count bigram)/(count(喜欢)/count bigram)=count(喜欢,他)/count(喜欢)=2/4

2.2.3马尔可夫假设

从计算上来看 ,P(w1)容易计算,p(w2|w1)还不太麻烦,p(w4|w1, w2 ,w3)就比较困难了

学习笔记-基于语言模型的中文分词器_第3张图片

实际应用中N=2、3  ,N比较小主要是模型复杂度决定的 空间复杂度为词汇量的N次方

N越大并不能覆盖所有语言现场,上下文的相关性可能跨度很大甚至跨段落

2.2.4模型的训练和零概率问题

模型训练:统计所有的条件概率

零概率问题:大数定理没有效果

2.2.5语言模型的平滑策略

加1法

学习笔记-基于语言模型的中文分词器_第4张图片

 

插值平滑

学习笔记-基于语言模型的中文分词器_第5张图片

 

3、机械切分

基于语言模型的机械切分是Jieba、HanLP等NLP工具的基本功能

基于Bi——Gram语言模型的切分

学习笔记-基于语言模型的中文分词器_第6张图片

 机械切分整体思路:

  1. 基于词库构建词图
  2. 基于语料,统计每条边的条件概率
  3. 计算所有可能路径的概率,得到概率最高的那条路径

优点

  1. 基于词库,相对于模型,速度非常快
  2. 通过加词、调整词频,快速解决badcase

缺点

  1. 词库没有的新词无法切分
  2. 决定切分时,基本只考虑了上一个切分的影响(BiGram)

你可能感兴趣的:(深度学习)