语言模型

什么是语言模型

语言模型建模方法分为 统计语言模型规则语言模型 两大类,前者完全依靠大文本的数据,用统计的方法建模; 后者是以 Chomsky 的形式语言为基础的确定性语言模型,其更注重语言中语法信息的分析。其中,统计语言模型具有准确性高,容易训练和维护等优点,在诸如语音识别,手写识别,OCR(Optical Character Recognition),机器翻译,输入法,文本校正等领域被广泛的应用。

统计语言模型

统计语言模型包含n-gram模型,决策树模型,最大熵模型以及基于词类的n-gram模型等。
统计语言模型在使用过程中面临的几个主要问题:

  • 数据稀疏问题
    解决统计语言模型的数据稀疏问题,可以采取加大训练语料的方法或者利用各种平滑算法。
  • 领域依赖问题
    统计语言模型对数据的领域依赖性很强,解决依赖性问题一个直接的做法就是收集相关领域的语料,另外一种方法就是利用自适应的方法。
  • 模型规模过大
  • 解码速度慢

各种平滑算法

统计语言模型通过对搜集到的海量语料进行分析统计来获得词与词之间的概率关系,在一般的中文统计语言模型中,词典的规模都比较大,如果采用trigram模型的话,所有符合规则的trigram数量就成指数增长。实际上我们能够获得的训练语料远远小于这个量级,这就导致了一部分trigram单元在训练语料中观察不到,从而导致数据稀疏性问题。解决稀疏性问题通常是给那些在训练语料中没有出现的单元给出合理的概率值,这就是统计语言模型的平滑问题。数据平滑的基本思想是降低已出现 n-gram的条件概率分布,以使未出现的 n-gram 条件概率分布非零,且经数据平滑后一定保证概率和为1。

  1. 加性平滑
  • 加一平滑
    加一平滑,又称拉普拉斯定律,其保证每个 n-gram 在训练语料中至少出现 1次,以 bigram 为例。
    通过最大似然估计(Maximum Likelihood Estimate)构造的语言模型为:
  • Jelinek-Mercer平滑
  • Kneser-Ney平滑

https://zhuanlan.zhihu.com/p/23504402

你可能感兴趣的:(语言模型)