python | 高效统计语言模型kenlm:新词发现、分词、智能纠错

之前看到苏神【重新写了之前的新词发现算法:更快更好的新词发现】中提到了kenlm,之前也自己玩过,没在意,现在遇到一些大规模的文本问题,模块确实好用,前几天还遇到几个差点“弃疗”的坑,解决了之后,就想,不把kenlm搞明白,对不起我浪费的两天。。

kenlm的优点(关于kenlm工具训练统计语言模型):
训练语言模型用的是传统的“统计+平滑”的方法,使用kenlm这个工具来训练。它快速,节省内存,最重要的是,允许在开源许可下使用多核处理器。
kenlm是一个C++编写的语言模型工具,具有速度快、占用内存小的特点,也提供了Python接口。

额外需要加载的库:

kenlm
pypinyin

可装可不装的库:pycorrector
笔者的代码可见github,只是粗略整理,欢迎大家一起改:

mattzheng/py-kenlm-model


文章目录

  • 1 kenlm安装
  • 2 kenlm统计语言模型使用
    • 2.1 kenlm的训练 `lmplz`
      • 2.1.1 两种训练方式

你可能感兴趣的:(NLP︱R+python,付费-智能写作专栏)