记kenlm安装和使用中的一些坑

kenlm安装和使用中的一些坑

1、 win10系统下安装文件

本人在win10系统下安装成功的版本是pypi-kenlm 0.1.20190403,
从https://pypi.org/project/pypi-kenlm/下载安装包,pip setup.py install安装

2、 使用中的一个致命的错误

调用kenlm的程序所在的目录不能包含中文字符,否则报错:

这个坑爬了好久啊!!

3、 语言模型的训练

语言模型的训练必须要在Linux系统中才能训练,python接口没有找到相关方法。中文语言模型训练时,可以根据需要训练字符级别语言模型和词级别语言模型。
训练时在源码文件kenlm\build下,运行命令:
1、词级别5-gram语言模型训练
先将语料分词,然后用空格将分词连接成字符串,存入txt作为训练语料
/kenlm/build$ bin/lmplz --text data/corpus_cut_word.txt --arpa result/corpus_cut_word.arpa --order 5 --discount_fallback --temp_prefix /tmp/
2、字符级别5-gram语言模型训练
先将语料按字拆分,用空格将每个字符隔开,并连接成字符串,存入txt作为训练语料
/kenlm/build$ bin/lmplz --text data/corpus_cut_char.txt --arpa result/corpus_cut_char.arpa --order 5 --discount_fallback --temp_prefix /tmp/
一些地方需要用到.klm文件(相当于二进制格式文件),将训练好的模型文件.arpa转成.klm的命令如下:
/kenlm/build$ bin/build_binary -s result/corpus_cut_char.arpa result/corpus_cut_char.klm

你可能感兴趣的:(自然语言处理)