自然语言处理(NLP)预备知识

# 语言模型,Language model

http://www.statmt.org/book/slides/07-language-models.pdf

# 自然语言处理中N-Gram模型的Smoothing算法(对于上面语言模型中平滑算法的一个介绍)

https://blog.csdn.net/baimafujinji/article/details/51297802

# 搜狗新闻语料数据 GBK 转换为 UTF-8 的方法

cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "" > a.txt

# kenlm语言模型的训练

首先编译工具包:

wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz
mkdir kenlm/build
cd kenlm/build
cmake ..
make -j2

训练过程:

build/bin/lmplz -o 3 --verbose_header --text sougoucorpus.txt --arpa result/sougoucorpus.arps

其中:

1)-o后面的5表示的是5-gram,一般取到3即可,但可以结合自己实际情况判断。

2)sougoucorpus.txt 为分词后的文件路径,result/sougoucorpus.arps为生成的训练模型路径

转换成二进制文件可以加快读取速度

build/bin/build_binary result/sougoucorpus.arps result/sougoucorpus.klm 

 

你可能感兴趣的:(自然语言处理)