从零开始装kenlm,cmake安装、boost和zlib安装、训练语言模型、压缩模型


一、安装步骤

首先给出官网的安装步骤:

wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz
mkdir kenlm/build
cd kenlm/build
cmake ..
make -j2

二、cmake安装

执行到第四步cmake ..,报错没有cmake,安装cmake:

安装cmake参考(无坑):https://blog.csdn.net/fxnawm/article/details/78489586

1、打开网址:http://www.cmake.org/cmake/resources/software.html,
找到最新版本的位置。一般开放源代码软件都会有两个版本发布:Source Distribution 和 Binary Distribution,前者是源代码版,你需要自己编译成可执行软件。后者是已经编译好的可执行版,直接可以拿来用的。
2、解压安装包:tar -zxvf cmake-3.10.0-rc4-Linux-x86_64.tar.gz
3、把解压后的cmake-3.10.0-rc4-Linux-x86_64目录该名为cmake:mv cmake-3.10.0-rc4-Linux-x86_64 cmake
4、配置cmake环境变量,根据个人情况配置,参考(讲的很系统):https://blog.csdn.net/qq_30262201/article/details/86759627
因为是公共环境,我配置了/etc/profile,在文件后追加:

# added by cmake installer
export PATH="/home/q/cmake/bin:$PATH"

5、重新开一个窗口,执行:cmake --version
显示:

cmake version 3.14.3

CMake suite maintained and supported by Kitware (kitware.com/cmake).

cmake安装成功

三、安装boost和zlib

报错boost相关,安装boost(这里我按照官网给的方式装坑很深,直接yum装很顺利)

boost:

yum install boost
yum install boost-devel

zlib:

yum install zlib
yum install zlib-devel

四、训练模型

使用如下命令进行训练:

build/bin/lmplz -o 3 --verbose_header --text people2014corpus_words.txt --arpa result/people2014corpus_words.arps

其中
1)people2014corpus_words.txt文件必须是分词以后的文件。
2)-o后面的5表示的是5-gram,一般取到3即可,但可以结合自己实际情况判断。

五、压缩模型

压缩模型为二进制,方便模型快速加载:

build/bin/build_binary ./result/people2014corpus_words.arps ./result/people2014corpus_words.klm

你可能感兴趣的:(机器学习)