希望能打造满足项目需要的分词器,然后利用这个分词器,来对收集的垂直领域语料进行分词。在此基础上训练词向量,供后续的功能使用。理想的需求是已有大量的语料可供训练或者说转换不那么复杂,同时支持词典添加和增量模型训练两种方式。
通过“我爱自然语言处理”网站上推荐的MeCab,比较符合需要。准备根据站长的博文一步步操作,利用MeCab构建分词器。
他在这篇博文提到的坑,前面几个都没遇到编译都很顺利,可能我的系统是ubantu18.04的原因。但是在安装mecab-python版本时遇到问题。提示没有Python.h,而且我的Python版本是3.X,在运行setup脚本时启用的是2.7。一步一步定位原因,顺便看了下脚本的执行顺序。
Python版本的问题,出在/usr/bin/python这个软链接上,我安装的是Anaconda环境,并把Anaconda的路径写入Path中,但是在/usr/bin下的Python软链接依旧指向了2.7的版本,所以在shell查看Python版本是3.X,但是运行脚本时还是2.7,修改软链接指向新的目标即可。
4月 16 2018 python -> python2.7*
ln -snf /usr/bin/python3.6 /usr/bin/python
/usr/bin$ ll python
lrwxrwxrwx 1 root root 9 11月 27 09:39 python -> python3.6*
继续执行安装MeCab-Python:
/mecab-python-0.996$ sudo python setup.py build
Traceback (most recent call last):
File "setup.py", line 3, in
from distutils.core import setup,Extension,os
ModuleNotFoundError: No module named 'distutils.core'
报错说是没有安装distutiles。可能是Anaconda环境里没有这个模块。搜索寻找解决方法:
/mecab-python-0.996$ sudo apt-get install python3-distutils
Done!
接着运行build命令
又报错,现在没有Python.h文件,无法编译CXX文件。通过查找命令:
sudo find / -name Python.h
在Anaconda的Python安装目录下有include/Python.h头文件。查看执行输出的log,显示在gcc编译CXX文件生产目标文件时,默认指定的头文件位置是/usr/local/include/python3.6m,而find搜索到的Python.h文件在anaconda3/include下。通过-I指定头文件位置:
sudo python setup build_ext -I../anaconda/inclde
编译通过。在build目录下生成_MeCab.cpython-36m-x86_64-linux-gnu.so.so文件、并复制了一份MeCab.py文件。运行安装命令
sudo python setup.py install
打开Python交互程序, 执行import MeCab模块,报错:
Traceback (most recent call last):
File "/home/yaspeed/Downloads/mecab-python-0.996/MeCab.py", line 16, in swig_import_helper
fp, pathname, description = imp.find_module('_MeCab', [dirname(__file__)])
File "/home/yaspeed/anaconda3/lib/python3.6/imp.py", line 296, in find_module
raise ImportError(_ERR_MSG.format(name), name=name)
ImportError: No module named '_MeCab'
没有模块名字,还是位置的问题。setup.py install命令把MeCab相关模块安装到默认的/usr/local/lib/Python3.6/site-package下,而不是anaconda下面。解决方法是指定安装位置:
sudo python setup.py install --prefix=~/anaconda3
执行完,在anaconda3//lib/python3.6/site-packages目录下有如下文件:
_MeCab.cpython-36m-x86_64-linux-gnu.so
__pycache__/MeCab.cpython-36.pyc
MeCab.py
打开Python交互程序,import MeCab 正常导入。
到这里安装成功。