python NLP工具 polyglot在centos 6 上安装

最近要做多语言的文本处理,就去调研一下有什么好用的现成工具,最后发现了polyglot。
这工具虽说支持多语言,但是用过发现比不是很好用,可能做多难做精。还是写一下怎么安装吧。

初入坑

先说说最初遇到的坑:polyglot官网上的install是在ubuntu上进行的,也很简短,相信ubuntu的童鞋也会遇到不少问题。
我一开始使用yum安装libicu-devel模块,发现其安装的只有icu和icu4j,并没有icu4c。所以后面直接pip install pyicu的时候会报错。
所以后来我下载了icu4c的源码安装,版本为4.8.1.1。后面pip install pyicu成功。

但是。。。

在Python中import _icu(这个语句其实在polyglot安装成功后import polyglot.text是报错发现的)的时候,发现importerror .... _icu.so: no defined ...(忘了)

所以我们这个动态链接库是没有build成功的。
可能是pip install的时候没有生成一个好的_icu.so

所以我们要在安装python模块的时候入手,icu4c模块应该没问题了。

编译安装成功

我就不用pip安装了,直接下源码

wget https://pypi.python.org/packages/bf/1f/cea237f542e3bb592980008a734850e8cbbc25c19c72c98767c71c1bd9c2/PyICU-1.9.3.tar.gz
# (去官网下载,我的是1.9.3)

tar zxvf PyICU-1.9.3.tar.gz
cd PyICU-1.9.3.tar.gz

此时如果你是linux系统要修改一下setup.py文件

python NLP工具 polyglot在centos 6 上安装_第1张图片
setup.py_1
python NLP工具 polyglot在centos 6 上安装_第2张图片
setup.py_2

python setup.py build
sudo python setup.py install


此时测试一下是否安装成功
![setup.py_3](http://upload-images.jianshu.io/upload_images/3491715-d72dbab0a160786c.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
成功!
用了一个下午装,真浪费时间,希望这个多语言的NLP工具真的有用(后证明效果一般)。

## 资料:
http://see.sl088.com/wiki/Centos_%E5%AE%89%E8%A3%85ICU#.E8.B5.B7.E5.9B.A0   icu4c安装,这里的./runConfigureICU脚本别忘了执行
http://stackoverflow.com/questions/13656756/pyicu-failed-to-link-icu4c-on-mountain-lion/13666383 这个问题是动态链接库问题,跟我之前遇到的很像,可以参考
https://pypi.python.org/pypi/PyICU/ pyicu官网,可以参考安装python的icu模块

你可能感兴趣的:(python NLP工具 polyglot在centos 6 上安装)