NLP的python包:pattern.en

来自于对 原文 的中文重新解释,希望能方便更多人。本身不是搞NLP的,但是需要用一些工具,有些理解和翻译可能不准确,可以在评论里指出,我修改。

简介和安装

pattern.en 是一个基于python的自然语言处理工具包,en代表English(没错,还有西班牙语es、德语de、法语fr、意大利语it、荷兰语nl),它可以做的事包括:词性标注(part-of-speech tagger)、情感分析(sentiment analysis)、动词处理(verb conjugation,不知道怎么翻译啦)、名词的单复数处理(noun singularization & pluralization)以及一个WordNet的接口。

要使用pattern.en首先要安装pattern,这是一个更大包,里面还有其它很多功能,在此我们就不介绍了。下载在这里,然后使用如下命令安装:

cd pattern-2.6
python setup.py install 

或者你安装了pip的话,也可以这样

pip install pattern

如果上面两种方法都失败了,还有下面的解决方案(未测试):
1. 将pattern放在要执行的python脚本同一文件夹下,这样是不通用,在哪执行就复制到哪。
2. 为了在电脑的任意位置都可使用,可以将pattern 放在如下位置:

c:\python27\Lib\site-packages\ (Windows)
/Library/Python/2.7/site-packages/ (Mac)
/usr/lib/python2.7/site-packages/ (Unix)
  1. 或者在要执行的python脚本中加入如下语句:
import sys
sys.path.append('/your/path/to/pattern')

词性编码对照表

内容太多,请参看这里,有时间也整理出来。

定冠词和不定冠词

冠词(article),编码DT,在英语中经常使用,其中定冠词(definite )是the,不定冠词(indefinite )是aan
相关函数:

referenced(word, article='Indefinite') # Returns article + word.
from pattern.en import referenced
print referenced('university')
print referenced('hour')

# output:
# a university
# an hour

未完待续

你可能感兴趣的:(python,Pattern,自然语言处理,NLP)