一、到NLTK的官网下载Python2.66(虽然Python已经到3.0了,但是2.x的比较稳定,兼容2.x的软件也比较多一些)、PyYAML和NLTK。
下载地址:http://www.nltk.org/download点击打开链接,根据自己安装的python版本,安装对应的nltk版本
启动python解释器,输入import nltk,如果报ImportError: No module named yaml错误,是因为没有安装yaml模块,去http://pyyaml.org/wiki/PyYAML下载一个yaml解析xml的包,安装完毕后,再执行import nltk,就不会报错了。然后执行nltk.download()下载需要的语料包。(本人的去http://pyyaml.org/download/pyyaml/PyYAML-3.10.win32-py2.7.exe)
二、讲这些都安装好,然后运行Python的IDE环境:
三、敲入下面的代码,进入NLTK数据源下载界面:
import nltk nltk.download()
选择all,设置好下载路径(Download Directory),然后点击Download,系统就开始下载NLTK的数据包了,下载的时间比较漫长,大家要耐心等待。如果有个别数据包无法下载,你可以切换到All Packages标签页,双击指定的包来进行下载:
如果都不行的话,你还可以直接到 http://www.nltk.org/nltk_data/去下载数据包,只要将数据包复制到你的Download Directory目录下即可。
四、安装NLTK
from nltk.book import *
键入以上代码可以得到图中的显示,就说明NLTK数据包都安装好了~
五、实践。使用NLTK进行字符串查询
text1.concordance('monstrous')
说明:
text1为NLTK数据包中的一段数据源,是一大串字符串。(原文在数据包下载目录下的gutenberg.zip中的melville-moby_dick.txt)
text1.concordance('monstrous')这句话实现的是从这一大串字符串中找寻出包含monstrous这个单词的语句。
//---------------------------------------------------------------------------------------------------------------------------
nltk.download()时,下载路径需要注意,若是自己随便建立一个路径可能出错,出错后能够看到searching in:然后一大堆路径,那便是正确安装的路径,直接默认的路径也是可以的。另外,需要注意python的环境变量是否设置好。
//---------------------------------------------------------------------------------------------------------------------------
参考及转载网站:
[1]黄聪:Python+NLTK自然语言处理学习(一):环境搭建.http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html
[2]Python自然语言处理工具NLTK的安装FAQ.http://www.cnblogs.com/people/archive/2013/09/03/3293584.html
[3].NLTK Corpora:http://www.nltk.org/nltk_data/
[4]PyYAML:http://pyyaml.org/wiki/PyYAML
[5]NLTK 3.0 Alpha Releases:http://www.nltk.org/nltk3-alpha/nltk-3.0a3.zip