访问内置语料库NLTK

访问内置语料库NLTK

一、先安装NLTK

NLTK需要Python版本3.5、3.6、3.7或3.8

使用Anaconda配置环境,新建环境NLP,下载安装NLTK

二、安装NLTK数据

运行Python解释器并输入以下命令:

>>> import nltk
>>> nltk.download()

应该会打开一个新窗口,显示NLTK下载器。单击文件菜单,然后选择更改下载目录。对于集中安装,请将其设置为C:\nltk_data(Windows),/usr/local/share/nltk_data(Mac)或/usr/share/nltk_data(Unix)。接下来,选择要下载的包或集合。

如果您没有将数据安装到上述中心位置之一,则需要设置NLTK_DATA环境变量以指定数据的位置。

点击Corpora选择reuters点击Download等下载完成即可。
成功如下图:
访问内置语料库NLTK_第1张图片

三、改错

访问内置语料库NLTK_第2张图片

如果出现下图情况点击红色区域显示远程连接断开NLTK远程主机强迫关闭了一个现有的连接。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-elPPHx6w-1593174580129)(E:\科创中心\自然语言处理\截图\QQ截图20200624180841.jpg)]

进入C:\Users\Daidenghui\AppData\Roaming\nltk_data目录把里面的文件全部删除。然后重新执行步骤二。

四、访问

输入一下代码:

from nltk.corpus import reuters  ## 访问路透社语料库

## 查看语料库中的内容
files = reuters.fileids()
print(files)

## 访问文件里的具体内容
word16097 = reuters.words(['test/16097'])
print(word16097)

## 截取文件内定量单词
word20 = reuters.words(['test/16097'])[:20]
print(word20)

## 输出主题列表
reutersGenres = reuters.categories()
print(reutersGenres)

## 将单词以一行一个句子的方式打印
for w in reuters.words(categories=['bop','cacoa']):
    print(w+' ',end='')
    if(w is '.'):
        print()

输出结果有点多这里就不展示了。

你可能感兴趣的:(自然语言处理,自然语言处理,python)