Python自然语言处理解决下载nltk_data错误

Python自然语言处理下载nltk是一个大坑。如果从外网下载将近1G的文件,大概率不能成功。如果到网上找别人已下载的nltk_data。第一很多不能用;第二就是在百度网盘找到能用的下载速度仍特慢,得花2个多小时,想快点只有掏钱;第三,即便是找到有用的,也多是不完整的。例如,本人下载的nltk_data之古腾堡语料库gutenberg只是一个空文件夹。执行for fileid in gutenberg.fileids():...就出现提示:

>>>import nltk
>>>nltk.download('punkt')

下载完'punkt'后,仍旧出现上述提示。对'punkt'解压后,仍旧出现上述提示。最后,发现解压后文件存在C:\Users\Administrator\AppData\Roaming\nltk_data\tokenizers\punkt\punkt之下,即解压软件在原punkt文件夹之前又多加一重punkt,难怪Python找不到!

将~\punkt\punk之下的文件全部拷贝到~\punkt之下,重启Python,就解决问题了:

Python自然语言处理解决下载nltk_data错误_第1张图片

 总结:下载nltk很不方便,可以花点钱在百度网盘下载。但是,前人挂在网上nltk_data也很可能是不全的。如果再下载缺失,一定要解压。如果解压后仍不行,检查是否解压时自动生成了nltk不认识的文件夹。

你可能感兴趣的:(自然语言处理,人工智能,python)