NLP设置相关问题, since 2021-03-20

(2021.03.20 Sat)

  • NLTK下载各类语料库的方法(windows版):
>> import nltk
>> nltk.download()
showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml

遇到无法下载的情况,如提示error getaddrinfofailed(),采用如下解决办法:

  1. nltk.download()指令返回的提示链接https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml往往无法打开,这时在打开C:\Windows\System32\drivers\etc路径下的hosts文件,在结尾添加
ip_address raw.githubusercontent.com 

其中的ip_address是raw.githubusercontent.com的ip地址,可通过https://githubusercontent.com.ipaddress.com/raw.githubusercontent.com查询,比如在2021年3月21日,查询到的ip地址是185.199.108.133, 185.199.109.133, 185.199.110.133, 185.199.111.133。可使用其中任何一个代替ip_address,比如

185.199.108.133 raw.githubusercontent.com

并保存hosts文件。再次运行nltk.download()即可下载各类语料库。

  1. 在NLTK downloader的server index一栏中填入http://www.nltk.org/nltk_data/,NLTK的官网数据页面链接,随后refresh和download即可实现数据的下载。

你可能感兴趣的:(NLP设置相关问题, since 2021-03-20)