原文链接:https://blog.csdn.net/weixin_44633882/article/details/104494276
import nltk
nltk.download()
>d punkt
这种方法在第二步就会抛出“连接尝试失败”,一方面因为nltk文件很大,另一方面当前的网络不太稳定。
不能直接下载,那只好看看它要下载什么文件,存到什么地方。然后我们自己去下载,放到指定的目录下。
运行需要的nltk分词代码
import nltk
nltk.word_tokenize("A pivot is the pin or the central point on which something balances or turns")
会抛出异常
Traceback (most recent call last):
File "" , line 1, in
File "C:\Applications\Anaconda3\lib\site-packages\nltk\tokenize\__init__.py", line 144, in word_tokenize
...
File "C:\Applications\Anaconda3\lib\site-packages\nltk\data.py", line 701, in find
raise LookupError(resource_not_found)
LookupError:
**********************************************************************
Resource punkt not found.
Please use the NLTK Downloader to obtain the resource:
>>> import nltk
>>> nltk.download('punkt')
For more information see: https://www.nltk.org/data.html
Attempted to load tokenizers/punkt/english.pickle
Searched in:
- 'C:\\Users\\11244/nltk_data'
- 'C:\\Applications\\Anaconda3\\nltk_data'
- 'C:\\Applications\\Anaconda3\\share\\nltk_data'
- 'C:\\Applications\\Anaconda3\\lib\\nltk_data'
- 'C:\\Users\\11244\\AppData\\Roaming\\nltk_data'
- 'C:\\nltk_data'
- 'D:\\nltk_data'
- 'E:\\nltk_data'
- ''
**********************************************************************
我们可以看到,尝试加载了tokenizers/punkt/english.pickle
文件,但没有找到。系统会从'C:\\Users\\11244/nltk_data'
这几个路径下进行搜索。
OK,我们知道了需要什么文件,应该将这个文件放到哪里。从哪里下载呢?
访问nltk_data,可以选择直接download下来需要的包,再按刚才的路径放好。大概14分钟才能下好吧。
github最近网不稳定,我们来找到另一个下载地址,而非github的下载地址。
拉到右边
从这里下载更快(●’◡’●),推荐放到迅雷!
下载好了punkt.zip
文件,我选择放到C:\\Applications\\Anaconda3\\share\\nltk_data
目录下,完成解压。
λ python
Python 3.6.5 |Anaconda, Inc.| (default, Mar 29 2018, 13:32:41) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.word_tokenize("A pivot is the pin or the central point on which something balances or turns")
['A', 'pivot', 'is', 'the', 'pin', 'or', 'the', 'central', 'point', 'on', 'which', 'something', 'balances', 'or', 'turns']
因为我在github上需要使用的项目,仅要求我下载nltk
库中的punkt
,所以我就这么下载了。
希望也能帮助到其他人!
参考
- https://blog.csdn.net/qq_43376013/article/details/102883773
- https://blog.csdn.net/weixin_44574186/article/details/90748946
- https://www.cnblogs.com/zrmw/p/10869325.html