第一步:打开命令行窗口,输入python
第二步:先后输出如下命令:
>>>import nltk
>>>nltk.download()
在这之后你会进入一个界面,你会找到stopwords然后在左下角有一个download按钮,点击一下就可以下载了.这里我因为下载过了,出了点问题进不去那个窗口,不过大家按照这个 方法是可以进去的
安装完成之后,以下是导入的库:
import re
import nltk
from enchant.checker import SpellChecker
from nltk.corpus import stopwords
##初始文本中我故意把"amm" " jast" "booy" "basketball"打错来测试拼写检查
text = 'I amm我是 一个普通的喜欢篮球的男生啊 jast a booy, and (( loved 我baskerball 还a lot. Just a lucky boy喜欢.'
##使用去除中文
text = re.sub('[\u4e00-\u9fa5]','',text)
print('去除中文后:')
print(text)
part = r"""(?x)
(?:[A-Z]\.)+
|\d+(?:\.\d+)?%?
|\w+(?:[-']\w+)*
|\.\.\.
|\S\w*
|\w+
|(?:[.,;"'?():-_`])
"""
texti = nltk.regexp_tokenize(text,part)
print('使用nltk库正则表达式对文本进行分词处理:')
print(nltk.regexp_tokenize(text,part))##使用nltk库的正则表达式分词器
print('使用re正则表达式对文本进行分词处理:')
print(re.findall(part,text))##使用re正则表达式方法
##停用词
stopwordd = set(stopwords.words('english'))
word = [i for i in texti if i not in stopwordd]
print('去除停用词后:')
print(word)
##停用词
stopwordd = set(stopwords.words('english'))
word = [i for i in texti if i not in stopwordd]
print('去除停用词后:')
print(word)
import re
import nltk
from enchant.checker import SpellChecker
from nltk.corpus import stopwords
##初始文本中我故意把"amm" " jast" "booy" "basketball"打错来测试拼写检查
text = 'I amm我是 一个普通的喜欢篮球的男生啊 jast a booy, and (( loved 我baskerball 还a lot. Just a lucky boy喜欢.'
##使用去除中文
text = re.sub('[\u4e00-\u9fa5]','',text)
print('去除中文后:')
print(text)
part = r"""(?x)
(?:[A-Z]\.)+
|\d+(?:\.\d+)?%?
|\w+(?:[-']\w+)*
|\.\.\.
|\S\w*
|\w+
|(?:[.,;"'?():-_`])
"""
texti = nltk.regexp_tokenize(text,part)
print('使用nltk库正则表达式对文本进行分词处理:')
print(nltk.regexp_tokenize(text,part))##使用nltk库的正则表达式分词器
print('使用re正则表达式对文本进行分词处理:')
print(re.findall(part,text))##使用re正则表达式方法
##停用词
stopwordd = set(stopwords.words('english'))
word = [i for i in texti if i not in stopwordd]
print('去除停用词后:')
print(word)
##拼写查找
spell = SpellChecker("en_US")
spell.set_text(text)
##这里用标记变量t记录次数
t = 0
errword = []
for j in spell:
t = t + 1
errword.append(j.word)
print('共发现错误的词数为:'+str(t))
print('这些拼写错误的单词依次为:')
print(errword)