s=open("data/Chinese_stop.txt",encoding='utf-8',errors="ignore")
chinese_stop={}
for word in s:
word =word.strip()
chinese_stop[word]=1
s.close()
调用的方法之一:
for i in ci:
if i not in chinese_stop.keys():
在 处理英文文本时,如果仅仅是简单的处理停用词,可以使用NLTK库中的停用词。调用如下:
#导入停用词
from nltk.corpus import stopwords
#读入 stopwords
stopwords_en=stopwords.words(fileids='english')+['.', ',', '``', "''", '?', '!', '--', ';', ':', '(', ')', "'"]
以上,就可以读取常用的英文停用词和其标点符号。