停用词表的使用

停用词表的使用:


问题描述:

停用词表的使用,不能死板的从网上查找模板,一定要根据自己的需要去修改,不然会影响使用效果

停用词典的使用

需要读取进入文件,使其从文件变成一个个的词,比如下面:
s=open("data/Chinese_stop.txt",encoding='utf-8',errors="ignore")
chinese_stop={}
for word in s:
    word =word.strip()
    chinese_stop[word]=1
    
s.close()
调用的方法之一:
    for i in ci:
        if i not in chinese_stop.keys():

在 处理英文文本时,如果仅仅是简单的处理停用词,可以使用NLTK库中的停用词。调用如下:

#导入停用词
from nltk.corpus import stopwords
#读入 stopwords
stopwords_en=stopwords.words(fileids='english')+['.', ',', '``', "''", '?', '!', '--', ';', ':', '(', ')', "'"]

以上,就可以读取常用的英文停用词和其标点符号。

你可能感兴趣的:(python)