文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)

      文本分析过程中,中文文本分析是一个非常重要的环节,而停用词表的选择也是非常关键的,网络流行了多种版本的停用词表,都具有各自的特点,现在对网络流行的多种停用词表继续去重处理,综合实现新的停用词表。

不同版本的停用词表:
文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)_第1张图片

去重合并:

# -*-coding:utf-8-*-


import os
"""
    合并文本文件
"""
mergefiledir = os.getcwd()+'\\stopwords'
filenames = os.listdir(mergefiledir)
file = open('stopwords.txt', 'w')

for filename in filenames:
    filepath = mergefiledir + '\\' + filename
    for line in open(filepath):
        file.writelines(line)
    file.write('\n')

"""
    去重
"""
lines = open('stopwords.txt', 'r')
newfile = open('stopword.txt', 'w')
new = []
for line in lines.readlines():
    if line not in new:
        new.append(line)
        newfile.writelines(line)

file.close()
newfile.close()

获得停用词表,共2792个停用词:下载

,
?
、
。
“
”
《
》
!
,
:
;
?
人民
末##末
啊
阿
哎
哎呀
哎哟
唉
俺
俺们
按
按照
吧
吧哒
把
罢了
被
本
本着
比
比方
比如
鄙人
彼
彼此
边
别
别的
别说
并
。。。

在这里插入图片描述

欢迎关注微信公众号:数据分析科学
墨竹专栏,为CSDN博客而生,您有任何问题,欢迎进行探讨!

你可能感兴趣的:(文本分析)