酒店评论情感分析(3)

http://manu44.magtech.com.cn/Jwk_infotech_wk3/article/2017/2096-3467/2096-3467-1-3-62.shtml
发现了一篇高大上的文章
经过思路启发,做了词干提取和统一小写
words = word_tokenize(str(i).lower())
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()
cutwords4=[porter_stemmer.stem(word) for word in cutwords3]#提取词干

查看前30个关键词。
freq = pd.Series(’ '.join(x).split()).value_counts()[:30]
酒店评论情感分析(3)_第1张图片
from wordcloud import WordCloud
from matplotlib import pyplot as plt
wordcloud = WordCloud(width=2000, height=1000, random_state=21, max_font_size=220).generate(x_cloud)#max_words=100# 最大词语数量

plt.imshow(wordcloud, interpolation=‘bilinear’)# 显示词云
plt.axis(‘off’)# 关闭保存
plt.show()
酒店评论情感分析(3)_第2张图片
生成词云如上
由此找到了出现次数较多的关键词。
考虑去掉高频无关词,做word2vec
尝试用NLTK
from nltk.corpus import sentiwordnet as swn #得到单词情感得分
计算情感得分得到积极情感得分作为分类的依据。
但效果不佳,且看似与类别并无关系
考虑将正面词和负面词计数后作为分类依据尝试。

你可能感兴趣的:(自然语言处理)