Jieba对龙族4的词云尝试

                     Jieba对龙族4的词云尝试

1.前置条件

java环境和安装jieba,即java -version 和pip install jieba,很简单的大家应该都知道的。

2.jieba尝试

先在网上找一些教程,看看jieba的基本用法和操作,大家都知道啊就不说了,就说说我怎么尝试的流程吧。

先把小说下载下来,命名为lz4.txt,然后对这个文本提取关键词和词频统计操作,

Jieba对龙族4的词云尝试_第1张图片




Jieba对龙族4的词云尝试_第2张图片
txt文档

得到的数据还是有很大问题的,首先主角名字就没有被分成了路明和明飞,还有很多无意义的词语,并不是我想要的结果,所以在jieba中添加中文词语,和添加停用词词库。

添加中文词汇就是 jieba.add_word('楚子航') ,添加停用词词表就是stopwords_path = '路径',我就在本地加了一个停用词词表,

Jieba对龙族4的词云尝试_第3张图片
停用词词库

得到如下结果,

Jieba对龙族4的词云尝试_第4张图片
完善


Jieba对龙族4的词云尝试_第5张图片
结果

这个结果看起来还是令人满意的,最后把这些数据整好看一点,就是把得到的数据整成词云,就可以都到一张漂亮的词云图了。

Jieba对龙族4的词云尝试_第6张图片

你可能感兴趣的:(Jieba对龙族4的词云尝试)