分词练习

在本次分词练习中,使用文本如下:

菊外人指不知道王菊是谁,也没看过创造101,但是已经被给王菊投票相关信息包围的人

一 利用jieba进行分词练习

参考教程:jieba官方文档

1.分词

全模式

结果

全模式的分词较为细致,把前后能组词的都进行了组词,例如“不知道”被分成了“不知”和“知道”。

精确模式

精确模式下的分词结果较为准确,但像“菊外人”这种专有名词还是没有被识别出来

搜索引擎模式

2.载入词典

新建ju.txt文件,写入我自己自定义的词典

结果为:

载入词典后的分词结果更为准确

3.基于 TF-IDF 算法的关键词抽取


分词练习_第1张图片
分词练习_第2张图片

4.词性标注

标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。

分词练习_第3张图片
分词练习_第4张图片

二 pullword在线分词

分词练习_第5张图片

出词概率阈值为0:

分词练习_第6张图片

居然把“菊外人”也能分出来,也是很厉害了

出词概率阈值为1:只分出了5个词

分词练习_第7张图片

出词概率阈值为0.5:有点像jieba的全模式的分词结果

分词练习_第8张图片

三 词云

使用工具:图悦

分词练习_第9张图片

分析文本:好妹妹乐队《谎话情歌》歌词


分词练习_第10张图片
热词权重图
分词练习_第11张图片
热词词频图

使用工具:纽扣词云


分词练习_第12张图片


分词练习_第13张图片
分词练习_第14张图片

你可能感兴趣的:(分词练习)