Python3.7+jieba(结巴分词)配合Wordcloud2.js来构造网站标签云(关键词集合)

原文转载自「刘悦的技术博客」https://v3u.cn/a_id_138

其实很早以前就想搞一套完备的标签云架构了,迫于没有时间(其实就是懒),一直就没有弄出来完整的代码,说到底标签对于网站来说还是很重要的,它能够对一件事物产生标志性描述,通常都会采用相关性很强的关键字,这样不仅便于检索和分类,同时对网站的内链体系也是有促进作用的。

最近疫情的关系一直在家里呆着,闲暇时和一些学生聊天的时候,人家问:你说你一直在写博客,那你到底在写一些什么内容的文章呢?我竟然一时语塞,于是搞出来下面这种的标签云,下回被问同样的问题时,就可以展示一下了。

和传统的在线博客标签云最大的区别在于,这些标签并不是我手动打上去的,因为时间有限,每写一篇文章就自己提取很多关键字出来,还得挨个入库,这件事想想就很痛苦,于是写脚本自动提取关键字,再综合所有文章的标题得出。

这里用到的技术点就是基于python3.7的结巴分词中的提取关键词,首先进行安装

pip3 install jieba

结巴分词基于TF-IDF关键词提取算法

TF-IDF是关键词提取最基本、最简单易懂的方法。判断一个词再一篇文章中是否重要,一个最容易想到的衡量指标就是词频,重要的词往往在文章中出现的频率也非常高;但另一方面,不是出现次数越多的词就一定重要,因为有些词在各种文章中都频繁出现(例如:我们),那它的重要性肯定不如哪些只在某篇文章中频繁出现的词重要性强。从统计学的角度,就是给予那些不常见的词以较大的权重,而减少常见词的权重,最终得分较高的词语即为关键词。

与此同时,结巴分词还可以帮你过滤那些无意义的虚词,类似「的、地、得、着、了、过」这种

代码如下:

import jieba.analyse

data = "其实很早以前就想搞一套完备的标签云架构了,迫于没有时间(其实就是懒),一直就没有弄出来完整的代码,说到底标签对于网站来说还是很重要的,它能够对一件事物产生标志性描述,通常都会采用相关性很强的关键字,这样不仅便于检索和分类,同时对网站的内链体系也是有促进作用的。最近疫情的关系一直在家里呆着,闲暇时和一些学生聊天的时候,人家问:你说你一直在写博客,那你到底在写一些什么内容的文章呢?我竟然一时语塞,于是搞出来下面这种的标签云,下回被问同样的问题时,就可以展示一下了。"
for keyword, weight in jieba.analyse.extract\_tags(data, withWeight=True):
    print('%s %s' % (keyword, weight))

默认会直接提取前20个关键词,按照权重倒序:

标签 0.36316568234921054
一直 0.17986207627776318
网站 0.17220419499
内链 0.15729957240657894
弄出来 0.13730186512105264
语塞 0.13539157551710526
其实 0.13493691317526316
下回 0.1301755850886842
很早以前 0.12859925351223683
关键字 0.1277766172361842
检索 0.1236956313375
闲暇 0.1223093087630263
标志性 0.12002044945868422
迫于 0.11836056412552631
相关性 0.11816706218618422
架构 0.11760306607526315
促进作用 0.11620754539157895
说到底 0.11464857692289475
博客 0.11084492236894737
聊天 0.11041170151776317

看起来还是相当靠谱。

如果你需要修改关键词数量,可以指定topK参数,输入几个就返回几个

那么只要在文章提交时加入上面的脚本,就可以每一次都自动生成关键词了,当然了,关键词的存储结构设计也是一个难题,有时间会探讨一下。

有了文章和关键词的关联关系,那么就剩下前端的展示,这里推荐一下台湾同胞写的一个控件:https://github.com/timdream/wordcloud2.js

效果还是非常赞的,该插件作者谦逊的说自己”可能“是最好的标签云插件,不过我个人认为可能这两个字完全可以去掉了,它就是最好的。

那么wordcloud2.js使用起来也非常简单,导入js文件后,按照官方文档使用即可,这里附上代码




    
    Demo



    

一般

原文转载自「刘悦的技术博客」 https://v3u.cn/a_id_138

你可能感兴趣的:(javascript,python,分词)