由于网络新闻的复杂性、冗余性、更新和传播的快速性等,都给人们快速、准确地获取自己所需的关键信息带来了困难,也不利于网络舆情的监控,因此网络新闻热点发现已成舆情监控的重点。
基于自适应参数调整的密度聚类算法的新闻热点发现实现步骤如下:
利用bert-serving-server搭建一个Bert的词向量服务,然后调用相应client即可获取特征向量
将每条新闻的新闻标题/摘要视为一个句子,通过分词,去除停用词,获取TF-IDF向量,然后通过PageRank打分,取得分最高的标题/摘要用于该簇的标题/摘要。
这里使用的百度aip接口,输入标题和内容,输出新闻一级分类。共26个一级新闻分类。
根据实际需要,根据关键词、新闻类别、新闻来源等筛选条件输出to