基于密度聚类的新闻热点发现实现步骤

 

由于网络新闻的复杂性、冗余性、更新和传播的快速性等,都给人们快速、准确地获取自己所需的关键信息带来了困难,也不利于网络舆情的监控,因此网络新闻热点发现已成舆情监控的重点。

  基于自适应参数调整的密度聚类算法的新闻热点发现实现步骤如下:

  1. 从es获取目标数据(新闻标题、摘要等信息):根据过滤条件获取目标数据;
  2. 利用bert将新闻标题和新闻摘要生成新闻特征向量

利用bert-serving-server搭建一个Bert的词向量服务,然后调用相应client即可获取特征向量

  1. 利用自适应参数调整的DBSCAN对新闻特征向量进行聚类,生成新闻簇
  2. 对每个新闻簇利用TF-IDF+PageRank生成新闻热点标题、摘要

将每条新闻的新闻标题/摘要视为一个句子,通过分词,去除停用词,获取TF-IDF向量,然后通过PageRank打分,取得分最高的标题/摘要用于该簇的标题/摘要。

  1. 利用第三方借口根据新闻标题和新闻内容对新闻类型分类

这里使用的百度aip接口,输入标题和内容,输出新闻一级分类。共26个一级新闻分类。

  1. 根据要求输出最后的热点新闻

根据实际需要,根据关键词、新闻类别、新闻来源等筛选条件输出to

你可能感兴趣的:(python)