新闻事件脉络挖掘思路

一、背景

目前自媒体时代信息量爆炸,想了解一个热点事件的来龙去脉非常繁琐,不仅需要搜集大量信息,最头疼的就是整理信息,区分信息的真实性和时间的先后顺去。一种能够自动挖掘事件脉络的技术显得尤为重要。
下图是百度的事件脉络挖掘例子
新闻事件脉络挖掘思路_第1张图片本文提出一种事件脉络挖掘技术思路

二、流程

1. 核心技术

我们可以很轻松的提取新闻数据特征,然后根据这些特征进行同类新闻的聚类和计算不同新闻间的相似程度

2. 爬取重点频道新闻

自媒体时代,信息爆炸,有真有假,但是重点频道比如:澎湃新闻、腾讯新闻、微博等等重点频道的重点账号发布的新闻可信度还是比较高的。这里需要持续爬取可信度高的新闻数据

3. 热点事件的发现

定期对近期爬取的新闻进行聚类,一旦发现多数新闻说的是同一件事,结合相关自定义逻辑即可判断发现热点事件

4. 计算聚类中心

可根据“1. 核心技术”提到的计算新闻相似度技术,寻找能够较好代表当前热点事件的一篇新闻(也就是聚类中心)

5. 事件脉络更新

上一步骤确定了热点事件 A 及聚类中心 a ,之后爬取到的新闻 b 直接和新闻 a 进行比较,一旦相似度大于阈值即可判断:新闻 b 属于 热点事件 A ,当热点事件 A 所增加的新闻数量达到阈值后,再次计算热点事件 A 的聚类中心 a2。重复此步骤会得到事件脉络:a > a2 > a3 ……,事件脉络的每个节点都是一篇实际的新闻,这些新闻不仅发布时间存在明显的前后顺序,同时也能清晰的显示热点事件的来龙去脉

三、最后

上述流程中需注意新闻数据的过滤、去重和预处理。由于新闻可能通过文字、图像、视频等方式进行呈现,提取新闻特征和对比相似度也要考量适合的方法

你可能感兴趣的:(机器学习,聚类,python,数据挖掘)