谣言检测日常笔记(1)

谣言检测笔记(1)

  1. 谣言检测的实现主要涉及五个主要问题(流程)
  • 定义:选定检测的对象——假新闻、虚假信息、或是谣言,基于事件或是单个帖子
  • 数据收集:收集平台——新浪微博、twitter、Facebook或是其他社交平台(现有研究以前两个平台为主);具体的数据收集方式——公共数据集或是自己采取其他爬虫策略…
  • 特征提取:早期机器学习——按照先验知识(经验)提出能将谣言和非谣言区分开的特征,以便进行分类;后期深度学习——神经网络自动学习实现分类的特征。
  • 分析和检测技术:研究者设计或改进的各种机器学习或深度学习算法模型。
  1. 假新闻和谣言
  • 假新闻有三个关键特征:从形式上来说,它是新闻文章类型的;从目的上来说,它有欺骗公众的意图,大多带有讽刺、恶意;从内容上来说,它所阐述的东西完全或部分虚假。
  • 谣言:真实性未经验证的消息,可分为真谣言(真实性为true)、假谣言(真实性为假)、未知谣言(真实性不确定)
  1. 谣言的收集方式
  • 自上而下的收集方法:确定感兴趣的谣言主题—>收集真谣言的样本—>从谣言样本中提取关键字—>用关键字作为索引词收集社交媒体上的帖子。这种方法比较适合收集长期存在的谣言或可能引发谣言的有争议的主题、话题。
  • 自下而上的收集方法:专门收集突发新闻中的潜在谣言,目的是在一定时间内尽可能多地收集帖子。

你可能感兴趣的:(谣言检测)