通过网络挖掘检测谣言和误信息(2015)

Detecting Rumor and Disinformation by Web Mining 通过网络挖掘检测谣言和误信息(2015)

文章基于网络挖掘和比较两个文本段落的语言技术,提出了一个检测给定文本是否是谣言或误信息的方法。通过内容产生算法,从真实文本的一部分产生误信息。提出一个误信息检测算法,采用分析森林技术,找到网络上的一个文本候选源,与给定的文本比较。分析森林是结合一系列句子间指代和修辞关系增广的分析树。
一些代理获取真实内容,替换特定的实体来支持他们的目的,并且传播这些内容。处理这些误信息的关键是识别源和高亮替换的实体。文章依赖于语言学方法进行给定文本和网络上其源的候选的相似度评估。文本源的寻找过程采用搜索引擎应用,通过网络挖掘进行。
找到一种方法进行自动内容生成,使得结果令消费者满意,并且被搜索引擎认为原创是谣言创建工具的关键。

误信息和谣言检测算法

输入:一部分文本(很可能发表在网络上);输出:输入文本的分类:正常或误信息(包括原真实信息和它的源)。
步骤:

  1. 对于一个给定的文本部分(种子),找到最重要的句子(类似于总结)。
  2. 对每个最重要的句子,以连接形式形成查询: (X1Y1)(X2Y2)(XnYn) ,其中 Xi Yi 是关键词,它们中的一些可能会被替换,将不会出现在潜在的搜索结果中。
  3. 执行搜索,收集所有查询的搜索结果。
  4. 识别查询集的共同搜索结果。
  5. 形成候选文本集,可能是被分析文本的源。
  6. 对于每个候选,跟种子比较。如果发现带替代实体的高相似度候选,则种子是误信息。
  7. 对比种子文本和源文本,识别实体和它们的属性之间的映射。
  8. 对比源,识别添加到种子文本的情感。

步骤1~5按顺序直接执行,6~8需要一个语言学技术来匹配两部分文本和映射实体以及它们的属性。识别误信息的语言学技术需要用内容产生语言学手动并行开发。
评估标准:准确率和召回率。种子有越多的信息(文本越长),谣言识别过程的准确率越高,识别的属性的比例越低。召回率和识别的情感没有显著依赖于种子文本的大小。

你可能感兴趣的:(论文阅读之谣言识别)