【论文翻译 虚假新闻检测综述 KDD 2017】Fake News Detection on Social Media: A Data Mining Perspective

【论文翻译 虚假新闻检测综述 KDD 2017】Fake News Detection on Social Media: A Data Mining Perspective_第1张图片

论文题目:Fake News Detection on Social Media: A Data Mining Perspective

论文来源:KDD 2017 美国亚利桑那州立大学, 美国密歇根州立大学

论文链接:https://arxiv.org/abs/1708.01967

关键词:虚假新闻检测,社交媒体,综述


文章目录

  • 1 摘要
  • 2 引言
  • 3 假新闻的特点
    • 3.1 虚假新闻的定义
    • 3.2 传统新闻媒体上的虚假新闻
    • 3.3 社交媒体上的虚假新闻
  • 4 假新闻检测
    • 4.1 问题定义
    • 4.2 特征抽取
      • 4.2.1 新闻内容特征
    • 4.2.2 社交上下文特征
    • 4.3 模型的构建
      • 4.3.1 新闻内容模型(news content models)
      • 4.3.2 社交上下文模型
  • 5 评价检测效果
    • 5.1 数据集
    • 5.2 评估度量
  • 6 相关领域
    • 6.1 谣言分类
    • 6.2 事实发现
    • 6.3 标题党检测
    • 6.4 机器人检测(Spammer and Bot Detection)
  • 7 开放的问题和未来的研究方向
  • 8 总结


1 摘要

社交媒体对于新闻来说是一把双刃剑。既有利于高质量新闻的获取和传播,也有利于虚假新闻的广泛传播。

社交媒体上的假新闻检测有着独有的特点,使得传统的新闻检测算法不适用于虚假新闻的检测。

虚假新闻的特点有:

(1)故意写出来的,以误导读者去相信虚假信息,因此基于新闻内容很难检测出来。因此需要辅助信息,例如用户在社交媒体上的社交行为,来帮助我们进行决策。

(2)利用这些辅助信息是有挑战性的,因为用户与假新闻交互产生的数据是巨大的、不完整的、无结构的并且有噪声。

本文聚焦于社交媒体上的虚假新闻检测问题,进行综述。包括心理学理论和社会学理论层面的虚假新闻的特点,虚假新闻的评估度量和已有的数据集。本文还讨论了社会媒体上的虚假新闻检测的相关的研究领域、开放的问题和未来的研究方向。


2 引言

(1)新闻在社交媒体上的兴起

随着人们越来越多地通过社交媒体平台进行交互,越来越多的人倾向于从社交媒体上而不是从传统的新闻机构来寻找新闻。这是因为社交媒体平台有着天然的特性:(1)和传统的新闻媒介(报纸,电视)相比,在社交媒体上可以及时并方便地获取新闻;(2)在社交媒体上对新闻进行分享、评论、与他人讨论显得更加简单方便。


(2)虚假新闻的危害

尽管社交媒体有着上述优点,但是社交媒体上新闻的质量却不如传统新闻机构上的新闻。社交媒体上新闻可以快速方便地进行传播的特点,也有助于了虚假新闻的快速传播,这对个人和社会都产生了一系列负面影响:

1)大多数虚假新闻比真正的主流新闻传播范围更广;

2)虚假新闻有意的说服读者去接收有偏差的或虚假的信息。虚假新闻通常是被操纵者所利用,来传递政治信息或者相关影响;

3)假新闻改变了人们解读和回应真实新闻的方式。例如,有的假新闻单纯是为了引起人们的怀疑,干扰他们区分真实的能力。

为了减弱假新闻的负面影响,营造良好的社会氛围和新闻生态环境,研究出在社交媒体上自动检测出虚假新闻的方法是十分有必要的。


(3)在社交媒体上进行虚假新闻检测的挑战

虽然假新闻本身并不是一个新的研究问题,但是在社交媒体上的网络生成新闻的兴起为假新闻赋予了强大的力量,使其可以挑战传统规范的新闻。社交媒体上的虚假新闻有以下一些特点,使得自动化的检测富有挑战:

1)假新闻是故意创作出来的,目的就是为了误导读者,因此基于新闻内容很难简单地检测出来。

假新闻的内容在主题上、风格上和社交平台上具有多样性,并且使用多样的语言风格扭曲事实。例如,虚假新闻可能会引用真实的信息来支持一个非事实的主张。因此,手工选取的特征和针对特定数据的文本特征不能有效地用于假新闻的检测。需要考虑其他的辅助信息来提高检测能力,例如知识库和用户的社交行为。

2)辅助信息的质量无法保证。假新闻通常与新出现的事件有关,由于缺乏确凿的证据或主张,这些事件可能还没有被现有的知识所证实。

3)用户在社交媒体上和虚假新闻进行接触产生的数据量巨大,并且数据不完整、无结构,还带有噪声。


(4)本文贡献

本文将从两个角度回顾假新闻检测问题:特点和检测。如图 1所示,我们首先使用心理学和社会学的理论描述了假新闻检测问题的背景,然后给出检测方法。本文贡献如下:

1)讨论了假新闻的狭义和广义的定义,进一步提出了社交媒体上的虚假新闻特有的特性;

2)对现有的假新闻检测方法进行了综述,将其分为不同的类别;

3)讨论了一些开放的问题并给出了社交媒体上的虚假新闻检测未来的研究方向。

【论文翻译 虚假新闻检测综述 KDD 2017】Fake News Detection on Social Media: A Data Mining Perspective_第2张图片

3 假新闻的特点

本节介绍和假新闻有关的基本社会学和心理学理论,并且社交媒体引入的更高级的模式。首先讨论虚假新闻的定义,然后从不同的角度描述传统媒体上的虚假新闻,接着引出虚假新闻在社交媒体上的新模式。


3.1 虚假新闻的定义

虚假新闻几乎是和印刷机在同一时段诞生的(1439年),但是还没有一个针对虚假新闻的公认的定义。本文比较了一些论文中给出的广泛使用的虚假新闻的定义,并且给出了本文的定义。

(1)狭义的定义

有意的、被证实为错误的并且会误导读者的新闻文章。

这一定义中有两个关键特征:真实性和目的性。


(2)广义的定义

既不聚焦于真实性也不聚焦于目的性。一些文献将讽刺性的新闻视为假新闻,尽管讽刺新闻往往以娱乐为导向,但是向读者暴露出了欺骗性,并且内容是虚假的。还有一些文献将有欺骗性的新闻视为虚假新闻。


(3)本文的定义

本文使用的是狭义的定义,定义如下:

虚假新闻是有意图的并且被证实是假的新闻文章

采用狭义的定义的原因有三点:

1)假新闻的潜在意图提供了理论和实践价值,使得我们能深入地理解和分析。

2)任何用于事实验证的方法都可以应用到狭义概念的假新闻中,也可以用于广义概念的假新闻。

3)这一概念可以消除假新闻和本文未考虑的相关概念之间的歧义。下面列出的概念不是本文定义范围内的假新闻:

  • 没有误导意图且不会被错认为是事实的讽刺新闻;
  • 与新闻事件无关的谣言;
  • 不易被证实为是真还是假的阴谋论;
  • 无意间创造出的错误信息;
  • 仅仅出于乐趣或者是为了欺骗目标个体的恶作剧。

3.2 传统新闻媒体上的虚假新闻

假新闻本身并不是一个新问题,随着新闻媒介的发展,假新闻也从在报纸传播发展为广播/电视传播,再到如今的在线新闻和社交媒体传播。传统的虚假新闻指的是社交媒体之前的媒介,对其产生和传播起到重要作用。

接下来将阐述和假新闻有关的心理学和社会学理论。

(1)虚假新闻的心理学基础

人们天然就不擅长区分假新闻和真新闻。一些心理学和认知学的理论可以解释这一现象和假新闻的影响力。

传统的假新闻主要利用读者的个人弱点来对其进行攻击。主要有两个因素,使得读者天然地易受假新闻的攻击:

1)朴素实在论:人们倾向于认为他们对现实的感知是正确的,而不同意的人则被认为是物质的、非理性的或有偏见的;

2)确认偏差:人们更愿意接受符合他们世界观价值观的事。

由于人们天然有这些认知偏差,因此虚假新闻会被人们认为是真实的。而且这种错误认识一旦形成就很难更正。心理学的研究表明,给出事实试图更正错误信息不仅不能减少错误认知,有时还会加剧错误认知。


(2)虚假新闻生态系统的社会学基础

前景理论(prospect theory)将决策描述成一个过程,在这个过程中,人们根据相对于他们当前状态的得失做出选择。人们在传播新闻信息时,倾向于选择“社交安全(social safe)”的观点,尽管分享的新闻是假新闻。

这种假新闻互动的理论可以从经济学博弈的角度进行建模。我们将新闻的生成和消费周期构建成一个两人博弈。在这个信息生态系统中,我们假定有两个玩家:发布者和消费者。新闻的发布过程建模成从原始信号 s s s到新闻 a a a的映射,映射过程有一个失真偏差 b b b,例如: s → b a s \xrightarrow{b} a sb a b = [ − 1 , 0 , 1 ] b = [-1, 0, 1] b=[1,0,1]表示 [ l e f t , n o , r i g h t ] [left, no, right] [left,no,right]

发布者的效用有两个角度:1)短期效用:最大化利润的动机,与消费者的数量成正相关;2)长期效用:发布者在新闻真实性上的声誉。

消费者的效用由两部分组成:1)信息的效用:获得真实且无偏差的信息,通常需要额外的投资成本;2)心理学效用:得到满足他们先验观点和社交需要的新闻,例如验证偏差和前景理论。

发布者和消费者都希望在新闻的消费过程中最大化他们的整体效用。当虚假新闻发生的时候,也就是短期效用在发布者整体效用中占主导地位,心理学效用在消费者整体效用中占主导地位,并且达到均衡。


3.3 社交媒体上的虚假新闻

本节将介绍社交媒体上的虚假新闻具有的特性。注意,之前提到的传统虚假新闻的特性也适用于社交媒体上的虚假新闻。

(1)社交媒体上以传播信息为目的的恶意账号

虽然社交媒体上的大多数用户是正常的,由于制造社交媒体账号的低成本,有一些用户可能是虚假用户,甚至可能是机器人。

社交机器人(social bot)指的是该社交媒体账号由计算机程序控制,可以自动地生成内容并和社交媒体上的其他人进行交互。如果社交机器人有意地复制、传播假新闻,那么它就是一个恶意账号。

网络水军(troll)指的是真实的人类用户,目的是为了扰乱网络社区的秩序、煽动网民情绪(例如 愤怒,恐惧)。水军也在虚假新闻传播上发挥了重要作用。

电子人用户(cyborg user)可以使用自动化和人工输入相结合的方式传播假新闻。cyborg账户由人类注册并伪装,并设定自动程序在社交媒体上进行活动。人与机器间的轻松切换为cyborg用户提供了传播虚假新闻的独有机会。

总的来说,这些持续活跃的或间歇活跃的社交媒体上的恶意账户成为了假新闻传播的强有力的源头。


(2)回音壁效应

新闻可以在社交媒体主页上进行显示,因此消费者会有选择地接触到某些类型的新闻,这加大了消除假新闻的挑战。

例如,Facebook的用户总是关注志同道合的人,因此会接收到他们喜欢的新闻。因此社交媒体上的用户往往会形成志趣相投的群体,在这些群体间的观点不同,这就容易形成回音壁效应。

回音壁效应在媒体上是指在一个相对封闭的环境上,一些意见相近的声音不断重复,并以夸张或其他扭曲形式重复,令处于相对封闭环境中的大多数人认为这些扭曲的故事就是事实的全部。

回音壁效应和以下的心理学因素有关:1)社交信誉:如果其他人认为消息来源是可信的,人们更有可能也相信消息来源是可信的,尤其是在没有足够的信息证明消息来源的真实性时;2)频率启发式:消费者天然地倾向于喜欢他们经常听到的信息,尽管是虚假新闻。

研究表明,增加对某一观点的接触就足以对其产生积极的看法。在回音壁中,用户持续地分享和消费相同的信息。因此,在有限的信息生态系统中,回音壁效应创造出了不相交的同质的社区。研究表明同质社区称为信息传播的主要源头,这进一步加剧了意见的两极分化。


4 假新闻检测

前面的章节给出了传统假新闻的特性以及社交媒体上假新闻的特性,基于这些特性,我们接着进行问题的定义并总结假新闻检测的方法。


4.1 问题定义

引入假新闻关键组件的定义,然后给出假新闻检测的规范定义。

(1)基本符号定义

1) a a a表示一篇新闻文章,它由两部分组成:发布者和内容。发布者 p a ⃗ \vec{p_a} pa 包括一组描述原始作者的特征集合,例如姓名、领域、年龄和其他属性。内容 c a ⃗ \vec{c_a} ca 包括表示新闻文章的属性信息,例如标题、文本、图片等。

2)将社交新闻活动定义为元组的集合 E = { e i t } \mathcal{E} = {\{e_{it}}\} E={eit},表示新闻随时间在 n n n个用户 U = { u 1 , u 2 , . . . , u n } \mathcal{U} = {\{u_1, u_2, ..., u_n}\} U={u1,u2,...,un}间传播的过程,以及用户在社交媒体上发布的关于新闻文章 a a a的帖子 P = { p 1 , p 2 , . . . , p n } \mathcal{P} = {\{p_1, p_2, ..., p_n}\} P={p1,p2,...,pn}。活动 e i t = u i , p i , t e_{it} = {u_i, p_i, t} eit=ui,pi,t表示用户 u i u_i ui在时间 t t t使用了 p i p_i pi来传播新闻文章 a a a

若文章 a a a没有任何活动,则 t = N U L L t=NULL t=NULL u i u_i ui就表示发布者。


(2)假新闻检测

给定对于新闻文章 a a a n n n个用户间的社交新闻活动 E \mathcal{E} E,假新闻检测任务就是预测 a a a是否是一个假新闻(二分类问题)。例如, F : E → { 0 , 1 } \mathcal{F}: \mathcal{E}\rightarrow {\{0, 1}\} F:E{0,1} F \mathcal{F} F就是我们想要学习到的预测函数:


接下来,我们提出一个包括两个阶段的用于假新闻检测的数据挖掘框架:1)特征的抽取;2)模型的构建。

特征抽取阶段目的是用数学结构表示新闻内容和相关的辅助信息,模型构建阶段时构建机器学习模型以基于特征表示更好地区分出虚假新闻。


4.2 特征抽取

传统新闻媒体上的假新闻检测主要依赖于新闻的内容,然而在社交媒体中,抽取出社交相关的辅助信息有助于检测出假新闻。因此,我们给出了如何从新闻内容和社交上下文中抽取和表示有用特征的细节。


4.2.1 新闻内容特征

新闻内容特征 c a ⃗ \vec{c_a} ca 描述了和一篇新闻有关的元信息。可表示新闻内容的属性有:

  • 源(source):新闻文章的作者或发布者;
  • 标题(headline):吸引读者注意力,描述文章的主题;
  • 内容(body text):描述新闻故事的细节,反映发布者的角度;
  • 图像/视频:新闻主体的一部分

基于这些原始的内容属性,可以构建出不同种类的特征表示以抽取出假新闻的特性。一般将新闻内容特征分为基于语言的(linguistic-based)和基于视觉的(visual-based)两类:

(1)基于语言的

假新闻是为了经济和政治目的故意创造出来的非客观的信息,所以通常包含主观的和有煽动性的语言,例如标题党。

语言学的特征可以捕获不同的写作风格和煽动性的标题,以检测出假新闻。可从新闻文章的不同层面抽取出这些特征,例如字符级别、单词级别、句子级别和文档级别。

为了捕获到假新闻和真新闻不同角度的特征,已有的工作同时利用普通的语言学特征和特定领域的语言学特征。

普通的语言学特征常用于表示文档以用于不同任务下的自然语言处理,这类语言学特征有:

1)词典特征:包括字符级别的和单词级别的,例如总单词、每个单词的字符、词频和唯一的单词;

2)句法特征:包括句子级别的特征,例如虚词(function words)和短语的频率,或者标点和POS(part-of-speech)标签。

特定领域的语言学特征通常和新闻领域相对齐,例如引证的单词、外部链接、图的数量和图的平均长度等等。此外,谎言检测的特征也可以从写作风格中捕获到是否有欺骗的信息,以用于假新闻的检测。


(2)基于视觉的

视觉信息对于假新闻的传播很重要。使用分类模型可以基于不同的用户级别、推文级别和手工选取的特征来识别出虚假的图像。

视觉特征包括清晰度分值、一致性分值、相似度分布直方图、多样性分值和聚类分值。统计学特征包括计数, image ratio, multi-image ratio, hot image ratio, long image ratio等等。


4.2.2 社交上下文特征

社交行为表示了新闻随着时间的扩散,为推断该新闻的真实性提供了有意义的辅助信息。目前几乎没有论文使用社交上下文特征进行假新闻的检测,本文给出在相似的研究领域(例如谣言真实性识别)使用到的类似的特征。本文主要考虑三个角度:用户、生成的帖子和网络。

(1)基于用户的

正如第 3.3节所述,假新闻很有可能是由非人类的账号创造并传播的。因此,使用基于用户的特征(用户在社交网络上的社交行为)捕获用户的信息和特点有助于假新闻的检测。

这些特征可以分为不同的级别:个人级别和群组级别。

1)个人级别的特征:例如用户注册年龄,关注的人数和粉丝数,发布的帖子数等等;

2)群组级别的特征:和新闻有关的一组用户整体的特征。前提是用户根据特点形成了不同的社区,并且可以使用群组级别的特征进行描述。常用的特征来自于聚合个体级别的特征,例如认证用户的比例、用户的平均粉丝数等。


(2)基于帖子的

用户通过社交媒体上的帖子来表达出他们对于假新闻的情绪和观点,例如怀疑观点、有煽动性的反应等。因此,抽取出基于帖子的特征有助于假新闻的检测。

基于帖子的特征聚焦于识别有用的信息,从相关帖子的多样的角度推断出新闻的真实性。这些特征可分为:帖子级别、群组级别和时序级别。

1)帖子级别的特征

之前提到的基于语言学的特征和一些针对新闻内容的嵌入方法也可以用于帖子的特征。

也有一些帖子独有的特征,例如立场、主题和公信力。

  • 立场特征:用户对新闻的立场,例如支持、否认;
  • 主题特征:可使用主题模型(eg. LDA)进行抽取;
  • 公信力特征:帖子的可信度

2)群组级别的特征

使用群体智慧从所有的和特定新闻文章相关的帖子中聚合得到特征信息。例如,公信力打分的均值可作为群组级别的公信力分值。

3)时序级别的特征

考虑时序变化的帖子级别的特征值。使用无监督的嵌入方法,例如RNN可以捕获到帖子随时间的变化。


(3)基于网络的

社交网络上的用户根据兴趣、主题和关系形成了不同的网络。根据之前提到的回音壁效应,抽取出基于网络的特征也有助于假新闻检测。

可以构建出不同类型的网络:

1)立场网络:节点表示所有和某一新闻相关的帖子,边表示这些帖子表达的立场间的相似度;

2)共现网络:基于用户行为构建,计数用户是否发布了和同一新闻相关的帖子;

3)交友网络:表示发布了相关帖子的用户间的关注和被关注信息。

4)扩散网络:是交友网络的扩展,记录了新闻的传播轨迹,节点表示用户,边表示他们之间的信息扩散路径。也就是说,用户 u i , u j u_i, u_j ui,uj若满足这两个条件: u j u_j uj关注了 u i u_i ui u j u_j uj u i u_i ui之后发布了和给定新闻有关的帖子,则 u i , u j u_i, u_j ui,uj间存在扩散路径。

当构建好了这些网络后,就可以应用现有的网络度量作为特征表示。例如,度和聚类系数可用于表示扩散网络和交友网络。也有一些方法使用SVD或网络传播算法得到隐层的节点嵌入特征。


4.3 模型的构建

上一节介绍了从新闻文本和社交上下文抽取用于假新闻检测的特征。本节将讨论模型构建过程的细节。我们将已有的模型基于他们主要的输入源,分类为:新闻内容的模型和社交上下文模型。


4.3.1 新闻内容模型(news content models)

本节介绍新闻内容模型,主要依赖于新闻内容特征和现存的事实源来对假新闻分类。分为两类:基于知识的和基于风格的。

(1)基于知识的

基于知识的方法旨在利用外部资源对新闻内容中提出的主张进行事实核查。目标是给某一主张分配一个真实值打分。

现有的事实核查方法可以分类为:面向专家的、面向众包的和面向计算的。

1)面向专家的事实核查:依赖于领域专家对相关数据和文档的分析,以判断主张的可信度。但这一方法需要专家知识并且耗时,不具有高效性和高可扩展性。

2)面向众包的事实核查:利用到了群体智慧。让正常人对新闻内容进行标注,然后聚合这些标注得到对新闻可信度的整体评估。

3)面向计算的事实核查:目的是提供一个自动可扩展的系统对真实和虚假的主张进行分类。先前的面向计算的事实核查方法尝试解决两个主要问题:1、识别值得检查的助长;2、辨别事实主张的真实性。针对特定主张的事实核查很大程度上依赖于外部资源来确定某一主张的真实性。例如使用知识图谱(KG)来检查新闻内容中出现的助长是否是KG中已存在的事实。


(2)基于风格的

基于风格的方法是通过捕获新闻内容写作风格中的操纵者,从而实现虚假新闻的检测。有两类基于风格的典型的方法:面向欺骗的、面向客观的。

1)面向欺骗的:从新闻内容中捕获到欺骗性的陈述或主张。最近,一些NLP模型从深层句法、修辞结构两个方面来识别欺诈信息。也有深层网络模型方法应用到了CNN对假新闻的可信度进行分类。

2)面向客观的:捕获到表明新闻内容客观性降低的风格信号,例如党派的风格(hyperpartisan styles)和黄色新闻(yellow-journalism)。基于语言学的特征可用于检测党派相关的文章。黄色新闻指的是没有经过认真调研的新闻,仅依赖于标题(eg. 标题党),倾向于夸张、煽动和引起恐慌。


4.3.2 社交上下文模型

社交媒体为研究人员提供了附加的知识作为增强新闻内容模型的补充。社交上下文模型(social context models)包括分析相关的用户社交行为,从多样的角度捕获这些辅助信息。我们将现有的社交上下文建模方法分成两大类:1)基于立场的;2)基于传播的。

注意,目前几乎没有什么假新闻检测方法使用社交上下文模型,因此本文引入了使用社交媒体的用于谣言检测的相似的方法,这些方法有应用到假新闻检测任务上的潜力。


(1)基于立场的

利用了用户对于相关帖子内容的观点,以推断出原始新闻文章的可信度。用户帖子的立场可以表示为明确的和含蓄的。

明确的立场是较为直接的表达,例如点赞和点踩。含蓄的立场可以自动地从社交媒体帖子中进行抽取,判断用户对于目标实体、事件或看法是支持、中立还是反对。

已有的立场分类模型主要依赖于人工设计的语言学特征或单一帖子的嵌入特征来进行立场的预测。主题模型,例如LDA,可以从主题中学习得到隐藏的立场的信息。使用这些方法,我们可以基于相关帖子的立场值推断出新闻的可信度。

Tacchini等人使用“like”立场信息,构建了用户和Facebook帖子组成的二部图;并基于这一网络提出半监督的概率模型以检测出帖子是恶作剧的可能性。Jin等人使用主题模型学习得到隐藏的观点,并进一步利用这些观点学习得到相关帖子和新闻内容的可信度。


(2)基于传播的

基本假设是新闻事件的可信度和相关社交媒体帖子的可信度高度相关。

传播过程可以建立成同质的和异质的可信度网络。同质的可信度网络由单一类型的实体组成,例如帖子或事件。异质的可信度网络包括不同类型的实体,例如帖子、子事件和事件。

Gupta等人提出了类似PageRank的可信度传播算法,在一个三层的user-tweet-event异质信息网络上,编码用户的可信度和推文的含义。Jin等人提出包含新闻角度的三层的层次网络,利用图优化框架来推断出事件的可信度。最近,也有学者在构建推文间异质的可信度网络时引入了对立的关系,以指导对其可信度的评估过程。


5 评价检测效果

本节介绍如何评估假新闻检测算法的效果。将介绍此任务的可用数据集以及评估度量方法。


5.1 数据集

一些公开的数据集如下所示:

(1)BuzzFeedNews

2016年美国大选期间,发布在Facebook上的来自9家机构的新闻。有1627个文章,其中826个是主流的,356个是左派的,545个是右派的。

https://github.com/BuzzFeedNews/2016-10-facebookfact-check/tree/master/data

(2)LIAR

从事实核查网站PolitiFact上收集的,包括12836个人工标注的短文本。这些文本来自多样的语境,例如新闻稿、电视采访、电台采访、竞选演说等。新闻的可信度分为:pants-fire, false, barely-true, half-true, mostly true, true。

https://www.cs.ucsb.edu/ william/data/liar dataset.zip

(3)BS Detector

使用用于检测新闻真实性的浏览器扩展BS detector收集得到的数据。

https://www.kaggle.com/mrisdal/fake-news

(4)CREDBANK

大规模的众包数据集,大约有60 million的推文,覆盖范围是从2015年10月开始的96天。

http://compsocial.github.io/CREDBANK-data/

【论文翻译 虚假新闻检测综述 KDD 2017】Fake News Detection on Social Media: A Data Mining Perspective_第3张图片

表 1比较了这些数据集,并标出了可以从每个数据集中抽取出来的特征。可以看出,没有现存的数据集可以提供所有的特征。

而且这些数据集有特定的限制,将其应用到假新闻检测是有挑战的:

(1)BuzzFeedNews只包含了每篇新闻的标题和文本,并且新闻文章的来源有限。

(2)LIAR包含了很短的文本陈述,而不是完整的新闻内容。而且这些陈述来自于多样的演讲者,而不是新闻发布者,可能含有不是假新闻的陈述。

(3)BS Detector中的数据是使用新闻核查工具得到的。由于标签不是由人类专家提供的,因此使用这些数据训练得到的模型学习到的是BS Detector的参数,而不是专家标注的ground truth假新闻的参数。

(4)CREDBANK是用于推文可信度评估的,因此该数据集中的推文不是针对特定新闻文章的真实的社交行为。

为了解决现存的假新闻检测数据集的问题,作者收集了针对社交媒体上假新闻检测的数据集FakeNewsNet,包含所有提到的新闻内容和社交上下文特征,并且有ground truth假新闻标签。

https://github.com/KaiDMML/FakeNewsNet


5.2 评估度量

绝大多数现有的方法将假新闻检测问题看成是分类问题,目的是预测一个新闻文章是否是假的:

  • TP:预测文章是假的,并且预测对了;
  • TN:预测文章是真的,并且预测对了;
  • FN:预测文章是真的,但是预测错了;
  • FP:预测文章是假的,但是预测错了。

(1)定义以下度量,值越高越好:

【论文翻译 虚假新闻检测综述 KDD 2017】Fake News Detection on Social Media: A Data Mining Perspective_第4张图片

(2)ROC曲线(Receiver Operating Characteristics)通过权衡FPR(False Positive Rate)和TPR(True Positive Rate)值,比较了分类器的性能。FPR值作为x轴,TPR值作为y轴。TPR和FPR定义如下:

【论文翻译 虚假新闻检测综述 KDD 2017】Fake News Detection on Social Media: A Data Mining Perspective_第5张图片

(3)基于ROC曲线,可以计算出AUC值(Area Under the Curve)。AUC值衡量了分类器将假新闻排在真新闻前面的整体表现。AUC定义如下:

其中 r i r_i ri是对第 i t h i_{th} ith个新闻文章排名, n 0 ( n 1 ) n_0(n_1) n0(n1)是假(真)新闻的数量。AUC比accuracy更具有统计一致性和辨别性,它常用于不均衡的分类问题。例如在假新闻分类中,假新闻和真新闻的分布是不均衡的。


6 相关领域

本节进一步讨论了和假新闻检测有关的研究领域。目的是通过简要地解释任务目标并突出流行的方法,指出这些领域和假新闻检测的不同之处。


6.1 谣言分类

谣言指的是一条在传播时其真实性尚未得到证实的消息。谣言的作用是让一个模棱两可的情况变得说得通(make sense),而其真实值可能是真的、假的或未证实的。

先前的用于谣言分析的方法聚焦于4个子任务:谣言检测、谣言追踪、立场分类和可信度分类。

(1)谣言检测的目的是将一条信息分类成是或不是谣言;

(2)谣言追踪的目的是收集并过滤讨论特定谣言的帖子;

(3)谣言立场分类是识别出每个相关帖子的真实性;真实性分类试图预测出谣言的真实值;

(4)谣言可信度分类是和假新闻检测最相关的任务,这一任务高度依赖于其他子任务,需要从相关的帖子中抽取出立场和观点。这些帖子可看成是决定谣言真实性的重要的传感器。


区别

谣言包括长期的,例如阴谋论,也包括短期的。假新闻指的是和公共新闻事件相关的且已被证实为假的信息。


6.2 事实发现

事实发现是从多个有冲突的来源中检测出事实。事实发现方法并不直接探究事实主张,而是依靠一组记录了对象属性的矛盾的资料来源,从而确定真实值。

事实发现的目的是同时确定来源的可信度和客观的真实性。


在许多场景下,假新闻检测都可以从事实发现方法中获益:

(1)不同新闻来源的可行度可用于推断出其所发表的新闻的真实性;

(2)相关的社交媒体的帖子可以建模成社交反应来源(social reponse sources),以更好地判断主张的可信度。


在社交媒体场景下,要将事实发现应用到假新闻检测中,还需要考虑一些问题:

(1)绝大多数事实发现的方法聚焦于处理SPO(Subject-Predicate-Object)元组形式的有结构的输入,然而社交媒体数据是高度无结构的并且带有噪声;

(2)当假新闻是刚刚发布的并且只有很少的新闻机构发布了这一新闻时,事实发现方法不能很好的应用于假新闻的检测,因为此时没有足够多的和该假新闻相关的社交媒体帖子来作为附加源。


6.3 标题党检测

标题党指的是引人注目的让人好奇的标题。

标题党文章的正文通常有一定的组织形式并且和标题相似度不高。研究者通过识别标题和新闻内容的不一致性,可以检测出假新闻。尽管不是所有的假新闻都包含标题党,特定的标题党可视为重要的指示器,并且可利用多样的特征帮助检测出假新闻。


6.4 机器人检测(Spammer and Bot Detection)

Spammer检测的目的是捕获相互配合发起多种攻击的有害用户。现有的方法主要依赖于从用户行为和社交网络信息中抽取出特征。

此外,social bots也加速了假信息的传播,因为它们自动地转发一些推文而不验证其真实性。社交机器人带来的主要挑战是,它们会给人这一信息非常受欢迎并且已被很多人认可的假象,然后利用了回音壁效应,对假新闻的传播起到积极作用。先前的用于机器人检测的方法是基于社交网络信息的。

spammer和social bot检测中对于有害中户的检测可以用于假新闻检测中。


7 开放的问题和未来的研究方向

本节将介绍假新闻检测领域的开放问题和未来的研究方向。如图 2所示,作者将研究方向分为了4类:面向数据的、面向特征的、面向模型的和面向应用的。

【论文翻译 虚假新闻检测综述 KDD 2017】Fake News Detection on Social Media: A Data Mining Perspective_第6张图片

(1)面向数据的

面向数据的假新闻检测研究聚焦于不同类别的数据特征,例如:数据集、时间的和心理学的。

1)从数据集的角度,我们上面提到过还没有包括了可抽取出所有相关特征的benchmark dataset。因此,研究方向之一就是构建一个可解释的大型的假新闻benchmark dataset。

2)从时间的角度来看,社交媒体上的假新闻传播呈现出与真实新闻不同的独特的时间模式。因此,另一个有意义的研究方向就是进行假新闻的早期检测,目的是在假新闻的传播过程中给出早期的警告信号。

3)从心理学的角度来看,心理学文献对假新闻从不同的方面进行了定性的探讨,但是证实这些心理学因素的定量的研究还很有限。例如,如何捕获回音壁效用,如何利用这一模式以用于社交媒体上的假新闻检测。

4)此外,从新闻数据中进行意图检测也是有前景的研究方向。现有的大多数假新闻研究仅聚焦于检测真实性,而忽视了假新闻的意图。


(2)面向特征的

面向特征的假新闻研究目的是从多个数据来源中确定可用于假新闻检测的有效的特征。正如我们在文中所说的那样,有两个主要的数据源:新闻内容和社交上下文。

1)从新闻内容的角度来看,我们介绍了基于语言学和基于视觉的技术来从文本信息中抽取出特征。

值得注意的是,语言学特征已在许多NLP任务中得到了广泛应用,例如文本分类和聚类、欺诈检测、作者识别等,但假新闻的特性还没有被完全理解。

视觉特征已被证明有助于假新闻的检测,但是很少有研究利用有效的视觉特征。而且最近有一些研究可以操纵视频片段,合成高质量的视频。因此,区分真假视觉内容变得越来越有挑战性,需要更高级的基于视觉的特征以进行假新闻检测的研究。

2)从社交上下文(social context)的角度来看,我们介绍了基于用户的、基于帖子的和基于网络的特征。

现有的基于用户的特征主要聚焦于用户的一般信息(profiles),而不是区别不同类型的账户并抽取特定用户的特征。

基于帖子的特征可以使用其他的方法,例如CNN,来更好地捕获人们对于假新闻的观点和反应。

基于网络的特征被提取来表示不同类型的网络是如何构造的。需要在这一基础工作上进行扩展:

  • 根据相关用户和帖子之间的不同方面的关系,如何构建其他网络;
  • 其他更高级的网络表示方法,例如网络嵌入。

(3)面向模型的

已有的大多数方法聚焦于抽取多样的特征,并将这些特征合并到有监督的分类模型中,例如朴素贝叶斯、决策树、logistic回归、KNN和SVM,然后选取分类效果最好的分类器。

有一些研究构建了更复杂更有效的模型以更好地利用抽取出来的特征,例如聚合方法、概率方法、集成方法、映射方法。

我们认为有前景的研究方向如下:

1)聚合方法中对不同的特征表示进行加权,并优化特征的权重;

2)假新闻可能将真实陈述和虚假的主张进行混合,因此使用概率模型而不是二分类对假新闻进行分类可能会更好;

3)考虑单一特征会使模型在性能上受限。集成的方法可以结合多个弱分类器以学习到一个强分类器,比单独使用任何一个分类器的效果都要好。可对新闻内容和社交上下文特征进行集成建模。

4)假新闻内容和社交上下文信息在原始的特征空间中可能是有噪声的。映射的方法可以学习到原始特征空间间(例如新闻内容特征和社交上下文特征)的映射函数,并且隐层的特征空间也许更有助于分类。

5)此外,大多数方法都是有监督的,需要预先标注好的假新闻数据集来训练模型。未来可以考虑半监督的方法或无监督的方法。


(4)面向应用的

1)假新闻扩散

假新闻扩散描述了假新闻在社交媒体网站上的传播模式和传播路径的特征。有一些研究表明真实的信息和假信息在社交网络间传播时的模式不同。

同样的,社交媒体上假新闻的传播也有其自身的特点,例如社会维度、生命周期、传播者身份等,需要进一步研究。

1、社会维度:指的是不同社区间社交关联的若依赖性和异质性。不同的社会维度在政治、教育、体育等话题下的假新闻传播中为什么以及如何发挥作用的,值得研究。

2、生命周期:由于人们的注意力和反应是随时间变化的,假新闻的传播郭晨也有不同的阶段和生命周期。研究假新闻的生命周期可以更深刻地理解某一故事是如何从普通的公共话语中传播开来的。追踪假新闻的生命周期需要记录假新闻扩散的关键轨迹,也需要对特定的假新闻报道过程进行进一步调查,例如基于图的模型和基于进化(evolution-based)的模型。

3、传播者身份:识别关键的传播者也是十分重要的。可以根据立场和真实性识别出关键的传播者。

从立场角度来说,传播者可能是对假新闻呈反对观点的澄清者,也可能是支持假新闻并劝说别人也相信的劝说者。

从真实性角度来说,传播者可能是人类、bot或cyborg。需要进一步的研究以更好地检测出用于传播假新闻的恶意账号。

2)假新闻的介入(intervention)

目的是通过采取主动介入的方法,以最小化假新闻的传播范围,从而减小假新闻的影响。

主动的假新闻介入方法有:

1、移除恶意账户

2、用真实的新闻让用户免疫,改变可能已经被假新闻影响的用户的认知。已有研究使用基于内容的介入和基于网络的介入方法,用于假信息的介入。之前提到的传播者检测方法也可用于特定用户的检测,例如找到说服者使其停止假新闻的传播,找到澄清者最大化对应的真实新闻的影响范围。


8 总结

本文通过对现有的文献进行回顾,对假新闻的检测问题进行了探讨,分为两个阶段:表征和检测。

在表征阶段,我们提出了假新闻在传统媒体和社交媒体上的基本的概念以及规则。

在检测阶段,我们从数据挖掘的角度回顾了已有的假新闻检测方法,包括特征的抽取和模型的构建。

我们还进一步讨论了假新闻检测领域的数据集、验证度量和未来有意义的研究方向,并将此领域扩展到了其他的应用中。

你可能感兴趣的:(论文,虚假信息识别,假新闻检测,KDD,2017)