论文链接:https://arxiv.org/pdf/1708.01967.pdf
目录
摘要
1 引言
2. 假新闻定义
2.1 假新闻的定义
2.2 传统新闻媒体上的假新闻
2.3社交媒体上的假新闻
3.假新闻检测
3.1问题定义
3.2 特征提取
3.2.1 新闻内容特征
3.2.2 社会语境特征
3.3 模型构建
3.3.1 新闻内容模型
3.3.2社会背景模型
4.评估检测效果
4.1数据集
4.2 评估指标
5.相关领域
5.1谣言分类
5.2 真相发现
5.3 点击诱饵检测
5.4 垃圾邮件发送者和机器人检测
6. 有待解决的问题和未来的研究
7. 结论
社交媒体的作用:
新闻消费的社交媒体是一把双刃剑。一方面,它的低成本,易于访问和快速的信息分发导致人们从社交媒体中寻找和消费新闻。
另一方面,它可以广泛传播 “假新闻”,即具有常规虚假信息的低质量新闻。假新闻的广泛传播有可能对个人和社会产生极其负面的影响。因此,社交媒体上的假新闻检测最近已成为一项新兴研究,引起了极大的关注。
假新闻检测现状:
社交媒体上的假新闻检测具有独特的特点和挑战,使传统新闻媒体的现有检测算法无效或不适用。
首先,假新闻是故意写的,目的是误导读者相信虚假信息,这使得基于新闻内容的检测变得困难且不平凡; 因此,我们需要包括辅助信息,例如社交媒体上的用户社交活动,以帮助做出决定。其次,排除这种辅助信息本身具有挑战性,因为用户与假新闻的社交活动产生的数据是大的,不完整的,非结构化的和嘈杂的。因为社交媒体上的假新闻检测问题既具有挑战性又具有相关性,我们进行了这项调查,以进一步促进对该问题的研究。
在本次调查中,我们对检测社交媒体上的假新闻进行了全面回顾,包括心理学和社会理论上的假新闻特征,数据挖掘的现有算法,评估指标和代表性数据集。我们还讨论了相关的研究领域,公开问题以及社交媒体上假新闻检测的未来研究方向。
背景介绍,引入假新闻:
随着我们生活中越来越多的人通过社交媒体平台在线互动,越来越多的人倾向于从社交媒体而不是传统的新闻机构寻找和消费新闻。这种消费行为变化的原因是这些社交媒体平台的本质所固有的 :( i) 与传统的新闻媒体 (如报纸或电视) 相比,在社交媒体上消费新闻往往更及时,成本更低;和(ii)更容易与朋友或其他读者在社交媒体上进一步分享、评论和讨论该新闻。例如,62% 的美国成年人在社交媒体2016年上获得新闻,而2012年,只有49% 的人报告在社交媒体上看到新闻。还发现,社交媒体现在的表现优于电视,成为主要新闻来源。尽管社交媒体提供了优势,但社交媒体上的新闻质量却低于传统的新闻机构。但是,由于在线提供新闻便宜,并且可以更快,更容易地通过社交媒体传播,因此在线制作了大量虚假新闻,即那些故意虚假信息的新闻文章,用于各种目的,例如财务和政治利益。据估计,到总统选举结束时,超过100万条推文与假新闻 “Pizzagate” 有关。鉴于这种新现象的普遍存在,“假新闻” 甚至被麦格理词典2016年评为年度词汇。
假新闻负面影响:
假新闻的广泛传播会对个人和社会产生严重的负面影响。首先,假新闻可以打破新闻生态系统的真实性平衡。例如,很明显,在美国2016 总统选举期间,最受欢迎的假新闻在Facebook上的传播甚至比最流行的真实主流新闻还要广泛。其次,假新闻有意说服消费者接受有偏见或错误的信念。假新闻通常由宣传者操纵以传达政治讯息或影响。例如,一些报告显示俄罗斯创建了虚假帐户和社交机器人来传播虚假故事。第三,假新闻改变了人们对真实新闻的反应方式。例如,创建一些假新闻只是为了引发人们的不信任并使他们感到困惑,从而阻碍了他们区分真实与不真实的能力。为了帮助减轻假新闻造成的负面影响-既有利于公众,也有利于新闻生态系统-我们开发方法来自动检测社交媒体上的假新闻是至关重要的。
假新闻检测挑战:
在社交媒体上检测假新闻会带来一些新的且具有挑战性的研究问题。尽管假新闻本身并不是一个新问题-几个世纪以来,国家或团体一直在使用新闻媒体进行宣传或影响行动-但网络新闻在社交媒体上的兴起使假新闻成为挑战传统新闻规范的更强大力量。
此问题的几个特征使其对自动检测具有独特的挑战性。
首先,假新闻是故意误导读者的,这使得仅根据新闻内容进行检测是不容易的。假新闻的内容在主题、风格和媒体平台上相当多样化,假新闻试图以多样化的林式风格歪曲真相,同时嘲笑真实新闻。例如,假新闻可能会在正确的上下文中引用真实的证据来支持非事实的主张 [22]。因此,现有的手工制作和特定于数据的文本特征通常不足以检测假新闻。还必须应用其他辅助信息来改善检测,例如知识库和用户社交活动。
其次,利用这些辅助信息实际上会带来另一个关键挑战: 数据本身的质量。假新闻通常与新出现的,时间紧迫的事件有关,由于缺乏确凿的信息或主张,这些事件可能尚未被现有的知识库正确验证。
此外,用户与假新闻的社交互动产生的数据是大的、不完整的、非结构化的和嘈杂的 [79]。区分可信用户,提取有用的帖子功能和利用网络交互的有效方法是一个开放的研究领域,需要进一步研究。
本调查研究动机:
在本文中,我们概述了假新闻检测并讨论了有前途的研究方向。本调查的主要动机总结如下:
社交媒体上的假新闻已经发生了好几年; 但是,“假新闻” 一词的定义尚未达成共识。为了更好地指导假新闻检测研究的未来方向,有必要进行适当的澄清;
事实证明,社交媒体是虚假新闻传播的有力来源。有一些新兴的模式可以用于社交媒体中的假新闻检测。对各种社交媒体场景下现有的假新闻检测方法的回顾可以提供对最先进的假新闻检测方法的基本了解;
社交媒体上的假新闻检测仍处于发展的早期,仍有许多有挑战性的问题需要进一步调查。有必要讨论可以改善假新闻检测和缓解能力的潜在研究方向。
为了促进社会媒体假新闻检测的研究,在本调查中,我们将回顾假新闻检测问题的两个方面: 特征和检测。如图1所示,我们将首先使用心理学和社会研究的理论和支持来描述假新闻检测问题的背景; 然后介绍检测方法。我们对这项调查的主要贡献总结如下:
假新闻定义:我们讨论了涵盖文献中大多数现有定义的虚假新闻的狭义和广义定义,并进一步介绍了社交媒体上虚假新闻的独特特征及其与传统媒体的影响;
代表性方法:我们对现有的假新闻检测方法进行了概述,并以原则性的方式将代表性方法分为不同的类别;
未来研究方向:我们讨论了几个未解决的问题,并提供了社交媒体中假新闻检测的未来方向。
章节安排:
本次调查的其余部分安排如下:
在第2节中,我们介绍了假新闻的定义,并通过比较传统媒体和社交媒体中的不同理论和属性来对其进行分类;
在第3节中,我们继续正式定义假新闻检测问题,并总结了检测假新闻的方法;
在第4节中,我们讨论了现有方法使用的数据集和评估指标;
我们在第5节中简要介绍了与社交媒体上的假新闻相关的领域;
最后,我们在第6节中讨论了未解决的问题和未来的方向,并在第7节中总结了本调查。
在本节中,我们介绍与假新闻相关的基本社会和心理理论,并讨论社交媒体引入的更高级模式。具体来说,我们首先讨论假新闻的各种定义,并区分通常被误解为假新闻的相关概念。然后,我们描述传统媒体上假新闻的不同方面以及社交媒体上发现的新模式。
假新闻已经存在了很长时间,几乎与1439年印刷机发明后新闻开始广泛传播的时间相同。然而,“假新闻” 一词没有一致的定义。
因此,我们首先讨论和比较现有文献中一些广泛使用的假新闻定义,并提供我们对假新闻的定义,这些定义将用于本调查的其余部分。
狭义定义:
虚假新闻的狭义定义是指新闻文章在常规上是虚假的,并且可能误导读者 [2]。这个定义有两个关键特征: 真实性和意图。
首先,假新闻包括可以被证实的虚假信息。
其次,虚假新闻是出于不诚实的意图而误导消费者的。
这一定义在最近的研究中被广泛采用 [57; 17; 62; 41]。
广义定义:
虚假新闻的更广泛定义集中在新闻内容的真实性或意图上。
有些报纸将讽刺新闻视为假新闻,因为内容是虚假的,尽管讽刺通常是娱乐导向的,并向消费者揭示了其自身的欺骗性 [67; 4; 37; 9]。
其他文献直接将欺骗性新闻视为假新闻 [66],其中包括严重的捏造、恶作剧和讽刺。在本文中,我们使用虚假新闻的狭义定义。
从形式上看,我们对这一定义的表述如下:
定义1(假新闻) 假新闻是指故意并可证实为虚假的新闻文章。故意和可核实的虚假。
选择狭义定义原因:
选择这种狭义定义的原因有三个方面。
首先,假新闻的潜在意图提供了理论和实践价值,可以更深入地理解和分析该主题;
其次,适用于狭义假新闻概念的任何真相验证技术也可以在更广泛的定义下应用;
第三,此定义能够消除假新闻与本文未考虑的相关概念之间的矛盾。
根据我们的定义,以下概念不是假新闻 :
( 1) 具有适当背景的讽刺新闻,无意误导或欺骗消费者,并且不太可能被误认为是事实;
(2) 并非源于新闻事件的谣言;
(3) 虚假理论,很难证实是真的还是假的;
(4) 无意中产生的错误信息;
(5) 仅出于娱乐或欺骗目标个人的恶作剧。
假新闻本身并不是一个新问题。随着时间的推移,假新闻的媒体生态一直在从新闻纸到广播/电视,以及最近的在线新闻和社交媒体。传统的假新闻是指在社交媒体对其生产和传播产生重要影响之前的假新闻问题。
接下来,我们将描述几个心理和社会科学基础,这些基础描述了假新闻在个人和社会信息生态系统层面的影响。
假新闻在个人和社会信息生态系统层面的影响:
假新闻的心理基础。人类天生不擅长区分真新闻和假新闻。有几种心理学和认知理论可以解释这一现象和假新闻的影响力。传统的假新闻主要是通过利用消费者的个人弱点来欺骗他们。有两个主要因素使消费者自然容易受到假新闻的影响:
(I)Näıve现实主义:消费者倾向于认为他们对现实的感知是唯一准确的观点,而其他不同意的人被视为不知情、不理性或有偏见[92];
(Ii)确认偏差:消费者更喜欢接收证实其现有观点的信息[58]。
由于这些认知偏见根深蒂固,假新闻往往会被消费者认为是真实的。
此外,一旦形成误解,就很难再纠正。心理学研究表明,通过介绍真实的、符合事实的信息来纠正虚假信息(如假新闻),不仅无助于减少误解,有时甚至可能增加误解,尤其是在意识形态群体中[59] 。
假新闻生态系统的社会基础。考虑到整个新闻消费生态系统,我们还可以描述一些导致假新闻泛滥的社会动态。前景理论将决策描述为人们根据与当前状态相比的相对收益和损失做出选择的过程 [39; 81]。这种最大化决策奖励的愿望也适用于社交收益,例如,用户的直接社交网络中其他人的持续接受。正如社会认同理论 [76; 77] 和规范影响理论 [3; 40] 所描述的,这种对社会接受和肯定的偏好对于一个人的身份和自尊至关重要,使得用户在消费和传播新闻信息时可能会选择 “社会安全” 的选项,遵循社区中建立的规范,即使被分享的新闻是假新闻。
这种假新闻互动的理性理论可以从经济博弈理论的角度进行修改 [26],将新闻生成和消费周期表述为两人策略博弈。为了解释假新闻,我们假设信息生态系统中有两种主要参与者: 发布者和消费者。
新闻发布的过程被建模为从原始信号s到结果新闻报道a的映射,具有失真偏差b的影响,即,其中b = [-1,0,1] 表示 [left,no,right] 偏见会影响新闻发布过程。
发布者效用:
直观地说,这是在捕捉新闻文章可能被偏见或扭曲以产生假新闻的程度。发布者的效用源于两个角度 :
( i) 短期效用: 利润最大化的动机,与消费者达到的数量正相关;
(ii) 长期效用: 他们在新闻真实性方面的声誉。消费者的效用由两部分组成 :( i) 信息效用: 获得真实且无偏见的信息 (通常是需要的投资成本); (ii) 心理学效用: 接收满足其先验观点和社会需求的新闻,例如确认偏差和前景理论。
在这个新闻消费过程的战略游戏中,发布者和消费者都试图最大化他们的整体效用。我们可以捕捉到这样一个事实,即假新闻发生在短期效用支配一个发布者的整体效用,心理效用支配消费者的整体效用,并保持均衡。这解释了导致信息生态系统的社会动态,假新闻可以蓬勃发展。
在本小节中,我们将讨论社交媒体上假新闻的一些独特特征。具体来说,我们将强调社交媒体启用的假新闻的关键特征。注意,传统假新闻的上述特征也适用于社交媒体。
社交媒体上的恶意帐户进行宣传。虽然社交媒体上的许多用户是合法的,但社交媒体用户也可能是恶意的,在某些情况下甚至不是真正的人类。创建社交媒体帐户的低成本也鼓励了恶意用户帐户,例如社交机器人,半机械人用户和巨魔。
社交机器人是指由计算机算法控制的社交媒体帐户,用于在社交媒体上自动产生内容并与人类 (或其他机器人用户) 进行交互 [23]。社交机器人可以成为专门设计的恶意实体,目的是造成伤害,例如在社交媒体上操纵和传播假新闻。研究表明,社交机器人大规模地扭曲了2016美国总统大选在线讨论 [6],并且在大选之日之前的一周,大约有1900万个机器人帐户在推特上支持特朗普或克林顿。巨魔是真正的人类用户,旨在破坏在线社区并激起消费者的情绪反应,在社交媒体上传播假新闻方面也发挥着重要作用。例如,有证据表明,有1,000个付费的Russian巨魔在希拉里·克林顿上散布假新闻。
人们的情绪和在线讨论的内容很大程度上影响了人们的网络行为,这使得假新闻很容易在原本“正常”的网络社区中传播[14]。巨魔的效果是触发人们内心的负面情绪,如愤怒和恐惧,导致怀疑、不信任和非理性行为。最后,机器人用户可以通过一种将自动活动与人工输入相结合的方式传播假新闻。通常,半机械人的账户被人类注册为伪装,并设置自动程序在社交媒体上执行活动。人类和机器人之间功能的轻松切换为机器人用户提供了传播假新闻的独特机会[15]。综上所述,这些社交媒体上的高度活跃和党派恶意账号成为虚假新闻的强大来源和扩散。
回声室效应。社交媒体为用户提供了一种新的信息创造和消费范式。信息寻求和消费过程正在从中介形式 (例如,由记者) 转变为更具非中介形式的方式 [19]。由于新闻提要在社交媒体的主页上的出现方式,消费者有选择地对某些类型的新闻提出了建议,从而加剧了消除上述虚假新闻的心理挑战。例如,Facebook上的用户总是关注志同道合的人,从而收到宣传他们青睐的现有叙述的新闻 [65]。因此,社交媒体上的用户倾向于组成包含志同道合的人的小组,然后在其中两极化他们的意见,从而产生回声室效应。由于以下心理因素,回音室效应促进了人们消费和相信假新闻的过程[60] :
(1) 社会可信度,这意味着如果其他人认为来源是可信的,尤其是当没有足够的信息来获取来源的真实性时,人们更有可能认为来源是可信的;
(2) 频率启发式,这意味着消费者可能会自然而然地偏爱他们经常听到的信息,即使是假新闻。研究表明,增加对一个想法的接触足以产生对它的正面评价 [100; 101],并且在回声室中,用户继续共享和消费相同的信息。结果,这种回声室效应创建了具有非常有限的信息生态系统的分割的同质的社区。研究表明,同质社区成为信息扩散的主要驱动力,进一步加强了极化 [18]。
在上一节中,我们介绍了传统假新闻和社会媒体中假新闻的概念特征。基于此特征,我们进一步探讨了问题定义和提出的假新闻检测方法。
在本小节中,我们将介·绍社交媒体上假新闻检测的数学公式的详细信息。具体地,我们将介绍假新闻关键组成部分的定义,然后提出假新闻检测的正式定义。基本符号定义如下,
让我们参考一篇新闻文章。它由两个主要组件组成:出版商和内容: 出版商~包括一组描述原始作者的配置文件特征,如姓名、域、年龄等属性。Content~由一组表示新闻文章的属性组成,包括标题、文本、图像等。
我们还将社会新闻参与定义为一组元组,以表示新闻如何在n个用户及其相应的帖子关于新闻文章a的社交媒体上的对应帖子。每个参与表示用户在时间t使用传播新闻文章a。请注意,如果文章a还没有任何参与,则我们设置t = Null,因此代表发布者。
假新闻预测函数:
定义2 (假新闻检测)
鉴于新闻文章a的n个用户之间的社会新闻参与,假新闻检测的任务是预测新闻文章a是否为假新闻,即 使得,
其中F是我们想要学习的预测函数。
请注意,我们将假新闻检测定义为二进制分类问题,原因如下: 假新闻从本质上讲是对发布者操纵的信息的失真偏差。
根据以前关于媒体偏见理论的研究[26],失真偏差通常被建模为一个二进制的分类问题。
假新闻检测的通用数据挖掘框架:
接下来,我们提出了一个用于假新闻检测的通用数据挖掘框架,该框架包括两个阶段 :( i) 特征提取和 (ii) 模型构建:
特征提取阶段旨在将新闻内容和相关辅助信息以形式化的数学结构表示;
模型构建阶段进一步建立机器学习模型,以根据特征表示更好地区分假新闻和真实新闻。
传统新闻媒体上的假新闻检测主要依赖于新闻内容,而在社交媒体上,额外的社交上下文辅助信息可以作为辅助信息来帮助检测假新闻。因此,我们将介绍如何从新闻内容和社交环境中提取和表示有用功能的详细信息。
传统新闻媒体上的假新闻检测主要依赖于新闻内容;
而在社交媒体上,额外的社交上下文辅助信息可以作为辅助信息来帮助检测假新闻。因此,我们将介绍如何从新闻内容和社交环境中提取和表示有用功能的详细信息。
新闻内容特征描述的是与一条新闻相关的元信息。下面列出了具有代表性的新闻内容属性列表:
来源: 新闻文章的作者或发布者 ;
标题: 旨在吸引读者注意力并描述文章主要主题的简短标题文本 •;
正文: 阐述新闻故事细节的主要文本;通常有一个主要的主张被特别强调,并塑造了出版商的角度
图像/视频: 新闻文章的部分正文内容,提供视觉线索来构建故事;
基于这些原始内容属性,可以建立不同类型的特征表示来提取假新闻的区别性特征。通常,我们正在查看的新闻内容将主要是基于语言和视觉的,下面将进行更详细的描述。
基于语言的: 由于假新闻是出于意图而创建的,目的是为了财务或政治利益,而不是为了表达客观的主张,因此它们通常包含固执己见和煽动性的语言,以 “点击诱饵” 的形式制作 (即,给诱惑用户点击链接阅读全文) 或煽动混乱 [13]。因此,利用捕获不同写作风格和耸人听闻的标题的语言特征来检测假新闻是合理的。基于语言的特征是从不同层次的文档组织中从文本内容中提取的,例如字符,单词,句子和文档。为了涵盖假新闻和真实新闻的不同方面,现有工作利用了常见的语言特征和特定领域的语言特征。常见的语言特征通常用于表示自然语言处理中各种任务的文档。
典型的常见语言学特征有:(1)词汇特征,包括字级特征和词级特征,如总词数、单字数、大词频度和独特词;
(ii) 句法特征,包括句子层面的特征,如功能词和短语的频率(即 "n-grams" 和词袋方法[24])或标点符号和语篇(POS)标记。
(iii) 特定于领域的语言特征,专门与新闻领域对齐,例如引用词,外部链接,图形数量和图形的平均长度等 [62];
(iv) 此外,可以专门设计其他功能来捕获写作风格中的欺骗性线索,以区分假新闻,例如说谎检测特征 [1]。
基于视觉的: 视觉提示已被证明是假新闻宣传的重要操纵器。正如我们所描述的那样,假新闻利用了人们的个人能力,因此经常依靠耸人听闻甚至虚假的图像来激起消费者的愤怒或其他情绪反应。从视觉元素 (例如图像和视频) 中提取基于视觉的特征,以捕获虚假新闻的不同特征。使用分类框架 [28] 基于各种用户级别和推文级别的手工制作特征来识别伪造图像。最近,各种视觉和统计特征被提取出来用于新闻检测 [38]。视觉特征包括清晰度得分,一致性得分,相似性分布直方图,多样性得分和聚类得分。统计特征包括计数,图像比率,多图像比率,热图像比率,长图像比率等。
社交上下文特征:
除了与新闻文章内容直接相关的功能外,还可以从社交媒体平台上的新闻消费的用户驱动的社交参与中得出其他社交上下文功能。
社交活动代表了随时间推移的新闻扩散过程,它提供了有用的辅助信息来推断新闻文章的真实性。
请注意,文献中很少有论文使用社会语境特征检测假新闻。但是,因为我们认为这是成功检测假新闻的关键方面,所以我们引入了类似研究领域中使用的一组共同特征,例如社交媒体上的谣言准确性分类;
通常,我们要代表社交媒体上下文的三个主要方面: 用户,生成的帖子和网络。下面,我们研究如何从这三个方面提取和表示社会背景特征以支持假新闻保护。
基于用户: 正如我们在第2.3节中提到的,假新闻很可能是由非人类账户 (如社交机器人或机器人) 创建和传播的。因此,通过基于用户的特征捕获用户的配置文件和特征可以为假新闻检测提供有用的信息。基于用户的功能表示与社交媒体上的新闻进行交互的用户的特征。这些功能可以分为不同的级别: 个人级别和小组级别。使用用户人口统计的各个方面,例如注册年龄,关注者/关注者数量,用户撰写的推文数量等,提取个人级别特征以推断每个用户的可信度和可靠性 [11]。组级别的用户功能与新闻相关的用户组的总体特征 [99]。其假设是,假新闻和真新闻的传播者可能形成不同的社区,具有独特的特征,可以通过群体层面的特征来描述。常用的组级别特征来自聚合 (例如,平均和加权) 个人级别特征,例如 “已验证用户的百分比” 和 “追随者的平均数量” [49; 42]。
基于帖子的: 人们通过社交媒体帖子表达自己的情绪或观点,如偏颇的观点、耸人听闻的反应等。因此,可以提取基于帖子的功能,以帮助通过帖子中表达的公众的反应来发现潜在的假新闻。基于帖子的功能侧重于识别有用的信息,以从相关社交媒体帖子的各个方面推断新闻的真实性。这些功能可以被分类为帖子级别,小组级别和时间级别。
帖子级别的特征生成每个帖子的特征值。上述基于语言的特征和一些新闻内容的嵌入方法 [69] 也可以应用于每个帖子。具体地说,代表一般公众的社会反应的帖子有独特的特征,如立场、话题和可信度。立场特征(或观点)表示用户对新闻的意见,如支持、否认等[37]。主题特征可以使用主题模型来提取,例如潜在Dirichlet分配(LDA)[49]。
可信度特征评估可靠性程度[11]。群体级特征旨在通过使用“群体智慧”来聚集特定新闻文章的所有相关帖子的特征值。例如,平均可信度分数被用来评估新闻的可信度[37]。更全面的小组级帖子特征清单也可在[11]中找到。时间级特征考虑了帖子特征值的时间变化[49]。使用非监督嵌入方法,如循环神经网络(RNN),来捕捉帖子随时间的变化[69;48]。基于相关帖子的各种度量(例如,帖子数量)的该时间序列的形状,可以计算数学特征,诸如SpikeM参数[42]。
基于网络: 用户在兴趣、话题和关系方面在社交媒体上形成不同的网络。正如以前所提到的那样,假新闻传播过程往往会形成回声室循环(社交媒体上的用户倾向于组成包含志同道合的人的小组,然后在其中两极化他们的意见,从而产生回声室效应),从而突出显示了基于网络的特征来表示这些类型的网络模式以进行假新闻检测的价值。通过在发布相关社交媒体帖子的用户之间构建特定网络来提取基于网络的特征。可以构建不同类型的网络。
可以建立立场网络,其节点指示与新闻相关的所有推文,边缘指示相似立场的权重 [37; 75];
另一种类型的网络是共现网络,它是基于用户参与建立的,通过计算这些用户是否撰写与同一新闻文章相关的帖子 [69]。
此外,友谊网络表示发布相关推文的用户的关注/关注者结构 [42]。这种友谊网络的扩展是扩散网络,它跟踪新闻传播的轨迹 [42],其中节点代表用户,边代表用户之间的信息扩散路径。也就是说,当且仅当 (1) 关注,并且 (2) 仅在之后才发布有关给定新闻的信息时,两个用户和之间存在扩散路径。如果构建正确,则可以将现有的网络度量应用为特征表示。例如,已经使用度和聚集系数来表征扩散网络[42]和友谊网络[42]。其他方法通过使用奇异值分解[69]或网络传播算法[37]来学习潜在节点嵌入特征。
方法:新闻内容模型和社会背景模型
在上一节中,我们介绍了从不同来源提取的特征,即新闻内容和社交内容,用于假新闻检测。在本节中,我们将讨论几种现有方法的模型构建过程的细节。具体来说,我们根据现有方法的主要输入来源将其分类为: 新闻内容模型和社会背景模型。
方法:基于知识的方法和基于风格的方法
在这一小节中,我们重点介绍了新闻内容模型,该模型主要根据新闻内容特征和现有的事实来源对假新闻进行分类。具体地说,现有的方法可以分为基于知识的方法和基于风格的方法。
基于知识: 由于假新闻试图在新闻内容中传播虚假声明,因此最直接的检测手段是检查新闻文章中主要声明的真实性,以决定新闻的真实性。基于知识的方法旨在使用外部资源对新闻内容中的拟议主张进行事实核查。事实核查的目标是在特定情况下为声明分配真实值 [83]。事实核查引起了越来越多的关注,并且已经做出了许多努力来开发可行的自动化事实核查系统。现有的事实检查方法可以分为面向专家,面向众包和面向计算的方法。
基于知识方法:专家、众包、计算
面向专家的事实核查:在很大程度上依赖于人类领域专家来调查相关数据和文件,以构建声明真实性的判决,例如PolitiFact(PolitiFact)、Snopes(Snopes.com | The definitive fact-checking site and reference source for urban legends, folklore, myths, rumors, and misinformation.)等。然而,面向专家的事实检查是一个智力要求高且耗时的过程,这限制了高效率和可扩展性的潜力;
面向众包的事实检查利用 “人群的智慧” 来使普通人能够注释新闻内容; 然后将这些注释汇总起来,以产生对新闻真实性的总体评估。例如,Fiskkit(Fiskkit.com Discuss news that matters and find out what's true.)允许用户讨论和注释新闻文章特定部分的准确性。作为另一个示例,名为 “For real” 的反假新闻机器人是即时通信移动应用程序LINE(https://grants.g0v.tw/projects/588fa7b382223f001e022944)中的公共帐户,该帐户允许人们报告可疑新闻内容,然后由编辑者进一步检查。
面向计算的事实检查旨在提供一种自动可扩展的系统来对真实和错误的声明进行分类。以前的面向计算的事实检查方法试图解决两个主要问题: (i) 识别值得检查的声明和(ii) 辨别事实声明的真实性。
依赖外部资源确定声明的真实性:
为了识别有检查价值的声明,提取了新闻内容中传达关键陈述和观点的相关声明,从而促进了后续的事实核查过程 [31]。特殊声明的事实核查在很大程度上依赖于外部资源来确定特定声明的真实性。两个典型的外部资源包括开放web和结构知识图。开放web源被用作参考,可以在一致性和频率方面与给定的声明进行比较 [5; 50]。知识图从链接的开放数据集成为结构化网络拓扑,例如DB- pedia和Google关系提取语料库。使用知识图谱进行事实检查旨在检查新闻内容中的主张是否可以从知识图谱中的存在事实中推断出 [98; 16; 72]。
基于风格的: 假新闻发布者通常具有恶意意图,以传播扭曲和误导性的信息并影响大型消费者社区,因此需要特定的写作风格来吸引和说服广泛的消费者,而这在真实新闻中是看不到的。基于风格的方法试图通过捕捉新闻内容写作风格的操纵者来检测假新闻。基于风格的方法主要有两个典型类别: 面向欺骗和面向客观。
基于风格的类型:面向欺骗,面向客观:
面向欺骗:的文体方法从新闻内容中捕获欺骗性陈述或主张。欺骗检测的动机源于早期心理学 (即Undeutsch假设) [82],并且已经开发了各种取证工具,包括基于标准的内容分析 [84] 和基于科学的内容分析 [45]。
最近,从以下角度将先进的自然语言处理模型应用于现场接收阶段: 深层语法和修辞结构:
深层句法模型是使用概率上下文语法器(PCFG)实现的,可以将句子转换为描述句法结构的规则。基于PCFG,可以开发用于欺骗检测的不同规则,例如未词汇化/词汇化的产生式规则和祖父母规则[22];
修辞结构理论可以用来区分虚假意义和真实意义[68]。深层网络模型,如卷积神经网络(CNN),也被应用于假新闻真实性的分类[90]。
面向客观性的方法捕获了样式信号,这些信号可能表明新闻内容的客观性降低,从而有可能误导消费者,例如超党派风格和黄色新闻。超党派风格代表着支持特定政党的极端行为,这通常与制造假新闻的强烈动机有关。基于语言的特征可以用于检测超党派文章 [62]。黄色新闻代表的是那些不包含经过充分研究的新闻,而是依赖于引人注目的标题 (即点击诱饵),具有夸张,耸人听闻,散布恐吓等倾向。通常情况下,新闻标题会总结出作者想要表达的文章的主要观点,因此,误导性和欺骗性的点击率标题可以作为识别假新闻文章的一个很好的指标[13]。
方法:基于立场和基于传播,社会上下文模型
社交媒体的性质为研究人员提供了补充和增强新闻内容模型的传统资源。社交情境模型在分析中包括相关的用户社交参与,从各种角度捕获此辅助信息。我们可以将现有的社交环境建模方法分为两类: 基于立场和基于传播。请注意,现有的假新闻检测方法很少使用社会上下文模型。因此,我们还介绍了使用社交媒体进行谣言检测的类似方法,这些方法在假新闻检测中具有潜在的应用。
基于立场的方法: 基于立场的方法利用用户从相关帖子内容中的观点来推断原始新闻文章的准确性。用户帖子的立场可以显式或隐式表示。明确的立场是情感或观点的直接表达,例如Facebook中表达的 “竖起大拇指” 和 “竖起大拇指” 反应。隐式立场可以从社交媒体帖子中自动提取。立场检测是从帖子中自动确定用户是赞成,中立还是反对某些目标实体,事件或想法的任务 [53]。以前的立场分类方法主要依靠手工制作的语言或嵌入单个帖子上的特征来预测立场 [53; 64]。主题模型方法,例如潜在的狄利克雷分配 (LDA),可以用于从主题中学习潜在的立场 [37]。使用这些方法,我们可以根据相关帖子的立场值来推断新闻的准确性。Tacchini等人提出使用 “相似” 立场信息 [75] 构建用户和Facebook帖子的二分网络; 基于该网络,使用半监督概率模型来预测Facebook帖子成为骗局的可能性。Jin等人探索了主题模型来学习潜在的观点价值观,并进一步利用这些观点来学习相关帖子和新闻内容的可信度 [37]。
基于传播的: 基于传播的虚假新闻检测方法有关相关社交媒体帖子相互关系的原因,以预测新闻可信度。基本假设是新闻事件的可信度与相关社交媒体帖子的可信度高度相关。可以为传播过程构建同质和异构信誉网络。同质可信性网络由单一类型的实体组成,例如post或event [37]。异构可信度网络包含不同类型的实体,如帖子、子事件和事件 [36; 29]。Gupta等。通过对用户的信誉和tweets在三层用户-推文-事件异构信息网络上的含义进行编码,提出了一种类似PageRank的可信度传播算法。Jin等。提出包括新闻方面 (即潜在子事件),构建三层分层网络,并利用图形操作计划框架来推断事件可信度。最近,包括冲突的观点关系,以在推文之间建立同质的信誉网络,并指导评估其信誉的过程 [37]。
在本节中,我们将讨论如何评估用于假新闻检测的算法的性能。我们专注于此任务的可用数据集和评估指标。
在线新闻可以从不同的来源收集,例如新闻社主页,搜索引擎和社交媒体网站。但是,手动确定新闻的准确性是一项具有挑战性的任务,通常需要具有领域专业知识的注释员,他们对主张和其他证据,背景以及来自权威来源的报告进行仔细的分析。通常,可以通过以下方式收集带有注释的新闻数据: 专家期刊专家,事实检查网站,行业检测器和众包工人。但是,对于假新闻检测问题,尚无商定的基准数据集。下面列出了一些公开可用的数据集:
BuzzFeedNews(https://github.com/BuzzFeedNews/2016-10-facebook-fact-check/tree/master/data): 该数据集包括在接近2016年美国大选的一周内从9月19日到23日,9月26日和27日的9家新闻社在Facebook上发布的新闻的完整样本。每个帖子和链接的文章都是由5名BuzzFeed记者逐个进行事实核查的。通过添加链接的文章,附件媒体和相关元数据,该数据集在 [62] 中得到进一步丰富。它包含1,627篇文章-826主流,356左翼和545右翼文章。
LIAR(https://www.cs.ucsb.edu/ william/data/liar dataset.zip): 此数据集是通过其API从事实检查网站PolitiFact收集的 [90]。它包括12,836人类标记的简短声明,这些声明是从各种背景下进行的,例如新闻发布,电视或广播采访,竞选演讲等。新闻真实性的标签是细粒度的多个类别: 裤子-火,假,勉强-真,半真,大部分是真和真。
BS Detector (Getting Real about Fake News | Kaggle): 该数据集是从名为BS detector的浏览器扩展中收集的,该浏览器扩展是为检查新闻真实性(https://github.com/bs-detector/bs-detector)而开发的。它通过对照手动编写的域列表来搜索给定网页上的所有链接,以获取对不可靠来源的引用。标签是BS检测器的输出,而不是人类注释器。
CREDBANK (Credbank-data by TanuM): 这是一个大约6000万条推文的大规模众包数据集,从2015年10月开始涵盖96天。所有推文都被分解为与1,000多个新闻事件有关,每个事件都由亚马逊机械土耳其人的30名主持人评估可信度 [52]。
在表1中,我们比较了这些公开的假新闻检测数据集,突出了可以从每个数据集提取的特征。我们可以看到,没有一个现有的公共数据集可以提供所有可能的感兴趣的特征。这些数据集还具有特定的限制,使它们难以用于假新闻检测。
BuzzFeedNews仅包含每个新闻文章的标题和文本,并涵盖来自极少数新闻机构的新闻文章;
LIAR主要包括简短的陈述,而不是整个新闻内容。此外,这些陈述是从各种说话者而不是新闻发布者那里收集的,并且可能包括一些不是假新闻的说法;
使用开发的新闻准确性检查工具收集并注释BS检测器数据。由于人类专家尚未对标签进行适当的标注,因此根据此数据训练的任何模型实际上都是在学习BS检测器的参数,而不是专家注释的groundtruth假新闻;
最后,CREDBANK最初是为tweet可信度评估而收集的,因此该数据集中的tweet并不是特定新闻文章的真正社交活动。
为了解决现有假新闻检测数据集的缺点,我们正在进行一个项目,以开发一个可用于社交媒体上的假新闻检测的数据集。这个名为FakeN ewsNet(https://github.com/KaiDMML/FakeNewsNet)的数据集包括所有提到的新闻内容和带有可靠的ground truth假新闻标签的社会背景特征。
为了评估假新闻检测问题的算法性能,已使用了各种评估指标。在本小节中,我们回顾了用于假新闻检测的最广泛使用的指标。大多数现有方法都将假新闻问题视为一种分类问题,可以预先确定新闻文章是否为假:
真阳性(TP):当预测假新闻时,假新闻实际上被注释为假新闻;
真负(TN):当预测真新闻时,真新闻实际上被注释为真新闻;
假阴性(FN):当预测真新闻时,假新闻实际上被注释为真新闻;
假阳性(FP):当预测假新闻时,假新闻实际上被注释为真新闻;
通过将其表述为分类问题,我们可以定义以下指标,
这些指标通常用于机器学习社区,使我们能够从不同的角度评估分类器的性能。具体来说,准确率衡量的是预测的假新闻和真实的假新闻之间的相似性。精确度测量所有检测到的被注释为假新闻的假新闻的比例,解决识别哪些新闻是假新闻的重要问题。
然而,由于假新闻数据集往往是倾斜的,因此,通过较少的正面预测,可以很容易地实现高精确度。
因此,召回被用来衡量敏感度,即被预测为假新闻的带注释的假新闻文章的比例。F1用于结合精度和召回率,可以为假新闻检测提供整体预测性能。请注意,对于精度,召回率,F1和准确性,值越高,性能越好。
接收者操作特征(ROC)曲线提供了一种比较分类器性能的方法,它通过在假阳性率(FPR)和真阳性率(TPR)之间进行权衡来实现。为了绘制ROC曲线,我们在x轴上绘制了fPR,并沿着y轴绘制了TPR。ROC曲线通过通过阈值改变类分布来比较不同类的性能。TPR和FPR的定义如下(请注意,TPR与上面定义的Recall相同):
基于ROC曲线,我们可以计算曲线下面积 (AUC) 值,该值衡量分类器将假新闻排名高于任何真实新闻的可能性的总体性能。基于 [30],AUC定义如下:
值得一提的是,AUC比准确性在统计上更一致,更具区别性 [47],它通常应用于不平衡的分类问题,例如假新闻分类,其中groundtruth假新闻文章和真实新闻文章的数量分布非常不平衡。
在本节中,我们进一步讨论与假新闻检测问题有关的领域。我们旨在通过简要解释任务目标并强调一些流行的方法来指出这些领域与假新闻检测之间的差异。
谣言通常可以定义为 “一条传播信息,其真实性状态在传播时尚待验证” [102]。谣言的功能是理解模棱两可的情况,真实值可以是真实的,错误的或未经验证的。
以前的谣言分析方法集中在四个子任务上:谣言检测、谣言跟踪、立场分类和真实性分类[102]。
具体来说,谣言检测旨在将一条信息归类为谣言或非谣言 [96; 70]; 谣言跟踪旨在收集和过滤讨论特定谣言的帖子; 谣言立场分类确定每个相关帖子如何针对谣言的真实性;真实性分类试图预测谣言的真实值。
与假新闻检测最相关的任务是谣言的真实性分类。
谣言真实性分类很大程度上依赖于其他子任务,需要从相关帖子中提取立场或观点。这些帖子被认为是确定谣言真实性的重要消息来源。与谣言不同,假新闻可能包括阴谋论等长期谣言,也可能包括短期新兴谣言,假新闻是指专门与公共新闻事件有关的、可被核实为虚假的信息。
真理发现是从多个相互冲突的来源中发现真实事实的问题[46]。真理发现方法不直接探索事实主张,而是依赖于记录对象属性的矛盾来源的集合来确定真值。真理发现的目的是同时确定来源的可信度和对象的真实性。
假新闻检测问题可以在不同的场景下从各个方面的真相发现方法中受益:
首先,可以对不同新闻机构的可信度进行建模,以推断报道的新闻的真实性;
其次,相关的社交媒体帖子也可以被建模为社会响应来源,以更好地确定声明的真实性[56;93];
然而,要将真相发现应用于社交媒体场景中的假新闻检测,还必须考虑其他一些问题。首先,现有的真值发现方法大多侧重于处理以主-谓-宾(SPO)元组形式的结构化输入,而社交媒体数据具有高度的非结构化和噪声。其次,当一篇假新闻文章是由少数几家新闻机构新发布和发布时,真相发现方法不能很好地应用,因为在这一点上,与它相关的社交媒体帖子不足以作为额外的来源。
点击诱饵是一个常用的术语,用来描述在线媒体上引人注目的、具有挑逗性的标题。点击诱饵标题会造成所谓的“好奇心差距”,增加读者点击目标链接以满足好奇心的可能性。现有的点击诱饵检测方法利用从引诱消息、链接网页和推文元信息中提取的各种语言特征[12;8;63]。不同类型的点击诱饵被分类,其中一些与非事实索赔高度相关[7]。
点击诱饵的基本动机通常是为了点击率和由此产生的广告收入。因此,点击诱饵文章的正文往往是非正式的组织和不合理的理由。研究人员利用这种差异来识别标题和新闻内容之间的不一致,试图发现虚假新闻文章。尽管不是所有的假新闻都可能包括点击诱饵标题,但特定的点击诱饵标题可以作为一个重要的指示器,并且可以利用各种特征来帮助检测假新闻。
社交媒体上的垃圾邮件发送者检测 (Spammer detection) 旨在阻止恶意用户相互协调发起各种攻击,例如传播广告,传播色情内容,传播病毒和网络钓鱼 [44],最近引起了广泛关注。现有的社交垃圾邮件发送者检测方法主要依靠从用户活动和社交网络信息中提取特征 [35; 95; 33; 34]。
此外,社交机器人的兴起也增加了虚假信息的发行量,因为它们在没有核实事实的情况下自动转发帖子 [23]。社交机器人带来的主要挑战是,它们可以给人一种错误的印象,即信息受到许多人的高度欢迎和认可,这为假新闻的传播提供了回声室效应。
以前的bot检测方法是基于社交网络信息,众包和歧视性特征 [23; 55; 54]。因此,垃圾邮件发送者和社交机器人都可以提供有关可用于假新闻检测的目标特定恶意社交媒体帐户的见解。
在本节中,我们将介绍假新闻检测中的一些未解决的问题以及未来的研究方向。社交媒体上的假新闻检测是一个新兴的研究领域,因此我们旨在从数据挖掘的角度指出有希望的研究方向。具体来说,如图2所示,我们从面向数据、面向特征、面向模型和面向应用四类概述了研究方向。
面向数据:面向数据的假新闻研究关注的是不同类型的数据特征,如:数据集、时间和心理。从数据集的角度来看,我们演示了不存在包含提取所有相关特征的资源的现有基准数据集。一个很有前途的方向是创建一个全面的、大规模的假新闻基准数据集,研究人员可以利用它来促进这一领域的进一步研究。
从时间的角度看,社会媒体上的假新闻传播呈现出与真实新闻不同的独特的时间模式。沿着这条线,一个有趣的问题是进行早期假新闻检测,目的是在传播过程中对假新闻发出早期警报。例如,这种方法可以只将原始帖子延迟一段时间内的社交媒体帖子作为新闻核实的来源[37]。及早发现假新闻有助于防止社交媒体上的进一步传播。
从心理逻辑的角度来看,社会心理学文献对假新闻的不同方面进行了定性探索 [92;]但是,用于验证这些心理因素的定量研究相当有限。例如,回声室效应对假新闻在社会媒体中的传播起着重要作用。如何捕捉回音室效应,以及如何利用这种模式在社交媒体上检测假新闻,可能是一个有趣的研究。
此外,从新闻数据中进行注意力检测是有希望的,但也是有限的,因为现有的大多数假新闻研究都集中在检测真实性上,而忽略了假新闻的意图方面。注意力检测是非常具有挑战性的,因为其意图通常是明确不可用的。因此。如何使用数据挖掘方法来验证和捕捉心理学意图是值得探讨的。
面向特征:面向特征的假新闻研究旨在从多数据源中确定有效的特征来识别假新闻。我们已经证明了有两个主要的数据来源:新闻内容和社会背景。
从新闻内容的角度,我们引入了基于语言和基于视觉的技术来从文本信息中提取特征。注意,基于语言的特征已经被广泛地研究用于一般的自然语言处理任务,如文本分类和聚类,以及特定的应用,如作者识别[32]和欺骗检测[22],但假新闻的潜在特征还没有被完全理解。
此外,嵌入技术,如单词嵌入和深度神经网络,正吸引着人们对文本特征提取的关注,并有可能学习更好的表示[90;87;88]。此外,从图像中提取的视觉特征也被证明是假新闻的重要指标[38]。
然而,已经做了非常有限的研究来利用有效的视觉特征,包括传统的局部和全局特征 [61] 和新出现的基于深度网络的特征 [43; 89; 85],用于假新闻检测问题。
最近,已经显示先进的工具可以操纵公众人物的视频片段 [80],合成高质量的视频 [74] 等。因此,区分真实和虚假的视觉内容变得更具挑战性和重要性,并且这项研究需要更高级的基于视觉的功能。
从社会背景的角度来看,我们介绍了基于用户、基于后期和基于网络的功能。现有的基于用户的功能主要集中在一般的用户配置文件上,而不是分别区分帐户类型并提取特定于用户的功能。基于帖子功能可以用其他技术来表示,例如卷积神经网络 (CNN) [69],以更好地捕捉人们对假新闻的看法和反应。
社交媒体帖子中的图像也可以用来更好地理解用户对新闻事件的情绪 [91]。提取基于网络的特征以表示如何构建不同类型的网络。重要的是要扩展这项初步工作,以探索 (i) 如何根据相关用户和帖子之间关系的不同方面构建其他网络; (ii) 网络表示的其他高级方法,例如网络嵌入 [78; 86]。
面向模型: 面向模型的假新闻研究为建立更有效和实用的假新闻检测模型打开了大门。之前提到的大多数方法都侧重于提取各种特征,将这些特征纳入监督分类模型,如na ̈ve Bayes、决策树、逻辑回归、k近邻(KNN)和支持向量机(SVM),然后选择表现最佳的分类器[62; 75; 1] 。
可以做更多的研究来建立更复杂和有效的模型,并更好地利用提取的特征,例如聚合方法,概率方法,集合方法或投影方法 [73]。具体来说,我们认为在以下方向上有一些有希望的研究。
首先,聚合方法将不同的特征表示组合成加权形式并优化特征权重。其次,由于假新闻通常会将真实陈述与虚假陈述混合在一起,因此预测假新闻的可能性而不是产生二进制值可能更有意义; 概率模型预测类标签的概率分布 (即,假新闻与真实新闻),假设生成模型从与原始特征空间相同的分布中提取 [25]。
第三,假新闻检测的主要挑战之一是,每个功能 (例如来源可信度,新闻内容风格或社交响应) 都有一定的局限性,可以直接自行预测假新闻。集成方法建立了几个弱分类器的结合,以学习比单独任何单个分类器更成功的强分类器;
集成已广泛应用于机器学习文献中的各种应用 [20]。建立集合模型可能是有益的,因为新闻内容和社交环境特征各自具有补充信息,这些信息有可能提高假新闻检测性能。最后,虚假新闻内容或社交上下文信息可能在原始特征空间中嘈杂;
投影方法是指精简投影功能以在原始特征空间之间映射的方法 (例如,新闻内容特征和社会背景特征) 以及可能对分类更有用的潜在特征空间。
此外,大多数现有方法都受到监督,这需要预先注释的假新闻ground truth数据集来训练模型。然而,获得一个可靠的假新闻数据集是非常时间和劳动密集型的,因为需要专家注释员对声明和其他证据、背景和来自权威来源的报告进行仔细的分析。因此,考虑可以应用半监督或无监督模型的有限或无标记的假新闻的场景也很重要。
随着社交媒体的日益普及,越来越多的人从社交媒体上消费新闻,而不是传统的新闻媒体。然而,社交媒体也被用来传播假新闻,这对个人用户和更广泛的社会产生了强烈的负面影响。在本文中,我们通过对现有文献的回顾,从表征和检测两个阶段对假新闻问题进行了探讨。在定性阶段,我们介绍了传统媒体和社会媒体中假新闻的基本概念和原理。在检测阶段,我们从数据挖掘的角度回顾了现有的假新闻检测方法,包括特征提取和模型构建。我们还进一步讨论了假新闻检测的数据集、评价指标和未来的研究方向,并将该领域扩展到其他应用。