在网上传播假新闻(以及一般的虚假信息)最近被认为是威胁整个社会的一个主要问题。这种传播在很大程度上是由于新的媒体形式,即社交网络和在线媒体网站。研究人员和从业者一直试图通过描述假新闻并设计自动检测它们的方法来回答这个问题。到目前为止,这些检测方法的成功程度还很有限,这主要是由于新闻内容和上下文的复杂性,以及缺乏适当的注释数据集。提高自动错误信息检测方法效率的一种可能的方法是模仿人类的检测工作。在更广泛的处理假新闻传播的意义上,了解网络用户的新闻消费行为也很重要。在这篇论文中,我们提出了一项眼球追踪研究,在该研究中,我们让44名参与者随意阅读一个包含新闻文章的社交媒体动态消息。其中一些文章是假的。在第二次测试中,我们要求参与者来决定这些文章的真实性。我们提供了该研究的描述,结果数据集的特征(我们在此发表)和几个发现。
近年来,假新闻(以及一般的虚假信息)因在网络环境中传播,尤其是通过社交网络传播而臭名昭著。它们对现实世界的人类决策有影响,例如在政治上、在医疗保健领域。
假新闻传播的真正而重大的负面影响促使了密集的研究努力。一些研究都是为了理解假新闻现象(即特征描述),分析了假新闻的属性,他们如何获得读者的信任,假新闻如何传播,以及是什么推动了他们的传播。现有的研究极大地帮助了概念化假新闻。然而,这些研究需要更多的行为研究来调查与(假)新闻互动时的人类判断因素。
基于特征研究的知识,大量的自动假新闻检测方法和平台已经被提出。最流行的趋势是使用机器学习的方法。一些方法分析新闻内容,而一些方法依赖于上下文方面,如源/作者/传播者模型或社交媒体互动。尽管做出了这些努力,但对在线错误信息的可靠检测仍然是一个未解决的问题。虽然普遍缺乏数据集(这将涵盖所有问题的异质性),但新闻内容和上下文的维度却很高。这使得创建通用和可靠的分类模型变得困难。
为了解决上面提到的一些问题,我们提出了一个眼球追踪用户研究,调查了人类在假新闻消费和准确性评估中的行为。在这项研究中,44名参与者首先在类似社交网络的动态动态中随意消费(即消费阶段)的新闻故事。在那之后,他们被要求评估这些故事的真实性(即评估阶段)。这类研究的动机有两个核心原因:
通过这项工作,我们的目标是填补假新闻消费和检测领域的一个空白。据我们所知,目前还没有对假新闻消费和真实性评估进行过眼球追踪研究。
这项工作有以下贡献:
据我们所知,目前还没有眼球追踪研究来调查人类在假新闻消费或验证期间的行为。然而,也有几项类似的非眼球追踪研究。我们可以从方法上得出结论,并通过我们的研究来补充他们的发现。
在现有的研究中,与我们的研究最相似的是Flintham等人最近的工作,他调查了社交媒体用户的假新闻阅读行为。首先,他们调查了309名问卷调查者对假新闻的经历及其特征。其次,他们对9名参与者进行了一项定性研究,他们与一个虚假的脸书账户进行了互动,其中包含了使用Rubin等人做的各种类型的真假故事。作者调查了社交媒体用户在多大程度上担心假新闻的传播,以及是什么(内容或背景)特征说服他们相信一个信息是假的。通过基于大声思考方案的定性分析,弗林瑟姆等人确定了新闻读者在真实性评估中使用的三种一般策略。**第一种方法是仅仅根据消息来源的声誉来推断其真实性。第二是评估故事内容,然后用来源声誉来确认假设。第三种策略只依赖于内容。**在分析内容时,参与者主要依赖于合理性评估、标题和写作风格分析。
本文是对弗林瑟姆等人的工作的补充。我们的目标是涉及更大的参与者集(44位而不只是9),并以定量的方式分析他们的行为。我们的研究方案是沉默的(与自声思考相反),因为我们想要模仿更真实的情况。我们还使用了眼球追踪技术来详细跟踪阅读和决策行为。我们研究中的环境更受控制(我们不是在真实的Facebook上创建一个假账户,而是模仿Facebook提要创建了一个完整的应用程序)。此外,由于故事来源(及其声誉)对一些用户来说显然是一个强有力的真实性指标,我们故意省略了用作故事的文章来源。此外,所有的文章(当我们的研究参与者决定完全打开它们时)都以统一的图形方式呈现(因此,原始来源也不能这样推断)。
在另一项研究中,豪伊尔和布莱特调查了影响用户对社交媒体上分享的信任的因素。他们研究的是年轻人,他们是其中一个最受错误信息威胁的群体,因为这个群体主要在网络和社交媒体上访问新闻(根据路透社最近的一项研究表明,18-24岁的用户中有53%报告在社交媒体上访问新闻)。在我们的研究中,我们选择了相同的人口统计学组。然而,与豪雅尔和布莱特相比,我们没有评估新闻来源的可信度,也没有评估其他社交媒体信号,比如点赞或评论的数量(豪雅尔和布莱特没有发现这些信息对用户的评估有显著影响)。
托雷斯、格哈特和内加班提出了一种新闻验证行为模型,他们通过对541名参与者(大学生;64.2%的人年龄在19-24岁)。他们发现,媒体的可信度、用户分享的意图、他们的假新闻意识,以及他们对网络的信任,都是新闻验证行为的相关预测因素。然而,这些发现并没有在实验或用户研究中得到进一步的评估。
一些现有的眼球追踪研究主要集中在新闻阅读行为上。阿拉帕基斯等人研究了读者对在线新闻感兴趣的东西。作者进行了一项眼球追踪研究,他们测量了面向57名参与者的114篇文章的参与度。这些文章在情感和极性方面有不同的属性,这确实影响了他们的吸引力,从而影响了读者的行为。阿拉帕基斯等人的工作对我们的研究也有一定的意义。这些行为应该通过新闻中的多个主题进行调查,因为参与者的个人长期利益可以影响他们的消费和真实性评价行为。参与者的主题兴趣和意见应该通过问卷调查来控制。
最后,已经有一些关于确定可信和非可信新闻指标的工作。我们在本文中提出的研究也旨在通过分析成功用户(即能够高精度检测假新闻的用户)的策略来解决这些问题。Zhang等人提出了一套内容和上下文指标(特性),他们在40篇包含人工注释者的数据集和领域专家上进行了评估。从内容特征来看,点击诱饵标题和逻辑谬误(例如,滑坡)可以很好地预测文章的可信度;从背景因素来看,良好的预测因素是事实核查的结果(文章被标记为虚假)、社交和邮件列表的数量(例如,打电话来分享文章或订阅邮件列表)和广告和社交电话的放置(例如,这些广告有多激进)。然而,对这些特征的自动评估可能是一个问题,作者没有讨论如何克服它。
为了收集关于社交媒体用户如何感知和消费假新闻的详细数据,我们对44名参与者进行了一项实时的对照研究。我们首先要求参与者在一个类似于社交媒体的订阅源(即消费阶段或第一次通过)的实验性用户界面中浏览(并可选择阅读)类似新闻的故事(帖子)。然后,我们要求他们再次浏览相同的故事(即,评估阶段或第二次通过)。这一次,参与者必须确定(根据他们自己的判断)这些故事的真实性(真实性)。每次传球只有12分钟,上面有50个故事,有些是真实的,有些是捏造的。每个故事都属于这11个相当有争议的话题中的一个。
在整个研究过程中,参与者在社交媒体上的行为都被详细记录下来,包括使用眼球追踪技术。除此之外,我们还发布了一份调查问卷,调查了对这11个主题中的每个主题的参与者的兴趣程度和观点立场。
本研究的动机是基于以下一般的研究问题:
这项研究在很大程度上具有探索性的特征。我们没有预先提出任何假设。
该实验共有44名参与者(27名男性,17名女性)参加。参与者的年龄从16岁到20岁不等。
所有的参与者都是高中生。我们选择这一特殊的人口统计学群体有两个原因。第一个原因是要努力减少潜在的混淆因素。当然,试图通过邀请一个有代表性的样本来覆盖整个人口统计范围是有意义的。然而,这将在研究中引入许多不受控制的变量和潜在的混杂因素(如不同人口群体中信息素养的可变性)。因此,我们将研究范围缩小到一个特定的、更同质的群体——高中生。
将范围缩小到一个特定群体的第二个原因是,我们想与一个有点容易受到在线错误信息影响的群体合作。在进行这项研究的斯洛伐克,高中生代表着这一群体。还有其他值得邀请的特定团体。例如,老年人也因容易获得错误信息而闻名。在这种情况下,选择高中生的动机是由于参与者的实用性更好。
尽管使用了特定的人口统计学群体,但我们认为该研究设计也适用于其他群体或一般人群样本。
该研究记录是在位于布拉迪斯拉发的斯洛伐克理工大学的用户体验和交互研究中心2的实验室进行的
该记录是在一个小组眼球追踪实验室中完成的,这意味着有多个参与者参加了研究,并被平行记录。虽然研究设计不需要这种设置,但我们使用它来更快地执行研究。小组眼球追踪研究需要特定的场景调整,对服务人员的要求稍高。它们还需要特殊的基础设施来支持数据的记录和收集。然而,这项投资是值得的:这项研究的记录部分大约4小时(4个1小时的会议,包括管理费用)。如果同样的研究是连续进行的,这将需要超过40个小时。
参与者在带有24英寸显示器(1900x1200)的台式电脑上工作,并安装有Tobii X2-60眼球追踪器。实验使用Tobii Studio软件进行(第一和第二阶段)。调查问卷(第三阶段)通过谷歌表格发布。这些工作站被放置在一个闪电条件稳定的房间里。房间的布局是教室式的,有20个工作站(尽管在一次会议中最多被占用了13个工作站)。在12分钟的过程中,环境是安静的(在过程之前、之后和之间给予口头指示)。
为了本研究的目的,我们创建了一个模拟真实社交网络(Facebook)用户界面的网站。该网站包括一个“后订阅”(见图1),参与者可以通过它滚动,也允许有限的互动选项(例如,在第一阶段分享,在第二阶段进行准确性评估)。参与者也可以通过点击提要文章中的图片、标题或预告片文本来打开全文(见图2)。
每个环节都从参与者到达小组眼球追踪实验室开始。首先,我们向他们介绍了这项研究。接下来,他们被简要介绍了眼球追踪技术的工作原理,并对每个参与者进行了眼动追踪器的校准。
然后,参与者被要求执行以下任务:
所有的指示都同时口头给整个组。关于任务的指示总是在任务开始前立即发出。一个任务总是被解释的,我们给参与者一个在任务开始前提问的机会。这种“同步”的研究组织风格被小组眼球追踪设置所暗示。前两个任务有一个固定的时间长度(12 + 12分钟)。在第三个任务中,我们让参与者按照自己的节奏工作。整个会议(其中有4次)耗时了35到40分钟。
在第一个和第二个任务中,向参与者显示的提要包含50个帖子。每篇文章代表一篇文章。全文的长度约为350字(所以当全文被打开时,整个文本将适合屏幕,见图2)。每一篇文章都有一个标题,一个说明它的图像,一个引段和文本的其余部分。文章的后表示(在提要中)具有相同的标题和图像以及引导段的开头(如果不符合post界面中分配的两行,则截断),见图3。注意,我们有意省略了文章的来源和作者,也选择了在完整文章视图中统一的可视化设置(即,所有文章在视觉上看起来都是相同的)。
这些文章是用斯洛伐克语写的(所有参与者的母语都是斯洛伐克语)。写作风格类似于新闻或杂志文章,预计参与者很容易理解。
每一篇文章都属于11个主题中的一个,为本研究精心挑选:(content categories), hand-picked for this study: food quality, personal weight reduction, Muslims in the EU, pharmaceutical industry, LGBT rights, right wing extremism, vaccination, extraterrestrial life, global warming, deforestation, migration.
假新闻(一般来说是虚假信息)在每个话题中或多或少是常见的(在斯洛伐克的社会背景下,参与者是从中抽取的)。这11个话题中的每一个话题也都有一定程度的争议。在每一个主题中,都可以找到一个主要的争议维度(即,有两种对立的、普遍的意见立场)。例如,在全球变暖的话题上,我们可以认识到一个否认者和一个危言耸听者的对立立场。对于每个类别,我们收集了4篇文章来填补每一篇文章的真实性和观点立场的组合。这意味着我们总是至少有一篇真实的文章支持每种观点观点,至少有一篇假文章支持每种观点立场。
我们直接从著名的斯洛伐克语新闻网站收集了大多数文章,并从臭名昭著的斯洛伐克语错误信息来源(如果是假新闻)。由于原始文章的长度不同,我们将其中一些文章调整到我们的设置所需的长度。对于一些话题和观点立场的组合,我们不可能找到假新闻的例子。例如,我们没有发现任何支持疫苗接种原因的假新闻文章。在这种情况下,我们自己创建了所需的假新闻文章,通常是通过使用夸张(例如,增加麻疹受害者数量的10倍)、事实改变(例如,改变臭名昭著的主角的名字)和改变形象和标题(所以文章更具启发性)。
我们在实验中总共使用了50篇文章。这意味着,对于一些话题、真实性和观点立场的组合,有不止一个例子。总共发生了6例病例。加入更多文章的原因是,我们有时会遇到多个有趣的例子(通常是假新闻),它们在某种意义上是不同的,我们想记录参与者在其中的行为。
调查问卷的主要目的是获取关于这11个主题中的每个主题的参与者的意见立场和兴趣程度的信息。我们将该问卷作为本研究的第三个(也是最后一项)任务发布,以避免对任务1和任务2中参与者的行为产生启动影响。调查问卷的结构如下:
(1) Questions on demographics (gender and age).
(2) Questions on opinion positions. These were organized in 11 sets (one for each topic). Each set contained between 5 to 7 specific questions.
(3) Questions on degree of interest (one question for each topic).
为了在争议的维度内获得(参与者)的意见立场,我们选择了多个具体的问题(而不是问一个一般性的问题来获得这个整体的立场)。我们这样做了,因为我们担心参与者不能直接评估自己
关于意见立场的问题采用了陈述的形式,与会者使用 five-level Likert量表表示同意/不同意。作为一个例子,我们可以以全球变暖的主题为例:
(1) “The global warming is a fabrication and is not really happening.”
(2) “The global warming is a serious threat for our entire planet.”
(3) “People cause the Earth warming.”
(4) “Personally, I do not contribute to the global warming.”
(5) “The global warming has not, and will not have any effect on me.”
可以看出,一个陈述本身总是有它自己的意见极性,并且可以有些暗示性。因此,在每一组问题中,我们都包含了针对两种方式的陈述。在上述例子中,第1、4和5号声明是针对否认者的立场,而第2和3号声明是针对危言耸听的立场。然后将总体意见立场计算为集合中所有陈述的平均答案。然而,在此之前,偏向于其中一个位置(任意选择的)的陈述的贡献被乘以-1。在上面的示例中,我们可以“翻转”语句2和3或语句1、4和5的贡献。
关于兴趣程度的问题,每个主题制定如下:“选择你对以下主题的兴趣程度”。这条指导之后是11个主题,每个主题都有5度的范围,从“我完全不感兴趣”到“我非常感兴趣”。
记录结束后,我们使用Tobii Studio来计算注视注视事件(使用内置的IVT注视过滤器实现)。我们还使用Tobii Studio在提要中的每个文章中定义感兴趣的区域(AOIs):图像、标题、perex(前导段落文本)、动作按钮(如、分享等)。其中一个AOI表示整个帖子(包括所有之前的AOIs)。固定数据(与AOI命中数)被导出,并使用Python脚本进行进一步处理。
参与者在12分钟中平均浏览12分钟5.1(SD 2)。在第二次阶段,他们平均在12分钟内浏览了5.3分钟(SD 2.6)。剩下的时间都花在了阅读全文上。参与者在第一次平均打开7篇文章(SD 4),第二次平均打开9篇(SD 5)
在实验的第一次阶段,参与者平均看到41个帖子(SD 10)。我们将“看到一个帖子”(印象)定义为一种情况,即我们记录至少10个注视事件击中感兴趣的区域。这通常意味着几秒钟,通过强加这个,我们希望过滤掉快速滚动的提要和其他可能的工件。
其中22名参与者总共执行了122个明确的喜欢、不喜欢、报告和分享行为。对真实文章和虚假文章都进行了相同数量的行为(61次),但对真实文章和虚假文章的行为分布情况不同。类似于行为的意图使用,真实的文章比虚假的文章得到更多的喜欢和分享,虚假的文章比真实的文章更不受欢迎和报道。表1分别显示了真实和虚假文章的显式操作的总数。与我们记录的数千次印象相比,外显行为的总数很低,虽然我们可以在这里看到一个普遍的倾向,但无法从它们中得出有统计数据支持的结论。然而,我们可以在报告行动中看到一些潜力,它更多地用于虚假的文章,而不是真实的文章。
在实验的第二次阶段,参与者在通过饲料时的速度稍慢一些:他们在饲料中平均看到32个帖子(SD 13)。其中,他们平均对29篇文章的准确性进行了评分(SD 16)。表2显示了真实和虚假文章的真实性评级的总数。虚假文章和真实文章的真实性评分分布有统计学上的显著差异(每个参与者和主题评分的非配对t检验结果为p值< 0.001)。在1到5的范围,其中1代表肯定真实真实性评级,真实文章的平均真实性评级为2.5(SD 1)。假文章的平均准确率为3.4(SD 1)。
来自调查的回答使我们能够探索参与者在相关主题中的意见的兴趣、强度和极性(位置)的分布。图4比较了参与者的兴趣强度和意见强度的分布情况。兴趣代表了对调查问卷最后一部分中明确陈述的主题的兴趣。另一方面,意见的力量代表了对意见立场问题的极端答案。
在大多数话题中,意见的强度与参与者的兴趣相匹配(这是一个预期的结果)。然而,在有几个话题中,意见强度的分布相对于兴趣强度的分布更高——例如,右翼极端主义、同性婚姻和疫苗接种。在这些主题中,我们可以看到参与者的意见的极性更加一致,如图5所示。我们不能可靠地解释这一观察结果。一种建议可能是,参与者的意见是由他们的外部环境所塑造的。
我们进一步研究了参与者明确陈述的兴趣和他们在实验第一次(消费阶段)阅读文章时的行为中观察到的隐性兴趣之间的关系。与表示不感兴趣的参与者(相当不感兴趣,完全不感兴趣)相比,表示感兴趣的参与者(相当感兴趣和非常感兴趣)打开了更多的文章,并花更多的时间阅读它们。这一发现表明,参与者在第一次实验时的内隐阅读行为反映了他们明确表示的兴趣,即参与者在实验的消费阶段探索饲料时遵循自己的兴趣。
另一方面,实验第二次时的阅读行为受参与者兴趣的影响较小。与表示不感兴趣的参与者相比,表示感兴趣的参与者在主题中打开的文章仅略多一些。图6显示了在第一次和第二次文章中,对主题的兴趣对文章总可见区域的影响的差异。文章的总可见区域反映了参与者阅读完整文章的深度(记录在注视数据中)。与实验的第一次通过相比,参与者在阅读文章的真实性时,不会更感兴趣。然而,兴趣对第二阶段阅读行为的影响仍然可以在主题的总可见区域的分布中观察到。这与弗林瑟姆等人的研究结果有些不同,相反,他们观察到,参与者不感兴趣的故事“对他们来说“评估他们的真实性并不重要”。
图7显示了每个参与者的准确性评级的分布,按正确评分的数量(顶部)和每个参与者的评级的总体准确性(底部)排序。与根据正确评分的数量对他们进行排序相比,根据准确性对参与者进行排序给出了一个几乎镜像的排序。这表明,那些对较少文章的准确性进行评分,同时花更多时间判断每一篇文章的参与者获得了更高的准确性。为了进一步研究成功和不成功的参与者之间的差异,我们分为两组参与者:成功的组包括25%的参与者,他们的评分准确率最高,不成功的组包括25%的参与者,他们的评分的准确性最低。
在实验的评估阶段,成功组和不成功组之间,查看语料库中帖子标题的平均时间的分布有显著差异(使用非配对t检验的p=0.008)。成功的参与者在语料库中平均花费2秒查看其标题,而不太成功的参与者平均花费2.9秒。在观察提要中帖子的图片或主要段落文本(perex)所花费的时间上没有显著差异。
这表明,与更成功的参与者相比,不成功的参与者更依赖语料库中提供的信息。图8所示的实验第一次和第二次阅读文章的总时间,以及图9所示的提要中查看文章的时间的比较,支持了这一发现。
在我们进行数据分析的过程中,我们注意到参与者评估个别文章的准确性(即文章难度)的难度。在准备刺激的过程中,我们没有控制文章的难度。尽管大多数文章似乎都相当难以评估,但整个文章集的范围从“几乎不可能”到“非常容易”。图10使用文章准确性评分的准确性直方图说明了文章难度的分布。虽然大多数文章(70%)比随机猜测更好,但有8篇文章(16%)的准确率达到了0.25或更低,这意味着它们不仅很难评估,而且完全欺骗。这种不同的困难可能会影响一些未来的发现和进一步的类似研究,我们建议通过试点来控制困难。
其他的限制来自于在受控的实验室环境中进行的研究,而不是在更自然的真实社交网络环境中进行的研究。在我们的研究中,我们有意地省略了新闻的来源和社交媒体上的信号,如点赞、评论等。以减少(上下文)变量的数量,并关注内容信号。此外,我们的参与者样本仅包括高中生(潜在的大学申请者);然而,我们没有控制他们高中的地理位置或其类型,也没有控制参与者的社会经济背景,这可能是影响他们的观点或批判性思维水平的因素。
我们进行了一项研究,让人类参与者在社交媒体界面上与(假)新闻互动时被盯上他们。本研究的概念回答了相关文献所表达的需求:对假新闻的特征描述和检测的研究可以从人类行为分析中获益。这代表(1)“毫无戒心”的”用户的新闻消费和(2)新闻真实性评估,当用户积极寻找真实性线索时。观察前者有助于对假新闻现象的普遍理解。后者可以指导自动检测方法的创建。在本文中,我们贡献了本研究的设计,所得到的数据集和一些来自数据分析的发现。研究结果包括:
我们看到了未来工作的多种途径。该研究的概念可以(也应该)用于更多的人口统计学群体。一旦记录的数据池更大,就会出现更多可观察到的稳定行为模式。这将允许在设计中引入更多的自变量。也就是说,更多的信息特性可以添加到当前的(相当于简化的)用户界面中。在当前的设置下,社会互动元素,如评论、赞、分享等。询问用户是如何(如果有的话)在这两个任务中考虑它们的是相关的。此外,文章来源和视觉设计的异质性(这在我们目前的工作中被保留了)也可以被纳入其中
另一个未来的工作途径是让事实核查专家(如记者、活动家、学者)作为类似研究的参与者。类似的,因为邀请这些人作为“毫无戒心”的”参与者参与消费任务没有多大意义(他们会知道他们具体邀请的原因)。然而,邀请专家参加任务2和任务3可以提供关于他们如何处理新闻真实性评估任务的有趣见解。