文章:Detecting breaking news rumors of emerging topics in social media
发表会议:Information Processing and Management (B 类会议论文)
时间:2019年
提出了一种新方法,该方法联合学习词嵌入并训练具有两个不同目标的循环神经网络来自动识别谣言。所提出的策略简单但有效地缓解了主题转移问题。
突发新闻谣言比发现长期存在的谣言更具挑战性。首先,突发新闻涵盖了我们在训练数据集中可能找不到的主题和事件,这需要在监督学习中考虑跨主题。否则,检测模型很可能会过拟合训练数据集。其次,突发新闻往往包含训练数据集中不存在的新词,例如新的主题标签或实体名称。词汇外(OOV)词的问题是另一个挑战。新出现的谣言包含不在训练样本中的单词,尤其是对于主题标签。由于之前没有观察到的新术语,使用预训练的词嵌入无法解决这个问题。此外,考虑到它们的上下文,与过去相比,相同的术语可能具有非常不同的含义。
为了应对这些挑战,我们联合训练了一个 word2vec (Mikolov, Sutskever, Chen, Corrado, & Dean, 2013) 模型,该模型具有无监督目标来学习词嵌入,并训练具有监督目标的循环神经网络模型进行谣言检测。我们建议使用循环神经网络的输入动态训练 word2vec 模型。通常,使用循环神经网络来更新词嵌入层。相比之下,我们保持与循环神经网络平行的 word2vec 模型,并使用它来更新嵌入空间。通过这种方式,我们的模型可以逐步学习输入文本中单词的分布式向量表示,从中捕获深层潜在特征及其相关性,并使用它们来构建突发新闻谣言的检测模型。此外,学习术语的分布式向量表示使我们的模型能够更好地处理在训练过程中没有看到的突发新闻新兴主题的新 OOV 词。我们发现这种简单的设计可以有效解决上述挑战。
创新点:
工作主要分为四类:谣言检测、谣言跟踪、谣言立场分类和谣言真实性分类
突发新闻谣言检测的研究问题可以定义如下:对于一个给定的微博,关于一条特定的信息,任务是确定它是否是谣言。这个问题可以表述为一个二元分类问题,如下所示: w = w 1 , w 2 … w T w= w_1,w_2…w_T w=w1,w2…wT 是长度为 T 的微博 w 中的单词序列。给定 w 作为输入,目标是通过从 L = { R , N R } L=\{ R,NR\} L={R,NR} 分配标签。
这篇博文讲的特别好
为了帮助训练过程缓解突发新闻谣言检测中的跨主题和OOV问题,我们将word2vec模型与递归神经网络模型保持平行,并使用它动态更新嵌入空间。
使用交叉熵损失函数,然后进行数据更新。我们需要使模型能够学习更一般的特征表示,这些特征表示可以捕获所有事件之间的共同特征。这种表示应该是事件不变的,并且不包括任何特定于事件的特征。为了实现这个目标,我们需要去除每个事件的唯一性。特别是,我们测量不同事件之间特征表示的差异性并将它们删除以捕获事件不变的特征表示。
在我们的实验中,我们使用了来自PHEME的五组真实推文(Zubiaga、Hoi、Liakata和Procter,2016),其中每一组推文都与一条突发新闻相关。PHEME可公开访问。表1总结了每一条推文中谣言和非谣言的百分比。
使用5折交叉验证。在每次运行中,我们使用四个突发新闻故事的数据集来训练我们的模型以及基线分类器。然后使用第五个数据集评估这些分类器在精确度、召回率和F1方面的性能。最终结果使用五次五折交叉验证作为结果。
为了进一步评估我们模型的分类性能,我们将推特的以下语法表示作为输入进行了实验:
为了评估知识转移是否有助于提高我们的深度学习模型的分类性能,我们使用三种不同的设置,通过word2vec模型学习单词的分布式向量表示,比较了我们的模型的性能:
在本节中,我们旨在评估将基于社交的特征添加到每个数据集的基于内容的特征中对分类性能的影响。我们首先在每个数据集上评估每个分类器的精度两次:一次仅使用基于内容的特征,另一次使用基于社交的特征和基于内容的特征作为我们的输入。结果表明,在为Ferguson数据集添加基于社会的特征后,四个分类器的精度得到了提高,而其他数据集只有一个分类器得到了提高。
这些结果使我们分析了每个数据集基于社会和基于内容的特征。我们首先使用增益比特征选择算法(Abeel、Van de Peer和Saeys,2009),测量每个特征在预测每个数据集中真实推文类别中的重要性。表7显示了获得的结果。粗体值表示每种情况下最重要的功能。结果表明,包含作者账户的列表数量(用#List表示)是Ferguson和Sydney Sakege数据集的一个重要社交特征,而验证(无论作者账户是否验证)是Charlie Hebdo和Germanwings Crash数据集的一个重要社交特征。我们进一步分析了每个数据集基于社会的特征,并使用标准差(SD)来衡量其值的变化量。表8显示了获得的结果。粗体值表示数据集中要素的SD值与其他数据集有显著差异的情况。表中的标准偏差值显示了五个数据集中每一个基于社会的特征值的稀疏性。每列表示一个基于社交的特征的变化量。不同的尺度是由于不同的特征具有非常不同的值尺度。如表所示,在具有重要社交功能的四个数据集中,Ferguson数据集的特点是#list功能的SD值与其他数据集相比非常低。同样,Sydney Sakege数据集的特点是#List的SD值较高。另一方面,Charlie Hebdo和Germanwings Crash数据集中验证特征的SD值与其他数据集几乎相同,这无助于描述这些数据集的特征。
通过比较表6-8中的结果,我们观察到,虽然Ferguson和Sydney Siege数据集可以通过具有高重要分数和非常不同的SD值的基于社会的特征与其他数据集进行区分,Ferguson添加基于社会的特征改善了大多数分类器的分类性能,但是Sydney Siege数据集值只提高了一个分类器的分类效果。Sydney Siege数据集中#List的SD值非常高,这表明其值具有更高的稀疏性。因此,添加此功能非但没有改善分类性能,反而使分类性能恶化。
为了在实时推特上展示我们的模型在突发新闻子主题上的表现,我们收集了一条关于新兴突发新闻故事的推特,其中指出美国政府在将近1500名举目无亲的移民儿童安置在赞助者家中后,失去了他们的踪迹。这条突发新闻最近在推特上传播开来,成千上万的人在标签上纳闷,孩子们在哪里了解这条新闻的许多方面。虽然这条消息已经得到了普遍证实,但许多推特都在散布关于故事不同方面和细节的谣言。政府尚未证实或驳斥这些谣言。我们收集了50条关于这条突发新闻的推文,并手动对每条推文进行了事实检查,只保留了我们知道的属于两类之一的34条推文:谣言和非谣言。然后,我们将这些推文输入到我们的模型中,将每一条推文归类为谣言与否。表10显示了收集到的推文的示例,以及它们是如何按照我们的模型进行分类的。表9显示了我们的谣言检测模型在准确度、召回率和F1方面应用于这些推文的分类性能。这些结果表明,我们的模型能够高精度地检测出不可见主题的突发新闻谣言。
我们进行了另一个案例研究,以证明我们的模型在实时推特流中检测多条突发新闻的不同新兴主题方面的性能。我们首先收集了关于以下三条未经证实的突发新闻的推特,这些新闻最近出现,尚未得到政府的证实或反驳:
此外,为了演示推特流不限于预定义事件或主题的真实场景,我们收集了以下两个主要突发新闻来源的推特流:
为了进一步了解我们的谣言检测模型所获得的结果,我们仔细检查了正确分类的推文文本,并将其与两个案例研究中错误分类的推文进行了比较。我们有两个主要的观察结果。首先,我们注意到大多数流言推特的写作风格非常相似。同样,大多数非谣言推特也有自己的写作风格。这一观察结果可以在未来通过提出一个突发新闻谣言检测模型来进一步检验,该模型以推特的不同写作风格为条件。其次,我们注意到许多新的OOV术语和命名实体的存在,这些实体最初并不是由我们的模型训练的,例如就职典礼、危地马拉、走私者、特朗普、移民和机构。案例研究的结果表明,我们的模型能够自适应地捕捉突发新闻谣言检测中的漂移,并缓解OOV和话题转移问题。
根据我们采用的定义,谣言被定义为“真实价值未经证实的故事或陈述”,谣言不一定是虚假的;它们以后可以被认为是真的或假的。这一定义意味着,标记为谣言的新兴推特稍后可能是非谣言。然而,我们提出的模型没有明确建模或记忆随时间变化的事实。为了解决这个问题,所提出的模型可以与持久的谣言检测模型相结合。该模型负责标记和存储新出现的谣言,并且可以在检查事实时训练持久的谣言检测模型。然而,我们的实验和案例研究表明,尽管我们的模型没有明确地跨时间建模和记忆事实,但只要查看当前时刻的推文,它的表现就相当好。我们怀疑可能有两个原因。首先,word2vec模型以增量方式更新。它可能会记住新概念,并随着时间推移而漂移。其次,该模型可以通过记忆来区分谣言和非谣言在自然语言中的传播方式。它们可能对应一种非常不同的写作风格,这与我们在案例研究中的观察结果一致。
随着社交媒体作为突发新闻的主要来源的适应度不断提高,区分已证实的信息和未证实的谣言成为一项极其困难和关键的任务。社交媒体的几个特点有助于发布具有未确立的真实值的信息,并在世界各地的用户中快速传播。突发新闻谣言,如果不尽早发现,可能会产生极其严重的破坏性后果。在这项工作中,我们通过提出一个联合构建word2vec模型和LSTM-RNN谣言检测模型的模型来解决识别Twitter上传播的新兴话题的突发新闻谣言的问题。该模型能够仅根据推特的文本准确识别突发新闻谣言。我们在真实数据集上的实验表明,我们提出的模型在精度、召回率和F1方面的性能优于最先进的分类器以及其他基线分类器。