GCAN:可解释的社交媒体假新闻检测方法

论文标题:GCAN: Graph-aware Co-Attention Networks for Explainable Fake News Detection on Social Media
论文链接:https://arxiv.org/abs/2004.11648
论文来源:ACL 2020

一、概述

目前假新闻检测问题仍然存在一些重要的挑战。比如:
①目前的一些方法要求文档为长文本,以便于能够更好地学习词和句子的表示。然而社交媒体上的一些推文大多是短文本,这就导致了一些数据稀疏性问题。
②一些SOTA的方法要求收集大量的用户评论,然而大多数用户仅仅是简单地转发推文而并不留下任何评论。
③一些研究认为社交网络中的信息扩散(即retweet)路径有助于错误信息的分类,从而学习基于树的传播结构的表示。然而,由于隐私问题,获取转发的扩散结构往往代价高昂,许多用户选择隐藏或删除社交记录。
④目前的一些方法缺乏可解释性,不能为支持谣言的可疑用户以及他们在制造谣言时关心的话题提供证据。

本文提出的方法利用源推文的短文本内容、转发用户序列以及用户资料来进行假新闻检测。也就是说本文的方法满足以下设置:
①短文本源推文;
②没有使用用户评论文本;
③没有使用社交网络和扩散网络的网络结构。

此外,我们要求假新闻检测模型具有可解释性,即在判断新闻是否虚假时突出证据。该模型将指出支持传播假新闻的可疑转发者,并突出他们特别关注的源推文中的词。

本文提出一个新的模型,即Graph-aware Co-Attention Network(GCAN)。首先从用户资料和社交互动中提取用户特征,然后使用CNN和RNN来学习基于用户特征的转发传播表示。另外使用图来建模用户之间的潜在交互,并且采用GCN来学习graph-aware的用户交互的表示。同时提出了dual co-attention机制来学习源推文和转发传播之间的相关性,以及源推文和用户交互之间的相互影响。最终利用学习到的embedding来进行假新闻的二分类预测。

二、方法

1. 问题陈述

是推文的集合,是用户的集合。每个都是短文本文档(也叫做源推文)。表明由个单词组成。中的每个用户都对应一个用户特征向量。当一个推文发布以后,一些用户将会转发从而形成一个转发记录的序列,这被称为传播路径。给定一个推文,它的传播路径表示为,表明第个用户(其用户特征向量为)转发了,这里。转发了的用户集合记作,最先转发的用户记作,转发时间记作,其余用户在时间转发了()。每个有一个binary的标签表明是否是假新闻(代表是假新闻)。我们希望能够利用上述数据来利用神经网络模型识别是否是假新闻,另外,希望模型能够突出能够表明真实性的一部分用户和一些推文中的词。

2. GCAN框架

GCAN主要包括5个部分:
①user characteristics extraction,创建特征来量化用户如何参与在线社交网络;
②new story encoding,生成源推文中单词的表示;
③user propagation representation,使用提取的用户特征建模和表示源推文如何由用户传播;
④dual co-attention mechanisms,捕获源推文和用户交互/传播之间的相关性;
⑤making prediction,通过连接所有学习的表示生成检测结果。

GCAN的架构图如下:

GCAN

3. 模型

  • User Characteristics Extraction

用户的特征向量是定义得到的,具体的,包含以下特征:
①用户自我描述的字数;
②用户账户名的字数;
③关注用户的数量;
④用户关注的人的数量;
⑤用户创建的story数量;
⑥举例用户第一个story经过的时间;
⑦用户的账户是否被验证过;
⑧用户是否允许地理空间定位;
⑨源推文发布时间和用户转发时间的时差;
⑩用户和源推文之间转发路径的长度(如果用户转发源推文则为1)。

最终得到,是特征的数量。

  • Source Tweet Encoding

给定的源推文将使用一个word-level的encoder进行编码,输入是中的每一个单词的独热向量。由于每个推文长度都不一样,这里设置为最大长度,不足的推文进行zero padding。使用来表示源推文的独热编码表示,是词的独热向量,使用一个全连接网络来获得word embedding,是word embedding的维度,过程是:

然后使用GRU来学习词序列表示,也就是,最终得到。

  • User Propagation Representation

我们的目的是利用提取的用户特征以及推文的传播序列来学习用户传播表示。其根本观点是,真实新闻传播中的用户特征与虚假新闻传播中的用户特征是不同的。这里的输入是推文的转发用户特征向量序列,用表示,是选定的固定长度的转发用户数量。如果转发用户数量超过则截取前个,如果少于则从中重采样直至长度为。

    • GRU-based Representation

给定传播序列,使用GRU来学习传播表示,,最终通过平均池化获得传播表示,。

    • CNN-based Representation

采用2D卷积来学习内特征的相关性,考虑个连续用户来建模其序列相关性,比如,卷积核的大小就是,总共使用个卷积核,因此最终学习到的表示序列。

  • Graph-aware Interaction Representation

我们的目的是创建一个图来建模转发用户之间潜在的交互,想法是拥有特殊特征的用户之间的相关性对揭示源推文是否是假新闻能够起到作用。每个源推文的转发用户集合都被用来构建一个图。由于用户间的真实交互是不清楚的,因而这个图是全连接的,也就是任意节点相连,。结合用户特征,每条边都被关联到一个权重,这个权重也就是节点用户特征向量和的余弦相似度,即,图的邻接矩阵。

然后使用第三代GCN来学习用户交互表示。给定邻接矩阵和用户特征矩阵,新的维节点特征矩阵计算过程为:

是层数,,是度矩阵,是第层的学习参数,是激活函数。这里,实验时选择堆叠两层GCN层,最终学习到的表示为。

  • Dual Co-attention Mechanism

我们认为假新闻的证据可以通过调查源推文的哪些部分是由哪些类型的转发用户关注的来揭开,并且线索可以由转发用户之间如何互动来反映。因此,本文提出了dual co-attention机制,来建模:
①源推文()与用户传播embedding()之间以及
②源推文()与graph-aware的交互embedding()之间
的相互作用。通过dual co-attention的注意力权重,模型可以具有可解释性。

    • Source-Interaction Co-attention

首先计算一个相似性矩阵:

这里是一个的参数矩阵。接着按照以下方式得到和:

这里,这里的和可以看做在做user-interaction attention空间和source story word attention空间的转换。接下来得到attention的权重:

这里,是学习的参数。最后可以得到源推文和用户交互的attention向量:

和描述源推文中的单词是如何被用户参与互动的。

    • Source-Propagation Co-attention

按照上述类似过程生成和的attention向量和。

注意基于GRU的传播表示没有用来学习与的交互。这是因为对于假新闻的预测来说,转发序列的用户特征能够起到重要的作用。因此本文采用基于GRU和CNN的两种方式来学习传播表示,其中基于CNN的传播表示被用来学习与的交互,基于GRU的传播表示在进行最终预测时用作最终分类器的直接输入。

  • Make Prediction

最终使用来进行假新闻检测:

损失函数采用交叉熵损失。

三、实验

  1. 对比baseline

对比了多项baseline的结果,效果有明显的提升:

实验
  1. 假新闻早期检测

GCAN也可以用于假新闻早期的检测,也就是在转发用户不多的时候进行检测,实验改动了使用的转发用户数量来进行验证:

早期检测g
  1. 消融实验

另外移除了一部分组件进行了消融实验,图中-A,-R,-G,-C分别代表移除dual co-attention,基于GRU的表示,graph-aware的表示和基于CNN的表示:

消融实验

-S-A代表既没有源推文embedding也没有dual co-attention,由于源推文提供了基本线索,因此-S-A有一个明显的性能下降。

  1. 可解释性

source-propagation co-attention学习到的attention权重可以用来为预测假新闻提供证据,采用的方式就是标识出源推文中的重要的词和可疑的用户。注意,我们不考虑source-interaction Co-attention的可解释性,因为从构造的图中学到的用户交互特征不能直观地解释。

下图是根据对源推文中的attention权重绘制的两个例子的词云(权重越大,词云中的词就越大):

例子

图中结果满足常识,也就是假新闻倾向于使用戏剧性和模糊的词汇,而真实新闻则是被证实和核实事实的相关词汇。

另外我们希望利用传播中的转发顺序来揭示假新闻与真新闻的行为差异。下图采集并展示了三个假新闻和三个真新闻的传播序列attention的权重:

例子

结果表明,要确定一个新闻是否虚假,首先应该检查早期转发源推文的用户的特征。假新闻的用户attention权重可能在传播过程中均匀分布。

source-propagation co-attention可以进一步解释可疑用户的特征及其关注的词语,举例如下图:

例子

可以发现,可疑用户在转发传播中的特征有:
①账号未被验证;
②账号创建时间较短;
③用户描述长度较短;
④距发布源推文用户的图路径长度较短。

他们高度关注的词是“breaking”和“pipeline”这样的词。我们认为这样的解释有助于解读假新闻的检测,从而了解他们潜在的立场。

你可能感兴趣的:(GCAN:可解释的社交媒体假新闻检测方法)