论文阅读笔记（一）：Weak Supervision for Fake News Detection via Reinforcement Learning

论文简介：这是一篇AAAI2019年收录的论文，由腾讯微信团队发表，本文主要介绍是用强化学习方法来进行垃圾新闻检测，强化学习可以获得高质量的带有标签的样本，本文提出了一个检测框架，通过微信官方账户实验数据表明，该方法的准确率高于已有的方法。原文地址：https://aaai.org/Papers/AAAI/2020GB/AISI-WangY.213.pdf

CSU研一在读，科研萌新一枚，第一次在写论文阅读笔记，感觉界面还不错，简洁大方。之前读了一些论文又忘记了，为加深理解，以后多写点笔记吧。

【文章标题 Weak Supervision for Fake News Detection viaReinforcement Learning】

【摘要 Abstract】

如今，社交媒体已成为新闻的主要来源。通过社交媒体平台，假新闻以前所未有的速度传播，接触全球受众，让用户和社区面临巨大风险。因此，尽早发现假新闻是非常重要的。最近，基于深度学习的方法在假新闻检测表现有所提高，然而，训练这样的模型需要大量的带有标签的数据，但是人工标记费时且代价高，而且，由于新闻的动态特性，标注的样本可能很快就过时，不能代表新出现的新闻样本。因此，如何获取新新鲜且高质量的样本是运用深度学习模型检测假新闻的一个主要挑战。为解决这个挑战，本文提出了一种增强的弱监督假新闻检测框架，WeFEND，它可以利用用户报告作为薄弱的监督来增加大量的训练数据来检测假新闻。本文提出的框架包括三个主要部分：注释器、增强的选择器和假新闻检测器。注释器可以根据用户报告为未标记的新闻自动分配弱标签。使用强化学习技术的增强选择器从弱标记数据中选择高质量样品，并筛选出那些可能降低探测器预测性能的低质量样本，假新闻检测器的目的是根据新闻内容识别假新闻。我们在通过微信公众号发布的大量新闻文章和相关用户报告上测试了该框架。在该数据集上进行的大量实验表明，我们提出的WeFEND模型比现有的方法具有更好的性能。

本文提出的主要问题是如获取新鲜且质量高的新闻样本。来检测假新闻，需要大量带有标签的样本，但现实中又没有这么多样本，所以本文提出了一个新的框架WeFEND，全称为Reinforced Weakly-supervised Fake NewsDetection Framework,这里有两个概念：假新闻检测强化学习，强化学习可以用来筛选样本，通过不断地从环境中尝试和获得奖励，来调整动作。算是一种半监督模型，即利用少量的标签数据，来为未标签的数据打标签，但不能保证标签的质量，所有通过强化学习来从这些打标签的样本中筛选出高质量的样本。

【前言 Introduction】

前言比较长，第一段主要介绍的是社交媒体强大的新闻传播能力，假新闻的概念：故意编造并能够识别为假故事的新闻，以及假新闻带来的危害，如恐怖袭击，总统选举，自然灾害等，造成了社会恐慌和经济损失，开发假新闻自动检测算法变得有必要。

第二段主要介绍了几种假新闻的检测方法，简要分为两类：一种是运用传统机器学习模型的检测方法，如逻辑回归和随机森林等，传统机器学习模型主要从新闻文章中提取特征并训练分类器，另一种是基于深度学习的方法，以其强大的自动学习信息表示能力，比传统机器学习模型具有更好的表现，但需要大量的带有标签的数据，即标签为真或假的新闻样本。此外，新闻的动态性也弱化了数据的质量。为了获取高质量的带有标签的样本，需要标注者不断地对新出现的新闻进行表决，这是不现实的。因此充分利用深度学习模型来进行新闻分类并阻断假新闻的传播变得很重要。

一种方法是通过用户的反馈来获取标签，新闻读者通过新闻平台报告他们的评论，用户对于他们认为是假新闻的文章可以进行反馈。从而可以为假新闻分类获得一些弱标签，并减轻标签缺乏的问题。但是，这样的做法存在两个问题，一是用户反馈稀少和反馈中存在的噪声，即将真新闻报告成假新闻。如何将弱标注转化为训练集中的标记样本，并选择高质量的样本是本文需要解决的主要问题。

为此，本文提出了一种,加强弱监督的虚假新闻检测框架（WeFEND），利用用户反馈信息作为弱监督进行虚假新闻检测。该框架主要包括三个部分：注释器、假新闻检测器和强制选择器。

给定很少的带有标签的样本和用户对这些新闻的反馈，我们可以基于这些反馈训练注释器，自动地为未标签的新闻加上弱标签；强化选择器采用强化学习技术，从弱标签的样本中选取高质量的样本，以此作为假新闻检测器的输入；假新闻检测器根据每一个输入新闻样本的内容指定一个标签，这三个组件很好地集成在一起，它们的交互作用相互提高了它们的性能。

为了便于理解，把方法部分的图贴上来

WeFEND框架结构图

本文的主要贡献包过以下几点：

1、本文认识到标签短缺问题，利用用户报告作为虚假新闻的弱监督方式对新闻内容的检测。提出了一种有效的弱监督虚假新闻检测方法。

2、提出的WeFEND框架可以自动注释新闻文章，可以帮助扩大训练集来确保假新闻检测模型的成功。

3、采用强化学习，强化选择器能够选择高质量的样本，进一步提高了虚假新闻的检测性能。

4、实验结果表明，本文提出的框架能够有效地识别虚假新闻，并在从微信公众号收集的大规模数据集上显著优于最新的虚假新闻检测模型。

【相关工作Related Work】

该部分主要回顾了相关模型，重点描述了假新闻检测和强化学习。

假新闻检测包括谣言检测，是指故意编造并能识别为假的新闻。许多假新闻检测的模型可以从社会语境和新闻内容中提取特征。

社交语境特征代表了社交媒体上新闻的用户参与（Shu等人。2017年）如关注者数量、散列标签（#）转发和网络结构（Wu、Yang和Zhu 2015）。然而，社会语境特征只有经过一段时间的积累才能被提取出来，因此不能用于及时发现新出现的虚假新闻。

新闻内容特征是从新闻的文本内容中提取的统计或语义特征，在虚假新闻检测的许多文献中都有探讨（Gupta等。2014年；Kwon等人。2013年；

由于缺乏新鲜的高质量的训练样本。新闻稿件的手工标注成本高，用户反馈信息多，是造假的重要信号新闻侦破，应纳入侦破过程。但是，用户的反馈可能不可靠用户可靠性未知。幂律分布用户参与率很难正确估计用户的可靠性（Moore and Clayton 2008；Chia and Knapskog 2011年）。

每一条报道信息都作为监管薄弱环节，引导基于新闻内容的虚假新闻检测。本文提出的模型利用举报信息作为弱监管手段引导基于新闻内容的虚假新闻检测。

【方法 Methodology】

该部分首先介绍了虚假新闻检测框架WeFEND,然后详细介绍了每个组件。

框架总体介绍

每个样本包括新闻文章和用户反馈评论。两者都是文本，并通过嵌入单词转换为矢量表示。用户反馈意见称为报告，是用户提供的关于相应新闻文章可信度的详细理由和证据。一小部分样本被专家标记为假或真，我们的目标是预测未标记样本的标签。下面依次介绍该框架的组件。

文本特征提取器

如图所示，在注释器和假新闻检测器中都存在文本特征提取器。本文中选取卷积神经网络(CNN),作为文本特征提取器，文本特征提取器的输入是新闻内容或报告信息，两者都可以用一系列单词表示（序列建模问题）。对于句中给定的第t个单词，用d维的词嵌入向量表示，经过文本特征提取器提取的特征将作为注释器的输入和假新闻检测器的输入。

文本特征提取器

用CNN提取文本特征，原文地址：Convolutional Neural Networks for Sentence Classification，总体思想是使用一个二维的词嵌入矩阵，如下图所示，先用一个nxk的矩阵表示句子，n表示词的个数，k表示embedding矩阵维数。使用多个卷积核来提取文本特征，每个卷积核的列维度与词嵌入矩阵的列数相等。例如第一个卷积核维度为2xk，可以提取前两个单词的特征。多个卷积后将其结果连接（concatenate）成一个列向量，然后再经过最大池化层池化，最后使用使用全连接网络经softmax进行输出。这里需要注意的是，每个单词的维度表示都同了。

Anotator

注释器：根据用户报告自动生成弱标签，以此来扩大训练集。

为了训练这个模型，本文使用用户报告作为弱标签

注释器

聚集单元 Aggregation Cell

一篇新闻文章可能有来自多个用户的报告，因此我们建议为一个示例聚合从不同报告获得的功能。由于一条新闻中来自多个用户的转发消息是排列不变的，我们设计了一个由交换聚合函数和全连接层组成的聚合单元。聚合单元，例如求和，平均，或最大池化，可以组合置换不变输入集。

问题定义：定义第i个样本的序号为i-th，该样本中第j个用户的报告为,相关的用户报告集合定义为，表示第i个样本的报告信息个数

聚合单元从第Ri个报告样本上获取的特征表示为hi,这里使用平均操作作为聚合函数，式（1）中对Ri中的隐含特征hi,j取平均，wr表示全连接层的权重，将h(i)喂到全连接层，表示成Ann-fc。输出是第i个样本为假新闻的概率，表示为,theta-r表示为注释器和特征提取器的所有参数。

h(i)表示从Ri上获得的特征

所有样本的真实标签为,根据R和Y，注释器的损失函数可以用交叉熵损失函数表示：

注释器的损失函数

通过注释器，可以获得样本R的弱标签，表示为,可以获得大量的弱标签数据集,

然而，这个数据集中也包含大量的噪声数据，为此，本文设计了一个强化选择器，基于这些生成的标签数据来提取高质量的样本。

基于强化学习的数据选择器

数据选择器的目标是从弱标签数据样本中选取出高质量的训练样本，选取的标准就是添加所选样本是否可以改善假新闻检测性能。

强化数据选择器

用表示数据选择器的输入，并将数据切分成k个小包数据,它包含B个数据样本，，这样切分的好处在于，为数据选择器提供更多反馈，并使得强化学习训练过程更加高效。

问题定义：

在数据选择阶段，样本包是以序列的形式喂进数据选择器中，对于每个样本，强化数据选择器的动作（Action）是保留或去除，对当前样本的决策是基于状态向量（state vector）和前面样本的决策，决策问题可以转化成马尔科夫决策过程（MDP），这是强化学习的先决条件。

数据选择的目标是提高假新闻检测的表现，直接根据假新闻检测表现变化作为强化选择器的奖励函数，表现形式为检测的准确率。

强化学习可以用作样本筛选，根据筛选的样本的表现情况（是否提高最终的准确率）来确定奖励函数。但输入样本序列中，单个样本的奖励不能立即被计算出，而是有一定的延迟，需要等待所有的决策完成后才能获得。

在监督学习中，样本数据有明确的label标签值，通过计算预测值和标签值之间的AUC、F1 score等指标来评估模型的优劣；在无监督学习中，我们则通常使用距离度量衍生出来的指标来衡量模型的好坏。

而在增强学习中，训练样本既没有label的概念，也不存在距离的度量，只有 reward（回报或奖励）

为了解决延迟奖励问题，本文采用了一种基于策略的强化学习机制，强化数据选择器的奖励要根据假新闻的表现变化来决定。下面介绍假新闻检测器。

假新闻检测器

假新闻检测器是一个神经网络，包括一个文本特征提取器和一个全连接神经网络（包括一个相关的激活函数）。假新闻检测器的输入是新闻内容，输出是新闻为假的概率。检测器的表示为,其中表示所有参数

假新闻检测器

数据选择器中的状态（State）,动作（Action）,奖励（Reward）

状态（State）。包括四个部分1）注释器的输出概率，2）假新闻检测器的输出概率，3）当前样本与已选择的样本的最大余弦相似度（也称数据多样性），4）当前样本的弱标签（用来平衡新闻标签分布），

所有选定样本的表示都定义为所有选定样本状态向量的平均值。当前状态向量和先前状态向量的平均值的级联被认为是最终状态向量。

动作（Action）。加强选择器对于的每个样本的动作取值为1或0,1表示保留样本，0表示删除样本。为了确定动作，我们训练了一个策略网络，表示成,其中表示参数，策略网络包括两个完全连接的层，它们具有相应的激活功能。对于输入的样本,策略网络的输出是保留该样本的概率，可以表示成

ws2,ws1分别表示两个全连接层的权重，表示Sigmod激活函数。然后根据输出概率对动作进行采样，得到的策略可以表示为:

策基于动作和状态的策略函数

因为数据选择器的目标是选择高质量的样本，所以对每个样本的动作只有两个，保留或删除。

奖励（Reward）

行动（Action）的目标是提高假新闻的检测，所以可以利用模型的表现变化作为奖励函数。为了评估表现变化，需要设置一个基线准确率acc,为此，首先从带有标签的数据获取出验证集（validation set），因为所有训练过的模型都会在验证集上测试，所以需要先用检测模型在验证集上计算出基线准确率，在验证数据集上使用重新训练的模型可以获得新的精度,最后，第k个包数据的奖励Rk由acck和acc的差表示如下：

对于第k个输入包数据，我们的目标是最大化总的奖励，由于Rk的规模较小，为了使训练过程更加有效，我们采用了报酬总和的方法来定义目标函数。目标函数定义为：

目标函数

目标函数的偏导数：

目标函数对参数的偏导数

用随机梯度下降来更新参数

为了提高探索性，稳定训练，我们训练了一个目标策略网络，通过更慢更新参数第k个包中的样本一半输入策略网络，一半输入目标策略网络。

增强的弱监督虚假新闻检测框架

这部分主要介绍了如何集成解释器，数据选择器和假新闻检测器。整个框架的计算损失包括两个部分，注释器标注弱标签的损失和假新闻检测器的损失：

总的损失函数

两部分的损失均为交叉熵损失

【实验 Experiments】

数据集来自微信官方账户，包括新闻本身和用户报告，收集了腾讯官方账户从2018年5月到2018年10月的新闻数据，将5-9月的数据作为训练集，9-10月的数据作为测试集。

数据集即将公开，网址：https://github.com/yaqingwang/WeFEND-AAAI20

基线（Baselines）

选取了逻辑回归(LIWC-LR），SVM（LIWC-SVM）,随机森林（LIWC-RF），LSTM,CNN,EANN等有监督学习方法，LSTM-semi,CNN-semi等半监督学习方法作为基线。

一个去处数据选择器的模型WeFEND-,和带有数据选择器的模型WeFEND来说明数据选择器的作用。最终得到的表现如下图所示

可以看到，本文提出的WeFEND框架的各项指标均高于基线模型，WeFEND-由于没有数据选择器，结果稍逊于带有数据选择器WeFEND.

【结论 Conclusion】

本文提出了研究虚假新闻检测的重要问题。新闻的动态性使得获取连续标记的高质量样本对于训练有效的模型是不可行的，特别是对于训练强大的基于深度学习的模型。因此，我们提出了一个新的框架，可以利用用户报告作为虚假新闻检测的弱监督。该框架集成了注释器、增强选择器和假新闻检测器三个组件。注释器根据用户报告自动将未标记的新闻文章注释为真或假。基于强化学习技术的强化选择器从标注器标注的样本中选择高质量的样本。假新闻检测器然后通过一个在注释器和增强选择器生成的增强训练集上训练的模型来预测所有新闻文章的标签。通过提高训练集的质量和规模，该框架显著提高了假新闻检测的性能。在一个由新闻文章和用户反馈组成的微信数据集上进行的一系列实验证明了这一点。

【心得体会】

这篇文章主要提出了一个用于假新闻检测的框架(WeFEND），由注释器（Anotator），强化选择器（Reinforced Selector）和假新闻检测器（Fake News Detector）三部分组成，以前一直觉得框架是一个高大上的东西，其实也是由不同的模型整合而成。本文的新颖之处就在于，使用了基于强化学习的数据选择器来选择高质量的新闻样本数据，从而提高了假新闻检测器的检测准确率。

这个框架的三个部分是协同工作的，先是将带有用户报告的新闻样本输入给注释器，注释器根据用户报告自动将未标记的新闻文章注释为真或假，但这些标签不能保证质量，为此将这些注释后的样本输入给数据选择器，来获取高质量的训练样本，而数据选择器又是根据样本是否能假新闻检测器表现，决定保留或者删除。假新闻检测器根据输入的样本的检测表现来给数据选择器反馈，以此确定奖励。

本文的倒数第二部分进行了进一步分析，主要是根据新闻的动态性和真假新闻的比例来展开讨论，确定用户报告的有效性做实验并进行分析，实验结果在基线之上。

第一次读强化学习论文，强化学习的细节部分不是很清楚，如何定义状态，动作，以及奖励，它们之间的关系。大致的理解是，是一种半监督学习方法，需要少了的标签数据，它好像是一种贪心算法，最大化每个批次训练样本的奖赏来提高准确度。其中，动作、环境、策略和奖励都要根据特定的应用去发现和定义。可以用来从噪声样本中选择高质量的训练样本。文中有些概念有些生涩难懂，还需深入学习。

[1] Castillo, C.; Mendoza, M.; and Poblete, B. 2011. Information credibility on twitter. In Proceedings of WWW, 675–684.

[2] Feng, J.; Huang, M.; Zhao, L.; Yang, Y.; and Zhu, X. 2018.Reinforcement learning for relation classifification from noisydata. In Proceedings of AAAI.

[3] Kim, Y. 2014. Convolutional neural networks for sentenceclassifification. arXiv preprint arXiv:1408.5882.