本博客系本人阅读该论文后根据自己理解所写,非逐句翻译,欲深入了解该论文,请参阅原文。
论文标题:Hierarchical Multi-modal Contextual Attention Network for Fake News Detection;
关键词:社交媒体,虚假新闻检测,多模态学习;
作者:Shengsheng Qian,Jinguang Wang,Jun Hu,Quan Fang,Changsheng Xu;
中国科学院大学,中国科学院模式识别国家重点实验室;合肥工业大学;
发表会议或期刊:SIGIR 2021;
代码地址:GitHub - wangjinguang502/HMCAN
最近,因为广泛传播的虚假新闻会误导读者并带来不好的影响,在社交媒体平台上检测虚假新闻成为了一个最关键的问题。目前为止,从人工定义的特征提取方法到深度学习方法,许多致力于解决检测虚假新闻的模型被提出。但是这些模型仍然有不足:(1)没有利用多模态的上下文信息(multi-modal context information),没有提取到高阶的补充信息( high-order complementary information );(2)在学习新闻表示时忽视了文本内容的完整层次化的语义(full hierarchical semantics of textual content )。为了解决上述问题,本文提出了一个层次化的多模态的基于上下文的注意力网络(hierarchical multi-modal contextual attention network, HMCAN)用来做谣言检测。该模型将多模态上下文信息(multi-modal context information)和文本的层次化的语义信息(hierarchical semantics of text )联合建模为一个统一的深度模型。具体而言,本文使用BERT和ResNet来学习文本和图像表示。然后将所得文本和图像表示送入一个多模态的上下文注意力网络以融合模态内(intra-modality)和模态间(inter-modality)的关系。最后,本文设计了一个层次化的编码网络来捕获虚假新闻检测中丰富的语义信息。在三个公开数据集上的实验证实了本文所提出的模型达到了目前最好的结果。
虚假新闻检测问题可以定义为一个二分类问题,给定一个多模态的新闻P包含文本内容和对应的若干图像,模型的目的是输出一个标签Y来判断该新闻是假新闻(Y=1)还是真新闻(Y=0)。
本文模型整体框架如下图2所示,包含以下几个模块:
任务:虚假新闻检测;
数据集:微博 WEIBO [12], 推特 TWITTER [12, 13](这里推特数据集的初始来源是论文[1]), 和 PHEME [42],各数据集的具体统计信息如下表1所示:
评价指标:使用二分类的准确率Accuracy作为主要评价指标。考虑到数据集不平衡的问题,同时使用二分类中精确率Precision,召回率Recall和F1值作为补充评价指标。
实验设置:Bert和ResNet50使用预训练的模型,也就是不fine-tune。注意:本文对于没有图像的纯文本新闻,会生成对应的虚假图像(dummy images)。其他参数的设置详见论文原文。
对比方法Baselines:包含单模态模型(方法1-4)和多模态模型(方法5-10):
实验结果和分析:
所有方法的虚假新闻检测结果值在论文中表2展示,表格较大,这里只展示微博数据集上的实验结果,其他两个数据集的实验结果见原文。
本文从实验结果中得出以下结论:
HMCAN各部分的分析:如下表3所示,其中HMCAN-V代表去掉了视觉信息只使用文本内容的HMCAN变体;HMCAN-C代表去掉了多模态上下文注意力网络的变体;HMCAN-H代表去掉了层次化语义模块的变体,也就是只使用Bert的最后一层输出表示做后续任务。
从上表3可以看出,去掉任何一个部分都会带来检测结果的降低,说明本文的视觉信息,两种模块都是有用的。(论文原文中对这里分析的很少,个人觉得还有可以挖掘的点,比如可以看出去掉视觉信息之后性能下降很大,去掉多模态部分下降是第二的,说明在这个过程中,图像也就是多模态的信息是非常重要的;而H部分相当于是对文本进行增强,说明文本信息提取已经很多了,所以增加并不多)
多模态上下文注意力模块中alpha值的影响:
将两个contextual transformer的结果合在一起的方法中的alpha,不同值会对虚假新闻检测的结果有什么影响呢?本文进行了实验,如下图3所示,在Accuracy方面(左图),alpha=0.7时推特和PHEME数据集上结果最好,微博数据集上比0.1时差一点;在F1方面(右图), 微博上0.1最好,推特上0.3最好,PHEME上0.7最好。综上,本文实验中设置alpha=0.7,能在三个数据集上得到较好的结果。
层次化模块中分组数据g不同值的影响:
如下图4所示,当g的值从1升到3时,性能增加,从3之后性能开始下降。到12时会小幅度上升但是仍然低于g=3时,而且当g=12时意味着Bert的输出有12层,计算量太大,因此本文选择了设置g=3.
未来本文期望探索更有效的提取视觉特征的方式,或者利用额外的知识(knowledge)来辅助识别虚假新闻。
[1] C. Boididou, S. Papadopoulos, D. Dang-Nguyen, G. Boato, and Y. Kompatsiaris. 2016. Verifying multimedia use at mediaeval 2016. In MediaEval 2016 Workshop.
[12] Zhiwei Jin, Juan Cao, Han Guo, Yongdong Zhang, and Jiebo Luo. 2017. Multimodal fusion with recurrent neural networks for rumor detection on microblogs. In Proceedings of the 25th ACM international conference on Multimedia. ACM, 795–816.
[13] Dhruv Khattar, Jaipal Singh Goud, Manish Gupta, and Vasudeva Varma. 2019. MVAE: Multimodal variational autoencoder for fake news detection. In The World Wide Web Conference. 2915–2921.
[42] Arkaitz Zubiaga, Maria Liakata, and Rob Procter. 2017. Exploiting context for rumour detection in social media. In International Conference on Social Informatics. Springer, 109–123.