【论文翻译 假新闻检测综述 HICSS 2019】Can Machines Learn to Detect Fake News? A Survey Focused on Social Media

【论文翻译 假新闻检测综述 HICSS 2019】Can Machines Learn to Detect Fake News? A Survey Focused on Social Media_第1张图片

论文题目:Can Machines Learn to Detect Fake News? A Survey Focused on Social Media

论文来源:HICSS 2019,Proceedings of the 52nd Hawaii International Conference on System Sciences

论文链接:https://www.researchgate.net/publication/330364905_Can_Machines_Learn_To_Detect_Fake_News_A_Survey_Focused_on_Social_Media

关键词:假新闻检测,社交媒体,机器学习,综述

个人感觉这篇综述没有KDD 2017这篇好。
这篇翻译也不是全都翻译的,个人认为有一些意义不大的部分就没有翻译。


文章目录

  • 1 摘要
  • 2 引言
  • 3 Theoretical Reference
    • 3.1 发布者(Publisher)
    • 3.2 内容(content)
    • 3.3 Extra media
    • 3.4 假新闻的定义和其对社会的影响
  • 4 社交媒体
  • 5 机器学习
    • 5.1 公开数据集和挑战
    • 5.2 预处理
    • 5.3 NLP特征
    • 5.4 社交和内容特征
    • 5.5 模型
  • 6 挑战和未来研究方向
  • 7 总结
  • 参考文献


1 摘要

本文参考了过去5年的关于社交媒体假新闻检测的论文,目的是了解假新闻检测的SOTA,找到解决此任务的最好的机器学习方法。

我们发现,目前最常用的假新闻自动检测方法并不是使用了单一的经典的机器学习技术,而是通过神经网络协调的经典技术的融合。


2 引言

本文基于过去5年发表的论文研究,综合考虑了处理假新闻问题的不同角度。本文对假新闻检测的机器学习方法进行了调研,聚焦于不同方法和技术的特性,以及用于检测假新闻和检测机器人的概念上的模型。

本文还给出了虚假信息、骗局、假新闻的定义,系统地回顾了使用机器学习和NLP技术检测这些信息的方法。

最后总结概括了当前实现自动检测假新闻的方法的研究挑战。


3 Theoretical Reference

相关定义。


3.1 发布者(Publisher)

本文将发布者定义为向公众提供某一故事的实体。例如,发布者可以是Twitter的用户,可以是网上报纸的记者,或者是他自己网站的组织者。值得注意的是,发布者可能是也可能不是某一故事的作者。

若发布者是作者的话,可基于他对假信息的意图对其进行分类;若发布者不是作者,只是故事的传播者,可将其分类为机器人或正常的用户。


3.2 内容(content)

内容是发布者在故事中提供的主要信息部分。当发布者发布消息的瞬间,这一信息的真实性可能是真、假或未知的。如果真实性未知,则可分类为谣言。

信息也可以分类为事实、观点或两者的混合。基于观点的信息和事实相比没有确定的真假。事实的内容通常是发布者的claim。claim的真实性检测被称为自动事实验证(automated fact-checking)。


3.3 Extra media

除了内容以外,故事也可能包含其他的媒体,例如图像、视频、音频。如果用到的媒体和内容无关,则可能会加强读者要阅读内容的欲望,这就是标题党现象。


3.4 假新闻的定义和其对社会的影响

本文使用的假新闻的定义为:故意被创造出来的新闻文章且已证实为假。

有些学者认为机器人(bots)不利于信息的复原过程,因为它们加剧了错误信息的传播。但也有研究表明,机器人不仅可以加剧错误信息的传播,同时也可以加剧真实信息的传播。也就是说,机器人不是错误信息的传播者,只是信息的传播者,它们对信息没有偏好,只是加剧了任意类型的信息的传播。


4 社交媒体

绝大多数工作使用社交媒体作为分析的主要来源。原因有:1)社交媒体的流行;2)这些平台通常会提供API,方便数据的获取;3)大多数报纸太严谨了,而且反应的是普遍的政治观点,社交网络上各种各样的人们都可以发表个人的观点;4)很少有报纸发布假新闻或谣言。已经有一些社交媒体采取了措施来阻止假新闻的传播。


5 机器学习

本节将介绍不同种类的模型、预处理技术和使用到的数据集。


5.1 公开数据集和挑战

2017年有两个公开的挑战被提出:RumorEval和Fake News Challenge。前者有两个子任务,一个是对新闻回复的立场检测,另一个是对新闻真假进行分类。后者是对新闻进行立场检测,将新闻的回复分为同意、不同意、讨论和不相关。

有一些网站可以进行人工的事实核查,最流行的是snopes.com和factcheck.org。也有一些网站检查特定领域的新闻真实性,例如政治领域的politifact.com。也有一些网站为了搞笑、批判等,发布明显虚假的新闻,例如theonion.com。事实核查可以作为新闻真假的ground turth。

Wang等人提出了LIAR数据集,由公共人物的声明组成,并从polifact.com网站上标注了其真实性。Zubiaga等人提出了谣言数据集PHEME,该数据集将推文分组成谣言流,并将它们和新闻事件关联起来。


5.2 预处理

一些工作聚焦于通过拓扑探索来自动检测谣言流的起始点。Sahana等人提出算法来解决这一问题[1],找到谣言新闻的起始点。他们还发现了这类推文的关键特征,并在未来的工作使用这些特征对推文进行预先的聚类,加速了虚假信息的分类。


5.3 NLP特征

许多文献使用情感分析对新闻的极性进行分类[2~6],有的使用情感词典,有的使用情感分析作为最终分类器的特征,使用HMM或人工神经网络来推断出情感。

基于语法(syntax)的技术相对较少,大多数论文主要使用句法解析(parsing)、pos-tagging和命名实体类型。使用语义的方法较为普遍。也有许多论文使用词典作为外部知识,根据感兴趣的属性创建单词列表。例如,宣誓有关的单词、主观的单词和情感单词的词典。经常使用的词典有WordNet和LIWC(Linguist Inquiry and Word Count)。

在假新闻检测领域另一个使用到语义的方法是语言模型的使用。一些论文使用n-grams作为baselines,与他们提出的手工选取的特征作比较。也有人使用n-grams作为分类器的特征。最近的两篇论文[3, 7]使用词嵌入进行语言建模,主要是使用无监督学习来构建分类器。


5.4 社交和内容特征

对于分类器中使用到的特征,我们基于这些特征的来源对其进行分类:1)基于社交媒体属性(#likes, #retweets, #friends)的特征;2)基于新闻内容的特征(标点, 词嵌入, 单词的情感极性)。

如文献[8]中所说,许多经典的分类算法主要聚焦于语言学的角度。但是也有一些新方法在相同的内容上聚合了不同的特征以得到更好的效果。例如网络拓扑分析模型(Network Topology Analysis Models)和人工神经网络(Artificial Neural Networks),从社交网络预定义的数据结构中发掘出用户间的连接和其他的元信息。

也有一些作者提出通过分析社交网络上用户间的交互行为来对信息的真实性进行分类。随着web2.0的发展以及群体智慧的发展,可以从社交网络用户间的交互中利用群体智能,用于假信息的检测。

有学者提出了Ant 算法,Ant算法的工作方式很像蚁群。新闻中喷洒了信息素,在获取的数据附近存在信息素,算法一直运行到信息素蒸发,不断预测和更新其错误率,直到信息素全部蒸发。该算法只将新闻分类为正类或负类。

与其他经典方法、启发式算法等相比,该方法的误差率较低,是最优的。作者认为通过修改其分类函数,可以将其用在检测假新闻、hoax、谣言和虚假信息上。这是因为大多数处理假新闻检测的工作依赖于交互分析,并且这一算法已被证明在此任务上比经典方法有效,尽管它的实现会更加复杂。


5.5 模型

研究学者并没有使用简单经典的学习模型,如朴素贝叶斯、决策树和SVM等,而是将这些方法结合以得到更准确更复杂的模型。

为了实现这些组合,学者们使用近些年流行的模型——人工神经网络(ANN)。


6 挑战和未来研究方向

多模分类器:大多数新闻将视频、图片等媒体嵌入在了新闻内容中,但是有可能这些媒体和内容无关,也就是标题党。有工作就聚焦于通过分析模因(memes)对推文进行分类,还可以对反复出现的术语进行预标注,这可能有助于假信息的检测。

另一个挑战是:推文真实意图的不确定性。社交网络上的帖子存在隐喻、委婉语和讽刺等语言资源,因此对于人类读者来说很容易理解帖子的意图。但是机器很难去区分这些语言形式,只是对其进行标记或分类,或者是使用预定义的词典或预分类的术语对其进行交叉核查。因此,对于推文意图的消歧,在未来值得继续研究。


7 总结

文献[3]提出了使用文本、社交、图像想你想资源的基于注意力的ANN模型,并将其应道到了twitter和Weibo数据集,取得了75%的准确率。

作者认为使用社会信息传播作为预处理步骤,非常有助于后续工作的开展,这是因为预处理可以发现课增强分类能力的关键特征,有助于发现传播的起始点和谣言传播者的预标注,还有助于从帖子中实体到外部上下文元素的映射。

检测假信息的受欢迎的方法主要是机器学习方法。涉及组合分类器的方法实际上是神经网络和经典分类算法的结合,重点词汇条目作为用于预测的主要特征,还可以使用外部的上下文信息(例如 帖子的拓扑分布,用户信息和social media metrics等)作为模型的初步流程步骤,以提高模型的性能。

文献提出的方法中,NLP方法更多的是被当做初步的步骤而不是一个解决方案。

机器人的使用可以看成是信息传播的催化剂,目的可能是好的也可能是坏的。当然,在未来的工作中,有很多方法可以改进它们的信息验证特性,但这需要对我们在条目拓扑分析中看到的外部上下文元素进行大量的预处理。

作者认为当前的处理假新闻自动检测的SOTA方法是在机器学习技术上使用网络分析的方法。


参考文献

[1] Sahana V P, A. R. Pias, R. Shastri, and S. Mandloi, “Automatic detection of rumoured tweets and finding its origin,” pp. 607–612, IEEE, Dec. 2015.

[2] J. A. Ceron-Guzman and E. Leon-Guzman, “A Sentiment Analysis System of Spanish Tweets and Its Application in Colombia 2014 Presidential Election,” pp. 250–257, IEEE, Oct. 2016.

[3] Z. Jin, J. Cao, H. Guo, Y. Zhang, and J. Luo, “Multimodal Fusion with Recurrent Neural Networks for Rumor Detection on Microblogs,” pp. 795–816, ACM Press, 2017.

[4] N. Hassan, F. Arslan, C. Li, and M. Tremayne, “Toward Automated Fact-Checking: Detecting Check-worthy Factual Claims by ClaimBuster,” pp. 1803–1812, ACM Press, 2017.

[5] S. Vosoughi, M. . Mohsenvand, and D. Roy, “Rumor Gauge: Predicting the Veracity of Rumors on Twitter,” ACM Transactions on Knowledge Discovery from Data, vol. 11, pp. 1–36, July 2017.

[6] J. Ross and K. Thirunarayan, “Features for Ranking Tweets Based on Credibility and Newsworthiness,” pp. 18–25, IEEE, Oct. 2016.

[7] A. P. B. Veyseh, J. Ebrahimi, D. Dou, and D. Lowd, “A Temporal Attentional Model for Rumor Stance Classification,” pp. 2335–2338, ACM Press, 2017.

[8] N. J. Conroy, V. L. Rubin, and Y. Chen, “Automatic deception detection: Methods for finding fake news,” in Proceedings of the 78th ASIS&T Annual Meeting: Information Science with Impact: Research in and for the Community, ASIST ’15, (Silver Springs, MD, USA), pp. 82:1–82:4, American Society for Information Science, 2015.

你可能感兴趣的:(虚假信息识别,论文)