虚假新闻的兴起迫使拥有社交媒体帐户的每个人都成为一名侦探,负责在发布前确定帖子是否真实。但是,虚假新闻仍然会越过我们的防线,在网络上迅速扩散,由于用户的无知和粗心而加剧。正如NBC新闻报道所显示的那样,假新闻不仅会散布恐惧和虚假信息,而且还可能对公司和个人的声誉造成损害。为了减少错误信息的直接和间接损失,我们需要更好的方法来检测虚假新闻。尽管有些虚假新闻是由真实的人撰写的,并且简直像是小说,但利用深度学习模型也可以大量生成虚假新闻,从而加剧了这一问题。到目前为止,计算机生成的文本已经很容易与真人写作的文本区分开。但是,由于自然语言生成模型的巨大改进,计算机生成的文本现在比以往任何时候都更加可信,因此这个问题变得更加紧迫。
在过去的三年中,Transformer(变形器)席卷了自然语言处理任务。 像几年前最先进的长期短期记忆体系结构这样的神经网络已经被BERT(来自变形器的双向编码器表示)和OpenAI强大的新模型GPT-2(生成预训练的变形器2)超越了 。 这些变形器现在以准确的分类和听起来不错的生成文本引领行业。 举例来说,由GPT-2生成的文本是如此真实,以至于OpenAI最初拒绝发布完整的受训模型,理由是“对技术和程序的恶意应用的担忧”。
区分真实和虚假新闻很重要,但要解决一个难题,而对于新模型,这个问题变得更加困难。 该项目旨在探索假新闻产生和发现方面的挑战。
项目目标
- 通过比较长期短期记忆(LSTM)残差神经网络和OpenAI的最新变形器GPT-2生成的文本,简要演示自然语言生成模型的改进。
- 使用区分符尝试准确分类文本是由最新的深度学习模型还是由人生成。
项目概况
该项目分为以上两个主要部分。 第二部分-查找,训练和使用判别器对生成的文本进行分类-这将是一项重大挑战,因为计算机生成的文本已经变得很难与人类书写的区分开。
首先,对许多模型进行了研究和评估。 通常选择预训练的模型版本,因为它们无需进行数天的训练即可实现最新性能。 使用Kaggle数据集的子集对LSTM模型进行了微调。 用于微调的数据由《纽约时报》,《布赖特巴特》,CNN,《商业内幕》,《大西洋》,《福克斯新闻》,《谈话要点备忘录》,《 Buzzfeed新闻》,《国家评论》,《纽约邮报》,《卫报》,NPR,路透社 ,Vox和《华盛顿邮报》提供。 根据Kaggle上的文档,大多数文章来自2016年和2017年,而较少的文章来自2015年及之前。 OpenAI在GPT-2的文档中写道,它在针对特定内容的任务上表现良好,例如生成伪造的新闻,而无需进行微调或重新训练,因此项目使用了GPT-2的原始权重。
为了检测假新闻,从真实新闻文章中传递了GPT-2模型的种子。 从该种子中,模型生成长格式的文本,最多可包含500多个令牌(可以将标记视为单词和标点符号。)。结果,对于每篇“真实”文章,都有一个生成的长格式文本,它们共享一个共同的第一句。 使用称为GLTR的工具,通过比较它们的功能来检查每个生成的文本和真实文章。 最后,将所有文章分为训练和测试集,并训练了BERT二进制分类器以对“伪造”文本进行分类。
全部内容请访问原文地址:https://imba.deephub.ai/p/066ca2d0793211ea90cd05de3860c663