NLPCC2019 - User-Characteristic Enhanced Model for Fake News Detection in Social Media

前言

在大四上学期的一门课上研读了一篇关于虚假新闻检测的顶会论文,后对这个领域产生了浓厚兴趣,在毕业论文选择了社交媒体上的虚假新闻检测来作为题目,最终论文成果有幸被NLPCC2019会议所收录,算是科研菜鸡的一个小小进步吧。如有不足,可多多交流~
PS之前针对虚假新闻检测领域所写的博客:
论文研读博客
虚假新闻相关数据集
虚假新闻近几年文献列表

论文讲解

研究难点

由于虚假新闻的传播带来的影响较大,对其的研究也一直处于热点,从百度学术对虚假新闻的研究走势可看出,同时在近五年的各大顶会中也有其身影,但研究始终存在一定难点,由于虚假新闻具有特殊性,单从新闻内容难辨真假,同时虚假新闻中可能掺杂着真实内容而导致文本特征不足,还需要引入外部知识,如知识库或社交媒体用户信息。而作为辅助信息则存在着数据量大、不完整和存在噪音等特点。

方法分类

在研读了虚假新闻领域相关的方法后,可以了解到目前领域大致有三个方向:一是基于新闻文本,包括正文、来源、标题、图片、视频等;二是基于网络结构,包括新闻传播网(涉及时序性特征、用户评论等)或者自行构建异构网络;三是基于融合框架,融合不同类型的特征,如文本、图片、网络、用户特征等。

本文方法

大多数研究中对个体特征和群体特征为独立分析,且仅仅分析网络结构,而忽略构成网络的个体特征。在本研究中,我们构建了一个融合框架,分别学习新闻文本以及重构的新闻-用户网络特征。不同以往的研究,我们的模型重点在于通过网络表示学习的方法学习带有用户特征的用户关系网,后以阈值限定添加新的用户关系在新闻-用户的传播网络中,对重构后的网络进行再学习的方式获取网络特征。具体模型如下图所示:
NLPCC2019 - User-Characteristic Enhanced Model for Fake News Detection in Social Media_第1张图片

实验数据集

研究所采用的是公开数据集FakeNewsNet,其中包含两份数据集,数据来源于有名的政治性事实核对平台PolitiFact和新闻聚合网站BuzzFeed,数据标签由平台权威专家所提供,内容包含新闻文本(发布者,标题,主体,视频图片)和社会语境(用户关注,用户内容),且数据集持续不断地进行更新。相比现有的数据集,其数据维度广。
具体可见github:https://github.com/KaiDMML/FakeNewsNet 【目前数据集已更新版本】

前期探索

为了便于确定方法的可行性,对数据集进行初步的探索,在文本长度,用户词频,用户关联,用户-新闻关联四个方面进行相应的数据统计,其中在用户关联方面可见,粉丝量或者关注量为0 的异常用户存在,而用户词频方面也存在大部分为0 的用户,为后续实验验证提供一定的依据。
NLPCC2019 - User-Characteristic Enhanced Model for Fake News Detection in Social Media_第2张图片

数据预处理
文本预处理

主要对新闻文本进行清洗,更改缩略词,替换标点符号,并去除特殊字符和空格,由于在虚假新闻检测中停用词具有其作用,实验过程保留停用词。最后给文本数据赋予标签,此处真新闻为1,假新闻为0。

网络结构预处理

原始数据提供用户和新闻关系以及用户间的关系,在此均处理成邻接表的形式,以“新闻-用户-传播次数”和“用户-用户-权重”,考虑为无向图的形式,因此用户间的权重设置为1,对新闻-用户和用户-用户作为整体作为构建图表示的输入。

实验结果

具体的实验过程以及实验成果可见如下poster
NLPCC2019 - User-Characteristic Enhanced Model for Fake News Detection in Social Media_第3张图片
论文地址:http://tcci.ccf.org.cn/conference/2019/papers/182.pdf

你可能感兴趣的:(paper)