论文链接:https://arxiv.org/pdf/1509.04098.pdf
目录
摘要
1 绪论
2 相关工作
2.1 灰色文学和在线博客
2.2 学术文献
2.3 与我们的方法的异同
3 基线数据集
3.1 The Fake Project
3.2. #elezioni2013 dataset
3.3人类帐户的基线数据集
3.4 虚假关注者的基线数据集
3.5 虚假关注者和人类账户的基线数据集
4. 使用基于分类规则的算法进行虚假检测
4.1. 政治候选人的追随者
4.2. Stateofsearch.com
4.3 社交网站的 FakeFollowerCheck
4.4. 评估方法
4.5. Camisani-Calzolari 算法的评估
4.6.单一规则评估
5. 基于特征集的伪造检测算法
5.1 检测社交网络中的垃圾邮件发送者
5.2 对抗不断发展的 Twitter 垃圾信息散布者
5.3 评估
5.4. Discussion
5.4.1 虚假关注者和垃圾邮件帐户之间的区别
5.4.2 减少过度拟合
虚假关注者是专门为夸大目标账户关注者数量而创建的那些 Twitter 账户。假追随者对社交平台及其他领域来说是危险的,因为他们可能会改变 Twitter 领域的流行度和影响力等概念,从而影响经济、政治和社会。在本文中,我们沿着不同的维度做出贡献。首先,我们回顾了一些最相关的现有功能和规则(由学术界和媒体提出),用于异常 Twitter 帐户检测。其次,我们创建了一个经过验证的人类和虚假追随者帐户的基线数据集。这样的基线数据集对科学界是公开的。然后,我们利用基线数据集来训练一组基于审查的规则和特征构建的机器学习分类器。我们的结果表明,Media 提出的大多数规则在揭示虚假粉丝方面的表现并不令人满意,而 Academia 过去提出的用于垃圾邮件检测的特征提供了良好的结果。基于最有希望的特征,我们在减少过度拟合和收集计算特征所需数据的成本方面修改了分类器。最终结果是一个新颖的 A 类分类器,其通用性足以阻止过度拟合,由于使用了成本较低的特征,因此轻量级,并且仍然能够正确分类原始训练集的 95% 以上的帐户。我们最终执行基于信息融合的敏感性分析,以评估分类器使用的每个特征的全局敏感性。
本文报告的研究结果,除了得到了彻底的实验方法的支持和本身的趣味性外,还为进一步调查假推特追随者的新问题铺平了道路。
Twitter最初是一个个人微博网站,现在已经从普通用户转变为一个信息发布场所。据统计,Twitter 订阅者约为 10 亿,每月活跃用户为 3.02 亿。 Twitter 2014 年的年度广告收入估计约为 4.8 亿美元。流行的公众人物,例如演员和歌手,以及传统的大众媒体(广播、电视和报纸)都使用 Twitter 作为新的媒体渠道。
这样的多功能性和使用范围使 Twitter 成为异常账户扩散的理想场所,这些账户以非常规的方式行事。学术界主要关注垃圾邮件发送者,这些帐户积极致力于传播恶意软件、发送垃圾邮件和宣传合法性可疑的活动 。为了提高其有效性,这些恶意帐户通常配备自动推特程序,就像模仿真实用户一样隐秘,称为机器人。最近,媒体开始报道政客、名人和流行品牌的账户出现了可疑的追随者膨胀。所谓的虚假关注者对应于专门用于增加目标账户关注者数量的 Twitter 账户。例如,在 2012 年美国大选期间,挑战者罗姆尼 (Romney) 的推特账户的关注者数量突然激增。其中绝大多数后来被声称是假的。同样,在上一次意大利大选(2013 年 2 月)之前,在线博客和报纸报道了有关主要候选人假追随者比例的统计数据。乍一看,获得虚假追随者似乎是一种仅限于培养虚荣心的做法——一种可能有问题但无害的做法。但是,人为夸大关注者数量也可以最终确定,以使帐户更值得信赖和有影响力,从而脱颖而出并吸引其他真正的关注者。最近,美国的银行和金融机构在实际发放贷款之前已开始分析贷款申请人的 Twitter 和 Facebook 账户。因此,拥有“受欢迎”的个人资料绝对有助于提高申请人的信誉。同样,如果恶意账户采用购买虚假粉丝的做法,作为垃圾邮件发送者,它可以作为发布更权威消息和发起更有效广告活动的一种方式。对许多博主来说,检测假粉丝似乎是一件容易的事,他们提出了自己的“黄金法则”,并提供了一系列标准,用来对推特账户行为进行分类。然而一些规则通常既不与分析算法配对以聚合它们,也不与验证机制配对。至于学术界,研究人员主要关注垃圾邮件和机器人检测,基于 Twitter 帐户的(非)人类特征,主要是通过在人工注释的帐户集上训练的机器学习分类器,获得了出色的结果。
然而,据我们所知,尽管假追随者构成了一种具有经济和社会影响的普遍现象,但在文献中该主题尚未得到深入研究。
这项工作的目标是阐明假 Twitter 追随者的现象,旨在克服目前在其表征和检测方面的局限性。特别是,我们提供了以下贡献。首先,我们构建了一个 Twitter 账户的基线数据集,其中人类和假粉丝是先验已知的。其次,我们在基线数据集上测试已知的机器人和垃圾邮件检测方法。特别是,我们针对基于以下算法的算法测试参考集中的 Twitter 帐户:(i) 博客作者提出的单一分类规则,以及 (ii) 文献中提出的用于检测垃圾邮件发送者的特征集。分析结果表明,假追随者检测值得专门的机制:具体而言,基于分类规则的算法无法成功检测我们基线数据集中的假追随者。相反,基于特征集的垃圾邮件检测分类器也适用于虚假关注者检测。第三,我们根据收集计算它们所需的数据收集所需的成本,并对所有调查的规则和特征进行分类。在理论计算和经验评估的基础上,我们展示了性能最好的特征也是最昂贵的特征。我们分析的新结果表明,数据获取成本通常严重限制了这些功能的实际适用性。最后,在爬虫成本分析的基础上,我们设计并实现了轻量级分类器,这些分类器利用了成本较低的特征,同时仍然能够正确分类我们训练数据集 95% 以上的帐户。此外,我们还验证了我们的分类器在与原始训练数据集不相交的另外两组人类和虚假追随者帐户上的检测性能。
本文的其余部分的结构如下。第 2 节考虑和比较 Twitter 垃圾邮件和机器人检测领域的相关工作。第 3 节描述了我们的基线数据集。在第 4 节中,我们使用我们的基线数据集评估了社交媒体分析推广的一组虚假 Twitter 关注者检测标准。在第 5 节中,我们检查了以前工作中用于 Twitter 帐户垃圾邮件检测的功能。在第 6 节中,我们计算了提取分类器所基于的特征的成本。还提供了一个轻量级、高效的分类器,在虚假关注者检测能力和爬取成本之间取得了很好的平衡。最后,第 7 节总结了论文。
引用 [7] 的内容,“虚假的 Twitter 帐户被认为是一种欺骗形式(即,在个人资料的内容和个人信息方面的欺骗,以及让个人资料关注他人而不是因为个人兴趣,而是因为他们这样做是有报酬的)。”虚假的 Twitter 帐户的第二个特征正是我们在论文中要讨论的:我们特别将虚假追随者视为那些适当创建并出售给客户的 Twitter 帐户,这些帐户旨在放大他们在世界眼中的影响力和参与度,并产生大量追随者的错觉。
如此定义的虚假追随者只是在 Twitter 上传播的异常账户的一个例子。文献中确实将异常确定为垃圾邮件发送者(即宣传未经请求且通常有害的内容的帐户,包含指向恶意页面的链接 [8])或机器人(即控制社交帐户的计算机程序,隐秘到模仿真实用户 [9])或 cyborgs(即交织手动和自动行为特征的帐户 [10])。最后,还有虚假的追随者,为追随目标账户而大量创建的账户,可以从在线账户市场购买。
在介绍学术文献之前,我们简要报告了在线文档,该文档提供了一系列直觉的虚假追随者检测标准,尽管并未以科学的方式证明是有效的。我们引用这项工作的原因有两个:一方面,在线文章和帖子证明了对真假 Twitter 追随者的正确区分;另一方面,我们旨在以科学的方式评估这些标准是否真的可以用于检测假粉丝。
例如,[11] 中的一位知名博主指出,机器人帐户可能具有类似机器人的独特信号:1)通常有大量的追随者和少量的追随者; 2) 向所有人发推文;并且,3)玩关注/取消关注游戏,即他们通常在 24 小时内关注然后取消关注帐户。在线博客宣传的标准主要基于常识,作者通常甚至不建议如何验证它们。
数字评估公司[12]发布的一系列报告引起了意大利和欧洲报纸和杂志的注意,引发了人们对政界人士和主要国际公司在Twitter上受欢迎程度的质疑。报告中列出了一些标准,这些标准受到常识的启发,并表示人类行为,用于评估选定账户的追随者样本。对于follower满足的每一个标准,将分配一个人类得分。对于每一个不满足的标准,要么给机器人评分,要么给中立评分。根据总分,Twitter粉丝分为人类、机器人或中立(在后者的情况下,没有足够的信息来评估他们的性质),为被关注账号的有效影响力提供一个质量分数。但是,[12]中的结果缺少验证阶段。
最后,一些专门从事社交媒体分析的公司提供在线服务,以估计 Twitter 帐户在其追随者方面的真实性 [13,14,15]。但是,用于分析的标准并未公开披露,仅可从其网站上可用的信息中部分扣除。此外,正如我们之前的工作 [16] 所证明的,这些分析受到一些偏差的影响,例如小的和统计上不健全的采样策略。
近年来,Twitter 上的垃圾邮件检测已成为许多调查的主题,从多个角度处理该问题。例如,一个研究分支专注于推文的文本内容 [4, 3, 17],研究推文中嵌入 URL 的重定向 [18],并对 URL 登录页面进行分类 [19]。其他作品通过认识论解决了 Twitter 上的欺骗问题。例如,在 [20] 中,作者评估了欺骗检测任务的 4 个认识论特征:权威、合理性和支持、独立确证和呈现。
在[21]中的工作克服了不能正确地标记那些没有 URL 的 tweet 为垃圾 tweet 的限制,通过提出一个复合工具,能够将传入的 tweet 与垃圾邮件发送者通常使用的底层模板匹配。 [7] 中的工作没有考虑推文的内容,而是尝试仅根据源自帐户配置文件的可能不一致的信息来分类帐户是否可以信任。
一系列作品通过多特征的方法调查微博平台上的垃圾邮件发送者,包括个人资料、行为和帐户时间线的特征。在这个研究方向内,我们在此引用 [8]、[2] 和 [22]。 [8] 中的工作分析了垃圾邮件发送者在 Facebook、Twitter 和 MySpace 上的运作方式,报告称可疑帐户在特定功能上具有一些共同特征。这些作为基于机器学习的分类器 [23] 的输入,导致检测到超过 15,000 个垃圾邮件配置文件,Twitter 迅速删除了这些配置文件。在 [2] 中,作者提出了检测 Twitter 垃圾邮件发送者的标准分类法。一系列实验表明,与现有标准相比,新设计的标准具有更高的检测率。在 [22] 中,作者利用行为特征(例如推文和转发活动)、网络特征(例如帐户的关注者和朋友的数量)和基于内容的特征的组合开发了一个混合数学模型来检测微博上的垃圾邮件发送者,微博是类似于 Twitter 的中国微博网站。
[10] 的作者将 Twitter 帐户分为三类:人类、机器人和半机器人。后一类代表机器人辅助人类或人类辅助机器人。作者使用了一个基于三个专门组件的决策者,这些组件考虑了推文的内容和时间以及一些帐户属性。
[24, 4] 中提出的算法旨在尽快发现自动恶意 Twitter 帐户组,以避免帐户所有者利用它们。因此,作者将聚类算法应用于在短时间内创建的帐户组时间,除其他外,考虑基于名称和内容的特征。在 [25] 中,作者列出了检测 Twitter 帐户市场的客户和受害者的几个标准,即 在线服务,为他们的订阅者提供追随者以换取费用,并代表他们传播促销推文。在另一项工作 [26] 中,同一研究团队提供了有关帐户市场的更多详细信息,分析了客户的其他属性和特征(例如,关注者和朋友的动态以及产生参与的能力),并为检测市场和市场客户。 [27] 的作者在 10 个月的时间里监控一组 Twitter 帐户商家的价格、可用性和欺诈行为。这样的研究重点关注账户市场用来创建和注册欺诈账户的技术和方法,从 CAPTCHA 解决服务到欺骗性电子邮件凭据和用于逃避黑名单的各种 IP 地址池。与 Twitter 本身合作,作者开发了一个分类器来检测此类欺诈账户,这些账户因此被暂停。
值得注意的是,学术著作的引用选择并不详尽。但是,它考虑了大量标准,我们进一步利用这些标准来检测虚假 Twitter 关注者。还有其他用于垃圾邮件检测的工作,此处不详述,例如 [1, 28, 29, 30, 31, 32],其结果基于所选相关工作集所考虑标准的子集或略微修改的版本。
我们研究的目标是自动检测那些专门为增加某些目标帐户的关注者数量而创建的 Twitter 账户(所谓的虚假 Twitter 关注者)。先验地,垃圾邮件发送者、机器人和真实用户的帐户都可能属于虚假关注者的宏观类别,并且文献中已经证明可以有效发现垃圾邮件发送者和机器人的特定功能也可以在虚假关注者的情况下起作用。确实正是这一观察结果最初驱使本文的作者朝着在真实账户和虚假追随者的参考数据集上测试过去作品中的规则和特征的方向发展。这有助于修剪那些在检测虚假追随者方面表现最差的规则和特征,并留下表现良好的规则和特征。
从技术角度来看,在我们的实验中,我们依赖于基于机器学习的分类器,这些分类器利用 1) 配置文件、2) 活动和 3) 帐户关系的特征,类似于 [8, 2]。相反,我们不依赖推文特定内容固有的特征,例如 URL 的存在和文本的语义 [17, 19]。因为我们修改了我们的分类器以减少过度拟合和数据收集的成本,所以我们不仅仅是应用已经测试过的特性到一个新的数据集,如第5节和第6节所示。
最后,与 [26] 类似,我们从网络上的不同市场购买了虚假的 Twitter 追随者。我们独立于 [26] 进行了这样的训练,此外,这两项工作的目标完全不同,我们的目标是这些市场销售的账户,而另一个则针对他们的客户。至于我们的基线数据集的真实用户,我们招募了自愿加入我们活动的人的账户,并利用一个带有注释的账户数据集,这些账户属于在特定域的特定时间段内活跃在Twitter上的人,其真实性已经过验证。然而,为了在整个 Twitter 人口的代表性样本上测试我们的分类器,我们还通过随机挑选来构建测试集:1)巴拉克奥巴马的追随者样本,以及 2)Twitter 人群的样本。
在本节中,我们将介绍用于在整篇论文中进行实证研究的 Twitter 账户数据集。我们详细说明了我们如何收集他们每个人,以及我们如何验证他们是真人还是假追随者。为了进行我们的研究,我们总共抓取了 900 万个 Twitter 帐户和大约 300 万条推文。为了促进对假 Twitter 追随者这一新问题的调查,我们的基线数据集已公开用于研究目的 [33]。
The Fake Project 于 2012 年 12 月 12 日开始其活动,并创建了 Twitter 帐户@TheFakeProject。它的简介报告了以下座右铭:“只有当你不是假货时才关注我”,并解释说该倡议与意大利比萨 IIT-CNR 研究人员拥有的一个研究项目有关。在第一阶段,业主联系了更多的研究人员和记者来宣传该倡议,外国记者和博主也在他们的国家支持该倡议。在十二天的时间里(2012 年 12 月 12 日至 24 日),该帐户已被 574 位关注者关注。通过 Twitter API,我们抓取了一系列关于这些关注者的公共信息以及他们的关注者和关注者的信息。对于这个数据集,我们爬取了 574 个账户,最终收集了 616,193 条推文和 971,649 个关系(即关联的 Twitter 账户)。
所有这些追随者都自愿加入了该项目。为了将它们包含在我们的参考人类集中,我们还启动了验证阶段。每个追随者在 Twitter 上收到来自@TheFakeProject 的直接消息,其中包含一个验证码的 URL,每个追随者都是唯一的。我们将成功完成 CAPTCHA 的 574 个关注者中的所有 469 个帐户视为“认证人”。在本节的其余部分,这个数据集被称为 TFP;
#elezioni2013 数据集(以下简称 E13)的诞生是为了支持一项与佩鲁贾大学和罗马第一大学合作开展的社会学研究计划。该研究侧重于 2013-2015 年 3 年期间意大利政治格局的战略变化。研究人员在 2013 年 1 月 9 日至 2 月 28 日期间确定了 84,033 个在其推文中使用 #elezioni2013 主题标签的唯一 Twitter 帐户。这些帐户的识别是基于对帐户的用户名和传记字段的特定关键字驱动的查询' 个人资料。关键词包括博主、记者、社交媒体策略师/分析师和国会议员。还搜索了政党的具体名称。总之,所有属于政治家和候选人的账户,政党、记者、博客作者、特定的协会和团体,以及任何以某种方式正式参与政治的人,都被抛弃了。其余账户(约 40k)已被归类为公民。最后一组已被抽样(置信度为 95%,置信区间为 2.5),产生了最后一组 1488 个帐户,这些帐户已经过手动验证以确定其个人资料和推文的性质。手动验证过程由意大利佩鲁贾大学的两名社会学家进行。它涉及对被调查账户的个人资料图片、传记和时间表的分析。没有传记或头像的帐户已被丢弃。传记中的 URL 也经过人工检查,以便对主题进行更深入的分析。只有被两位社会学家标记为人类的帐户才包含在 E13 数据集中。总体而言,手动验证阶段持续了大约两个月。结果,1481 个账户成为数据集 E13 的一部分。
上面介绍的数据集形成了我们最终的一组,标记为 HUM,由 1950 个经过验证的人类账户组成。值得注意的是,这两个子集彼此之间有何不同。 TFP 集合由在志愿者基础上招募的帐户组成:参与该计划的人旨在成为在 Twitter 上发现虚假追随者的学术研究的一部分,他们是研究人员、社交媒体专家和记者的混合体,主要来自意大利,但也来自美国和其他欧洲国家。 E13 组由特别活跃的意大利 Twitter 用户组成,具有不同的专业背景,属于不同的社会阶层,对政治有着共同的兴趣,但不属于以下类别:政治家、政党、记者、博主;
2013 年 4 月,我们从三个不同的 Twitter 在线市场购买了 3000 个虚假账户。特别是,我们从 http://fastfollowerz.com 购买了 1000 个假账户,从 http://intertwitter.com 购买了 1000 个,从 http://twittertechnology.com 购买了 1000 个假账户,价格分别为 19 美元、14 美元和 13 美元.令人惊讶的是,fastfollowerz 和 intertwitter 给了我们比我们支付的更多的账户,分别是 1169 和 1337 而不是 1000。我们爬取了所有这些账户以构建一个 fastfollowerz 数据集,标记为 FSF,以及一个标记为 INT 的 intertwitter 数据集。相反,我们无法抓取从 twittertechnology 购买的所有 1000 个假粉丝,因为其中 155 个几乎立即被暂停。其余 845 个账户构成 twittertechnology 数据集,标记为 TWT。
我们承认,我们的假追随者数据集只是说明性的,而不是所有可能存在的假追随者集合的详尽说明。然而,值得注意的是,我们通过在最常见的搜索引擎上简单地通过网络搜索找到了 Twitter 帐户市场。因此,我们可以争辩说,我们的数据集代表了在搜索时很容易在 Web 上找到的内容。
我们实验中使用的最终基线数据集由虚假和人类档案组成。在下文中,我们将简要讨论为此数据集选择的虚假账户和人工账户之间的分布。许多机器学习技术受到少数类和多数类的自然分布不平衡的影响。这就是为什么,例如,文献中的作品研究了基于决策树的技术在改变训练集分布时的表现。特别是,Weiss 和 Provost 在 [34] 中考虑了基于决策树的分类器的性能,以预测 26 个不同数据集的样本,在少数类和多数类之间具有不同的分布。他们的调查结论表明,用于评估不同分类器性能的度量改变了训练集的类的最佳分布。例如,经过他们的经验分析,以准确率作为评价指标,26 个数据集中有 9 个数据集的最优分布与自然的非常不同,而当使用 AUC 作为评价指标时,这个数字增长到 26 个数据集中的 14 个. 而且,最优分布对少数类样本有过采样(也有过采样高达 90% 的少数类样本得到最佳分类器的情况)。
在这里,我们面临另一个基本问题:我们并不准确地知道假粉丝和人工账户的真实(自然)分布。 2013 年,Twitter 工作人员推测“虚假或垃圾账户的数量应占我们 MAU 的不到 5%”(其中 MAU 是指每月活跃用户)[35]。但是,MAU 既不能与 Twitter 帐户的随机样本同化,也不能与给定帐户的追随者同化。此外,如果一个账户购买了虚假关注者,那么它的虚假关注者和人类关注者的分布可能与人们可以找到的自然分布有很大的不同,无论是在 MAU 中,还是在 Twitter 圈中的所有 Twitter 账户中。总之,在整个 Twitter 中,5% 的虚假或垃圾账户估计不能直接扩展到给定账户的虚假粉丝。
尽管 Twitter 从未披露过注册用户总数,但非官方消息称,最新创建的 Twitter 账户数量远远超过 MAU。这就是我们做出保守假设的原因,将假追随者和人类追随者的平衡分布作为我们的基线数据集。
为了验证这个假设,我们在 [34] 中对我们的数据集进行了实验。我们逐渐改变数据集中假追随者和人类追随者的类别分布,从 5%–95% 到 95%–5%(分别为 100 人–1900 假追随者,1900 人–100 假追随者),并使用获得的数据集训练 J48 分类器,考虑它们的交叉验证性能。经过训练的分类器在人类和虚假追随者的平衡分布上获得了最佳结果。为了获得平衡的数据集,我们随机对假账户的总集合(即 3351)进行欠采样,以匹配经过验证的人类账户的 HUM 数据集的大小。因此,我们构建了一个包含 1950 个假粉丝的基线数据集,标记为 FAK。这项工作的最终基线数据集包括 HUM 数据集和 FAK 数据集,共有 3900 个 Twitter 帐户。在本文的其余部分中,这个平衡的数据集被标记为 BAS,并且已被用于本工作中描述的所有实验(未另行指定)。表 1 显示了本节描述的数据集中包含的帐户、推文和关系的数量。
在本节中,我们详细介绍了最初由博主和社交媒体分析师提出的三个程序,它们明确构思了用于检测假粉丝和机器人帐户。这些提议是在 [12, 11, 14] 中介绍的。我们在本节中关注的工作并不直接归因于学术工作。但是,这是媒体和社交营销公司对虚假 Twitter 追随者现象产生兴趣的一个例子。尽管我们不希望这些提议能够令人满意地执行虚假追随者检测的复杂任务,但我们相信对提议标准的彻底分析仍然可以提供一些有用的见解。巧合的是,所有程序都被提议为依赖于规则列表或标准的算法:每个要分类的帐户都根据所有规则进行检查,并且必须将检查的输出组合在一起以获得最终分类。不幸的是,在许多情况下,有关如何结合标准来获得帐户最终分类的详细信息并不公开。仅在 [12] 中提供了有关如何执行聚合的详细信息。在提供的细节的驱动下,我们实现了 [12] 中描述的完整算法,并在第 4.5 节中介绍了它的检测性能。此外,对于每个程序,我们报告原始来源所指示的标准,并进一步说明我们如何将它们实施为适用于我们数据集的规则。我们还详细说明了我们选择实施的原因。
在本节中,我们主要关注每条规则在我们的数据集上的应用,以评估其在区分虚假追随者方面的优势(或劣势)。在第 6 节中,我们将所有规则与第 5 节中分析的特征结合在一起,以评估它们的集体分类能力。这是因为单个规则(或特征)在分类虚假账户和人工账户方面可能表现不佳,但如果与其他规则结合使用,它可能会改善检测。事实上,值得注意的是,本节中分析的一些标准实际上已被第6节中内置的分类器所利用。
在本文的后续部分中,我们使用术语“朋友”来表示关注帐户的用户(即,如果 A 关注 B,则 B 是 A 的朋友)。
Camisani-Calzolari [12] 对罗姆尼和奥巴马的 Twitter 追随者样本进行了一系列测试,用于上届美国总统选举,以及受欢迎的意大利政客。在 [12] 中,详细介绍了一种基于帐户的一些公共特征来评估帐户的算法。引用的算法有足够的细节可以重现:它分配人类/活跃和机器人/非活跃分数,并考虑两个分数总和之间的差距对帐户进行分类。特别是,该算法为表 2 中的每个标准分配了 1 个(或更多,如果指定)人工点。此外,如果该帐户仅使用 API,则该帐户会收到 2 个机器人点。
最后,对于每个未能验证的标准,帐户都会收到 1 个机器人点,但标准 8、13、14、15、16 和 17 除外:在这种情况下,不会分配机器人点。为了验证这些规则,我们参考了推文的源元数据,其中包含一个不同的值,代表用于发布推文的平台。特别是,关于上述规则,我们分别考虑了具有值 iphone、android、foursquare、instagram 和 web 的源元数据,并且我们为在收集的帐户推文中至少找到一次的每个值分配了 1 个人工点.对于标准 21,如果该帐户的推文没有被其他用户转发,则分配 2 个机器人点。考虑到规则 8,地理定位与推文有关。因此,当帐户的至少一条推文已进行地理本地化时,我们将此规则设置为满足。对于规则 11,已在个人简介和时间线中搜索了标点符号。
根据社交媒体网站 stateofsearch.com [11] 的创始人的说法,在提出识别可疑 Twitter 帐户的黄金法则的几位博主中,我们考虑了“识别 Twitter 机器人的 7 个信号”。表 3 列出了识别 Twitter 机器人的“需要注意的 7 个信号”。
规则 3 已将推文视为一个单元来实施。我们考虑每个时间线的最后 20 条推文。对于规则 4,当数据集中至少 3 个帐户具有相同的头像时,我们认为存在重复的头像。对于规则 5,我们将所有未从网站 twitter.com 发布的推文视为从 API 发布的推文。
对于规则 6 和 7,在查找帐户的朋友或关注者列表时,Twitter 仅提供有关当前列表的信息,而不提供有关过去朋友或关注者的详细信息。此外,Twitter 不会披露与用户关注或被其他用户关注的时刻相关的任何时间数据。这意味着检查用户的关注/取消关注行为(规则 7)的唯一方法是持续监控完整的朋友和关注者的完整列表。这同样适用于测量用户关注(和回复)其他用户时所经历的延迟(规则 6)。正如第 6 节中进一步详述的那样,Twitter 对 API 使用的速率限制使得监控即使是一小群用户的朋友和关注者列表实际上也不可行。因此,我们没有将规则 6 和 7 应用于我们的数据集,因为这需要持续监控这些帐户。这也意味着这些规则不能用于支持自动检测过程,因为它们需要评估交互式过程。
几家公司提供在线工具,根据 Twitter 关注者的虚假程度对其进行分类。在这里,我们考虑由 Socialbakers [14] 开发的“FakeFollowerCheck 工具”。虽然公司网站提供了八个标准来评估某个帐户的关注者的虚假程度,但它省略了如何结合这些标准对帐户进行分类的细节。我们联系了他们的客户服务,但我们得到的回答是“如何衡量各自的标准是内部信息”。 FakeFollowerCheck 工具分析帐户的关注者,并在满足表 4 中列出的标准时认为他们可能是假的。
对于规则2,我们将Socialbakers网站建议的“节食”、“赚钱”或“在家工作”(英语和意大利语都有)视为垃圾短语。
上面详细描述的所有标准都已应用于2个验证的人类账户数据集(TFP和E13)以及从Twitter账户市场(FSF∪NT∪TWT)购买的所有3351个假追随者账户,如第3节所述。
我们针对每条规则进行了一项实验,考虑了两类账户,即虚假关注者和人类账户。为了总结每个实验的结果,我们考虑了基于四个标准指标的一些评估指标,即:
真阳性(TP):被规则识别为假关注者的假关注者的数量;
• True Negative (TN):被规则识别为人类追随者的人类追随者的数量;
• 误报(FP):被规则识别为假追随者的人类追随者的数量;
• 假阴性 (FN):被规则识别为人类追随者的虚假追随者的数量;
每个指标的含义由表 5 中的矩阵(称为混淆矩阵)以图形方式突出显示,其中每一列代表预测类中的实例,而每一行代表实际类中的实例 [36]:为了评估每一条规则对基线数据集中账户的应用,我们考虑以下标准评估指标:
精度:预测的正例中确实是真正正例的比例,即(TP)/(TP + FP);
召回率(或敏感度):真正预测为阳性的真实阳性病例的比例,即(TP)/(TP+FN);
Matthew Correlation Coefficient(MCC)[37]:预测类与样本真实类之间相关性的估计量,定义为
上述每一项措施都捕获了属于相关类别的样本(我们的数据集中的假追随者)的预测质量的不同方面。准确度衡量有多少样本在两个类中被正确识别,但它不表示相关类是否比另一个类更好地识别。此外,在某些情况下,某些预测模型的性能比其他模型更好,甚至精度较低 [38]。高精确度表明许多被识别为相关的样本被正确识别,但它没有提供有关尚未识别的相关样本的任何信息。该信息由召回指标提供,表示在整个相关样本集中有多少样本被正确识别:低召回意味着许多相关样本未被识别。 F-Measure 和 MCC 试图在一个单一的值中传达预测的质量,并结合其他指标。此外,MCC 被认为是 F-Measure 的无偏版本,因为它使用了混淆矩阵的所有四个元素 。然后,我们将那些应用给出 MCC ≥ 0.6 的标准视为最佳规则,因为这些规则与账户类型具有最强的相关性。为了完整起见,我们还报告了曲线下面积度量 (AUC),即接受者操作特征 (ROC) 曲线下的面积 [39]。后者是描述分类器性能的曲线,考虑了真阳性样本的百分比与假阳性样本的百分比。 AUC 用于将 ROC 曲线总结为单个值:面积越接近 1,分类器越有能力.
最后,我们还报告了信息增益(I gain)和皮尔逊相关系数(Pcc)。虽然 Pearson 相关系数可以检测特征和目标类之间的线性依赖关系,但信息增益考虑了更一般的依赖关系,利用概率密度(或频率,在离散变量的情况下)。更准确地说,信息增益是关于特征相对于预测类的信息量的度量,通常用于训练机器学习分类器。它可以非正式地定义为由给定属性的值的知识引起的熵的预期减少[40]。我们计算两个信息增益:关于规则结果的增益和关于规则使用的属性的增益*。对于 I gain,基于属性 A 的规则只能假设值 0(不满足)和 1(满足),而对于 I gain*,属性 A 可以假设很多异类值。例如,在评估规则“followers ≥ 30”的信息增益时,具有 234 个关注者的样本在计算 I gain 时贡献值为 1,在计算 I gain∗ 时贡献值为 234。相反,皮尔逊相关系数是衡量两个随机变量X和Y之间线性关系的强度。同样,我们计算 Pcc,考虑规则满足的结果(即:true=1 或 false=0)和 Pcc*,基于用于评估规则的属性所假定的值。我们在以下部分中的实验将表明,一般来说,一个规则和相应的属性假定信息增益和皮尔逊相关系数的值非常不同
[12] 中的检测算法汇总了 4.1 节介绍的用于识别人类和机器人行为的 22 条标准。该算法评估正在调查的帐户上的每条规则,并根据规则应用程序的输出分配正面的人工得分或负面的机器人得分。最终结果取决于账户获得的全局分数:如果结果大于0,则将该账户标记为人类;如果介于 0 和 -4 之间,则标记为中性;否则,它被标记为机器人。
表 6 详细说明了在完整数据集上运行算法的结果,包括 FAK 集,即所有购买的假粉丝账户。虽然在检测真实的人类账户方面取得了很好的效果,但该算法实现了较差的虚假关注者账户检测。大多数帐户也被错误地标记为人类,主要是因为我们数据集中的假追随者具有很容易使他们获得比机器人更高的人类分数的特征。
在我们的第二个实验的结果中,上述无法检测到虚假账户的情况很明显。为了评估该算法,我们使用它来预测我们的基线数据集 (BAS) 的账户类别,在表 7 中报告最终预测的评估。正如预期的那样,该算法的准确度很差(非常接近 0.5)并且高精度,这意味着被识别为假的(少数)帐户实际上是假的。然而,它的召回率也非常低,这意味着许多其他虚假账户都未被识别为虚假账户。这种较差的性能也通过接近 0.1 的 F-Measure 和低 MCC 值来表示。
在本节中,我们分析了原作者设计的每条规则的有效性,以评估哪个规则可以被视为检测虚假 Twitter 关注者的良好标准。
表 8 总结了将 4.1、4.2 和 4.3 节中介绍的每个规则应用于我们的 BAS 数据集所获得的结果。在表 8 中,我们强调了实现高 MCC 值的规则。如图所示,只有三个规则获得了高于 0.6 的值,即:(1)至少 30 个关注者的阈值,(2)至少 50 条推文的阈值,以及(3)至少一个用户 ID 的使用userID。
正如 MCC 的定义所预期的那样,这些规则还表现出高精度、精确度和召回率的组合。然而,值得观察信息增益和皮尔逊相关系数的值。规则的信息增益(I gain)总是低于对相关属性 I gain* 的评估,而对于 Pearson 相关系数(Pcc 和 Pcc*)则不然。实际上,这是因为Pcc评估两个假设值非常相似的变量(即规则和类的输出)之间的线性依赖关系,而Pcc*则考虑具有更多异类值的变量。实际上,在第一种情况下,变量类和输出都只能假设值 0 和 1:类可以是 0(人)或 1(假),规则可以输出 0(假,例如,帐户没有超过 50 条推文)或 1 条(真实,例如,帐户有超过 50 条推文)。相反,对于 Pcc* ,规则的属性(在示例中为推文的数量)可以采用更高的值(帐户有 234 条推文)。这显然不是线性依赖于类值,导致 Pcc* 相对于 Pcc [41] 的值较低。
因此,对于第 4.1 节(表 8 顶部)中列出的每个规则,比较 Pcc 和 Pcc* 值是没有意义的。相反,我们只需要关注相同类型的指标,即按列,来比较特征与类的线性相关性。然后,将注意力转移到信息增益上,我们注意到许多规则考虑了能够有效区分两个类别的属性。如果我们认为信息增益值高于 0.5 的规则和特征是有用的,我们观察到,即使许多规则表现出非常低的 I 增益,它们的“特征”版本也会变得更有趣:例如,规则 18,当用作特征时,图 20、21 和 22 的信息增益明显增加。因此,我们可以得出该规则是基于正确的假设(例如,使用主题标签),但规则定义过于简单而无法有效:[12] 提出的算法对于复杂的任务来说太天真了Twitter 中的虚假帐户检测。巧合的是,我们发现表现最好的规则也显示出最高的 Pcc 值,即它们的满意度与所属类别更密切相关。关于规则背后的特征,我们发现 Pcc* 大大降低了,因为如上所述,它们可以(并且确实)假设非常高的值,这严重影响了与类的线性相关性。
观察表 8 的其他规则,我们可以注意到在线博客和 Socialbakers 的 FakeFollowerCheck 建议的标准都没有成功地检测到我们数据集中的假粉丝。例如,Van Den Beld 的所有规则的准确率和精度都接近 0.5 或非常低的召回率。此外,我们观察到“来自 API 的推文”的 MCC 为 -0.779,这意味着它与帐户的类别严格相关,但有一个相反的因素:在我们的数据集中,虚假的追随者帐户几乎从不来自 API 的推文(相反,他们使用 Twitter.com 发布推文),而人类帐户至少从网站外部发布过一次。这与博主为机器人建议的行为完全相反,后者(应该)几乎完全使用 API 发布推文。 I gain/I gain* 和 Pcc/Pcc* 值也证实了与预测任务的相关性。
另一个有趣的观察是,Socialbakers 提出的许多规则的 MCC 值接近 0,这意味着它们的结果几乎与账户类别无关。事实上,绝大多数账户都被识别为人类,从而导致高精度、0.5 左右的准确度和非常低的召回率。例外是规则 6,“0 条推文”:通常,它的信息增益值为 0.02,但当考虑一个特征(即推文数量)时,它获得 0.621。类似地,规则4和规则5在考虑它们的基本特征(即转发数和带有url的tweet数)时对检测过程更有用。总而言之,独立于帐户的类型,规则几乎总是得到满足,导致在处理虚假关注者检测时出现严重缺陷。
在本节中,我们研究了 [8, 2] 中解决 Twitter 上的垃圾邮件帐户检测的工作。他们都提出了要从手动分类的帐户数据集中提取的特征列表。然后使用这些特征集来训练和测试机器学习分类器,以区分人类和垃圾邮件发送者。即使提议的功能最初是为垃圾邮件检测而设计的,但在这里,我们第一次认为它们可以发现另一类 Twitter 帐户,即假粉丝。尽管在关注 Twitter 垃圾邮件检测的文献中存在许多其他著作(参见第 2 节),但其中许多都考虑了可以在某种程度上与本节和前一节中分析的特征相似的特征。
与第 4 节中基于规则的算法不同,此处将特征表示为所考虑样本属性的量化。因此,它们是在没有任何关于将表征所考虑类的特征的值的先验知识的情况下引入的。只有在训练阶段之后,才有可能观察不同类别中特征的最常见值。
对于我们的分析,我们使用了生成“玻璃盒”和“黑盒”模型的分类器。在“玻璃盒”模型中,例如决策树和回归模型,模型的内部结构可以被人类理解,也提供了关于分类器如何识别虚假账户的见解 [39]。相反,在诸如支持向量机之类的“黑盒”模型中,模型的内部结构没有直接的人类可解释的对应关系。
[8] 中提出的研究侧重于垃圾邮件检测。作者利用了几个特征,这些特征可以从账户的个人资料和时间线中抓取账户的详细信息。对于每个调查的帐户,在随机森林算法 [23, 43] 中利用这些特征,该算法输出该帐户是否是垃圾邮件机器人。 [8] 中的分析结果描述了正在调查的垃圾邮件帐户的一些有趣特征,如表9所示:
为了评估特征 3,我们通过检查帐户时间线的最后 15 条推文中是否存在至少两条推文来实现消息相似度的概念,其中 4 个连续单词相等。同一作者在后来的作品中给出了这个概念 [25]。
如果没有原始训练集,我们无法重现相同的分类器,但我们选择了五个特征并使用它们用我们的 BAS 数据集训练一组分类器。结果报告在第 5.3 节的表 12 中。
[2] 的作者观察到 Twitter 垃圾邮件发送者经常修改他们的行为以逃避现有的垃圾邮件检测技术。因此,他们建议考虑一些新功能,使垃圾邮件发送者更难以规避。除了直接从帐户配置文件查找中获得的功能之外,作者还提出了一些基于图形、自动化和时间的功能。在表 10 中,我们详细介绍了其中的九个,以及他们在 [2] 中的分析结果
[2] 的作者将他们的特征结合在四种不同的机器学习分类器中,并将它们的实现与其他现有方法进行比较。我们无法完全重现 [2] 中的机器学习分类器,因为我们有不同的数据集。相反,我们在此评估这些功能在检测虚假 Twitter 追随者方面的表现如何,这些功能被证明对垃圾邮件发送者采用的规避技术非常强大。与 [2] 中一样,以下比率(特征 9)已近似为朋友/年龄的比率,因为精确的评估需要知道一个帐户的朋友数量的演变,但这实际上是公开不可用的.最后,在[2]中,除了上面提到的那些之外,还有其他的特征。然而,正如同一作者所声称的,它们在规避技术方面的鲁棒性较差,因此我们决定不将它们包括在我们的评估中。
正如第 4 节中的规则集所做的那样,我们在表 11 中报告了 BAS 数据集中所有特征的信息增益和 Pearson 相关系数的评估。同样在这种情况下,由于 Pcc 评估所考虑的特征和类别之间的线性相关性(只能为 0 或 1),因此与信息增益相比,它产生的结果略有不同。观察表 11 中的结果,我们可以确定几个有希望的特征:“推文数量”(已经在第 4 节中注意到)、“朋友和关注者之间的比率^2”、“双向链接比率”和“API 比率”。 5.4.3 节的实验将进一步证实双链路比率的有益效果。
为了评估第 5.1 节和第 5.2 节中描述的特征集在检测虚假追随者帐户方面的综合有效性,我们使用了 8 个分类器,这些分类器来自不同的基于机器学习的算法,即:装饰 (D)、自适应提升 (AB)、随机森林(RF)、决策树 (J48)、贝叶斯网络 (BN)、k-最近邻 (kNN)、多项岭逻辑回归 (LR) 和支持向量机 (SVM)。我们的 SVM 分类器利用径向基函数 (RBF) 内核,并使用 libSVM 作为机器学习算法进行了训练 [44]。在 SVM 的训练阶段,成本和 gamma 参数已通过网格搜索算法进行了优化。类似地,kNN 分类器的 k 参数和 LR 模型的脊惩罚参数已通过交叉验证参数选择算法进行了优化。这项工作中使用的所有分类器和优化算法都是在 Weka 框架内实现的 [43]。
在这些算法中,RF 是 [8] 中唯一使用的一种。相反,[2] 的作者使用了 D、RF、J48 和 BN。我们决定将 AB 纳入我们的工作,因为它被认为是用于分类任务的最有效的机器学习算法之一 [39]。此外,我们还添加了其他著名的和广泛采用的分类器,它们基于不同的分类技术,如支持向量机,kNN和LR,以便对我们的检测系统进行彻底的评估。我们已经建立了 8 个分类器,采用了第 5.1 节和第 5.2 节中的特征,并使用我们的基线(BAS)数据集训练了模型。然后,我们使用 10 倍交叉验证 [23] 来估计每个获得的分类器的性能。至于 4.4 节中基于规则的算法,我们将 MCC 视为评估分类器性能的首选指标。表 12 总结了结果。每个指标的最高值以粗体显示。
我们可以观察到所有的分类器都有很好的预测能力。基于 [2] 的特征集构建的那些获得了稍微好一点的结果。特别是,RF、J48 和 D 分类器的 MCC 大于 0.98。同样,所有这些的准确率和召回率都在 0.99 左右。此外,与使用 [8] 的特征集构建的分类器相比,基于 [2] 的特征集的所有分类器都具有更高的 AUC。无论如何,后者也获得了很高的检测水平:RF、D 和 J48 的准确率、精确度和召回率约为 0.98,MCC 约为 0.96。相对于使用 Yang 等人的集合获得的精度和召回率较低。 [2] 表明 Stringhini 等人的特征。 [8] 表现出将某些人类帐户视为虚假追随者的趋势。对于 [2] 和 [8] 特征集,BN、kNN 和 LR 分类器总体上实现了更差的性能。相反,SVM 分类器取得了显着的结果,尤其是在使用 [2] 的特征集时。事实上,在这个实验中,SVM 的得分只比 RF、D 和 J48 稍差,但比 AB 好。然而,当使用 AUC 指标评估时,AB 实现了极高的性能。最后,在所有考虑的分类器和评估指标中,RF 和 D 是已被证明更一致的那些。
总体而言,即使在评估指标中可以观察到一些小的差异,对于我们的基线 BAS 数据集,所有分类器几乎都可以正确区分人类和虚假追随者帐户。与CC算法相比,基于特征的分类器在假追随者检测方面无疑更准确,但CC算法在我们的数据集中表现不佳,如上文第4.5节所述。
通过检查分类器的内部结构,我们可以深入了解更有助于区分人类和虚假追随者的最佳特征。在决策树的情况下,最好的特征是更接近根的特征,分类器自动找到数字阈值,对于给定的特征,人类和假追随者之间的边界。值得注意的是,装饰、AdaBoost 和随机森林算法最终也利用了简单决策树分类器的组合。尽管它们的性能非常好,但它们的缺点是难以分析,因为它们可以包含数十个相互作用的单独树。然后,我们只关注 J48 分类器(单个决策树)来检查特征在分类过程中是如何应用的。
查看树形结构,我们观察到 BAS 数据集中的虚假关注者与 [8] 和 [2] 中的垃圾邮件帐户之间存在一些有趣的差异。例如,已发现特征 URL 比率对垃圾邮件发送者的值高于对合法用户的值,如 [8](第 5.1 节)中强调的那样。相反,观察我们的 J48 分类器的树形结构,该特征的低值表示虚假追随者,而在我们的基线数据集中表示人类账户的较高值。在我们的训练数据集中,超过 72% 的虚假关注者的 URL 比率低于 0.05,与 14% 的人类账户相反。同样,发现垃圾邮件发送者的 API 比率功能高于合法帐户([2],另请参见第 5.2 节)。在我们的数据集中,78% 的假粉丝的 API 比率低于 0.0001。对于普通邻居的推文特征,已经观察到类似的行为,在 [2] 中发现垃圾邮件发送者的行为较低,但对于我们的假追随者而言则较高。
这些初步观察突出了垃圾邮件帐户和虚假追随者之间的行为差异。特别是,与垃圾邮件发送者相比,虚假关注者似乎更被动,并且他们不像垃圾邮件发送者通常那样使用自动机制来发布他们的推文。
众所周知,经过训练的分类器可能会受到“过度拟合”的影响,即对训练数据集过于专业化并且无法将分类推广到新的和看不见的数据的问题[45]。
避免过度拟合的一个简单方法是使分类器尽可能简单。例如,在决策树算法的情况下,一种解决方案可能是减少节点的数量,并可能减少树的高度。使用 Stringhini 等人的特征集获得的决策树。 [8] 有 22 个叶子,43 个节点,高度为 7,而最好的特征是放在根的朋友/(followers^2)比率。具有杨等人特征集的决策树。 [2]有17个叶子,33个节点,高度为8,以双向链接比为根。
泛化分类器的一种常见做法是采用更积极的剪枝策略,例如,通过对小测试集使用减少错误剪枝 [23, 43]。采用这种策略,我们能够获得具有较少节点数和非常低高度的更简单的树。这种更简单的树通常使用特征集的子集,在我们的 BAS 数据集上仍然保持非常好的性能。
表 13 报告了我们进行的实验的特征和性能,改变了剪枝策略。值得注意的是,树的复杂性并不总是与检测能力的提高直接相关:例如,对于 Yang 等人的特征集。 [2],将节点数量从 33 个减少到 11 个,只会降低 0.007 的精度和 0.014 的 MCC。
同样,树的修剪和未修剪版本之间的 AUC 值几乎保持不变。此外,我们清楚地观察到 Stringhini 等人的修剪版本。 [8] 减少了 0.017 的召回率,而 Yang 等人的 [2]仅下降 0.004,这意味着后者在修剪后能够比前者漏掉更少的假货。这从 F-Measure 和 MCC 的较高减少也很明显。我们认为这种提高的有效性是所用特征质量的直接结果。总体而言,该实验的结果表明,即使减少特征,检测率也可能高于 0.95(如表 13 的最后一行,分别针对 [8] 和 [2])。例如,在这两个实验中,被修剪的树使用的特征只有双向链接比率、平均邻居的追随者、年龄,以及对中位数邻居追随者的追随者作为杨的原始特征集的子集等。 [2],以及作为 Stringhini 等人的子集的朋友/(追随者^2)、URL 比率和朋友数量。 [8] 原始特征集。