论文连接:https://dl.acm.org/doi/pdf/10.1145/3543507.3583214
准确的机器人检测对于在线平台的安全性和完整性是必要的。它对于研究机器人在选举中的影响、错误信息的传播和金融市场操纵也至关重要。
平台部署基础设施来标记或删除自动帐户,但它们的工具和数据并不公开。因此,公众必须依赖第三方机器人检测。
这些工具采用机器学习,通常在现有数据集上实现近乎完美的分类性能,这表明机器人检测准确、可靠,适合下游应用。
我们提供的证据表明情况并非如此,并表明高性能归因于数据集收集和标记的限制,而不是工具的复杂性。
具体来说,我们表明,简单的决策规则-在少量特征上训练的浅决策树-在大多数可用数据集上(机器人检测数据集)实现了接近最先进的性能。即使数据集组合在一起,也不能很好地推广到样本外数据集。
我们的研究结果表明,预测高度依赖于每个数据集的收集和标记程序,而不是机器人和人类之间的根本差异。
这些结果对采样和标记程序的透明度以及使用现有机器人检测工具进行预处理的研究中的潜在偏差具有重要意义。
随着在线社交媒体作为与他人联系和分享信息的重要手段的兴起,机器人或自动账户的影响已成为一个重要的社会关注话题。有些机器人是良性的,提供有趣的内容或直接增强网站的可访问性(为平台上没有字幕的视频提供字幕),但还有许多机器人从事影响操作,传播错误信息和骚扰:假粉丝提高了一些用户的受欢迎程度;垃圾邮件发送者在网站上发布政治候选人或产品的广告; 恶意的自动账户破坏了选举的可信度,或加剧了两极分化。据报道,机器人影响了2016年美国总统大选[4,36],英国脱欧公投[3,36],关于covid - 19的错误信息传播[25]和金融市场[11,52]。是否有能力(或没有能力)准确地给这些账户贴上标签,可能会对选举、公共卫生以及公众对机构的信任产生非常实际的影响。
平台删除了大量他们认为不真实的账户,但他们对这些删除系统保密,可能会被激励去歪曲机器人的影响或流行程度。事实上,机器人检测是埃隆·马斯克(Elon Musk)收购Twitter谈判的核心:Twitter声称,其可货币化用户中只有不到5%是机器人[66],而马斯克声称这个数字要高得多[51]。由于内部机器人检测技术通常不公开,研究人员、记者和广大公众都依赖研究人员开发的工具来区分机器人和真正的人类用户,并了解机器人对社会现象的影响。
在Twitter和其他在线社交媒体平台上开发机器人检测工具是一个活跃的研究领域。在过去的十年中,为了启用第三方机器人检测,已经收集了大量的用户数据集。在这些数据集上使用表达性的机器学习技术(如集合)实现高(有时接近完美)的性能随机森林和深度神经网络,以及成百上千的特征,如个人资料元数据、参与模式、网络特征、tweet内容和情绪。
至关重要的是,研究人员经常使用机器人检测作为研究社会现象的预处理步骤,将人类用户与机器人分开,并研究与人类和机器人中的一个或两个相关的现象。这包括诸如错误或虚假信息的传播[6,40,53,61 - 63,67],选举[2,4,24,41,54,64]和回声室[7]等主题领域,并发表在科学研究的主要场所,包括科学[67],自然[53]和PNAS[64]。例如,Broniatowski等人[6]观察到,机器人侵蚀了人们对疫苗接种的信任,González-Bailón等人[35]得出结论,机器人在政治抗议期间分享不成比例的内容,Vosoughi等人[67]得出结论,人类和机器人以不同的方式传播假新闻。这些结果的鲁棒性和有效性取决于准确可靠的机器人检测。
第三方机器人检测工具也很容易获得,并被公众广泛使用:最新版本的Botometer据报道,[60]每天收到数十万个对其公共API的查询[74],BotSentinel[5]提供了一个浏览器扩展和方便地阻止被分类为机器人的账户的方法。
机器人检测是一个已经解决的问题吗?从表面上看,机器人检测研究似乎是机器学习的一个成功案例:研究人员已经为一个定义良好的分类任务收集了各种数据集,而随机森林和神经网络等表达性机器学习模型在数据上获得了近乎完美的性能。此外,这些方法在学术文献和公共应用中都被广泛采用。机器人检测工具经常在数据集的组合上进行训练,研究人员认为,通过添加更多的数据集[60]或使用更复杂的技术,如生成对抗网络[9],现有的方法可以很容易地适应现有分类器的缺点或更像人类机器人的进化。
即便如此,仍有迹象表明,机器人检测工具远非完美。它们可能彼此不一致[47],随着时间的推移被证明不可靠[56],并且依赖于可疑的标签[26,27]。在这里,我们试图调和和系统地解释明显的成功推特机器人检测似乎有很大的局限性。
评估第三方机器人检测数据集和工具本身就具有挑战性:公众不知道或无法获得“基本真相”,这是我们了解机器人的唯一窗口Twitter是通过数据集本身实现的。然而,这并不意味着无法进行评估。通过仔细分析这些数据集以及它们之间的关系,我们仍然可以更好地理解这些数据集告诉我们什么。
以Cresci等人发布的数据集为例[10](cresci-2017),是学术文献中使用最广泛的一种。该数据集由真实的人类用户池,虚假关注者集合和几种类型的“垃圾邮件机器人”组成:该领域的不同帐户集合。最先进的模型是使用文本数据的深度神经网络,它在该数据集上实现了基本完美的性能[43]。然而,仔细观察发现了一些令人惊讶的事情:我们可以使用一个只对数据提出是/否问题的分类器来获得近乎最先进的性能。事实上,至少有两个不同的是/否问题,几乎将人类和机器人区分开来。这些分类器显示在左边和中间的决策树,如图1所示。
: creci -2017的两棵浅决策树(左,中)的准确率为0.98,caverlee2011的一棵浅决策树(右)的准确率为0.91。
正如我们稍后讨论的那样,我们认为左边的树是Cresci等人[16]的便利抽样的产物,它涉及使用Twitter对自然灾害的社会感知。图1的右侧,我们展示了另一个高性能分类器,用于另一个流行的数据集:发表于[44]的caverlee-2011。同样,少量的是/否问题将人类与机器人区分开来,准确率很高。这些例子并不是特例。正如我们将展示的,我们分析的几乎所有其他基准数据集都承认使用非常简单的分类器具有高性能。
我们应该如何使这些结果与我们的直觉相一致,即机器人检测是一个难题?一方面,机器人检测可能比预期的更简单,简单的决策规则就足够了。另一方面,也许数据集本身无法捕捉到机器人检测的真正复杂性。如果是这种情况,那么尽管简单的决策规则在样本中表现良好,但在部署时,它们的性能将明显变差。我们通过广泛的Twitter机器人检测数据集提供证据来支持后一种假设。
我们的贡献。在这项工作中,我们仔细检查了广泛使用的Twitter机器人检测数据集,并探索了它们的局限性。首先,我们证明了简单的决策规则在基准数据集上的表现几乎与最先进的模型一样好。 因此,每个数据集只提供有限复杂性的预测信号。因为我们简单的决策规则允许我们透明地检查分类器高性能的原因,我们发现数据集中的预测信号可能反映了特定的收集和标记过程;收集账户并为每个帐户分配一个人类或机器人标签。
接下来,我们检查数据集的组合。许多机器人检测工具结合了数据集(参见[17,37,75]),并暗示或明确地认为,这样做可以覆盖出现在Twitter上的机器人的分布。基于先前的工作[18,60],我们表明,在一个数据集上训练的表达性机器学习模型在其他数据集上测试时表现不佳,并且在除一个数据集外的所有数据集上训练的模型在测试时表现不佳。数据集提供的信息不能推广到其他数据集,这表明数据集是根据数据集分布的不同的分布,这表明不同的抽样(即收集和标记)程序。
最后,我们考虑是否对数据施加结构性假设,即每个数据集包含来自少数类型之一的机器人(例如,垃圾邮件机器人或虚假追随者)可以像Sayyadiharikandeh等人的方法那样产生更大的泛化[60]和Dimitriadis等[17]表明。我们发现简单的决策规则可以准确地将每种类型的机器人与人类区分开来。因此,一种类型的每个机器人样本本身具有较低的信息复杂性。我们还表明,在特定机器人类型的帐户中,简单的决策规则可以识别给定机器人来自哪个数据集。 因此,给定机器人类型的数据集是从非常不同的分布中提取的,这再次表明不同的数据收集过程。 综上所述,这些结果表明,每个单独的数据集包含的信息很少,每个数据集中的预测信号对其他数据集的预测没有帮助,即使在代表特定类型机器人的数据集中也是如此。因此,现有的数据集不太可能提供具有代表性或全面的机器人样本,并且在这些数据上训练的分类器在部署时也不太可能表现良好。
除了机器人检测之外,我们的方法-检查数据集上的简单决策规则并测量跨数据集的性能-可能有助于在一系列机器学习应用中检测简单的数据采样和标记过程:如果数据集承认高度精确的简单决策规则,则数据集本身具有较低的信息复杂性。此外,如果在某些数据集上训练的表达性机器学习模型不能推广到其他数据集,则底层系统看起来并不简单,并且数据集不太可能提供对整个问题领域的洞察。
我们还认为,这些发现对Twitter及其他领域未来的机器人检测研究具有直接意义:机器人检测数据集的创建者应该透明地报告和证明采样和标签程序;开发机器人检测技术的研究人员应该训练和分析简单的、可解释的模型以及更具表现力的模型;使用机器人检测作为预处理步骤的研究人员应该考虑它如何影响结果。
机器人检测技术。为了提高分类能力,研究人员使用了一系列尖端的机器学习技术来检测不同类型的数据。种方法是应用随机森林[32,72]和随机森林的集合,这些集合结合了在数据子集上训练的分类器的预测。另一种流行的方法是利用文本数据应用大型预训练语言模型[38]或研究人员自己训练的模型[28,39,43,46,48]。第三种方法使用网络数据来训练图神经网络[1,20,23],或者尝试从异常网络结构中检测僵尸网络[70]。最后,第四种方法通过使用行为[30,34]或生物学启发的技术[13 - 15,58]从其他学科寻求见解。除了新的预测模型外,还花费了大量精力来推导或探索可能为机器人检测提供信息的轮廓、文本或网络特征[39,49]。以上引用的所有论文都依赖于我们工作中分析的基准数据集。
机器人检测工具的局限性。有几篇论文探讨了机器人检测技术的局限性,但很少有论文提供证据来解释这些局限性。据我们所知,我们的工作是第一个将机器人检测的局限性追溯到简单的采样和标记策略的研究。Martini等人[47]比较了三种用于机器人检测的公共工具,发现不同工具之间的预测存在显著差异。与此相关,Rauchfeisch和Kaiser[56]发现,由于账户活动的变化,单个工具可能会随着时间的推移产生不同的结果,torusdaul等人[65]创建了可以可靠地逃避现有机器人检测框架的机器人。 Elmas等人[19]发现,对先前工作的定性观察,比如机器人账户通常是最近创建的,或者被大量的活动所标记,并不适用于为他们的论文收集的数据,并得出结论,流行的分类器可能无法推广。Gallwitz和Kreil[26,27]手动识别在流行数据集中被错误标记为“机器人”的个人账户,注意到假阳性的高流行率,并认为通常被视为基本事实的标签可能存在错误。
在本节中,我们将讨论我们分析的数据集以及将每个数据集包含在分析中的标准。文献中的大多数基准数据集都是跨各种上下文中收集的数据的聚合,我们研究的基准数据集如表1所示。
为了收集基准数据集的列表,我们在Google Scholar中搜索了与bot检测相关的同行评审论文,以及我们找到的论文的参考文献。我们发现总共有58篇论文使用了至少一个我们纳入分析的数据集,其中22篇在撰写本文时在Google Scholar上被引用至少50次(有几篇至少有500次引用),其中26篇是在2020年以后发表的。在我们的分析中,我们只包括了在多个同行评审的机器人检测论文中使用的数据集,这些论文报告了我们在搜索中发现的准确性和F1分数,尽管几乎所有的数据集都被用于两个以上的论文中。.有几个数据集是通过Botometer Bot repository访问的
对于其余的数据集,我们联系了相关论文的作者,要求访问原始数据(twibot2020和yang-2013),或者在网上找到了公开访问数据的途径(在caverlee-2011和pan-2019的情况下)。
我们还从作者那里收到了原始作品 [30-32] 中使用的 gilani-2017 的增强数据,尽管 Bot 存储库上提供了简化的功能集。对于 gilani-2017 和 caverlee-2011,作者 [32, 44] 提供的原始数据包含的用户数量比 Bot 存储库中包含的用户数量至少多 35%;我们在结果中使用更大的原始数据集。对于 Bot Repository 上发布的 astroturf 和 varol-2017 数据集,数据仅作为用户标识符列表出现。由于自产生以来已经过去了很长时间,我们没有重新水合这些数据或在我们的分析中使用它。
特征。所有数据集都包含个人资料特征,通常包括屏幕名称、推文数量、关注者数量、关注数量、收藏数量、语言、位置、时区、包含用户的 Twitter 列表数量。此外,一些数据集还包含数据集中每个用户的推文语料库。网络关系和相关的关注/关注者行为偶尔会被记录。
注释方法。确定机器人检测的“真实情况”标签是一项具有挑战性的任务。在大多数数据集中,人类(无论是论文作者还是受雇的众包工作者)手动为每个帐户分配“机器人”或“人类”标签。之前的工作发现人类注释者彼此之间具有很高的一致性[32],并且不一致的帐户有时会被排除在数据集中[22]。其他人则使用启发法或依赖外部来源(例如名人帐户 [celebrity2019] 或发布来自公共黑名单 [yang2013] 的推文链接的帐户)来分配它们。手工标记和启发式标记数据集的质量在很大程度上取决于人类非常擅长分类任务的隐含假设,而数据集本身和更广泛的文献都没有提供强有力的证据证明情况确实如此。相反,最近的证据表明,人类注释者系统地偏向于认为观点不一致的账户是机器人 [69, 71]。同样,有些帐户机器人和人类标签都不适合,例如半自动帐户或代表公司或大学等机构实体的帐户[8]。然而,由于其他工作假设数据中的标签是真实的,并且由于没有更好的注释方法可用,因此我们做出相同的假设。
我们考虑的数据集分为两类:组件数据集,由单个类别(人类或机器人)帐户组成;复合数据集,由组件数据集的组合组成。下面简要描述了 28 个数据集中的每一个。除非另有说明,相关论文的作者对数据集进行了手工标记。
Social-spambots-1 [10] 是 2014 年罗马市长选举期间用于宣传特定候选人的垃圾邮件帐户。 Social-spambots-2 [10] 是垃圾邮件发送者,他们使用主题标签 #TALNTS 推广 Talnts 应用程序。 Social-spambots-3 [10] 包含向亚马逊上的产品发送垃圾邮件链接的帐户,其中包括真实的产品链接和恶意 URL。 classic-spambots-yang [72] 是通过爬行 Twitter 网络收集的垃圾邮件已知恶意链接的帐户。 true-accountsyang [72] 是未在 Twitter 上发布恶意链接的帐户,取自与传统垃圾邮件机器人-yang 相同的爬行过程。 classic-spambots-2 [10] 包括共享恶意 URL 的帐户和重复标记共享此类内容的帐户。传统-spambots-3 [10] 和传统-spambots-4 [10] 是垃圾邮件招聘信息的帐户。pronbots-2019 [73] 是 Twitter 机器人,不经常发布色情网站链接。 elezioni-2015 [12] 是使用主题标签#elezioni2013 手动标记的意大利语帐户。 political-bots-2019 [73] 由 Josh Russell (@josh_emerson) 收集并识别为由个人运行的自动化帐户,旨在放大美国 2018 年中期选举中右翼的影响力 [75] 包括使用相关主题标签的帐户,例如 #2018midterms 2018 年美国大选期间。 trueaccounts-cresci [10] 据称是人类 Twitter 用户的随机样本,通过他们对自然语言问题的回答来确认其真实性。这些是第 1 节中提到并在第 4 节中讨论的所有推文“地震”的帐户。twibot-2020 [22]是通过使用知名用户作为种子爬行 Twitter 网络来收集的。这些账户是由受雇的众包工人手动标记的。 gilani-2017 [32] 包含从 Twitter 的流 API 采样的帐户。
rtbust-2019 [49] 包含从数据收集期间转发意大利推文的所有帐户中二次抽样的手动标记帐户。 fake-followers-2015 [10] 和vendorpurchased-2019 [73] 是从不同 Twitter 在线市场购买的虚假关注者帐户。 Caverlee-2011 [44] 是通过蜜罐 Twitter 帐户收集的,研究人员使用人机交互自动化流程来标记机器人和人类帐户。名人-2019 [73] 是手动收集经过验证的名人帐户。 the-fake-project-2015 [12] 由关注 @TheFakeProject 并成功完成验证码的帐户组成。 botwiki-2019 [75] 是自我识别的良性 Twitter 机器人列表,例如发布生成艺术或推文世界假期的自动帐户。 Feedback-2019 [73] 是大约 500 个帐户的集合,Botometer 用户标记为该工具错误标记了这些帐户。
我们研究的几个数据集是上述组件的组合。 cresci-2015 [12] 包括 the-fake-project-2015、elezioni-2015 和 fake-followers-2015。 cresci-2017 [10] 由 fake-followers-2015、true-accounts-cresci、三个社交垃圾邮件机器人数据集和四个传统垃圾邮件机器人数据集组成。 yang-2013 [72] 有来自传统垃圾邮件机器人-yang 的机器人和来自真实账户-yang 的人类。 pan2019 [55] 包括 cresci-2015、cresci2017、varol-2017 的所有组件,加上 caverlee-2011 以及其中任何一个中未发现的手动注释机器人和人类的附加集合。该数据集还包括原始组件中不存在的推文数据。
简单的决策规则。虽然复杂的机器学习模型能够学习输入数据模式与其标签之间的复杂关系,但它们的灵活性通常来自于透明度和可解释性的成本。
我们选择将“简单决策规则”实例化为浅层决策树,因为它们的透明度使我们能够轻松检查为什么每个数据点被分配一个标签。对于机器人检测中主要使用的复杂且不透明的模型,类似的分析要困难得多或不可行。研究人员已使用 LIME [57] 和 SHAP [45] 等现在标准的可解释机器学习工具来构建机器人检测模型 [12,42,75]。然而,这些都不能像我们那样证明底层数据集允许依赖少量特征的简单、高性能的分类器。其他简单的机器学习模型,如线性回归、-均值或最近邻分类器,可能能够为浅层决策树提供类似的可解释性,但具体方法的选择对于我们的分析并不重要。
我们使用 scikit-learn 的二元决策树实现,2 通过选择最能按类别将数据分为两组的特征阈值对(由节点表示),然后在数值数据上递归地训练决策树每组分开。在我们的例子中,在固定的递归深度(对应于树深度)之后,分类器输出一个与组中大多数示例相对应的标签;这些是树的叶子。我们只考虑深度为四或以下的树木,以确保可以轻松检查树木并避免过度使用。请参阅图 1,了解在基准数据集上训练的浅层决策树的几个示例。
性能指标。文献中最常报告的指标是准确性和 F1 分数。准确性定义为正确标记的示例的比例。当数据集在类之间不平衡时,准确性可能会产生误导,因为朴素模型可以通过始终预测多数类来实现高精度。二元分类中的 F1 分数是模型精度和召回率的调和平均值。在我们的上下文中,低 F1 分数表明分类器要么没有检测到高比例的机器人,要么错误地标记了大部分人类。 F1 分数不包含真阴性的数量,即人类被正确标记为人类,这在机器人数量超过人类的情况下可能会产生误导。
尽管这两个指标相辅相成,但都取决于数据中人类和机器人的比例。由于这些原因,很难比较机器人和人类比例不同的模型和数据集的准确性和 F1 分数结果。为了提供额外的清晰度和可比性,我们报告了分类器的平衡精度 (bal.acc.),或真阳性率和真阴性率的算术平均值。当人们事先了解分类器部署环境中机器人和人类的相对比例时,平衡准确性是一个不太有用的指标。