论文链接:https://arxiv.org/pdf/2007.03604.pdf
目录
1 机器人检测背景描述
2 社交机器人大流行
2.1 关于机器人的定义与分类:
2.2 机器人流行度研究
2.3 机器人检测技术
3 社交机器人检测的黎明
3.1 有监督的方法
3.2 有监督方法缺点
4 机器人进化的问题
4.1 检测不同代机器人
4.2 新机器人特点
5 群体方法的兴起
5.1 账户组检测器
6 欺骗检测的未来一瞥
7 开放的挑战和前进的道路
2016 年 11 月 9 日上午,世界惊醒了美国总统大选的令人震惊的结果:唐纳德·特朗普 (Donald Trump) 是美国第 45 任总统。一个意想不到的事件,仍然在世界范围内产生巨大的影响。今天,我们知道少数社交机器人——模仿人类的自动化社交媒体账户——在传播分裂信息和虚假信息方面发挥了核心作用,可能有助于特朗普的胜利。
在 2016 年美国大选之后,世界开始意识到社交媒体广泛欺骗的严重性。在特朗普的利用之后,我们目睹了在检测和删除机器人的众多努力之间出现了一种尖锐的不和谐,这些恶意行为者似乎对我们的社会产生了越来越大的影响 。
这个悖论提出了一个紧迫的问题:我们应该执行什么策略来阻止这种社交机器人大流行?在这些时候——在 2020 年美国大选前夕——这个问题似乎比以往任何时候都更加重要。特别是考虑到最近有报道称成千上万的人工智能账户篡改了选举辩论(Removing Coordinated Inauthentic Behavior From Georgia, Vietnam and the US | Meta)
然而,至少从 2010 年以来,2016 年之后的社会、政治和经济分析师所受到的打击——欺骗和自动化——一直是计算机科学家研究的问题。在这项工作中,我们简要回顾了社交机器人检测研究的第一个十年。
通过纵向分析,我们讨论了与机器人作斗争的主要研究趋势、取得的主要成果以及使这场永无止境的战斗如此具有挑战性的因素。利用从我们广泛分析中汲取的经验教训,我们提出了可能的创新建议,这些创新可以让我们在欺骗和操纵方面占上风。
研究十年来在社交机器人检测方面的努力还可以为检测和减轻其他(更近期的)在线欺骗形式的影响提供策略,例如战略信息操作和政治巨魔。
自在线社交网络诞生之初,社交机器人就与人类共存。
定义不统一:然而,对于什么是社交机器人,我们仍然缺乏一个准确且公认的定义。这部分是由于研究它们的多个社区以及这些实体的多方面和动态行为,导致了不同的定义,每个定义都侧重于不同的特征。
计算机科学家和工程师:倾向于从技术角度定义机器人,重点关注活动水平、完全或部分自动化、算法和人工智能的使用等特征。
同时由算法和人工干预驱动的帐户的存在导致了:更细粒度的定义,并且引入了半机械人作为机器人辅助人类或人工辅助机器人;
相反,社会科学家:通常对使用机器人的社会或政治影响更感兴趣,并相应地对其进行定义。社交机器人被积极用于有益和邪恶的目的 [13]。关于良性或恶意社交机器人的检测,现有的大部分工作都集中在检测后者。
如果我们考虑到 Stieglitz 等人提出的分类,原因很简单。在[30]中,机器人根据其意图和模仿人类的能力进行分类,现有的大多数样本要么是不以模仿人类为目的的良性机器人(例如,新闻和招聘机器人、用于紧急情况的机器人),要么是恶意的机器人试图表现为人工操作。
检测前一类机器人并不代表挑战,学者们投入了大部分精力来发现后者,这也是因为它们篡改了我们的在线生态系统。事实上,社交机器人执行的广泛行动以及大规模创建和管理它们的成本微不足道,为部署机器人军队进行信息战、人为夸大公共角色的受欢迎程度和操纵舆论提供了可能性。
随着对自动化和欺骗的兴趣突然激增,几项研究测量了社交机器人大流行的程度。结果令人担忧。
2017年机器人:据估计,2017年,在所有活跃的Twitter账户中,机器人的平均存在率为15%,在所有Facebook账户中,机器人的存在率为11%[38] 。帐户的11%[38]--这确实是一个相当大的份额。
美国股市:更令人担忧的是,当强大的政治或经济利益受到威胁时,机器人的存在会急剧增加。 2019 年的一项研究报告称,在提及美国股市趋势时,71% 的 Twitter 用户,很可能是机器人 [8];
关于在线加密货币讨论 [24] 中存在机器人以及作为有关 COVID-19 大流行 [14] 的“信息流行病”的一部分,也获得了类似的结果。其他研究特别关注政治活动,得出的结论是,机器人在众多全球事件之前精心策划的战略信息操作中发挥了作用,如图 1 所示。
尽管参与了图中突出显示的所有国家的政治讨论,但机器人并不总是产生真正的影响。
事实上,学者们对社交机器人的影响仍然缺乏广泛的共识,一些研究报告称它们在增加虚假信息的传播、两极分化和仇恨言论方面发挥了关键作用 [27, 29],而相互竞争的结果则声称机器人不会发挥作用。在这些过程中发挥重要作用[32]。
社交机器人的普及也部分得益于开源代码的可用性,Bence Kollanyi 报告称,开源代码呈指数增长,导致 2016 年超过 4,000 个 GitHub 存储库包含用于部署 Twitter 机器人的代码 [22]。其他调查表明,这种趋势尚未停止。事实上,到 2018 年,学者们发现了 40,000 多个公共 bot 存储库 [1]。迫在眉睫的画面是社交机器人成为欺骗和操纵人群的首选武器之一。这些结果得到了进行信息操作的同一平台的支持——即 Facebook(Removing More Coordinated Inauthentic Behavior From Iran and Russia | Meta)、Twitter(https://about.twitter.com/en/our-priorities/civic-integrity) 和 Reddit(https://www.reddit.com/r/redditsecurity/comments/e74nml/suspected_campaign_from_russia_on_reddit/)——自 2016 年以来,这些平台禁止了数万个参与协调活动的账户。
鉴于报告的机器人在影响我们在线生态系统的几种疾病中的作用,提出了许多技术来检测和消除它们——增加了该主题也从新闻媒体获得的大量报道——有助于形成一个急剧上升的出版物趋势。如今,关于机器人的表征、检测和影响估计的新研究以惊人的速度发表,如图 2 所示。
(每年关于社交机器人的特征、检测和影响估计的出版物。自 2014 年以来,有关该主题的出版物数量猛增。我们预测,从 2021 年开始,每天将有超过 1 篇关于社交机器人的新论文发表,这给那些试图跟上这一蓬勃发展领域发展步伐的人带来了沉重的负担。为了利用以前的成果,需要努力审查和组织这一不断增长的工作。)
如果这种飙升趋势继续下去,到 2021 年,每天将有超过一篇新论文发表,这将带来那些试图跟上这个蓬勃发展的领域发展的人的沉重负担。或许更重要的是,新论文的发表速度意味着全球正在努力阻止社交机器人大流行的蔓延。但是,所有这些努力将导向何方?为了回答这个问题,我们首先回顾一下社交机器人检测的早期阶段.
第一项专门解决在线社交网络中自动帐户检测的工作可以追溯到 2010 年 1 月 [37]。在早期,绝大多数机器人检测尝试具有两个显着特征:(i)它们基于有监督的机器学习,以及(ii)基于对个人账户的分析。
换句话说,给定一组要分析的帐户,检测器分别应用于该组的每个帐户,并为其分配二进制标签(机器人或人类)。这种机器人检测方法在图 3 的面板 A 中进行了图解。
(社交机器人检测的早期方法和群体方法之间的差异。在早期方法(面板 A)中,监督检测器分别应用于每个正在调查的帐户。如果机器人看起来与人工操作的帐户没有明显不同,就像最近进化的机器人一样,它很可能会逃避检测。在最近的方法 (B) 中,检测器分析一组帐户,寻找协调和同步行为的痕迹。与复杂的单个机器人相比,更容易检测到大量协作帐户。尽管如此,对于可能无法提供足够信息来检测它们的小群松散协调的机器人,或者对于可能看似自动化的高度协调的人类群体,仍然可能发生预测错误。这些问题目前是该领域尚未解决的挑战)
在这里,关键假设是机器人和人类显然是可分离的,并且每个恶意帐户都具有使其与合法帐户区分开来的单独特征。这种社交机器人检测任务的方法还围绕着对正在调查的账户应用现成的通用分类算法,以及设计有效的机器学习功能来将机器人与合法账户分开。
例如,Cresci 等人。开发了一组监督机器学习分类器,用于检测所谓的虚假粉丝,这是一种自动账户,通常用于人为地提高购买它们的公共角色的受欢迎程度[4]。在表面网络中,每 1,000 名追随者可以以低至 12 美元的价格购买假追随者。因此,它们相当普遍(https://www.nytimes.com/interactive/2018/01/27/technology/social-media-bots.html?mtrref=undefined&gwh=2D6D84A962F39A63A1647F23E040C95A&gwt=pay&assetType=PAYWALL)。Cresci等人分析了从不同供应商那里获得的大约3千名假粉丝,发现这些账户的简单性质使他们的检测变得相当容易,即使只利用19个数据和计算成本低的特征[4]。毕竟,假追随者不需要执行复杂的任务,例如制作内容或参与对话。其他检测系统利用大量机器学习功能来发现社交机器人。
通过利用帐户的 1,200 多个特征,Botometer 根据其个人资料特征、社交网络结构、它们产生的内容、它们的情绪表达以及它们的动作时间来评估可能的机器人 [35]。而不是像 Cresci 等人那样专注于特定类型的机器人。确实,Botometer 代表了一个“通用”机器人检测器。然而,这种检测器的通用性和易于部署被降低的机器人检测精度抵消了 [5, 17]。之前的两个检测器同时分析可疑帐户的多个维度,以发现可能的机器人。相反,其他系统只关注网络特征、共享消息的文本内容或个人资料信息。这些系统通常更容易上手,因为它们只分析机器人复杂行为的一个方面。
尽管取得了有希望的初步结果,但这些早期方法有许多缺点。开发监督检测器的第一个挑战与用于分类器训练阶段的ground truth数据集的可用性有关。在大多数情况下,缺乏真正的基本事实,标签只是由人工分析数据的人工操作员给出。由于社交机器人的不同定义,导致了不同的标签方案[18],因此出现了严重的问题。此外,人类已经被证明患有几个注释偏见,并在很大程度上不能发现最近的复杂的机器人,在最近的一个实验中,只有24%的机器人被人类正确地标记为这样[5]。
此外,这些方法通常输出二进制分类。然而,在许多情况下,恶意帐户混合了自动化和人为驱动的行为,这些行为无法用简单的二进制标签来解释。更糟糕的是,单个检测器的另一个主要缺点是由社交机器人的进化性质引起的。
社交机器人检测的初步成功迫使机器人开发人员采取复杂的对策。正因为如此,较新的机器人通常具有高级特性,这使得它们相对于较旧的机器人更难被检测到。这种恶性循环导致了更复杂的社交机器人的发展,通常被称为机器人进化。
Chao Yang 等人发表的值得注意的作品。 2011 年至 2013 年间,为研究社交机器人进化提供了第一个证据和理论基础[34]。直到 2011 年左右,填充 OSN 的第一波社交机器人都是由相当简单的机器人组成的。由于很少有社交联系和发布消息而声誉非常低的帐户,并且具有明显的自动化迹象,如图 4 的面板 A 所示。
(显示机器人进化问题的示例 Twitter 配置文件。第一波(面板 A)的机器人非常简单,几乎没有个人信息和社交关系。因此,它们很容易与人为操作的合法账户区分开来。第二波包括更复杂的账户(面板 B),包含详细的个人信息。为了提高可信度,这些僵尸程序经常相互跟踪,从而创建清晰可识别的僵尸网络。如今,社交机器人(面板 C)经过精心设计,与其他机器人相比更类似于人工操作的帐户(面板 D)。他们拥有大量真实的朋友和追随者,他们使用盗用的姓名和头像,并且在少量恶意消息中散布着许多中立的消息。)
相反,Chao Yang等人研究的社交机器人。鉴于他们的社交联系相对较多,它们显得更受欢迎和可信。此外,他们不再一遍又一遍地发送相同的信息。利用这些发现,作者开发了一种专门用于检测进化机器人的监督分类器。最初,分类器被证明能够准确检测第二波机器人。随着时间的推移,新的研究承认,从 2016 年开始,第三波机器人的兴起通过在线社交网络传播 [5, 13],如图 4面板C所示。不幸的是,Yang 用于检测进化机器人的分类器不再成功地发现第三波恶意账户 [6]。前面的例子是机器人进化的轶事证据,以及它对检测器的不利影响。其他研究报告了其他定量证据,这些研究评估了不同机器人的生存能力——即它们不断逃避检测和避免从社交平台上删除的能力——以及人类在野外发现机器人的能力。结果表明,只有 5% 的较新机器人被从社交平台上删除,而较旧的机器人被删除了 60% 的时间 [5]。此外,参与众包实验的数百名精通技术的社交媒体用户仅能在 24% 的情况下将较新的机器人与合法用户区分开来。相同的用户在 91% 的情况下能够发现较旧的机器人 [5]。
先前的轶事和定量结果告诉我们,如果像监督分类器和众包参与者所做的那样,一次分析一个,则很难将当前复杂的机器人与合法帐户区分开来。事实上,与其他旧机器人相比,较新的机器人更类似于合法的人工操作帐户。许多机器人看起来像人类的原因之一是自动化和人类驱动行为之间的混合增加。
这些赛博格存在并运作于传统的机器人和人类概念之间,导致两者之间的区别减弱和行为重叠。此外,他们现在使用与猎人相同的技术武器,例如用于生成可信文本的强大 AI 技术(例如,通过 GPT-2 和 3 深度学习模型(Better Language Models and Their Implications))和个人资料图片(例如,通过 StyleGANs 深度学习模型(Facebook Removes Accounts With AI-Generated Profile Photos | WIRED))。事实上,恶意账户利用 deepfake 文本、个人资料图片和视频的可能性令人担忧,值得更多关注 [10]。
Kate Starbird 最近在一篇关于 Nature [28] 的鼓舞人心的文章中讨论了一个相关问题。类似于“机器人”和“人类”之间模糊的二元性,她认为“假”和“真”之间的界限正在模糊。为此,类人机器人和半机械人只是冰山一角,其他新形式的欺骗——如政治喷子和“不知情的人类”——势必使在线信息环境变得更加严峻。图 4 提供了一些 Twitter 配置文件示例,这些示例展示了现实世界中的机器人在这些年来是如何演变的。作为“社交网络病毒”的一种形式,机器人发生了变异,从而对我们的抗体更具抵抗力。社交机器人大流行逐渐变得更加难以阻止。在这张全球图景中,二元分类——例如人类与机器人、假与真实、协调与非协调——可能代表过于简单化,无法掌握这些现象的复杂性,也不太可能产生准确和可操作的结果。
最终,关于在线自动化和欺骗演变的研究结果告诉我们,早期受监督的机器人检测方法的天真假设——根据这种方法,机器人显然可以与合法账户分离——不再有效。
用早期方法检测复杂机器人的困难迅速引发了新的研究趋势。自 2012-13 年以来,几个不同的团队独立提出了新系统,尽管这些系统基于不同的技术和实现,但具有相同的概念和理念。如图 3(面板 B)所示,这些新系统的主要特征是针对整个帐户组,而不是单个帐户。
(在最近的方法 (B) 中,检测器分析一组帐户,寻找协调和同步行为的痕迹。与复杂的单个机器人相比,更容易检测到大量协作帐户。尽管如此,对于可能无法提供足够信息来检测它们的小群松散协调的机器人,或者对于可能看似自动化的高度协调的人类群体,仍然可能发生预测错误。这些问题目前是该领域尚未解决的挑战)
这种设计选择的基本原理是机器人与其他机器人协同工作,形成僵尸网络以放大它们的影响 [40]。僵尸网络的存在并不一定意味着账户在社交网络中是明确连接的,而是意味着它们是由一个实体操纵的,并且它们有共同的目标。因此,与复杂的单一机器人留下的痕迹相比,僵尸网络留下了更多的自动化和协调的痕迹[5]。因此,设计用于发现可疑的协调和同步行为的技术可能会比分析个人账户产生更好的结果。此外,通过分析大量账户,检测器还可以访问更多数据,为强大但需要大量数据的 AI 算法提供动力。 2018 年——在机器人检测的群体方法出现大约 5 年后——Facebook(Coordinated Inauthentic Behavior Explained | Meta) 和 Twitter(https://help.twitter.com/en/rules-and-policies/platform-manipulation)也承认关注“协调的不真实行为”的重要性。
大多数组检测器的第二个共同特征是重要算法贡献的提议,因此从通用机器学习算法(如支持向量机和决策树)转变为专门为检测机器人而设计的 ad-hoc 算法,在努力提高检测性能。最后,许多账户组检测器也基于无监督或半监督方法。这里的想法是克服监督检测器的泛化缺陷,这些缺陷受到详尽且可靠的训练数据集的可用性的严重限制[11]。
为了定量证明机器人检测组方法的兴起,在图 5 中,我们报告了广泛纵向分类的结果。我们调查了 230 多篇提出机器人检测技术的论文,并沿着两个正交维度手动对每个检测器进行分类:
第一个维度(面板 A)突出显示检测器是针对个人帐户还是帐户组;
然后在面板 B 中,我们根据其对任务的高级方法对检测器进行分类;
(自 2010 年以来发布的 236 个机器人检测器的纵向分类。数据点表示在给定年份发布的每种类型的新检测器数量。在面板 A 中,检测器分为关注个人账户分析或账户组分析。在面板 B 中,相同的检测器根据其对任务的高级方法进行分类。两个小组都清楚地记录了一种新的机器人检测方法的兴起,其特点是群体分析和许多无监督检测器。有趣的是,自 2017 年以来无监督方法达到的平台期与最近对抗性方法的兴起同时发生)
特别是,我们将检测器分类为基于:(i)启发式 - 即基于简单规则; (ii) 众包——即依靠专家的判断; (iii) 有监督的机器学习——例如基于分类并需要标记的训练数据集的机器学习; (iv) 无监督机器学习——例如那些基于不需要标记训练数据的聚类的机器学习; (v) 对抗性方法——包括对抗性机器学习。
为了更好地解释我们的方法,在下面,我们简要提供了几个示例,显示了如何对众所周知的bot检测器进行分类。
个人账户分类方法:[26] 中提出的系统旨在检测受攻击的帐户-最初被攻击者接管的合法帐户。它最初为每个被调查的账户建立一个行为概况。然后,当行为相对于其关联的配置文件有明显差异时,系统能够通过异常检测来检测受损帐户。该系统被分类为基于对个人账户的分析(因为账户的行为特征完全取决于其自身的行为)和无监督检测器(因为它利用异常检测技术)。
行为相似性方法:相反,另一个系统会在大量账户 [6] 的活动序列之间寻找可疑的大量相似性。每个账户的活动被编码为一个字符串,账户活动之间的相似性是通过将最长的公共子序列度量应用于这些字符串来计算的。通过峰值检测识别活动字符串之间可疑的长子序列,并且所有共享长活动子序列的帐户都被标记为机器人。鉴于这些特征,这项工作有助于基于组的机器人检测器(因为它分析一组帐户,寻找相似的活动序列)以及无监督机器学习方法(因为它利用无监督峰值检测算法)。
概括前面的两个例子,我们注意到一些有趣的模式源自我们的分类。绝大多数执行网络分析的技术,例如通过考虑账户的社交或交互图,自然被归类为基于组的。通常,他们还提出了无监督的方法。相反,所有基于对发布消息文本内容的分析的技术,例如那些专门采用自然语言处理技术的作品,都是分析个人账户的监督检测器。
通过利用图 5 中报告的分类结果,我们还可以获得一些额外的见解。首先,机器人检测器的上升趋势遵循社交机器人的总体趋势,如图 2 所示。事实上,自 2015 年以来,每年发布的机器人检测器数量都在稳步增加。从面板A中显示的趋势来看, 也非常明显地表明,围绕集体行为分析的基于群体的方法越来越频繁。事实上,2018 年新提出的基于群组的检测器数量首次超过基于个人账户分析的检测器。基于面板B我们小组指出,基于启发式和众包的机器人检测方法很少受到关注。这可能是由于这些系统的开发涉及许多挑战,最终限制了它们的适用性、可扩展性和检测性能。相反,自 2012 年以来,新的监督检测器的数量一直在不断增加,尽管它们存在严重的泛化问题 [11]。
随着群体方法的兴起,无监督机器学习的采用始于 2013 年,现在似乎是静止的。有趣的是,无监督方法所达到的高原与对抗性方法的兴起同时发生,这可能会在未来几年取代它们。尽管通过分析不同的论文集,每种类型的新机器人检测器的确切数量可能会略有不同,但从图 5 中得出的总体情况——记录了个人、团体和对抗方法的趋势——是清晰、可靠和富有洞察力的。
图方法:由于这种范式转变,基于组的检测器在识别不断发展的、协调的和同步的帐户方面特别有效。例如,几个组检测器实现了基于图的方法,旨在发现可疑的帐户连接模式 [20, 24]。这些技术既适合研究用户与内容的互动(如转发别人的推文),也适合研究用户与其他用户的互动(如成为其他用户的关注者)。协调和同步的行为在图中表现为近乎完全连术采用接的社区、邻接矩阵中的密集块或谱子空间中的特殊模式 [21]。
无监督方法:其他技无监督方法来发现帐户组的时间推文和转推行为中的异常模式 [2, 23]。发现具有可疑同步行为的账户的一种方法是计算账户时间序列之外的距离指标,然后对账户进行聚类。这种方法背后的基本原理是基于证据表明人类行为本质上比自动化行为更加异质[7]。因此,即使在帐户之间没有显式连接的情况下,具有高度相似行为的大量帐户也可能表明存在僵尸网络。帐户之间的距离时间序列被计算为基于动态时间规整的翘曲相关系数 [2],或者作为由LSTM自动编码器 [23] 计算的特征向量之间的欧几里得距离,这是一种深度神经网络,特别适合从顺序数据中提取潜在特征。
正如从单个检测器到组检测器的转换所表明的那样,机器人检测任务的整体方法可能会对检测性能产生严重影响。
基于文本的方法:同时,一些科学界倾向于支持并坚持特定的方法。例如,在自然语言处理社区中发表的作品很自然地关注文本内容,因此产生了大量的监督分类器,它们单独分析账户并产生二进制标签。相比之下,复杂网络社区更喜欢基于图的方法。结果,某些方法的组合 (最重要的是,执行无监督的组分析的基于文本的检测器) 几乎是未探索的,并且在现有bot检测器的环境中绝对没有得到充分体现。因此,对于未来,建议沿着迄今为止一直被忽视的方向加倍努力。
到目前为止,我们强调了从个体探测器到群体探测器的转变,以对比社交机器人的进化。现在,我们回顾该领域的最新进展,以获得对欺骗检测未来的可能见解。我们的分析基于两个观察结果。
首先,我们观察到社交机器人检测的个人和基于群体的方法都遵循反应模式。在实践中,当学者和 OSN 管理员发现一组行为不端且无法使用现有技术有效检测的新帐户时,他们会做出反应并开始开发新的检测系统。因此,开发新的更好的检测器的驱动因素一直是机器人的恶作剧。
机器人检测滞后性:这种方法的一个主要含义是,对不良行为者的检测通常仅在收集到新的恶作剧证据后一段时间才会发生。因此,机器人、半机械人和巨魔等不良行为者受益于较长的时间跨度——设计、开发和部署新的有效检测器所需的时间——在此期间,他们基本上可以自由地篡改我们的在线环境。换句话说,学者和 OSN 管理员不断地落后于恶意帐户开发者。观察和对策之间的这种滞后可能解释了我们在线社交生态系统的现状:尽管现有的检测技术越来越多,但机器人和其他不良行为者对我们在线讨论的影响似乎并没有减少。
机器学习算法检测野外机器人性能不高:我们的第二个观察与将机器学习用于社交机器人检测任务有关。绝大多数机器学习算法都是为在静止和中性的环境中运行而设计的,即使不是良性的。当违反平稳性和中性假设时,算法会产生不可靠的预测,从而导致性能显着下降 [15]。值得注意的是,社交机器人检测的任务既不是静止的也不是中性的。机器人进化机制违反了平稳性假设,导致账户随着时间的推移表现出不同的行为和特征。 另外,中立性假设显然被违反了,因为机器人开发者正积极地试图欺骗检测器。因此,我们十年来一直依赖的相同算法,并且我们在研究中报告了出色的检测结果,实际上发现它们在野外检测机器人的机会受到严重限制。
然而,机器学习的最新发展可能会拯救我们,并可能缓解先前观察中出现的这两个问题。
对抗性机器学习是一种专门设计用于在那些表现出以愚弄学习模型为动机的场景中应用的范式 [15]。它的高级目标是在对手有效利用现有系统的漏洞之前,研究现有系统的漏洞以及利用这些漏洞的可能攻击。漏洞的早期检测反过来又有助于开发更强大的检测系统。实现这一愿景的一种实用方法是生成和试验对抗性示例——即专门为在机器学习系统中引发错误而创建的输入实例。
对抗性学习主动制造机器人: 所有与检测在线欺骗、操纵和自动化相关的任务本质上都是对抗性的。因此,它们代表了对抗性机器学习的有利应用领域。这种直觉导致了 2018-19 年发表的第一篇论文,这些论文启动了机器人检测的对抗方法的开发,如图 5 的面板 B 所示。在所谓的对抗性机器人检测中,学者们用有意义的对抗性例子进行实验,他们用这些例子广泛地测试了当前机器人检测器的能力 [9]。在这种情况下,对抗性示例可能是复杂类型的现有机器人和巨魔,它们设法逃避当前技术的检测;甚至是尚不存在但其行为和特征被模拟的机器人,正如 Cresci 等人所做的那样 [9];或为了实验而临时开发的机器人,如Grimme等人[17]所做的。找到好的对抗样本可以帮助学者了解现有机器人检测系统的弱点。因此,机器人猎人不再需要等待新的机器人恶作剧来调整他们的技术,而是可以主动(而不是被动地)测试它们,以便迅速使它们变得更加强大。此外,这种范式在设计上考虑了对手,从而为欺骗检测提供了更高的保证,这违反了平稳性和中立性假设。
生成对抗网络:先前的分析强调,对抗性机器人检测的初步努力是由一些研究人员的创造力推动的,并且只涵盖了适用性有限的少数案例 [9, 17]。在不久的将来,它们可以由人工智能的最新发展提供动力。生成对抗网络 (GAN) 是一个强大的机器学习框架,其中两个竞争的深度学习网络在博弈论环境中联合训练 [15]。具体来说,GAN 由创建数据实例的生成器网络和对数据实例进行分类的鉴别器网络组成,如图 6 所示,其中 GAN 被实例化用于欺骗检测的一般任务。生成器的目标是创建类似于真实有机数据属性的合成数据实例,而鉴别器的典型目标是将输入数据实例分类为合成的或有机的。鉴别器根据其二元分类性能进行评估,而生成器则根据其在鉴别器中引起错误的能力进行评估,因此两个网络之间的竞争。
(基于生成对抗网络 (GAN) 的对抗性欺骗检测。生成器网络用于创建大量类似于真实恶意示例属性的对抗示例。鉴别器网络经过训练以区分恶意(真实或生成)和合法示例。通过联合训练这两个网络,生成器学习生成更具挑战性的恶意示例,而鉴别器则提高了其整体分类性能,因为它在具有挑战性的示例上进行训练。这个概念框架可以应用于许多任务,包括检测虚假信息、社交机器人和巨魔)
最初,GAN 是作为生成模型的一种形式提出的——也就是说,重点放在了生成器网络上。这种类型的一个值得注意的例子是在 [33] 中训练的 GAN,用于创建社交机器人的对抗性示例,从而改进了下游检测器的训练。然而,随着对欺骗检测提供更大改进的最终目标,我们可以设想采用 GAN 来训练更好的鉴别器网络。特别是,GAN 的生成器可以用作生成模型来创建许多似是而非的对抗性示例,从而克服了前面提到的该任务中的限制和标记数据集的稀缺性。然后,整个 GAN 可用于测试判别器与对抗性示例并提高其检测性能。这种范式从未应用于社交机器人检测任务,但它在相关任务(例如假新闻生成/检测[39])的测试中取得了可喜的结果。图 6 中描绘的对抗性框架足够通用,可以应用于广泛的欺骗检测任务,包括检测社交机器人、电子人、巨魔和错误/虚假信息。此外,与现有的机器人检测对抗方法相比,它基于已建立且成功的机器学习框架,而不是缺乏广泛适用性的临时解决方案。
尽管对检测欺骗和自动化的对抗性方法寄予厚望,但该研究方向仍处于起步阶段,并且可能由于其新近,仍落后于更传统的方法。因此,只有当科学界决定迎接许多公开挑战时,对抗性检测的努力才能取得成功。其中包括开发用于创建许多不同类型的对抗性示例并评估这些示例是否真实并代表未来恶意帐户的技术。尽管存在这些挑战,但我们的分析和迄今为止获得的有希望的结果强烈推动了未来朝着这个方向的努力,图 5 中引发的对抗趋势也证明了这一点。
图 2 中显示的社交机器人检测工作呈指数级增长,这让我们确信,未来几年必将投入大量精力来解决这一关键问题。但与此同时,它也带来了一些新的挑战。首先,组织如此庞大的工作变得越来越重要。这样做不仅有助于更好地利用这些知识,而且还允许研究人员通过避免探索已经证明不成功的路径来更有效地提供新的解决方案。为此,本次调查旨在为对该主题内外的大量文献进行批判性审查和分析做出贡献。
其次,预计出版物的增加不可避免地意味着将提出更多的机器人检测器。随着越来越多的不同检测技术,使用标准方法(例如基准、框架和参考数据集)来评估和比较它们变得越来越重要。目前的情况是我们有一个装满各种工具的手提箱。够糟糕的是,我们真的不知道如何有利地使用它们,它们之间有什么区别,最终,它们的真正价值是什么!再给我们买一个工具也无济于事。相反,一些旨在广泛评估和比较我们当前工具的有针对性的投资,将极大地提高我们所有手提箱的实用性。
在评估机器人检测器时经常被忽视的一个方面是它们的普适性——也就是说,它们对于最初没有考虑的机器人类型也能获得良好的检测结果的能力。在这方面,我们的分析奠定了二维泛化空间的基础,如图 7 所示。
(二维泛化空间。轴表示测试检测器泛化能力的维度。大多数现有检测器都是在有利条件下进行评估的——即仅针对特定类型的机器人 (b0) 和在特定时间点 (t0) 收集的数据——因此可能高估了它们的能力。 bb0 和 t >t0 的实际检测性能未知。通过在更一般的条件下评估检测器可以获得更现实的估计。沿 y 轴的泛化可以通过采用 Echeverría 等人提出的评估方法来实现 [11]。可以通过应用旨在创建当前现有机器人的变体的对抗性方法来获得沿 x 轴的泛化)
在不久的将来,一个理想的场景是有可能针对许多不同类型的社交机器人评估任何新的机器人检测器,从而继续前进图 7 的 y 轴,遵循最近在 [11, 36] 中开发的有希望的方法。针对当前机器人的不同版本评估检测器也将是有利可图的,从而以某种方式模拟机器人的演变特征。这可以通过应用前面描述的对抗性方法来创建许多对抗性示例,沿着泛化空间的 x 轴打开实验来实现。将这两个评价维度结合起来,从而广泛地探索可推广性空间,可以对目前和未来技术的检测能力进行更可靠的评估,从而避免高估检测性能。
为了实现这一雄心勃勃的目标,我们必须首先创建包含几种不同类型的恶意账户的参考数据集,包括社交机器人、机器人和政治喷子,从而显着增加截至目前存在的稀疏资源(Bot Repository)。在这里,挑战包括数据本身的有限可用性、缺失或模棱两可的基本事实以及难以应对恶意账户快速发展的现有数据集的过时。在这方面,非常欢迎持续的数据共享计划,例如 Twitter 为参与信息操作的帐户提供的数据 (https://transparency.twitter.com/en/reports/moderation-research.html),因为它们可以推动对这些问题的下一波研究。然后,我们还应该设计其他方法来创建广泛多样的对抗性示例。这样做还需要定量方法来估计不同对抗性示例带来的贡献,例如就现有恶意账户而言,它们的新颖性和多样性。这些挑战目前基本上没有解决,需要我们科学界的最大努力。
我们对前十年社交机器人检测研究的纵向分析揭示了一些有趣的趋势。早期的特点是简单的监督检测器单独分析帐户。 2012-13 年出现了无监督检测器,并将目标转移到行为不端的帐户组。最后,我们强调了对抗性方法的新上升趋势。我们的分析表明,十多年来,我们分别与复杂的社交机器人、电子人、巨魔和勾结的人类构成的每一种威胁作斗争。现在,由于深度伪造等支持人工智能的欺骗技术的兴起,这些恶意行为者中最复杂的人必然会变得难以区分,而且可能与合法账户也无法区分。
因此,越来越有必要专注于发现用于欺骗和操纵的技术,而不是试图根据个人账户的性质对其进行分类。不真实的协调是欺骗难题的重要组成部分,因为它被不良行为者利用以获得可见性和影响。此外,它忽略了不同类型的坏演员。换句话说,我们的发现和最近的反思 [17, 28] 都表明我们应该继续远离简单的监督方法,关注个人账户和生成二进制标签。相反,我们应该通过设计无监督的技术来发现可疑的协调,来接受欺骗、操纵和自动化的复杂性这一具有挑战性的任务。此外,未来的技术不应该像经常做的那样提供过于简单的二元标签 - 并且同样经常被批评(The false positive problem of automatic bot detection in social science research | Berkman Klein Center),而是应该产生可疑协调程度的多方面测量。我们的深入分析显示,在“协调的不真实行为”被公众和社交平台本身承认为我们在线社交生态系统的主要威胁之前几年,基于群体的方法就出现了。沿着这条研究线最紧迫的挑战之一是基于组的检测器的可扩展性问题和“不真实的协调”的内在模糊性。事实上,可扩展和可推广的协调检测在很大程度上仍然是一个开放的挑战,到目前为止,只有很少的贡献被提出 [12, 25]。同样,尚未提出和评估用于区分真实和非真实协调的计算方法。有趣的是,同样的分析预计全球对不真实的协调感兴趣,现在表明对抗性方法可能使我们在与在线欺骗的长期斗争中占据优势。
总结我们广泛分析的主要建议,未来的欺骗检测技术应该:(i)关注独立于个人账户性质的可疑协调,(ii)避免提供有利于模糊和多方面指标的二进制标签,(iii)支持无监督/半监督方法而不是监督方法,并且(iv)通过设计来解释对手。此外,我们致力于检测任务的部分巨大努力也应重新分配以测量(人类)对这些现象的暴露程度并量化它们可能产生的影响。只有通过颁布这些变化,我们才能开发出能更好地代表现有现实的工具,从而为许多科学界和利益相关者提供可操作的结果,他们把人工智能和大数据工具作为在网络信息的危险环境中冒险的指南针。这些指路明灯就在我们面前,这是一个令人兴奋且难得的机会,这是我们过去没有的机会。采取行动并利用这个机会现在完全由我们承担.