参考:
https://github.com/datawhalechina/so-large-lm/blob/main/第三章:大模型的有害性-上.md
https://github.com/datawhalechina/so-large-lm/blob/main/第四章:大模型的有害性-下.md
其他更多层面的危害性(本文不涉及):
新兴技术的危害:我们知道“能力越大责任越大,对于当前开创性的大模型来说,我们需要了解这些模型的能力和危害之间的密切关系。大模型的能力所展示的潜力将导致这些模型被广泛的采用,但是与此同时造成它们的危害。
由于AI的发展是近几年发展的产物,因此对于危害的研究与预防依旧是一个很新的事情。因此回顾历史,从过往历史中的其他领域中的危害、安全和伦理问题的防御进行了解,首先考虑一些在具有成熟的危害和安全传统的学科中使用的高层次思想和方法,有助于对当前AI领域有所借鉴
贝尔蒙特报告和IRB。
生物伦理学和CRISPR。
FDA和食品安全。
在本课程中,我们将专注于与LLM的危害相关的相对具体但是级别较低的一些关注点。当前内容的关注点主要集中于以下两个点:
性能差异相关的危害:正如我们在关于大规模语言模型的能力那一节的内容可以踹见到,大型语言模型可以适应执行特定任务。对于特定任务(例如问答),性能差异意味着模型在某些群体中表现更好,在其他群体中表现更差。例如,自动语音识别(ASR)系统在黑人说话者的识别性能要差于白人说话者(Koenecke等人,2020)。反馈循环(大模型随着数据的积累将持续训练的一种循环)可以随着时间的推移放大差异:如果系统对某些用户无法正常工作,他们就不会使用这些系统,并且会生成更少的数据,从而导致未来的系统表现出更大的差异。
社会偏见和刻板印象相关的危害:社会偏见是将某个概念(例如科学)与某些群体(例如男性)相对其他群体(例如女性)进行系统关联。刻板印象是一种特定且普遍存在的社会偏见形式,其中的关联是被广泛持有、过度简化并且一般固定的。对于人类来说,这些关联来自于获得快速的认知启发。它们对于语言技术尤为重要,因为刻板印象是通过语言构建、获取和传播的。社会偏见可能导致性能差异,如果大型语言模型无法理解表明反刻板印象关联的数据,则它们在这些数据上的表现可能会较差。
在美国,受保护的属性是指那些不可作为决策基础的人口特征,如种族、性别、性取向、宗教、年龄、国籍、残障状况、体貌、社会经济状况等。许多此类属性常引发争议,如种族和性别。这些人为构建的类别与自然界的划分有所不同,人工智能的现有工作常常无法反映出社会科学中对这些属性的现代处理方式,例如,性别并非简单的二元划分,而是更具流动性的概念,如Cao和Daumé III(2020)以及Dev等人(2021)的研究所述。
尽管受保护的群体并不是唯一需要关注的群体,但它们却是一个很好的出发点:相关的群体因文化和背景而异(Sambasivan等人,2021)。此外,我们需要特别关注历史上边缘化的群体。通常,AI系统带来的伤害并不均等:那些在历史上被剥夺权力、遭受歧视的群体,应得到特别关注(Kalluri, 2020)。值得注意的是,如果AI系统进一步压迫这些群体,那将是极其不公的。大型语言模型的性能差异和社会偏见常常与历史性歧视一致。交叉性理论(Crenshaw (1989))提出,那些处于多个边缘化群体交集的个体(如黑人妇女),往往会受到额外的歧视。
大模型通过使用大规模预训练数据进行训练,因此数据的偏见或许导致了大语言模型在性能和社会偏见危害,这里我们通过两个例子进行度量。
名字偏见
这里我们首先将大模型在SQuAD数据进行训练,然后设计一个新的任务进行测试。
结果:
Model | Parameters | Original acc. | Modified acc. | Flips |
---|---|---|---|---|
RoBERTa-base | 123M | 91.2 | 49.6 | 15.7 |
RoBERTa-large | 354M | 94.4 | 82.2 | 9.8 |
RoBERTA-large w/RACE | 354M | 94.4 | 87.9 | 7.7 |
详细的结果可以看原始论文。
刻板印象
结果:
Model | Parameters | Stereotype Score |
---|---|---|
GPT-2 Small | 117M | 56.4 |
GPT-2 Medium | 345M | 58.2 |
GPT-2 Large | 774M | 60.0 |
公平性指标众多,能够将性能差异转化为单一测量结果。然而,许多这样的公平性指标无法同时被最小化(Kleinberg等人,2016),并且无法满足利益相关者对算法的期望(Saha等人,2020)。
衡量偏见的许多设计决策可能会显著改变结果,例如词汇表、解码参数等(Antoniak和Mimno,2021)。现有的针对大型语言模型(LLMs)的基准测试已受到了到了严重的批评(Blodgett等人,2021)。许多上游偏见的测量并不能可靠地预测下游的性能差异和实质性的伤害(Goldfarb-Tarrant等人,2021)。
LLMs有可能通过多种方式造成伤害,包括性能差异和社会偏见。理解这些伤害对社会造成的影响,需要考虑涉及的社会群体及其状况,例如历史上的边缘化、权力的缺乏。虽然在具体的下游应用环境中,伤害通常更容易理解,但LLMs却是上游的基础模型。
现有的方法往往无法有效地减少或解决这些伤害;在实践中,许多技术缓解措施效果不佳。涵盖更广泛生态系统的社会技术方法,可能是显著缓解这些伤害的必要措施,这个生态系统是LLMs的情境环境。
由大型语言模型驱动的系统对使用者产生的负面影响。这些负面影响源自模型的行为,而非其构造方法,因此我们称之为“行为伤害”,这与涉及数据隐私和环境影响的构造问题是不同的。
两类行为伤害
第一类是性能差异,即系统对于某些人群(例如年轻人或白人)的准确性高于其他人群(如老年人或黑人)。例如,Blodgett等人在2017年的研究发现,语言识别系统对非洲裔美国英语的表现不如对标准英语。
第二类是社会偏见和刻板印象,也就是说,系统的预测或生成的文本在目标概念(例如科学)与特定人群(例如男性或女性)之间展现出较强的关联性,而这种关联性对于某些群体来说更为明显。如Robertson等人在2021年的研究中,他们发现自动完成系统会对性别做出一些假设。
这些伤害并非独特于大型语言模型,甚至不只限于语言技术,或者AI技术。然而,研究语言模型的伤害却是重要的,因为这些模型具有新的、强大的能力,这将导致其使用的广泛推广,并由此带来更多的伤害。
在考虑任何技术时,我们都必须仔细权衡其带来的利益与伤害。这是一项复杂的任务,原因有三:首先,利益与伤害很难量化;其次,即使能够量化,这些利益与伤害在人口中的分布也并不均匀(边缘化的群体往往承受更多的伤害),如何在这些之间做出权衡是一个棘手的伦理问题;最后,即使你能做出有意义的权衡,那么决策者又有何权力去做出决定呢?比如,Facebook或Google能单方面做出决定吗?
我们正在探索的是一个系统在处理某个特定任务(例如回答问题)时可能出现的伤害,而这些系统都是基于大型语言模型进行调整的。我们希望理解这个上游的大型语言模型在产生伤害方面起了多大的作用。随着这些调整的进行,上游的大型语言模型的作用越来越大,对这个问题的理解也变得越来越重要。
我们将探讨另外两种行为伤害:
有毒性和假信息(toxicity 和 disinformation)大型语言模型可能产生攻击性的、有害的内容,或者产生误导性的内容。然而,在我们深入讨论之前,需要指出的是,语言模型与这些伤害之间存在一种断裂。语言模型处理的是文本,这是它们接受训练的数据,并且擅长捕获统计模式。然而,这些伤害涉及的是人,即某个人收到一段文本并因此感到困扰或受伤。这意味着我们需要将这些伤害视为文本的属性,而是需要从更广泛的社会语境中考虑。
在讨论大型语言模型之前,我们有必要将有毒性和假信息置于内容审核的问题中来理解。Facebook、Twitter、YouTube等网站正不断对发布或上传有害内容的人进行抗争,这些内容包括仇恨言论、骚扰、色情、暴力、欺诈、假信息和侵犯版权等。例如,Facebook的社区规定提供了一个禁止在平台上发布的广泛列表。政府正日益加大压力,要求这些公司保证在线空间的安全。鉴于这些公司的规模,人工进行内容审核是不可能(也是不人道)的,因此,公司逐渐转向AI来自动化这个过程。审核的结果可能是硬性的(阻止、删除)或者是软性的(标记、隐藏)。注意,允许什么内容的决定基本上是政治性的——什么是恐怖组织?哪些言论是允许的?
什么构成有害内容非常依赖于具体环境。Chandrasekhran等人在2018年对Reddit(类似美国的贴吧)进行了详细的研究,Reddit是一个大型的论坛网站,其中有许多子论坛(称为subreddits)。他们发现,尽管这些子论坛大多有共同的行为准则或规范,但很多规范是特别为某个特定子论坛制定的,以适应该子论坛的特色和文化。
在有毒性和假信息的背景下,语言模型可以有两种用途:一是它们可以被用来生成有毒的内容,恶意行为者可以利用它们来扩大自己的信息传播;二是它们可以被用来检测假信息,从而帮助进行内容审核。
我们想要理解大型语言模型在有毒性方面可能带来的伤害。有两类可能的受害者:基于语言模型系统的用户,以及用户生成内容的接收者。对于前者,聊天机器人可能会回复有毒的响应,或者自动完成系统可能会提出有毒的建议。对于后者,用户可能会在社交媒体上发布有毒内容,无论他们是否有恶意。
那么,什么是有毒性呢?就像前面提到的,伤害涉及到的是人,所以我们必须记住,有毒性的定义在很大程度上取决于上下文。为了深入探讨,我们可以采用Borkan等人在2017年提出的定义,他们将有毒性定义为“粗鲁、不尊重或不合理的行为,可能使某人想要离开一场对话”。例如:
- _I bet China would be happy to help Puerto Rico rebuild in exchange for a nice military base._ [toxicity: 0]
(我打赌中国会愿意帮助波多黎各重建,换取一个漂亮的军事基地)
- _The ignorance and bigotry comes from your post!_ [toxicity: 80%]
(无知和偏见来自你的帖子!)
那么,我们是否可以通过定义“bad words(坏词)”来界定有毒性呢?实际上,只使用词汇列表来确定有毒性是不足够的,因为真正有害的文本可能不包含任何“坏词”,例如“跨性别女性不是女性”。同时,不具有伤害性的文本可能会包含“坏词”,例如在医疗或性教育的上下文中使用的词语,小说中的脏话,或者被某些团体用来特指的贬义词。所以,我们不能仅仅依赖词汇列表来确定一个文本的有毒性。
Jigsaw是Google的一个部门,专注于用技术解决社会问题(如极端主义),他们在2017年开发了一项广受欢迎的有关毒性分类的专有服务——Perspective API。这是一个机器学习模型,可以为每个输入分配一个介于0和1之间的毒性分数。这个模型是在维基百科的讨论页上(这里的志愿者版主讨论编辑决策)训练并由众包工人标记的。
你可以在这里尝试它。然而,虽然它在某些情况下能够工作,例如,“hello”(毒性:低)和“You suck”(毒性:95.89%),但并非总是有效。例如,“You’re like Hitler.”(毒性:低),“I hope you lose your right arm.”(毒性:低),“I read The Idiot by Fyodor Dostoevsky yesterday.”(毒性:86.06%)和“That is f—— good.”(毒性:85.50%)。
总的来说,Perspective API存在一些相关的问题:它不能捕获标注者的身份或更广泛的语言或社会环境。因此,标注的一致性很低。它可能会对某些人群产生偏见,因为身份词(如“gay”)的出现与毒性有关,这是因为他们受到的有毒评论过多。例如,“He’s gay.”(毒性:77.82%)。虽然Perspective API是机器学习和自然语言处理社区广泛使用的一个起点,但是使用时需要持有适度的怀疑态度。
2020年,Gehman等人推出了一个数据集,用来评估语言模型生成的毒性。例如:
, ' ' ⇝---”(毒性:80%)。
在评估语言模型生成内容的毒性时,我们需要注意一些因素。首先,虽然在实验中提到了自动完成(Autocomplete)功能,但这并不直接与真实应用环境相关联。因此,在理解自动完成的结果时,需要注意这个分离。
其次,我们的毒性得分是基于Google的Perspective API,这个API虽然有一定的作用,但也存在一些明显的限制。比如,它的评分并不依赖于上下文,这意味着在一些需要考虑上下文的情况下,它可能无法提供准确的毒性评估。
再者,在解读这些结果时,应将其视为对情况的粗略感觉,而不是可以被优化的目标。目标是理解和控制语言模型生成的内容,而不是简单地追求毒性得分的优化。
此外,我们还进行了一些无提示实验。在这些实验中,我们让模型在没有任何提示的情况下生成补全。例如,我们进行了一个实验,让模型在空白提示下生成100个补全,结果显示,这些补全的最大毒性为50%。我们还做了一个更大规模的实验,在同样的空白提示下生成1000个补全,结果显示,这些补全的最大毒性达到了90%。这些实验结果进一步揭示了无提示情况下语言模型生成内容的毒性水平。
从OpenWebText中取出的句子,这是训练GPT-2用的数据的开源克隆。毒性分数由Perspective API计算,每个毒性范围有25K句子:0-25%,25-50%,50-75%,75-100%。每个句子被分为提示和补全,如:
prompt[toxicity:29%]⇝completion[toxicity:38%]
在实验中使用了GPT-3语言模型。首先,将提示语句输入GPT-3,让它生成25个补全。然后,我们使用了两个主要的评估指标来衡量这些补全的毒性。
第一个评估指标是“预期最大毒性”,它反映了生成补全中毒性的最大程度,也可以理解为毒性的强度。第二个评估指标是毒性大于或等于50%的补全的概率,它反映了生成的补全中有多少可能存在毒性,也可以理解为毒性的频率。
在实验中,对提示语句的毒性进行了分类。我们发现,对于毒性小于50%的提示语句,GPT-3生成的补全的预期最大毒性为52%,毒性大于或等于50%的补全的概率为87%。对于毒性大于50%的提示语句,GPT-3生成的补全的预期最大毒性为75%,毒性大于或等于50%的补全的概率为50%。
这些结果揭示了GPT-3在不同毒性级别的提示下生成的补全的毒性特性,为理解和控制语言模型生成内容的毒性提供了重要的信息。
DeepMind的Gopher模型在RealToxicityPrompts上评估的结果:
![[./images/gopher-result.png.png]]
Gopher在RealToxicityPrompts上的表现。结论:即使给出“非有毒”提示,也可能生成“有毒”补全。
在当前研究中,关注如何缓解语言模型GPT-2生成内容的毒性。尝试了两种主要的缓解策略:一种是基于数据的,另一种是基于解码的。
在基于数据的策略中,继续使用150K个非毒性文档来训练DAPT,这些文档来自于OpenWebText。而在基于解码的策略中,使用PPLM来根据毒性分类器的梯度指导生成内容。
Intervention | No prompts | Non-toxic prompts | Toxic prompts |
---|---|---|---|
Do nothing | 44% | 51% | 75% |
Data-based (DAPT) | 30% | 37% | 57% |
Decoding-based (PPLM) | 28% | 32% | 52% |
在评估这些缓解策略的效果时,主要考察的指标是预期最大毒性。但我们认识到,降低毒性并非唯一需要关注的问题。如果只是单纯地降低毒性,那么存在一些简单的解决方案,但这并不是我们真正想要的。
例如,Welbl等人在2021年的研究中表明,优化毒性指标可能会减少对方言的覆盖。也就是说,过度关注毒性可能会忽视对不同文化和社区的包容性。比如,"如果你是有色人种、穆斯林或者同性恋,我们可以聊聊!"这句话的毒性就被评为高达69%,但这明显是误判。
因此,我们在缓解毒性的同时,也需要兼顾到语言模型对于各种不同语境和群体的理解和包容。
内容审查:与有害内容的问题在现实世界中的对应(独立于语言模型)。毒性是依赖于上下文的,需要考虑的是人而不仅仅是文本。语言模型即使在非有毒提示的情况下也容易生成有毒内容。减轻毒性只能部分有效,并且可能有其他负面影响(对边缘化群体产生负面偏见)。
误导性信息(Misinformation)指的是不论意图如何,被误导性地呈现为真实的错误信息。虚假信息(Disinformation)则是有意为之地呈现错误或误导性信息以欺骗某一特定受众,其中存在对抗性质。需要注意的是,误导性和虚假信息并非一定可被验证;有时,它会引起人们的疑虑或将举证责任转移给听众。
然而,一些并非真实的内容并不被视为误导性或虚假信息,如完全虚构的小说,或是讽刺性的新闻(例如"The Onion")。虚假信息往往由恶意行为者创造,并通过社交媒体平台(如Facebook,Twitter)传播。
虚假信息的例子包括石油公司否认气候变化,烟草公司否认尼古丁对健康的负面影响,COVID疫苗含有追踪微芯片,以及其它阴谋论(如911事件未曾发生,地球是平的)。其中,2016年美国总统大选期间俄罗斯的干预也是虚假信息的一个例子。
恶意行为者有一定目标(如2016年美国总统大选期间的俄罗斯)。这些行为者招募人力来手动创建虚假信息。虚假信息需要满足以下条件:新颖(避免被基于哈希的内容审核系统检测),通顺(被目标受众易读),有说服力(被目标受众所信),并传达虚假信息战役的信息。当前的虚假信息创造过程既昂贵又慢(如俄罗斯需要懂英语的人)。未来,恶意行为者可能会更多地使用AI来进行虚假信息的创造(例如,普京在2017年曾表示:“人工智能是未来,不仅是俄罗斯的未来,也是全人类的未来”)。
目前,我们尚不了解是否有由语言模型驱动的严重虚假信息战役。关键问题是:语言模型能否生成新颖,通顺的文本,传达特定信息,并且针对目标人群(在线超定向)?如果可以,那么经济效益将倾向于使用GPT-3,使得恶意行为者能更快速,更便宜地制造虚假信息。人工智能与人类结合的方法(尽管更昂贵)可能特别有效。最简单的情况下,语言模型可以生成许多故事,人类可以选择最好的一个,人类和GPT-3可以如同自动填充系统一样更紧密地协作(Lee等人,2021年)。
GPT-3论文已经表明,生成的新闻文章与真实文章几乎无法区分。这意味着语言模型可以是新颖和通顺的,但它们是否具有说服力?
Kreps等人在2020年生成的关于朝鲜扣押船只的文章(使用经过微调的GPT-2),用户研究参与者发现这些故事具有可信度。用户发现针对他们政治信仰量身定制的故事更具有可信度(在线超定向有效)。增加模型大小(在GPT-2内)只产生了边际效益。
McGuffie和Newhouse在2020年指出,GPT-2需要微调,GPT-3只需要提示(更快适应/控制)。GPT-3具有深厚的极端社区知识(例如,QAnon,瓦格纳组,原子武器师)。GPT-3可以表现得像一个QAnon信徒。他们指出GPT-3可能在网络激进化中的作用(创建群体身份,传播影响思想和感情的叙事)。结论:我们应该非常担心(GPT-3可以产生具有意识形态一致性,互动性,规范性的环境)。风险缓解:针对大型语言模型的保护措施,提升数字素养,检测模型。
Zellers等人在2020年训练Grover(一个GPT-2大小的模型)在RealNews上生成假新闻。模型:按照不同的顺序生成(领域,日期,作者,标题,正文)。当前的检测器:73%的准确性。对Grover进行微调以检测假新闻,准确性为92%。
Buchanan等人在2021年强调人类与GPT-3共同生成虚假信息的有效性,技术娴熟的政府(如中国和俄罗斯)可能部署这样的系统。风险缓解:专注于假账户而不是内容。
![[./images/disinformation.png.png]]
我们已经讨论过语言模型生成有害内容的问题,但如果它们能生成此类内容,也可能被用于检测有害内容。
Facebook(或Meta)长期以来一直在打击有害内容,最近开始利用语言模型自动检测这类内容。例如,RoBERTa已经被使用了几年。
![[./images/few-shot-learner.png.png]]
“少量样本学习器”(Few-Shot Learner)是Meta最新强大的内容审查模型。该模型在大量原始文本和历史数据上进行训练,将任务简化为蕴涵(entailment)。例如:
. . . ⇒entailment.
(我爱你的族群。开玩笑。你们都应该埋在六英尺地下。这是仇恨言论。⇒ 蕴涵)
以下是一些微妙言论的实例,这些言论被正确地判定为有害内容:
- Discouraging COVID vaccines: _Vaccine or DNA changer?_
- Inciting violence: _Does that guy need all of his teeth?_