2021-02-06 19:35:18
编译 | 陈彩娴、青暮
编辑 | 陈大鑫
近日,OpenAI政策研究主管Miles Brundage在推特上分享了一篇新论文,论文内容是对一个GPT-3研讨会的总结。
2020年10月14日,来自OpenAI、斯坦福大学HAI研究所等机构的研究人员召集在一起,讨论围绕GPT-3的开放研究问题。
参与研讨会的学者有各种研究背景,包括计算机科学、语言学、哲学、政治学、通信、网络政策等。大致来讲,本次研讨会围绕两个主要问题:
大型语言模型的能力和局限性是什么?讨论涉及几个关键领域,包括:规模型对模型功能的巨大影响;评估大型语言模型是否真正理解语言的困难;在多种数据模态下训练模型的重要性;以及使模型目标与人类价值观相一致的挑战。
被广泛使用的大型语言模型的社会影响是什么?讨论涉及了几个关键领域,包括:难以确定通用语言模型的所有可能使用(或滥用)场景;机构在模型部署中可能面临的挑战;模型在算法层面上泄露信息的潜在可能;减少模型偏见(例如:种族、性别、宗教信仰等)存在的阻碍;以及基于语言模型的自动化应用对劳动力市场的影响。
在会后,来自斯坦福大学、OpenAI 与 AI Index 的数位参会者对讨论内容进行了整理与概括。
论文链接:https://arxiv.org/abs/2102.02503
在开放性的讨论中,作者等人希望给大家提供多角度观点,引起思考,共同寻求解决方案。
1)规模效应
GPT-3是最大的语言模型之一:它具有1,750亿个参数,并且接受了570 GB的文本训练。相比之下,其前身GPT-2(功能与GPT-3类似)具有15亿个参数,并接受了40 GB的文本训练。尽管GPT-2对下游任务展示了一定程度的零样本泛化能力,但当上下文中给出示例时,GPT-3进一步展示了学习更多新颖任务的能力。参会者发现,令人称奇的是,这种泛化能力仅来自于增加模型和训练数据的规模。
有人指出,随着模型规模增加而实现的能力扩展的现象,“就像物理学定律或热力学定律”存在稳定性和可预测性。一些参会者乐观地认为,即使对于比GPT-3大得多的模型,这些趋势仍将继续生效,以后将会出现越来越强大的模型,并能够以更加先进的方式从少量训练示例中学习新的能力。
一位参会者指出,像GPT-3这样的模型规模让人想起了大型粒子加速器实验,构建这样的加速器需要许多不同背景的研究人员。例如,当训练如此大的模型时,具有不同专业知识的不同团队必须协作以运行实验、构建和维护计算基础架构、开发算法,并不断测试模型的功能,以解决可能出现的问题(例如:偏见、滥用、安全性等等)。
2)理解
语言模型中的“理解”是什么构成的?GPT-3是否满足此定义?有些人倾向于基于强智能的概念进行定义,这些概念要求模型具有意图或对现实世界中的请求做出响应的能力。其他人则提出,GPT-3还有一些尚未满足的更弱的智能概念,包括对对抗样本的鲁棒性,这些示例很容易使AI系统感到困惑,而对人类却没有影响。参会者建议,如果模型在稀有但重要的输入上表现不佳,则“基本正确”地解决问题可能不足以被视为理解。
理解的另一个定义围绕因果关系的概念,因为真正理解的模型应该掌握数据特征与所需行为之间的因果关系。一些人认为语言模型不可避免要利用数据中固有的“虚假关联”或“捷径特征”,因此缺乏真正的潜在因果模型。但是,一位参会者提出了另一种观点:语言模型如果具有足够的数据,可能会形成“自然实验”效应,从而使模型能够以类似于人类的方式,从观测数据中学习因果关系。
一些参会者反对理解的二元论,并强调了儿童和成人随着时间逐渐掌握更强大技巧的现象。例如,一位参会者引述了一位著名的物理学家的话,“我第三次教热力学时才了解热力学。”另一位参会者反对单一的理解概念,强调了语言学家和哲学家之间关于意义的辩论,即“意义是从表达之间的关系,还是从某种外部基础真理中衍生而来的?”
最后,一些参会者对理解的关注提出了质疑,认为人类能够以平庸甚至缺乏理解的方式来完成许多任务,其中包括最近赢得了法国拼字游戏冠军的非法语选手。有人则表示,关于GPT-3是否以相关方式理解语言的判断,或许与其是否能成功完成任务无关。
令人印象深刻的是,一位参会者还谈到了一个反向问题,即人类对大型语言模型的能力的理解:“ GPT-3完全是陌生的。问它是否是AGI并不是一件愚蠢的事情。”
3)多模态
大部分讨论都涉及了多模态模型的重要性,多模态模型是对来自其他模态(例如图像、语音等)的数据进行训练的语言模型。参会者大体上同意,大型多模态模型将变得更加普遍,并实现更多功能。实际上,在研讨会之后不久,OpenAI就发布了DALL-E,它是GPT-3的多模态版本,接受了文本到图像转换的训练。
但是,有人认为GPT-3已经在多模态数据上进行了训练,因为训练数据包含散文、结构化数据表和计算机代码。其他人则认为,多模态训练的主要好处可能是让模型更快学习到有用的功能,因为不同数据模态之间的相互作用,可能会比单独的数据模态提供更强的学习信号。最后,一些人评论说,鉴于人类在所能使用的感觉模态范围方面存在差异,因此没有任何其他模态对语言使用至关重要。
4)价值匹配
参会者讨论了模型的目标需要与人的价值更好地匹配。例如,一位参会者提到了一些语言模型对所有的语言符号(例如:名词、介词、数字等)一视同仁,但人类则不一样。其他几位参与者强调了更好地优化事实准确性和对抗鲁棒性的挑战。人的价值和模型的目标的匹配被认为非常重要,尤其是针对通过与环境积极互动学习的“嵌入式” AI智能体。参会者还强调开发更好的算法使智能体对人的价值“转向”,以及促进跨学科的合作,更好地阐明什么是“人的价值”,尤其是考虑到跨越个人和社区的多样性,以及数据集中存在的偏见。
GPT-3 的功能非常强大,可以进行文本概括、机器人聊天、搜索、代码生成和文章生成。
在会上,有人提出:GPT-3 的功能如此震撼,既要仔细管控所有用途(因为 GPT-3 接受任意输入,却无法事先预测模型的所有可能表现),又要保证人类社会的安全不受 GPT-3 威胁,其实是极具挑战性的。
会上的许多人也注意到,如果使用访问受限的 API 对 GPT-3 进行延误,那么OpenAI 比开源更容易地控制模型的使用。
但这种方法也有许多亟待解决的问题,比如:谁可以访问,为什么可以访问?要如何提供模型访问权限来支持大型社区进行大规模的团队协作(检查模型的潜在误用和制定缓解策略)?
参会者讨论了部署大规模语言模型可能带来的道德和社会挑战,以及应对这些挑战的方法。
一个建议是增加供学术界使用的计算资源,以便学者研究大规模语言模型的部署。有人提出,设立法律法规,要求使用者披露何时使用 AI 生成文本,可能有助于管理大规模语言模型的影响。另一位参会者则询问:能不能通过某些标准来评估语言模型是否具有社会效益?大家都认为这是一项极具挑战但十分重要的任务。
几位参会者认为,OpenAI 和其他组织不会永远垄断大规模语言模型。他们提到,开发者可能只能垄断 6-9个月,直到其他研究人员复现他们的结果。大家达成一个共识:最前沿的研究机构应利用其前沿地位,负责任地制定新兴领域的标准规范。
此外,还有一些参与者指出,由于技术标准的进步,随着时间的推移,复制 GPT-3 之类的模型会越来越容易。这也进一步表明了使用当前时间窗口的紧迫性。在该窗口中,极少行动者拥有非常大规模的语言模型,并难以制定恰当的规范和原则供其他人遵循。
会上讨论的另一个主要话题是关于错误使用语言模型来生成虚假信息。
具体来说,类似 GPT-3 之类的模型可以用于创造错误的、具有误导性或公关性的文章、推文和新闻报道。
有人认为,此前的一些技术(比如摄影和PS)也会带来相似的问题,社会大众已经提高对此风险的防范意识,因此不必太担心;此外,虽然 GPT-3 在原则上确实可能自动生成虚假消息,但相比用 GPT-3 制造假消息,人工传播谣言似乎更节约成本。
另一些人不同意上述观点。他们认为,语言模型自动生成虚假消息的成本,要远低于培训并支付人力去制造虚假消息的成本。
大家都认为:实际调查自动生成虚假信息与人为制造虚假信息的经济学规律非常重要。
往前看,有人提议,我们不妨设想:在未来,语言模型生成的文本不仅与大家讨论的话题相连贯,而且在任一话题上都具有很强的说服力。
另一位参会者指出,GPT-3或将来的其他语言模型可能会使虚假信息难以或无法从内容上检测出来,从而迫使通过在线平台依赖元数据。同样地,有人建议,诸如 GPT-3之类的系统存在应该鼓励大家更多地使用加密技术来认证媒体。
GPT-3 表现出多类种族偏见、性别偏见和宗教偏见。
一位讨论者将解决语言模型偏见的难度类比为解决在线平台的内容审核难度。尽管两者均存在制定规范的难度,但有些方面也存在缓解的共识与机会。比如,在线平台一致认为有必要解决儿童色情产品或严重的暴力威胁,歧视法中的“受保护阶级”概念也为思考某些语言模型偏见提供了有用的初始框架。
几位研讨会的参与者指出,我们很难以通用的方式定义怎样才算减轻大规模语言模型的偏见问题,因为恰当的语言使用在很大程度上取决于上下文语境。
一位与会者说到,所有数据集在某些方面都有偏见,因此我们面临的挑战不是消除所有偏见,而是根据某些规范和/或法律标准来解决有害的偏见。
一些人建议,类似 OpenAI 这样的公司没有恰当的立场来代表社会制定规范。还有一些人发现,我们很难通过更改训练数据来减轻 GPT-3 等多功能系统的偏见,因为偏见通常是在特定的使用案例下进行分析的。
与会者讨论了如何解决语言模型中有害偏见的多种可能方法,包括:
• 更改初始训练数据,提前减少偏见
• 训练一个单独的模型来过滤语言模型所生成的内容
• 从必要数据上对大规模语言模型进行微调
• 标记数据,以便模型可以学习区分某些形式的内容(可以参见CTRL)
• 将模型训练得更“了解事实”
• 使用人类反馈进行强化学习
• 利用模型本身的知识来改善输出(例如,精心设计提示)
• 开发更多模型在部署前可以运行的“偏见测试”套件
• 与值得信赖的合作伙伴共同研究模型,提供一定的商业服务
这些方法都不是万能的。例如,使用人类反馈来操纵模型仍然会引发问题:人类标记者是谁?如何选择人类标记者?此外,内容过滤器有时会破坏他们要保护的特定智能体(例如,收回大多数人用于诽谤的单词或词组,将这些群体边缘化)。
一位与会者争辩道,将人放置在文本生成的核心,对解决这些问题至关重要。还有一些参会者强调,鉴于现有技术的局限性,应避免使用语言模型的某些功能,且文本生成应用程序在开放性和风险性上的差异非常大。例如,检测正则表达式比管理自杀电话热线更容易处理。
另一个讨论主题是关于 GPT-3 等模型的经济意义。参会者观察到,人们当前对涉及文本阅读或分析的工作有不同程度的期望,有些工作令人满意(例如创作写作或阅读与总结报告),而另一些工作则效果较差(例如内容审核)。这就提出一个问题:大型语言模型应该或不应该在什么时候或什么类型的工作上自动化?
一位与会者认为,如果让公司来作这类决定,可能会产生不良后果。大会还讨论到,教育也很可能受到较大语言模型的影响,这可能是论文写作过程以及评估文本的方式变化所导致的。
还有一位与会者提到,向社会不同领域的群体提供 API 访问权限,可以帮助传递潜在的社会变革的早期信号。
以下的研究问题受到了大会讨论的启发:
• 我们能否更好地理解为什么语言模型的规模会变得这么大?这能够帮助我们建立更能有效扩展的模型吗?
• 扩展的限制是什么?规模扩大会带来更强的因果推理,符号操控(symbolic manipulation),常识理解以及对更广泛输入类别的鲁棒性吗?还是需要用到不同的技术?
• 我们如何理解大型语言模型功能的局限性?我们是否可以让模型在不确定时寻求帮助、解释或弃权?
• 我们如何开发新的神经网络架构和算法,从而使模型能高效学习文本以外的多模态数据?
• 使大型语言模型的输出更符合人类价值观的不同方法分别涉及到哪些机会和权衡?
• 应该如何分配诸如 GPT-3的模型的访问权,并在安全性、可复制性和公平性等因素之间取得平衡?为了使 GPT-3 之类的语言模型在特定情况下安全或不安全使用,我们需要进行哪种测试?
• 学术界可以采取什么措施来最好地定位自己,以建立这种模型的工业发展护栏,包括提倡获得充足资金来复制训练所需的计算资源?
• 我们如何能最好地促进跨学科合作,以理解和管理大型数据集和此类数据集的模型表示中的偏见?
• 我们如何才能最好地描述此类模型的潜在“威胁态势”;例如,我们是否需要花费更多的时间来担心一些利润驱动的人使用这种模型来生成大量垃圾邮件,还是应该担忧一些人使用模型来生成具有说服力的文本,并在虚假宣传活动中使用?
• 与实现相同目标的替代方法相比,恶意者出于各种目的滥用语言模型的成本效益和技能密集度如何?
原文链接:
https://arxiv.org/pdf/2102.02503.pdf