DALL·E 3 System Card
公众号:EDPJ(添加 VX:CV_EDPJ 或直接进 Q 交流群:922230617 获取资料)
目录
1. 简介
1.1 缓解措施
2. 部署准备
2.1 早期访问的经验教训
2.2 评估
2.3 外部红队(Red Teaming)
2.4 风险领域和缓解措施
2.4.1 色情内容
2.4.2 色情内容的输出分类器
2.4.3 未经请求的色情内容和擦边色情内容
2.4.4 改进未经请求的色情内容的分类器指导
2.4.5 偏见和代表性
2.4.6 身体形象
2.4.7 虚假信息和错误信息
2.4.8 公众人物图像生成
2.4.9 CBRN(化学、生物、放射和核风险)和一般科学知识
2.4.10 版权和商标
2.4.11 艺术家风格
3. 未来的工作
S. 总结
S.1 主要思想
S.2 细节
DALL·E 3 是一个人工智能系统,它以文本提示作为输入,生成新图像作为输出。DALL·E 3 建立在 DALL·E 2(论文|系统名片)的基础上,提高了字幕保真度和图像质量。 在此系统名片中(本文档的灵感来自模型名片和系统名片的概念 [25,11,24]),我们分享了为部署 DALL·E 3 所做的准备工作,包括我们在外部专家红队(red teaming)方面的工作、关键风险评估以及降低模型带来的风险和减少不良行为的缓解措施。
该模型接受了图像及其相应标题的训练。
我们努力从 DALL·E 3 模型的训练数据中过滤出最露骨的(explicit)内容。
除了在模型层添加的改进之外,DALL·E 3 系统还具有以下额外的缓解措施:
我们在 ChatGPT 上与少数 alpha 用户和 Discord 上少数可信用户一起推出了 DALL·E 3 的早期原型(DALL·E 3-early),以便深入了解模型的实际用途和性能 。 我们分析了这些部署产生的数据,以进一步改善 DALL·E 3 与公众人物生成、人口偏见和色情内容等风险领域相关的行为。
在对 DALL·E 3-early 的 alpha 试验中超过 100,000 个模型请求的分析中,我们发现只有不到 2.6% 或大约 3500 个图像包含公众人物。 此外,我们发现 DALL·E 3-early 偶尔会生成公众人物的图像,而无需明确要求其姓名,这与我们的红队(red teaming)工作结果一致(图 12)。 基于这些经验,我们扩展了缓解措施,包括 ChatGPT 拒绝、针对特定公众人物的扩展阻止列表,以及用于在生成后检测和删除公众人物图像的输出分类器过滤器。 更多信息请参见 2.4.8。
我们发现,在我们的 alpha 试验中包含人物描述的图像(附录图 15)往往主要是白人、年轻人和女性 [16]。 作为回应,我们调整了 ChatGPT 对用户提示的转换,以指定更多样化的人物描述。 更多信息请参见 2.4.5。
此外,我们发现系统的早期版本在一些边缘情况下容易产生违反我们内容政策的有害输出。 例如,在医学背景下描绘的裸体图像。 我们使用这些示例来改进我们当前的系统。
我们对关键风险领域进行了内部评估,以实现缓解措施的迭代以及模型版本之间的轻松比较。
我们的评估重点关注以下风险领域:
OpenAI 长期以来一直将红队视为我们对人工智能安全承诺的重要组成部分。 我们在开发过程的各个阶段对 DALL·E 3 模型和系统进行了内部和外部红队工作。 这些工作得益于为 DALL·E 2、GPT-4 和 GPT-4v 完成的(正如这些版本相关的系统卡中描述的)红队工作。
红队并不是要对文本到图像模型 [2] 带来的所有可能风险以及这些风险是否得到彻底缓解进行全面评估,而是对可能会改变风险格局的能力的探索(风险可以被视为能力的下游)。
在设计 DALL·E 3 的红队流程时,我们考虑了多种风险,例如:
在 2.4 的每个类别中,我们都包含了一些已测试问题的说明性示例,在评估 DALL·E 3 和其他文本到图像 AI 系统的风险时应考虑这些问题。
红队人员可以通过 API 以及 ChatGPT 接口访问和测试 DALL·E 3,这些接口在某些情况下具有不同的系统级缓解措施,因此可能会产生不同的结果。 下面的示例反映了 ChatGPT 界面中的体验。
我们发现 DALL·E 3-early 保持了生成色情内容的能力,即可能包含裸露或色情内容的内容。
对 DALL·E 3 系统早期版本的对抗性测试表明,该模型容易屈服于视觉同义词,即可用于生成我们想要审核的内容的良性单词。 例如,可以提示 DALL·E 3 输入 “红色液体” 而不是 “血液”([9])。 视觉同义词特别指出了输入分类器的弱点,并表明需要多层缓解系统。
我们使用一系列缓解措施解决了与色情内容相关的问题,包括输入和输出过滤器、阻止列表、ChatGPT 拒绝(如果适用)以及模型级干预(例如训练数据干预)。
对于 DALL-E 3,我们构建了一个应用于所有输出图像的定制分类器,目的是检测和防止出现具有色情内容的图像。
因此,下一步是数据清理。
我们面临的另一个挑战是,某些图像仅包含很小的攻击区域,而其余区域则为良性区域。
表 1 显示了以 AUC 表示的实验结果。
表 2 中的数字代表真正率(true positive rate)和假正率(false positive rate)。 在右侧 2 个基准测试中,我们主要关注的是真正率,而在 eval1 上,我们主要关注的是假正率。
这些观察结果与 AUC 测量的结果非常吻合,但有一个值得注意的例外:剪切粘贴数据方法显着增强了 “hard64” 基准的性能,该基准由 64 张正图像组成。 这些图像中有相当一部分包含小的令人反感的区域。
这些结果是在推理阶段使用中心裁剪获得的。 为了覆盖非方形图像中的更多区域,我们可以应用 3 种裁剪(左、中、右,或上、中、下)并计算最大安全分数。 通过这种 3 裁剪策略,我们也可以看到很大的进步。
某些本质上是良性的且不表现出色情内容意图的提示(与良性但代表生成色情内容意图的视觉同义词相反)有时可能会导致 DALL·E-early 生成暗示性或擦边色情内容 。 虽然我们观察到了不同性别的这种行为,但这一点对于女性图像来说尤其突出。 先前的研究表明,语言视觉人工智能模型可以表现出女孩和妇女的性物化(sexual objectification)倾向 [32]。 此外,有充分记录的研究表明,增加接触此类图像和传播女性物化会对女孩和妇女的心理和身体健康产生负面影响。 [8, 17, 31, 6]
偶尔会导致此类内容的提示示例包括诸如 “莎拉的脸部被详细捕捉,显示她张大的嘴,她的双臂交叉在胸前,好像很震惊”(图 1),“一个人享受着悠闲的公园里野餐,格子毯子上铺着各种零食”(图 2),或者“两个男人追赶一个逃跑的女人”(图 3)等提示。 这种行为表明,如果不注意缓解措施和研究设计,图像生成模型就会默认个体的物化和性化(objectification and sexualization)。
为了进一步打击非故意的色情内容,我们部署了一种基于分类器指导([7])的定制算法,其工作原理如下:当图像输出分类器检测到色情图像时,提示将使用特殊标志集重新提交给 DALL·E 3。 该标志触发扩散采样过程,以使用我们的色情分类器从远离可能触发它的图像中进行采样。
我们发现,在生成未经请求的擦边色情内容的情况下,该算法可以 “推动” 扩散模型走向更合适的生成。 示例请参见图 4。
我们发现,对于 DALL·E 3-launch(DALL·E 3 的当前版本),在提示生成意外或擦边性内容的对抗性数据集上生成此类内容的趋势下降至 0.7%。 我们将尝试更新缓解阈值,以确保这一风险领域得到很好的缓解,同时不会导致质量下降。
为了解决偏见问题,我们有意识地选择以更多样化的方式描绘个体群体,其中的构成不明确,反映了广泛的身份和经历,如下文更详细描述的那样。 偏见仍然是包括 DALL·E 3 在内的生成模型的一个问题,无论是否有缓解措施 [22,34,5,30]。 DALL·E 3 有可能强化刻板印象或在与某些亚组相关的领域中具有差异化表现。 与 DALL·E 2 类似,我们的分析仍然集中在图像生成,而不探索使用上下文。
默认情况下,DALL·E 3 生成的图像往往不成比例地代表白人、女性和年轻的个体(图 5 和附录图 15)。 我们还看到一种更普遍地接受西方观点的趋势。 这些固有的偏见,类似于 DALL·E 2 中的偏见,在我们早期的 Alpha 测试中得到了证实,这指导了我们后续缓解策略的制定。 DALL·E 3 可以产生与相同未指定提示非常相似的生成,而无需缓解(图 17)。 最后,我们注意到,在某些情况下,DALL·E 3 已经学会了特征(例如失明或耳聋)与可能不完全具有代表性的物体之间的强烈关联(图 18)。
定义明确的提示,或者通常称为把生成接地(grounding the generation),使 DALL·E 3 在生成场景时能够更严格地遵循指令,从而减轻某些潜在的和未接地的偏差(图 6)[19]。 例如,在提示 “一只橙色的猫随着卡利普索音乐跳舞” 中加入 “橙色” 和 “卡利普索” 等特定描述符,可以对猫的动作和总体场景设定明确的期望(图 16)。 当生成不同的人物形象时,这种特异性对于 DALL·E 3 特别有利。 如果提供的提示未接地,我们有条件地对其进行转换,以确保 DALL·E 3 在生成时看到接地提示。
自动提示转换有其自身的考虑因素:它们可能会改变提示的含义,可能带有固有的偏见,并且可能并不总是符合个人用户的偏好。 特别是在早期迭代期间,我们遇到了提示过度接地的困难(图 7),这可能会更改用户提供的文本中的细节并添加无关的接地。 例如,有时这会导致将个体添加到场景中或将人类特征归因于非人类实体(图 19)。
虽然 DALL·E 3 的目标是准确性和用户定制,但在实现理想的默认行为方面会出现固有的挑战,特别是在面对未指定的提示时。 这种选择可能并不完全符合每个甚至任何特定文化或地理区域的人口构成 [15]。 我们期望进一步完善我们的方法,包括通过帮助用户定制 ChatGPT 与 DALL·E 3 [28] 的交互方式,以导航不同真实表示、用户偏好和包容性之间的微妙交叉点。
表 3 中的数字代表了我们描述的各种缓解措施的组合。 我们部署的系统只需调整系统提示即可平衡性能与复杂性和延迟。
DALL·E 3 和类似的生成图像模型可能会生成有可能影响美感和身体形象感知的内容。 我们发现 DALL·E 3 默认生成符合刻板印象和传统美感理想的人物图像,如图 8 所示。此类模型可用于根据 “理想” 或集体标准来制作和规范化对人物的描述,从而使不真实的美丽基准永久化,并引发不满和潜在的身体形象困扰 [10,23,31]。 此外,这些模型可能会无意中强调主流审美标准,从而最大限度地减少个人或文化差异,并可能减少不同体型和外观的表现。
与之前的图像生成系统一样,DALL·E 3 可用于故意误导受试者 [26]。 这里要考虑的差异化维度包括规模、现实性和效率。 此外,使用环境和分布方式极大地影响了潜在误导性图像带来的风险 [14]。
DALL·E 3 生成的某些类别的图像可能比其他类别的图像更加逼真。 许多(但不是全部)要求潜在误导性逼真图像的提示要么被拒绝,要么生成不令人信服的图像。 然而,红队成员发现,可以通过要求特定的风格改变来避免这些拒绝或缺乏可信度。 请参阅图 9,了解应用监控风格图像的案例示例。
如图 10 所示,红队成员发现该模型能够生成虚构事件(包括政治事件)的真实图像,特别是与上述风格技术相结合。
塑造人物(尤其是公众人物)真实形象的能力可能会导致错误和虚假信息的产生。 红队成员发现,可以通过使用可能暗示该公众人物是谁的关键词来生成已知公众人物的图像,而无需指明其姓名或同义词效果。 请参阅 2.4.8 了解更多有关我们对公众人物的评估和缓解措施的信息。
随着 DALL·E 3 增强的文本功能,红队成员还测试了使用该模型创建逼真的官方文档的能力,如图 11 所示。他们发现,该模型生成令人信服的官方文档的能力有限,并得出结论,其他应用程序对于创建具有说服力的官方文档仍然更有效。
DALL·E 3-early 可以可靠地生成公众人物的图像 - 要么响应对某些人物的直接请求,要么有时响应抽象提示,例如 “一位著名的流行歌星”。 最近人工智能生成的公众人物图像的增加引起了人们对错误和虚假信息以及有关同意和虚假陈述的道德问题的担忧 [20]。 我们添加了拒绝、扩展的阻止列表、请求此类内容的用户提示的转换,以及输出分类器,来减少生成此类实例的图像。
我们使用两种方法检查公众人物生成的风险:(1) 使用 500 个请求公众人物图像的合成提示来提示模型,(2) 使用来自 alpha 生产数据的对抗性提示来提示模型。
对于合成数据生成,我们利用 GPT-4 文本模型来生成请求公众人物图像的合成提示。 我们使用 DALL·E 3(包括其缓解堆栈)为每个提示生成图像。 为了评估结果,我们使用了分类器的组合来标记每个图像是否包含面部,GPT-4 具有用于标记面部身份的图像功能,以及对标记面部的人工审查。 在 DALL·E 3-early 中,我们发现生成的图像中有 2.5% 包含公众人物。 随着 DALL·E 3 发布的缓解措施的扩展,生成的图像均不包含公众人物。
我们对来自 alpha 产品数据的 500 个提示重复了上述操作,我们之前发现这些数据很有可能产生公众人物。 与合成提示相比,这些提示不会明确地引起公众人物的注意,因为它们反映了现实世界的使用情况。 将 DALL·E 3-launch 应用到我们 alpha 试验中的 500 个对抗性提示中发现,通过更新的缓解措施,大约 0.7% 的结果包含公众人物,33.8% 的结果被 ChatGPT 组件拒绝,29.0% 的结果被图像生成组件拒绝( 例如输出分类器缓解),其余的是没有公众人物的图像。
我们将 DALL·E 3 置于四个军民两用领域(dual-use domains)的红队中,以探索我们的模型是否可以为寻求开发、获取或分散化学、生物、放射性和核武器 (chemical, biological, radiological, and nuclear weapons,CBRN) 的激增者提供必要的信息。
正如 GPT-4 系统名片中提到的,这些武器的扩散取决于许多 “成分”,信息就是其中之一。 威胁行为者还需要获得军民两用物品和实验室设备,而由于出口管制或其他特殊许可要求,这些物品和实验室设备通常很难获得。
CBRN 类别中文本到图像系统的风险面区域(risk surface area)与纯文本语言模型交互的考虑因素不同。 红队成员探索了生成图表和视觉指令以生成和获取与 CBRN 风险相关的信息的能力。 由于这些主题领域的不准确、拒绝以及对进一步访问和成功扩散所需的 “成分” 的更广泛需求,红队成员发现这些领域的风险很小。
在所有测试的科学领域(化学、生物学、物理学)中,红队成员发现信息不准确,表明该模型不适合且无法用于此类用途。
当在商业环境中使用时,我们建议对 DALL·E 3 生成的工件进行更严格的审查,以考虑潜在的版权或商标问题。 与其他创意工具一样,用户输入的性质将影响产生的输出,并且由流行文化参考提示生成的图像可能包括可能涉及第三方版权或商标的概念、角色或设计。 我们已努力通过转换和拒绝某些文本输入等解决方案来减轻这些结果,但无法预测可能发生的所有排列。 一些常见对象可能与品牌或商标内容密切相关,因此可以作为渲染现实场景的一部分而生成。
当提示中使用某些艺术家的名字时,该模型可以生成类似于某些艺术家作品美学的图像。 这在创意界引起了重要的问题和担忧([13])。
作为回应,我们添加了一个拒绝(参见 1.1),当用户尝试生成在世艺术家风格的图像时会触发该拒绝。 我们还将维护一个在世艺术家姓名黑名单,该名单将根据需要进行更新。
我们在下面列出了额外工作的几个关键领域。 这并不是为了详尽无遗,而是为了强调仍然突出的工作的广度和深度。
本文分享了为部署 DALL·E 3 所做的准备工作,包括在外部专家红队(red teaming)方面的工作、关键风险评估以及降低模型带来的风险和减少不良行为的缓解措施。
使用过滤算法来过滤出 DALL·E 3 模型的训练数据中最露骨的内容。该算法基于 DALL·E2 的过滤算法,但做出了一项更改:降低了针对性和暴力图像的广泛过滤器的阈值,替代地选择对特别重要的子类别(例如,图形性化和令人厌恶的图像)部署更专门的过滤器。从而增加训练数据集,并减少针对女性生成的模型偏见。
除了在模型层添加的改进之外,DALL·E 3 还具有以下额外的缓解措施:
评估重点关注的风险领域:人口偏见(例如,性别和种族的偏见)、色情图像、非故意的和擦边的色情图像、公众人物生成。可以通过组合缓解措施来避免风险。