datawhale 大模型学习 第九\十章-大模型有害性

大模型危害性主要包括:

  • 社会偏见
  • 性能差异
  • 有害信息
  • 虚假信息

性能差异和社会偏见常常与历史性歧视一致。这将带来更加猛烈的少数群体偏见和边缘化。

一、 性能差异

即系统对于某些人群(例如年轻人或白人)的准确性高于其他人群(如老年人或黑人)
例如,Blodgett等人在2017年的研究发现,语言识别系统对非洲裔美国英语的表现不如对标准英语。

二、社会偏见

系统的预测或生成的文本在目标概念(例如科学)与特定人群(例如男性或女性)之间展现出较强的关联性,而这种关联性对于某些群体来说更为明显

名字偏见

三、有毒性

  • 采用Borkan等人在2017年提出的定义,他们将有毒性定义为“粗鲁、不尊重或不合理的行为,可能使某人想要离开一场对话”。
  • 有毒性很难通过“坏词”来定义。

例如:

跨性别女性不是女性

You’re like Hitler

He’s gay.

3.1 减轻毒性

在当前研究中,关注如何缓解语言模型GPT-2生成内容的毒性。尝试了两种主要的缓解策略:一种是基于数据的,另一种是基于解码的。

在基于数据的策略中,继续使用150K个非毒性文档来训练DAPT,这些文档来自于OpenWebText。而在基于解码的策略中,使用PPLM来根据毒性分类器的梯度指导生成内容。

Intervention No prompts Non-toxic prompts Toxic prompts
Do nothing 44% 51% 75%
Data-based (DAPT) 30% 37% 57%
Decoding-based (PPLM) 28% 32% 52%

四、虚假信息

虚假信息指的是不论意图如何,被误导性地呈现为真实的错误信息。

虚假信息(Disinformation)则是有意为之地呈现错误或误导性信息以欺骗某一特定受众,其中存在对抗性质。

需要注意的是,误导性和虚假信息并非一定可被验证;有时,它会引起人们的疑虑或将举证责任转移给听众。

你可能感兴趣的:(大模型,学习,大模型,自然语言处理)