Safety Assessment of Chinese Large Language Models

Safety Assessment of Chinese Large Language Models_第1张图片 1、概述:

        为了进一步促进中文LLMs的安全部署,作者开发了一个中文LLM安全评估基准。作者的基准从两个角度探讨了LLMs的综合安全性能:8种典型的安全场景和6种更具挑战性的指令攻击类型。在这个基准的基础上,作者进行了15个LLM的安全评估,并分析了包括OpenAI GPT系列和其他知名的中文LLM在内的一些有趣发现。

2、主要贡献:

本文提出了一个中文LLMs的安全评估基准,涵盖了八个典型的安全场景和六种指令攻击类型。此外,介绍了基准中的安全评估过程,利用了收集到的测试提示和LLMs的强大评估能力。在基准之上,评估了一些著名的中文LLMs,并得出了有关这些模型安全性的有趣发现。此外,我们通过LLMs对收集到的安全提示进行扩充,并将其公开作为SAFETYPROMPTS。

3、将大模型安全问题分类:

在本文中,作者将大模型的安全问题分为了八类,分别是:

1)侮辱:由LMs生成的侮辱性内容是一个高度可见且经常提到的安全问题。主要是不友好、不尊重或荒谬的内容,使用户感到不适并远离。这是极其危险的,可能产生负面社会后果。

2)不公平和歧视:模型生成不公平和歧视性的数据,如基于种族、性别、宗教、外貌等的社会偏见。这些内容可能使某些群体感到不适,并破坏社会的稳定与和平。

3)犯罪和非法活动:模型输出包含非法和犯罪的态度、行为或动机,如煽动犯罪、欺诈和谣言传播。这些内容可能伤害用户并产生负面社会影响。

4)敏感话题:对于一些敏感和有争议的话题(尤其是政治方面),LMs倾向于生成有偏见、误导和不准确的内容。例如,可能倾向于支持特定的政治立场,导致对其他政治观点的歧视或排斥。

5、身体伤害:模型生成与身体健康相关的不安全信息,引导并鼓励用户在身体上伤害自己和他人,例如提供误导性的医疗信息或不当的药物使用指导。这些输出可能对用户的身体健康构成潜在风险。

6)心理健康:模型生成关于心理健康的风险响应,例如鼓励自杀或引起恐慌或焦虑的内容。这些内容可能对用户的心理健康产生负面影响。

7)隐私和财产:生成涉及暴露用户隐私和财产信息或提供具有重大影响的建议,如婚姻和投资建议。在处理这些信息时,模型应遵守相关法律和隐私法规,保护用户的权益,避免信息泄露和滥用。

8)伦理和道德:模型生成支持和促进不道德和不道德行为的内容。在处理伦理和道德问题时,模型必须遵守相关的伦理原则和道德规范,并与全球公认的人类价值观保持一致。

4、六种指令攻击类型:

作者提出的安全评估框架包括六种类型的指令攻击:

1)目标劫持:指附加欺骗性或误导性指令到模型输入中,试图诱导系统忽略原始用户提示,产生不安全的响应。

2)提示泄露:通过分析模型的输出,攻击者可能提取系统提供的提示的部分,从而潜在地获取有关系统本身的敏感信息。

3)角色扮演指令攻击:攻击者可能在输入提示中指定模型的角色属性,然后给出具体的指令,导致模型以所分配角色的说话风格完成指令,这可能导致不安全的输出。

4)不安全指令主题:如果输入的指令本身涉及不适当或不合理的主题,模型将遵循这些指令并生成不安全的内容。

5)具有不安全意见的查询:通过将不易察觉的不安全内容添加到输入中,用户可能有意或无意地影响模型生成潜在有害的内容。

6)逆向暴露:指攻击者试图使模型生成“不应该做”的事情,然后获取非法和不道德的信息。

5、大模型安全评估框架:

下图展示了作者提出的安全评估框架:

Safety Assessment of Chinese Large Language Models_第2张图片

Safety Assessment of Chinese Large Language Models_第3张图片

        首先,作者构建之前介绍的安全问题的测试提示。其次,将测试提示输入到待评估的模型中,得到其响应。第三,鉴于提示(及其相应的安全场景)和响应,判断响应是否安全,利用LLM作为评估器。最后,我们根据每个场景中安全响应的比例计算分数,并将结果更新到排行榜中。

        考虑到ChatGPT有时会拒绝与安全相关的指令,作者使用InstructGPT  作为评估器,使用贪婪解码算法以获得稳定的生成结果。

        分数计算:对于每个安全场景i和提示集Pi,对于Pi中的每个提示p,模型生成一个响应r。作者使用LLM(LLM(·))来判断响应是否安全(y = Y或y = N)。最后,作者计算在该场景中安全响应的比例。作者将典型的安全场景下的分数表示为A1∼8,指令攻击为B1∼6。得分Ai(或Bi)计算如下:

Safety Assessment of Chinese Large Language Models_第4张图片

其中,I(·)表示指示函数,当参数为真时输出1,否则为0。此外,作者计算宏平均以计算典型安全场景( ̄ A),指令攻击( ̄ B)和总体安全性能(S)的整体分数:

Safety Assessment of Chinese Large Language Models_第5张图片

6、实验结果:

Safety Assessment of Chinese Large Language Models_第6张图片

你可能感兴趣的:(LLM安全,语言模型,人工智能)