文本生成论文阅读 REALTOXICITYPROMPTS: Evaluating Neural Toxic Degeneration in Language Models

这篇论文主要讨论了语言模型中的神经毒性退化问题,(指的是语言模型在不断预训练和微调的过程中,可能会接受到一些有害或有偏见的输入数据,这些数据可能会影响模型学习到的知识和行为,导致模型产生有害或有偏见的输出。这种现象可能会逐渐加剧,影响模型的性能和可靠性,也可能导致模型的应用场景受到限制。因此,防止神经性毒性退化是构建可靠、公正、安全的语言模型的重要挑战之一。)并提出了一种新的模型评估方法来检测这种现象。具体而言,作者指出,当语言模型在生成文本时包含有毒内容时,它们可能会产生神经毒性退化,即在处理无害文本时出现错误或异常。
为了解决这一问题,作者提出了一种基于真实有毒内容的评估方法REALTOXICPROMPTS。通过将真实有毒内容与无害内容混合,生成一组句子,然后要求模型对这些句子进行分类,以确定它是否能正确识别有毒内容并将其与无害内容区分开来。
作者使用了三个不同的语言模型(BERT、GPT-2和RoBERTa)进行实验,并比较了使用REALTOXICPROMPTS方法与使用传统评估方法(如人类评估和生成一组无毒文本)的结果。实验结果表明,使用REALTOXICPROMPTS方法时,模型的误报率更低,即更少将无害文本分类为有毒文本,同时检测到了更多的神经毒性退化现象。这表明REALTOXICPROMPTS方法可以更好地检测神经毒性退化问题,并提高语言模型的安全性和可靠性。
此外,作者还对模型的解释性进行了分析,发现使用REALTOXICPROMPTS方法时,模型更倾向于关注有毒内容的关键词和短语,从而提高了模型的解释性。
总的来说,本文提出了一种新的评估方法来检测语言模型中的神经毒性退化问题,并通过实验证明了该方法的有效性和优越性。这对于提高语言模型的安全性和可靠性具有重要意义,同时也为语言模型的解释性提供了新的思路。

文章目录

  • Abstract
  • 1 Introduction
  • 2 Operationalizing Toxicity
    • 2.1 PERSPECTIVE API TOXICITY
    • 2.2 Biases in Toxic Language Detection
  • 3 Out-of-the-Box Generation Toxicity
    • 3.1 Unprompted Toxicity in Neural Models
  • 4 REALTOXICITYPROMPTS
    • 4.1 Prompt Creation and Selection
    • 4.2 Prompted Toxicity in Neural Models
  • 5 Detoxifying Generations
    • 5.1 Data-Based Detoxification**
    • 5.2 Decoding-Based Detoxification
    • 5.3 Effect of Controllable Solutions on Generation Toxicity
  • 6 Analyzing Toxicity in Web Text
    • 6.1 Toxicity in Web Text
    • 6.2 Sources of Toxic Content in Web Text
  • 7 Discussion and Recommendations
  • 8 Related Work
  • 总结


Abstract

预训练神经语言模型(LMs)容易产生种族主义、性别歧视或其他有毒的语言,这阻碍了它们的安全部署。我们研究了预训练LM在那种程度上会倾向产生有毒的语言,以及可控文本生成算法在防止这种有毒退化方面的效果。本文创建并发布了REALTOXICITYPROMPTS,一个由10万个自然发生的句子级提示组成的数据集,(数据集来自一个大型的英语网络文本语料库,并与一个广泛使用的毒性分类器的毒性评分相匹配)。通过使用REALTOXICITYPROMPTS,我们发现,即使从看似无害的提示中,预训练的LM也会退化成有毒文本。(隐形毒),我们评估了几种可控的生成方法,并发现虽然数据或计算密集型的方法(例如,在无毒数据上的自适应预训练)比简单的解决方案(例如,禁止使用 “bad”)更有效地引导人们远离毒性,但目前没有一种方法可以防止神经毒性退化。为了确定这种持续的毒性退化的潜在原因,我们分析了用于预训练几个LM(包括GPT-2)的两个网络文本库,并发现了大量的攻击性、不可靠的事实和其他有毒内容。我们的工作为评估LMs的有毒文本生成提供了一个测试平台,并强调需要为预训练提供更好的数据选择过程。

1 Introduction

我们首先介绍了一个框架REALTOXICITYPROMPTS,系统地测量预先训练的LM的毒性退化的风险。研究表明,现在的LM都遭受退化和有偏见的行为,即使没有明确的毒性提示,他们也会生成有毒的文本。
文本生成论文阅读 REALTOXICITYPROMPTS: Evaluating Neural Toxic Degeneration in Language Models_第1张图片
然后,作为一种可能的缓解策略,我们评估了可控生成方法,并使用REALTOXICITYPROMPTS量化了它们远离有毒内容的能力,通过此研究表明:算力好或者大数据集效果更好,但是也不可避免地产生毒性退化问题。
最后,为了调查出现这种现象的原因,在几种现有的语料库进行训练,发现不可忽略的有毒,有害和滥用文本,及其来源的其他问题,包括在被禁止的互联网社区或来自事实上不可靠的来源分享的大量新闻文章。研究结果强调了在NLG中避免毒性的困难,并说明了需要积极重新考虑LM预训练中使用的内容。我们发布了我们的代码和数据,用于跟踪对抗神经毒性退化这一关键问题的进展。

2 Operationalizing Toxicity

由于数量庞大,本文使用PERSPECTIVE API3标记毒性,这个用于检测有毒语言和仇恨言论的自动工具是不完美的,并且受到各种偏见的影响。

2.1 PERSPECTIVE API TOXICITY

根据工具把提示的毒性≥ 0.5,我们将其标记为有毒,否则标记为无毒。

2.2 Biases in Toxic Language Detection

讲述了本文使用的工具以及其他仇恨言论检测系统在监测中存在偏差。(部分原因可能是因为标注者的偏差,除此之外,还可能是探测器过度依赖毒性的词汇线索。)

3 Out-of-the-Box Generation Toxicity

(Out-of-the-Box Generation Toxicity就是说语言模型可能在训练时接收到包含种族诋毁或仇恨言论等内容的大型文本数据集,即使训练数据并没有明确标记此类内容。生成新的文本时,模型可能会生成反映这种潜在偏见的有毒或有害内容。为了减轻这种情况的发生,重要的是要仔细筛选训练数据并评估模型的潜在偏见和有害输出。此外,可以使用对抗性训练和微调等技术来专门解决和减少生成基于内部逻辑的有毒内容的风险。在这个领域进行持续的研究和发展是必要的,以确保AI模型对所有用户都是安全、公平和有益的。语言模型即使没有有毒的提示或者 内容也会生成有毒的内容
为了验证本文在以下五个模型上进行测试GPT-1,GPT-2, GPT-3, CTRL, and CTRL-WIKI。

3.1 Unprompted Toxicity in Neural Models

对于每个模型,首先生成一个包含10,000个片段的池子。然后,通过从池子中进行有放回的抽样,重复1,000次,从中随机选择n个片段(其中n从1到10,000),来进行bootstrap估计,以计算预期的最大毒性。这个过程是为了评估模型对于一段文本的毒性评分,通过对多个样本进行抽样和估计,可以得到更为准确的预测结果。研究人员发现这五种语言模型在较少的迭代次数内就会出现高毒性的情况,其中一些模型只需要1000次迭代就会达到最大毒性值的90%以上。研究人员还发现,这些模型的毒性水平与它们的预训练数据集有很大关系,预训练数据集中的有害内容可以被模型所学习并反映在生成的文本中。此外,研究人员还发现,GPT-1的毒性水平比其他模型更高,这可能是因为它的预训练数据集中含有更多的有害内容。这项研究对于我们更好地理解人工智能模型的安全性和可靠性具有重要意义。具体数据如下图所示:
文本生成论文阅读 REALTOXICITYPROMPTS: Evaluating Neural Toxic Degeneration in Language Models_第2张图片

4 REALTOXICITYPROMPTS

创造了REALTOXICITYPROMPTS系统地评估和比较语言模型的生成。

4.1 Prompt Creation and Selection

(Prompt Creation and Selection指的是一种人工智能(AI)技术中的过程,它涉及到为AI模型设计和选择输入提示(prompts)的过程在自然语言处理(NLP)和生成式AI模型中,输入提示是指一些文本或指令,用于指导模型生成符合特定目的或主题的输出。例如,在文本生成任务中,输入提示可以是一个问题或主题,例如“写一篇关于夏季旅游的文章”。在这种情况下,模型将使用这个输入提示来生成与夏季旅游相关的文章。Prompt Creation and Selection的目的是为了确保AI模型能够生成符合特定要求或主题的输出。这通常涉及到设计和选择与任务或主题相关的输入提示,以便模型能够生成符合要求的输出。这个过程可以涉及到人工设计输入提示,也可以利用自然语言处理技术和大数据分析来自动生成输入提示。
Prompt Creation and Selection是AI技术中的一个重要环节,可以帮助确保AI模型生成的输出符合特定要求或主题,同时也可以帮助提高模型的性能和效率。)

4.2 Prompted Toxicity in Neural Models

文本生成论文阅读 REALTOXICITYPROMPTS: Evaluating Neural Toxic Degeneration in Language Models_第3张图片
对于无毒提示,所有五种模型的毒性概率都接近或高于0.5。这表明,即使在无害的情况下,这些模型仍然会产生有毒的内容。

5 Detoxifying Generations

使用REALTOXICITYPROMPTS研究了最近的可控生成方法在避免毒性方面的有效性。具体来说,将GPT-2作为两种解毒技术的基础模型:基于数据的,我们进一步预训练语言模型,以及基于解码的,我们只改变生成策略而不改变模型参数,为每个模型的每个提示抽取了25代样本。
文本生成论文阅读 REALTOXICITYPROMPTS: Evaluating Neural Toxic Degeneration in Language Models_第4张图片

5.1 Data-Based Detoxification**

**Domain-Adaptive Pretraining (DAPT)**对一个平衡语料库的非有毒子集进行了额外的预训练。为了进行比较,他们还使用了有毒子集进行了实验。
**Attribute Conditioning (ATCON)**将相应的毒性属性标记(<|toxic|>和<|nontoxic|>)添加到一些文档的开头,并对GPT-2语言模型进行了进一步的预训练。在生成实验中,他们把<|nontoxic|>标记添加到了输入提示的开头。
(这两种预训练技术的目的都是提高GPT-2语言模型的性能,使其能够更好地识别和生成非有毒的文本,同时还能够生成高质量的输出。)

5.2 Decoding-Based Detoxification

考虑到训练语言模型的额外成本,本文探索了三种解毒策略,它们只依赖于改变解码算法,因此更容易被许多实践者使用。
**Vocabulary Shifting (VOCAB-SHIFT)**研究人员通过学习每个GPT-2词汇表中令牌的毒性和非毒性的二维表示,来提高非有毒令牌的概率。具体而言,他们使用一个二维向量t ∈ R2来表示每个令牌的毒性和非毒性,使用向量W ∈ R^V 来表示每个令牌与毒性和非毒性之间的关联,其中V是词汇表的大小。给定语言模型对词汇表中各个令牌的未归一化概率(logits),研究人员将βW · t这一项加入到概率中,其中β是增强强度。通过这种方式,可以提高非有毒令牌的概率,从而使模型更倾向于生成非有毒文本。研究人员使用平衡语料库中的毒性标签来学习这种二维表示,从而提高模型对非有毒文本的生成能力。在所有实验中,他们将β设置为3。
Word Filtering (WORD FILTER)
PPLM

5.3 Effect of Controllable Solutions on Generation Toxicity

结果表明,尽管所有提出的技术都能降低GPT-2中的毒性行为,但转向并不能完全解决神经毒性退化问题。在所有方法中,DAPT(无毒)、词汇转换和PPLM产生的毒性最低。这强调了在预训练前数据的重要性。
Prompts That Challenge All Models
某些提示总是会导致所有模型产生毒性。此外,作者发现这些1.2K提示中至少有10%来自不可靠的新闻来源,或者出现在被禁止或隔离的子reddit。

6 Analyzing Toxicity in Web Text

在OPENAIWT中和它的开源OWTC副本量化了毒性。
OWTC
OPENAI-WT
这两个数据集有重叠的部分。
文本生成论文阅读 REALTOXICITYPROMPTS: Evaluating Neural Toxic Degeneration in Language Models_第5张图片

6.1 Toxicity in Web Text

OPENAI-WT的毒性是OWTC的两倍

6.2 Sources of Toxic Content in Web Text

Toxicity from Unreliable News Sites低可靠性新闻站点包含更多的毒性文本
Toxicity from Quarantined or Banned Subred-dits研究发现一些有毒文本的来源。

7 Discussion and Recommendations

总的来说,研究表明,毒性是神经语言生成和网络文本语料库中普遍存在的问题。尽管它们在毒性方面有所降低,但指导方法并不能完全保护神经模型免受毒性退化。此外,预先训练语言模型的语料库包含不可忽略的大量有毒的、滥用的和不可信的内容。下面讨论了我们发现的一些意义。
Effectiveness of “Forgetting” Toxicity
这段文字描述了针对数据驱动的方法的研究结果,发现自适应预训练可以降低模型生成有毒语言的倾向,但是它生成的提示文本仍然可能是有毒的。这引发了一个问题:语言模型是否可以通过进一步的适应性训练完全“遗忘”有毒的预训练数据?DAPT生成的大量有毒内容表明,语言模型可能会“记住”预训练数据中的有毒信息,或者有毒样本可能对模型更加明显,因此更难以忘记。
未来的研究可以探讨某些类型的毒性是否比其他类型更难以忘记,以及用于选择训练数据的模型的偏见是否会在适应性训练后引入不良的副作用,影响语言模型的行为。这些研究结果提醒我们注意语言模型中可能存在的有毒信息,需要采取措施来减少或消除这些信息的影响。同时,这也提示我们在训练语言模型和选择训练数据时需要更加谨慎,以避免引入不必要的偏见和有毒信息。
Decoding with a Purpose PPLM是其中最有效的方式。未来的工作可以探索使用手工挑选的毒性文件作为“负面例子”,以避免毒性生成。未来的工作还可以研究注入更复杂或微妙的社会偏见表征模型。
Choice of Pretraining Data 随着预训练模型的增长,对于数据库的要求也在逐步增长,其中也引发了许多伦理问题。强调了研究人员需要分析预训练数据以了解数据中可能存在的偏见和有害性,并建议研究人员在数据收集期间公开发布所有相关信息以增加透明度。本文还讨论了使用Reddit热度作为筛选启发式方法可能引起的潜在伤害,这可能会影响语言模型的预训练数据和行为,并建议重新审视NLP系统与其最终用户之间的关系,使用人类中心设计方法。最后,本文建议研究人员在设计阶段与技术的最终用户进行接触,以避免伤害,并改善公开发布大型语言模型的政策。
Improving Toxicity Detection
随着REALTOXICITYPROMPTS的发布,我们希望能够鼓励对语言模型的解毒技术进行大规模、系统的评估。
Limitations首先,该研究使用了一种不完美的毒性测量方法,可能会导致偏向词汇线索,未能检测到更微妙的偏见,并错误地标记非毒性内容。其次,该分析仅局限于五种语言模型及其变体,进一步的研究可以探索其他模型,包括遮蔽语言模型。最后,由于OPENAI-WT数据集缺乏可用的元数据,并且对子论坛和新闻可靠性数据的覆盖不完全,该研究只提供了网络文本语料库毒性的下限估计。

8 Related Work

总结

这篇论文研究了大型预训练语言模型(如GPT-3)在生成有毒文本时的表现。以下是论文的主要内容:
问题与挑战:大型预训练语言模型在生成文本时可能会产生有毒、有害或不道德的内容。这是因为这些模型在训练过程中会学习到大量存在于训练数据中的有毒信息。这种现象不仅会导致模型生成不当内容,还可能加剧社会问题,如仇恨言论、歧视和偏见。
方法与实验:作者提出了一种新方法,名为REALTOXICPROMPTS,用于评估预训练语言模型在生成有毒文本时的表现。该方法包括两个步骤:首先,收集一组用于评估的提示,这些提示可能会导致模型生成有毒内容;其次,使用这些提示生成文本,并使用一个基准有毒检测系统对生成的文本进行评分。
结果与发现:作者发现,各种预训练语言模型在生成有毒文本时表现不一。一些模型在生成有毒内容方面的表现较差,而另一些模型则表现出较好的抵制能力。此外,作者还发现,模型的训练数据量和有毒文本生成能力之间存在一定的关系:数据量较大的模型往往更容易生成有毒文本。
讨论与未来方向:作者认为,为了降低预训练语言模型在生成有毒文本时的风险,研究人员和开发者需要采取一系列措施。这些措施包括:改进模型训练数据的质量、采用更好的有毒文本检测方法、提高模型的可解释性等。此外,作者还呼吁相关领域的研究人员加强对有毒文本生成问题的关注,进一步研究和改进预训练语言模型。
总之,这篇论文关注了预训练语言模型在生成有毒文本方面的问题,并提出了一种新方法来评估模型的表现。这项研究有助于我们了解如何改进模型,以减少有毒文本的生成,并为未来研究提供了一个有益的方向。

你可能感兴趣的:(论文阅读,语言模型,人工智能)