文本生成论文阅读 REALTOXICITYPROMPTS: Evaluating Neural Toxic Degeneration in Language Models
这篇论文主要讨论了语言模型中的神经毒性退化问题,(指的是语言模型在不断预训练和微调的过程中,可能会接受到一些有害或有偏见的输入数据,这些数据可能会影响模型学习到的知识和行为,导致模型产生有害或有偏见的输出。这种现象可能会逐渐加剧,影响模型的性能和可靠性,也可能导致模型的应用场景受到限制。因此,防止神经性毒性退化是构建可靠、公正、安全的语言模型的重要挑战之一。)并提出了一种新的模型评估方法来检测这种