论文翻译:arxiv-2024 Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large

Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models
https://arxiv.org/abs/2311.06233

数据污染测验:一种检测和估计大型语言模型中污染的工具

文章目录

  • 数据污染测验:一种检测和估计大型语言模型中污染的工具
  • 摘要
  • 1 引言

摘要

我们提出了数据污染测验(Data Contamination Quiz,DCQ),这是一种简单有效的检测大型语言模型(LLMs)中数据污染的方法,并估计污染的程度。具体来说,我们将数据污染检测构建为一系列多项选择问题,并设计了一种测验格式,其中从特定数据集分区(例如,GSM8k测试集)的每个子样本实例创建三个扰动版本。这些变化仅包括单词级别的扰动。生成的扰动,连同原始数据集实例,构成了DCQ中的选项,额外提供一个选项以容纳选择无提供选项的可能性。鉴于选项之间的唯一区别是与原始数据集实例的确切措辞,当LLM被赋予识别原始数据集实例的任务时,如果它在预训练阶段接触过它,它会倾向于选择原始的一个——这是LLM固有的特征。在考虑LLM的位置偏差的同时,测验表现揭示了被检查模型与测验相关的数据集分区的污染水平。应用于GPT4和GPT-3.5的不同数据集,我们的发现——尽管完全无法访问预训练数据和模型参数——表明DCQ实现了最先进的结果,并与现有方法相比,揭示了更大的污染/记忆水平,并有效地绕过了更多的安全过滤器,特别是那些旨在避免生成版权内容的过滤器。

1 引言

大型语言模型(LLMs)在各种基准测试中显示出显著的成功。然而,由于某些模型提供商缺乏关于使用的数据源的透明度,加上它们依赖于网络数据进行预训练,这些模型的性能可能会因“数据污染”而产生偏差。这指的是在LLMs的预训练数据中包含了下游任务的测试数据。考虑到用于预训练的庞大数据量,即使使这些数据开放获取也无法提供实际的解决方案。这是因为由于巨大的计算成本或涉及的大量手动努力,将评估数据集中的每个样本与开源预训练数据进行交叉验证变得不切实际。这导致LLM开发者在训练后评估基准数据集中的数据污染。因此,迫切需要使用成本效益高的方法准确定位和量化这种污染,这要求最少的计算资源和人为干预,确保其在社区中的广泛应用。

我们提出了数据污染测验(DCQ),这是一种简化的方法,有效地检测和估计LLMs中逐字污染,无需访问预训练数据或内部权重/逻辑。DCQ旨在精确定位数据集分区中已泄露到LLMs预训练数据中的数据点,导致性能偏差。本质上,检测是通过多项选择问题实现的,估计则是通过评估LLM在构成测验的一系列这些多项选择问题上的表现得出的。具体来说,我们形成一个五选一的测验:一个选项呈现数据集分区的原始实例,三个选项提供它的三个不同的单词级扰动,其中单词被替换为它们在上下文中相关的同义词,最后一个选项允许选择无这些提供的选项。我们指示GPT-4自动生成单词级扰动。虽然措辞不同,但这些扰动的含义和句子结构反映了原始数据集实例,导致所有包含扰动的选项和原始数据集实例在语义表示上(几乎)完全相同。因此,这些选项之间的唯一区别在于与原始数据集实例的确切措辞。因此,当LLM被赋予识别原始数据集实例的任务时,一致地偏好选择包含原始数据集实例的选项揭示了LLM的记忆和先前的数据暴露。图1展示了这个想法。

然而,由于LLMs中存在位置偏差,记忆/污染的检测并不在所有测验选项中一致,这可能导致污染水平的高估或低估。为了解决这个问题,我们首先使用我们称之为“偏差检测测验”(Bias Detector Quiz,BDQ)的测验来识别位置偏差,该测验的选项中排除了正确答案(即,原始数据集实例)。实际上,BDQ中每个问题的选项都是基于每个正在检查的原始数据集实例的单词级扰动,额外提供一个选择无提供选项的选项。提交BDQ给LLM后,选择频率低于随机机会的选项被识别为“非优选选项”。这些非优选选项是避免高估的战略位置。因此,它们在“偏差补偿测验”(Bias Compensator Quiz,BCQ)中被替换为原始数据集实例,以检测污染同时避免高估。然而,由于同样的位置偏差问题,记忆并不是在所有非优选位置中同等触发的,从而导致潜在的低估。为了避免低估,我们在所有非优选选项中排列正确答案,这意味着LLM需要进行多个BCQs(等于非优选选项的数量),以确定最大记忆/污染而不高估。最后,使用所有BCQs中最高的测验表现,估计检测到的污染水平的最小和最大范围。我们将这一端到端的过程称为我们的数据污染测验(DCQ)。

本文的主要贡献如下:
(1) 我们提出了第一种策略,用于估计完全黑盒LLMs中逐字数据污染。这种检测完全依赖于输入输出交互,无需访问预训练数据和模型权重/逻辑。我们的基于测验的方法结构是这样的,正确答案验证了记忆的存在,从而揭示了先前的数据暴露。因此,污染水平是基于测验在数据集实例子集上的表现估计的。
(2) 使用涵盖多种场景的严格评估,包括GPT-4和GPT-3.5的控制和非控制污染环境,我们的发现表明,我们的方法与Golchin和Surdeanu(2024年)提出的现有最先进的数据污染检测方法相比,检测到的记忆/污染水平显著更高。

总体而言,我们的策略比现有的数据污染检测方法提供了几个关键优势:(1) 通过将LLMs的输出限制为一个识别所选选项的字母(从A到E),我们的策略大幅减少了LLMs在检测数据污染时的概率行为;(2) 基于同样的限制输出原则,我们的方法可以巧妙地规避模型提供商在解码过程中设置的安全过滤器,特别是在那些寻求防止生成版权内容的专有LLMs中,从而暴露出更多的污染;(3) 它超越了基于概率/阈值的方法(Shi等人,2024年;Oren等人,2024年,等等)的限制,这些方法通常是语言特定的,允许我们的方法应用于不同的语言;(4) 由于自动化测验生成过程和管理在可管理的数据集实例子集上,如我们实验中使用的100个子样本实例,我们的技术既节省成本又节省时间;以及(5) 我们方法的简化性质意味着我们为每个数据集分区收集的测验选项是可重用的,可以应用于任何LLM进行DCQ,为社区提供了一个有效和方便的工具,用于估计完全黑盒LLMs中的污染。
论文翻译:arxiv-2024 Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large_第1张图片

图1:一个示例测验问题,旨在检测XSum测试分区中的数据污染。在这个例子中,底层LLM(GPT-4)产生的答案是正确的选项(选项C),表明其先前的数据暴露,因此,揭示了污染。

你可能感兴趣的:(LLMs-数据污染,论文翻译,语言模型,人工智能,深度学习)