在人工智能的发展过程中,一个重要的问题是如何训练模型以便它们能够在难度较高的测试数据上表现良好,尤其是在难以获取准确标注的难题训练数据的情况下。这个问题被称为可扩展监督问题(scalable oversight problem),随着语言模型的不断进步,这个问题越来越受到关注。本文中,我们展示了一个令人惊讶的结论:当前的语言模型通常能够从简单数据很好地泛化到难数据上,甚至能够与在难数据上训练的“神谕”模型表现得一样好。我们使用简单的训练方法,例如上下文学习(in-context learning)、线性分类器头(linear classifier heads)和QLoRA,展示了这种从简单到难的泛化,涵盖了七种不同的数据点难度衡量标准,包括六种基于人类的多样化难度衡量(如学习等级)和一种基于模型的衡量标准(基于损失的衡量)。
我们的实验使用了多达70亿参数的开放模型,以及四个公开可用的问答数据集,这些数据集包含的问题难度从三年级的科学问题到大学级别的STEM问题和普通知识问答。我们得出的结论是,对于所研究的任务,语言模型在从简单到难的数据上的泛化能力出奇地强,这表明可扩展监督问题可能比之前认为的要容易。
声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。
智能体传送门:赛博马良-AI论文解读达人
神奇口令: 小瑶读者 (前100位有效)
论文标题、机构、论文链接和项目地址
在人类知识的专业领域中,监督语言模型(LMs)以获得正确输出是一项挑战,因为在这些领域中正确标记数据本身就很困难。标记难度体现在注释时间(因此成本)和标签噪声上。当需要特定专业知识时,标记难度会变得尤为严重。例如,对于特定的物理问题,即使是博士和博士生也可能在多达40%的问题上犯错。随着越来越多的自然语言处理(NLP)基准测试关注具有挑战性的领域特定任务,获得这些任务的大型人工标记训练语料库可能变得越来越不可行。这引发了一个问题:当正确标记足够的难度数据用于训练变得困难时,我们如何训练模型来解决难题?这个问题是可扩展监督问题的一个例子,它涉及到当很难评估模型输出是否正确时,如何给模型一个良好的奖励信号。
本文研究了从简单到困难的泛化问题,这对于确定可扩展监督问题的挑战程度至关重要。简单到困难的泛化是指模型在仅接受简单训练数据的情况下对困难测试数据的性能,这些简单数据是根据某种人类难度衡量标准(如年级水平)定义的。由于在像研究生水平STEM领域这样的领域收集训练数据既昂贵又耗时,如果我们能够通过仅在简单领域(如高中STEM问题)上训练模型来提高这些领域中的模型性能,那将是非常有用的。为了评估当前LMs从简单数据到困难数据的泛化能力,我们训练模型仅使用简单数据并在困难数据上进行测试(“简单到困难”),然后将它们与“神谕”上限和无监督下限进行比较。"神谕"上限是一个可以访问标记困难数据进行训练的模型(“困难到困难”),而无监督下限是一个被提示零样本回答问题的模型(“无监督到困难”)。我们感兴趣的最终指标是监督差距恢复(SGR):其中简单、困难和无监督分别指模型在接受简单数据、困难数据或无数据(零样本)训练时在困难测试数据上的性能。当在简单数据上训练的模型与在困难数据上训练的模型一样有效时,这个指标取值为100%,而当在简单数据上训练的模型不比零样本提示的模型更好时,它为0%。
我们的实验使用了多达70b参数的开放模型和四个公开可用的问答数据集,这些问题的难度从三年级的科学问题到大学级别的STEM问题和普通知识问答。我们使用的模型包括Llama-2基础模型,大小为7b、13b和70b参数。我们还在附录B中展示了Llama-2-70b的RLHF版本、Qwen-72b和Mixtral-7x8b的结果。结果在模型之间是稳健的。
我们通过多种方式衡量数据点的难度,包括教育/年级水平、专家评分、所需认知技能、问题字数、答案字符数和组合步骤。此外,我们还使用了基于最小描述长度(MDL)的模型基础度量来衡量数据点的难度。在实验中,我们使用包含某些这些度量注释的四个数据集。
我们的训练方法包括上下文学习、线性分类器头和QLoRA。对于无监督基线,我们使用零样本提示,计算答案选择的概率,并将概率最高的答案作为模型预测。对于所有使用线性探测和QLoRA的实验,我们使用n = 160个训练点。我们进行了5次随机种子实验,并使用块引导法结合测试和训练数据方差来获得置信区间和计算p值。
1. 简单数据训练的模型与“神谕”模型的比较
在探索简单数据对困难任务的泛化效果时,研究人员将仅使用简单数据训练的模型与“神谕”模型进行了比较。所谓的“神谕”模型是指那些有机会在困难数据上进行训练的模型。实验结果显示,使用简单数据训练的模型在处理困难测试数据时的表现出人意料地好,甚至与“神谕”模型的表现相近。这一发现基于对ARC、MMLU、GSM8k和StrategyQA等数据集的实验,其中包括从3年级科学问题到大学级STEM问题和普通知识问答的各种难度问题。例如,在使用最多70b参数的开放模型上,简单数据训练的模型在困难测试数据上的表现通常能够恢复70%至100%的监督差距,意味着简单数据的监督至少有70%的效果与困难数据监督相当。
2. 简单数据与困难数据的监督差距恢复(SGR)分析
监督差距恢复(SGR)是衡量模型在困难测试数据上表现的一个指标,它比较了仅使用简单数据训练的模型(简单到困难)、使用困难数据训练的模型(困难到困难)以及未经训练直接进行测试的模型(无监督到困难)的表现。SGR的值在100%时表示简单数据训练与困难数据训练同样有效,而在0%时则表示简单数据训练并未比零监督模型更好。研究发现,模型从简单数据到困难数据的泛化通常表现出色,SGR通常介于70%至100%之间,这表明简单数据提供了出人意料的良好监督。
1. 收集简单数据与困难数据的成本效益分析
研究表明,即使对于困难测试数据的表现最为关心,收集和训练简单数据而不是困难数据可能是更好的选择。这是因为困难数据通常更加嘈杂且收集成本更高。例如,对于特定物理问题,即使是博士生和博士后也可能在高达40%的问题上犯错。因此,当考虑到成本时,简单数据的收集和标注可能更具成本效益,尤其是在有限的数据收集预算下,或者在简单数据可以用更低的错误率进行标注的情况下。
2. 模型规模与训练-测试难度差距对泛化的影响
研究还探讨了模型规模和训练-测试难度差距对泛化能力的影响。结果显示,SGR在7b至70b参数范围内的模型规模上非常稳健。然而,当训练和测试难度之间的差距变得足够大时,简单到困难的性能可能会开始下降。这意味着,尽管简单数据对于困难任务的泛化效果通常很强,但在训练和测试难度之间的差距过大时,这种泛化能力可能会受到影响。
1. 课程学习(Curriculum Learning)
课程学习是一种模型训练方法,旨在通过从简单到复杂的顺序来提高模型在困难数据点上的性能。历史上,这种方法被认为有助于模型在后期学习更复杂的概念,从而在困难数据上表现更好。然而,也有研究表明,先难后易的顺序或非单调难度排序也能取得良好效果。与课程学习的目标不同,本文的研究旨在探索模型基于训练数据的难度如何泛化到困难数据上。研究结果表明,预训练语言模型(LMs)从简单数据到困难数据的泛化能力出人意料地强,这可能减轻了对精心设计的训练课程的需求。
2. 组合泛化(Compositional Generalization)
组合泛化是指神经网络在训练时未见过的组合推理步骤上的泛化能力。先前的研究表明,神经网络在这方面存在挑战,尤其是在训练中未精确见过的问题上。然而,进一步的研究开始揭示了模型在组合上更难问题上泛化的条件。例如,当解决方案可以通过Transformer前向传播精确实现时,Transformers在某类算法问题上的泛化能力会更好。尽管如此,即使是GPT-3.5在Chain-of-Thought提示下,也可能难以泛化到训练中未见过的简单数学问题。本文的结果并不与这些研究相矛盾,而是展示了相对于无监督到困难数据的下限和困难到困难数据的上限,从简单到困难数据的性能通常出奇地好。
3. 简单到困难的泛化(Easy-to-Hard Generalization)
简单到困难的泛化是评估可扩展监督问题难度的有用背景,它告诉我们在可以适当监督模型的情况下,我们可以期望模型如何泛化到无法监督的情况。以前的工作使用基于模型的难度度量和问题解决所需的组合推理步骤数量来评估NLP中的简单到困难泛化。相对于这些工作,本文研究了更多的人类难度度量,包括教育水平、专家评级、所需认知技能、问题长度、答案长度和推理步骤数量,以及一个基于模型的度量,涉及多个数据集,包括科学问答、组合推理和数学推理,以及多种模型大小,以了解规模趋势。与这些工作相比,我们展示了在许多设置中,从简单到困难的泛化与从困难到困难的泛化相当。
本研究的结论表明,当前的语言模型(LMs)通常能够从简单数据泛化到困难数据,甚至在某些情况下,性能与在困难数据上训练的“oracle”模型相当。这种简单到困难的泛化能力在多个维度上表现出鲁棒性,包括模型规模(从7b到70b参数)、不同的人类难度度量、多个数据集/任务,以及多种训练方法(包括上下文学习、线性分类器头部和QLoRA)。
然而,当训练和测试难度之间的差距变得足够大时,简单到困难的性能可能开始下降。这表明,尽管简单数据在训练困难任务时具有潜力,但仍存在挑战,特别是在难度差距较大的情况下。未来的研究可能需要探索如何缩小这一差距,或者开发新的方法来进一步提高模型在极端难度条件下的泛化能力。
此外,研究还发现,在某些情况下,即使最关心的是模型在困难数据上的性能,收集和训练简单数据而不是困难数据可能更好,因为困难数据通常更嘈杂且收集成本更高。这一发现对于数据收集策略和训练方法的选择提出了新的考虑因素,尤其是在资源受限或数据标注质量不高的情况下。
总体而言,这些发现表明,可扩展监督问题可能比先前认为的要容易。未来的工作可能会探索更大规模的模型、更复杂的任务,以及更多样化的训练策略,以充分利用简单数据在困难任务训练中的潜力。
声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。
智能体传送门:赛博马良-AI论文解读达人
神奇口令: 小瑶读者 (前100位有效)