十分钟读完「微软发布的Orca2」论文,“调教式”教会小型语言模型拥有大型语言模型的推理能力

微软发布Orca2,“调教式”教会小型语言模型拥有大型语言模型的推理能力

引言:探索小型语言模型的推理能力

在人工智能领域,大型语言模型(LLMs)因其在多种任务上展现出的卓越性能而备受瞩目。然而,随着技术的发展,研究人员开始关注小型语言模型(SLMs)的推理能力。SLMs在资源消耗、部署灵活性和用户隐私保护方面具有独特优势,但它们在复杂推理任务上的表现往往不如LLMs。因此,如何提升SLMs的推理能力,使其在复杂任务上能够与LLMs媲美,成为了研究的重要课题。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

1. 论文标题与机构

论文标题:Orca 2: Teaching Small Language Models How to Reason
机构:Microsoft Research

2. 论文链接

  • 论文链接:Orca 2: Teaching Small Language Models How to Reason

Orca 2项目通过对小型语言模型进行精心设计的训练,使其在一系列推理任务上的表现显著提升。该研究不仅关注模型的推理技巧,还着眼于模型如何根据具体任务选择最有效的解决策略。通过这种方法,Orca 2在多个基准测试中超越了类似大小的模型,并达到或超过了大型模型的性能水平。研究结果表明,即使是小型模型,也有潜力通过合适的训练方法实现高水平的推理能力。

Orca 2的研究目标与方法概述

1. 提升小型语言模型的推理能力

Orca 2项目的核心目标是提升小型语言模型(LMs)的推理能力。研究团队认为,传统的模仿学习方法,即让小型模型模仿更大模型的输出,可能限制了小型模型的潜力。因此,Orca 2旨在教会小型LMs不同的解决策略,并使其能够根据任务的不同选择最有效的策略。这种方法的目的是让小型模型在执行任务时能够达到或超过大型模型的性能水平。

2. 教授多种推理技术

Orca 2项目通过教授小型LMs多种推理技术来实现其目标。这些技术包括逐步处理(step-by-step processing)、回忆然后生成(recall-then-generate)、回忆推理生成(recall-reason-generate)、提取生成(extract-generate)和直接回答(direct-answer)等方法。这些技术的多样性使得小型模型能够根据不同任务的需求灵活选择最合适的解决方案。

3. 选择最有效的解决策略

Orca 2的另一个关键目标是帮助模型学会确定每个任务最有效的解决策略。这意味着模型不仅要学会执行特定的推理步骤,还要学会在更高层次上策略化地处理特定任务。这种“谨慎推理”(Cautious Reasoning)的方法要求模型在没有看到触发这些行为的原始提示的情况下,仅通过任务和结果行为来学习。

训练过程与数据集构建

1. 创新的数据集构建方法

Orca 2项目在数据集构建方面采取了创新的方法。研究团队创建了一个包含约817K训练实例的新数据集,称为Orca 2数据集。该数据集结合了原始FLAN注释、Orca 1数据集以及Orca 2数据集的子集。此外,还采用了“提示擦除”技术,即在训练阶段,小型模型只能看到任务和结果行为,而看不到触发这些行为的原始提示。

2. 进阶学习与模型训练细节

Orca 2的训练过程涉及多个阶段,首先是在FLAN-v2数据集上对LLaMA-2-7B或LLaMA-2-13B检查点进行微调,然后是在Orca 1中的5百万ChatGPT数据上进行3个时期的训练,接着是在Orca 1和Orca 2的817K数据的组合上进行4个时期的训练。此外,还使用了LLaMA字节对编码(BPE)分词器进行输入示例的处理,并采用了打包技术来优化训练过程。在计算损失时,只计算教师模型生成的令牌上的损失,以确保模型专注于学习最相关和最有信息量的令牌。这一训练过程在32个NVIDIA A100 GPU上进行,使用bfloat16进行训练。

实验设置与基准测试

在进行小型语言模型(LMs)的实验研究时,选择合适的基准测试和评估方法至关重要。这些测试和评估方法不仅需要能够全面地覆盖模型的性能,还要能够准确地反映模型在特定任务上的推理能力。

1. 选择多样化的基准测试

为了全面评估Orca 2模型的性能,研究团队选择了15个不同的基准测试,涵盖了约100个任务和超过36,000个独特的提示。这些测试包括语言理解、常识推理、多步推理、数学问题解决、阅读理解、摘要、基于事实的生成、真实性和有害内容的生成与识别等多个方面。这种多样化的测试选择确保了评估的全面性,能够从多个角度检验模型的推理能力。

2. 零样本设置下的评估方法

Orca 2模型的评估采用了零样本(zero-shot)设置,即在没有任何示例或提示的情况下测试模型的性能。这种设置对模型的推理能力提出了更高的要求,因为模型需要仅凭问题本身,而不是依赖于先前的示例或经验,来生成答案。此外,研究团队还使用了GPT-4作为评判标准,以衡量模型生成内容的基于上下文的合理性(groundedness)。尽管使用任何模型作为评估的代理都有其局限性,但这种方法为评估提供了一个参考标准。

实验结果与分析

实验结果表明,Orca 2模型在多个方面都展现出了卓越的性能,尤其是在推理任务中。

1. 在推理任务中超越同等大小的模型

在零样本推理任务中,Orca-2-13B模型显著优于同等大小的模型。与LLaMA-2-Chat-13B和WizardLM-13B模型相比,Orca-2-13B在推理任务上的表现分别提高了47.54%和28.15%。这一结果凸显了Orca 2在训练过程中采用的策略的有效性。

2. 与大型模型的竞争力对比

Orca-2-13B模型不仅在与同等大小的模型比较中表现出色,而且在与体量是其5到10倍的大型模型相比也显示出了竞争力。在复杂的推理任务测试中,Orca-2-13B的性能不仅匹敌,甚至超过了LLaMA-2-Chat-70B模型,并且与WizardLM-70B模型的表现相当。这一发现突显了通过改进训练信号来提升小型LMs推理能力的潜力。

通过这些实验,Orca 2模型证明了即使在参数数量较少的情况下,通过精心设计的训练和策略选择,也能够实现与大型模型相媲美的推理能力。这为未来在不同部署场景和效率与能力之间的权衡中,使用小型模型开辟了新的可能性。

安全性与真实性评估

1. 使用自动化框架评估模型安全性

在评估模型的安全性方面,Orca 2模型并未经过RLHF(强化学习人类反馈)训练,这是一个用于提高模型安全性的训练过程。然而,研究人员使用了一个自动化的框架,该框架利用GPT-4作为评判标准,来衡量模型在上下文中的根据性(groundedness)。这种方法有其局限性,因为评估模型可能会偏好具有特定特征的样本,例如自身生成的内容、长文本或特定样本的顺序。Orca 2在三项研究任务中显示出最低的幻觉率,与其他大小相似的模型相比,Orca-2-13B在幻觉率上的降低幅度显著。

2. 生成内容的真实性分析

在生成内容的真实性方面,Orca 2模型在生成摘要时可能会进行推断,并使用推断出的内容创建摘要。这些未经证实的生成内容通常在事实上是准确的,但它们并不受上下文的支持。例如,在ACI-BENCH和QMSum的评估中,Orca-2-13B在没有幻觉的情况下生成了摘要,而在使用谨慎系统消息时,模型可能会提及上下文中未提到的事实,例如“膝关节”或“肝脏”,这被认为是幻觉。

特定任务数据的影响

1. 故事重排序任务的实验结果

在故事重排序任务中,研究人员创建了5,000个训练样本,并将这些特定任务数据与训练数据集的其余部分混合。在ROCStories语料库上的评估显示,Orca 2模型在使用特定于任务的数据时,性能得到了提升。这表明,通过使用特定于任务的合成数据,可以提高Orca 2模型在特定任务上的性能。

2. 任务特定数据对模型性能的提升

Orca 2模型通过使用合成数据进行训练,这些数据是由更强大的模型生成的,并且在生成数据时使用了提示擦除技术。这种方法使得Orca 2模型能够在没有原始系统指令的情况下,学习到如何处理任务。实验结果表明,Orca 2模型在特定任务上的性能得到了显著提升,这证明了使用合成数据进行训练的有效性。

讨论与限制

1. 模型的局限性与潜在偏见

在探索如何通过改进训练信号来增强小型语言模型(LMs)的推理能力的过程中,Orca 2模型展现出了显著的进步,尤其是在零样本(zero-shot)设置下的推理任务上,与体量更大的模型相比,Orca 2的表现堪称出色。然而,Orca 2及其基础模型LLaMA 2仍然受到其训练数据的限制,可能会在输出中携带源数据中存在的偏见。此外,由于大型语言模型的复杂性和规模,它们的工作原理往往像“黑箱”一样难以理解,这使得理解特定输出或决策背后的逻辑变得困难。尽管Orca 2在训练过程中采用了各种内容安全过滤器,但仍需要更详细的研究来更好地量化这些风险。

2. 安全性训练与合成数据的影响

Orca 2模型在安全性方面的训练尚未经过强化学习人类反馈(RLHF)的过程,这可能影响其在安全性和偏见方面的表现。在使用合成数据进行训练时,模型可能会继承用于数据生成的模型和方法的优点和缺点。例如,Orca 2在生成摘要时的幻觉率(hallucination rate)较低,这表明它在训练过程中可能已经从安全措施中受益。然而,对于合成数据的使用,仍需谨慎,以避免模型产生不准确或有偏见的内容。

总结与展望

1. 小型模型推理能力的提升潜力

Orca 2的研究表明,通过在合成数据上进行训练,小型模型的推理能力有显著提升的潜力。Orca 2通过实施多种推理技术,并识别每项任务最有效的解决策略,实现了与更大模型相当或甚至超越的性能水平。这一发现强调了教授小型模型推理的价值,并展示了使用由更强大的模型创建的定制和高质量合成数据进行训练的潜力。

2. 未来研究方向与应用场景探索

尽管Orca 2在推理任务上取得了进步,但它仍然展示了与基础模型相似的限制和约束。未来的研究可以探索如何进一步提高小型模型的推理能力、控制能力和安全性。此外,研究可以探索使用合成数据进行后续训练的方法,以改善模型的整体安全性。虽然Orca 2目前主要用于研究环境,但其在不同部署场景中的应用潜力,以及在效率与能力之间权衡的新应用,是值得未来研究探索的方向。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

你可能感兴趣的:(人工智能,深度学习,论文阅读,自然语言处理,语言模型,机器学习)