青云遮夜雨

大语言模型(LLM)综述(四)：如何适应预训练后的大语言模型

A Survey of Large Language Models

前言
5. ADAPTATION OF LLMS
- 5.1 指导调优
- - 5.1.1 格式化实例构建
  - 5.1.2 指导调优策略
  - 5.1.3 指导调优的效果
  - 5.1.4 指导调优的实证分析
- 5.2 对齐调优
- - 5.2.1 Alignment的背景和标准
  - 5.2.2 收集人类反馈
  - 5.2.3 根据人类反馈进行强化学习
  - 5.2.4 无需 RLHF 的对齐
  - 5.2.5 对于SFT和RLHF的评论
- 5.3 参数高效的模型适应
- - 5.3.1 参数高效的微调方法
  - 5.3.2 LLM的参数高效微调
- 5.4 内存高效的模型适应
- - 5.4.1 量化的背景
  - 5.4.2 LLM的量化方法
  - 5.4.3 实证分析与发现
  - 5.4.4 开源库和量化的LLMs

前言

随着人工智能和机器学习领域的迅速发展，语言模型已经从简单的词袋模型（Bag-of-Words）和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中，大型语言模型（LLM）尤为引人注目，它们不仅在自然语言处理（NLP）任务中表现出色，而且在各种跨领域应用中也展示了惊人的潜力。从生成文本和对话系统到更为复杂的任务，如文本摘要、机器翻译和情感分析，LLM正在逐渐改变我们与数字世界的互动方式。

然而，随着模型规模的增加，也出现了一系列挑战和问题，包括但不限于计算复杂性、数据偏见以及模型可解释性。因此，对这些模型进行全面而深入的了解变得至关重要。

本博客旨在提供一个全面的大型语言模型综述，探讨其工作原理、应用范围、优点与局限，以及未来的发展趋势。无论您是该领域的研究者、开发者，还是对人工智能有广泛兴趣的读者，这篇综述都将为您提供宝贵的洞见。

本系列文章内容大部分来自论文《A Survey of Large Language Models》，旨在使读者对大模型系列有一个比较程序化的认识。

论文地址：https://arxiv.org/abs/2303.18223

大型语言模型（LLMs）的适应是指对这些模型进行微调或修改，以执行特定任务或适应特定领域的过程。LLMs，如GPT-3或类似的模型，通常在大型文本语料库上进行预训练，然后可以进一步用于各种自然语言处理任务的适应。

5. ADAPTATION OF LLMS

在预训练之后，语言模型（LLMs）可以获得解决各种任务的一般能力。然而，越来越多的研究表明，LLMs的能力可以根据具体目标进一步适应。在本节中，我们介绍了适应预训练LLMs的两种主要方法，即指导调优和对齐调优。前一种方法主要旨在增强（或解锁）LLMs的能力，而后一种方法旨在将LLMs的行为与人类价值观或偏好对齐。此外，我们还将讨论在资源有限的情况下用于模型适应的高效调优和量化方法。接下来，我们将详细介绍这四个部分。

5.1 指导调优

实质上，指导调优是对预训练LLMs进行微调的方法，使用自然语言形式的一组格式化实例 [62]，这与监督微调 [61] 和多任务提示训练 [28] 高度相关。为了执行指导调优，我们首先需要收集或构建指导格式化的实例。然后，我们使用这些格式化的实例以监督学习的方式对LLMs进行微调（例如，使用序列到序列的损失进行训练）。经过指导调优后，LLMs可以展示出在未见过的任务上具有卓越的泛化能力 [28, 62, 64]，甚至在多语言环境中也能如此 [85]。

一份最近的调查报告[272]提供了对指导调优研究的系统概述。与此相比，我们主要关注指导调优对LLMs的影响，并提供了详细的实例收集和调优指南或策略。此外，我们还讨论了使用指导调优来满足用户的实际需求，这在现有的LLMs中广泛应用，例如InstructGPT [61] 和 GPT-4 [46]。

5.1.1 格式化实例构建

一般来说，指导格式化实例包括任务描述（称为指导）、可选的输入、相应的输出以及少量示范（可选）。作为重要的公共资源，现有研究已发布了大量以自然语言格式化的标记数据（请参阅表6中可用资源的列表）。接下来，我们将介绍构建格式化实例的三种主要方法（请参见图9中的示例），然后讨论实例构建的若干关键因素。

表 6：可用于指令调整的集合的详细列表。

图 9：实例格式化和构造指令格式化实例的三种不同方法的图示。

格式化任务数据集

在提出指导调优之前，一些早期的研究[266, 273, 274]从各种各样的任务中收集了实例（例如，文本摘要、文本分类和翻译），以创建监督多任务训练数据集。作为指导调优实例的主要来源，将这些多任务训练数据集用自然语言任务描述格式化非常方便。具体来说，最近的工作[28, 61, 62, 79]使用人工编写的任务描述来扩充标记数据集，这些描述指导LLMs通过解释任务目标来理解任务。例如，在图9(a)中，对于每个问题回答任务的示例，都添加了任务描述“请回答这个问题”。经过指导调优后，LLMs可以通过遵循它们的任务描述很好地推广到其他未见过的任务[28, 62, 64]。特别是已经显示，对于LLMs的任务泛化能力来说，指导是关键因素[62]：通过在去除任务描述的标记数据集上对模型进行微调，会导致模型性能大幅下降。为了更好地为指导调优生成标记实例，提出了一种 PromptSource [265]，用于有效创建、共享和验证不同数据集的任务描述。为了丰富训练实例，一些研究[28, 266, 275]还尝试使用专门设计的任务描述来反转现有实例的输入-输出对，以用于指导调优。例如，给定一个问题-答案对，我们可以通过预测以答案为条件的问题（例如，“请根据答案生成一个问题”）来创建一个新的实例。

格式化日常聊天数据

尽管已经有大量的训练实例经过指导格式化，但它们主要来自公共NLP数据集，要么缺乏指导多样性，要么与真实人类需求不匹配[61]。为了解决这个问题，InstructGPT [61] 提出将用户提交给OpenAI API的查询作为任务描述。用户查询以自然语言表达，特别适合引发LLMs的指导遵循能力。此外，为了丰富任务多样性，还要求人类标注者为真实生活任务撰写指导，包括开放式生成、开放问题回答、头脑风暴和聊天。然后，他们让另一组标注者直接回答这些指导。最后，他们将一个指导（即收集的用户查询）与期望的输出（即人工编写的答案）配对成为一个训练实例。需要注意的是，InstructGPT还使用这些以自然语言格式化的真实世界任务进行了对齐调优（在第5.2节中讨论）。此外，GPT-4 [46] 设计了潜在高风险的指导，并通过监督微调引导模型拒绝这些指导，出于安全考虑。最近，研究人员还收集用户的聊天请求作为输入数据，并使用ChatGPT或GPT-4来作为输出数据响应这些请求。其中一个代表性的数据集是来自ShareGPT的对话数据。

格式化合成数据

为了减轻人工标注或手动收集的负担，已经提出了一些半自动化方法 [129] 通过将现有实例输入到LLMs中来合成各种任务描述和实例。如图9©所示，Self-Instruct方法只需要大约100个实例作为初始任务池。然后，他们从池中随机选择几个实例作为示范，并提示LLMs生成新的指导和相应的输入-输出对。经过质量和多样性过滤后，新生成的实例将被添加到任务池中。因此，合成方法是生成大规模LLMs指导数据的有效和经济的方式。

实例构建的关键因素。指导实例的质量对模型的性能有重要影响。在这里，我们讨论一些实例构建的基本因素。

• 扩展指导。已经广泛证明，扩展任务数量可以大大增强LLMs的泛化能力[28, 62, 79]。随着任务数量的增加，模型性能最初呈现出连续增长的趋势，但当达到一定水平时，收益变得微不足道[64, 79]。一个合理的推测是，一定数量的代表性任务可以提供相对充足的知识，而添加更多任务可能不会带来额外的收益[64]。此外，从多个方面增强任务描述的多样性，如长度、结构和创造性，也是有益的[28]。至于每个任务的实例数量，已经发现一小部分实例通常可以饱和模型的泛化性能[62, 64]。然而，将某些任务的实例数量增加到较大数量（例如几百个）可能会导致过拟合问题，并影响模型性能[79, 276]。

• 格式化设计。作为一个重要因素，自然语言格式的设计也极大影响了LLMs的泛化性能[79]。通常情况下，我们可以在现有数据集的输入-输出对中添加任务描述和可选示范，其中任务描述是LLMs理解任务最关键的部分[79]。此外，使用适当数量的示范作为演示也可以带来显著的改进[64]，这也减轻了模型对指导工程的敏感性[62, 64]。然而，将其他组成部分（例如要避免的事情、原因和建议）纳入指导可能对LLMs的性能影响微乎其微，甚至产生负面影响[79, 264]。最近，为了引发LLMs的逐步推理能力，一些工作[64]提出在某些推理数据集中（如算术推理）包括思维链（CoT）示例。已经显示，使用CoT和非CoT示例对LLMs进行微调可以在各种推理任务中取得良好的性能，包括需要多跳推理能力的任务（例如常识问题回答和算术推理）以及不需要这种推理方式的任务（例如情感分析和提取式问题回答）[64, 86]。

总结一下，多样性和指导的质量似乎比实例数量更重要[277]，因为表现良好的InstructGPT [61] 和 Alpaca [128] 使用的指导（或实例）数量较少，但更多样化，而不像Flan系列LLMs [62, 64] 那样多。此外，邀请标注者撰写满足人类需求的任务比使用特定数据集的任务更有用。然而，目前仍缺乏关于注释人类需求实例的通用指导方针，使任务构建在某种程度上成为一种启发式方法。为了减少人力工作，我们可以重复使用现有的格式化数据集（表6），或者使用现有的LLMs自动构建指导[129]。我们在第5.1.4节中进行了初步实验，以展示不同构建方法的有效性。

5.1.2 指导调优策略

与预训练不同，指导调优通常更高效，因为只使用了适度数量的实例进行训练。由于指导调优可以被视为一种监督训练过程，因此它在几个方面与预训练不同[64]，例如训练目标（即序列到序列损失）和优化配置（例如较小的批量大小和学习率），这些在实践中需要特别注意。除了这些优化配置之外，还有四个重要方面需要考虑指导调优：

平衡数据分布

由于指导调优涉及多种不同的任务混合在一起，因此在微调期间平衡不同任务的比例非常重要。一个广泛使用的方法是示例比例混合策略 [73]，即将所有数据集合并，从混合数据集中均匀抽样每个实例。此外，根据最近的研究发现[64, 86]，增加高质量数据集（例如FLAN [62] 和P3 [265]）的采样比例通常可以提高性能。此外，在指导调优期间通常设置一个最大限制，以控制数据集在其中包含的示例的最大数量 [73]，这是为了防止更大的数据集压倒整个分布[73, 86]。在实践中，根据不同的数据集，最大限制通常设置为几千或几万个示例。

结合指导调优和预训练

为了使调优过程更加有效和稳定，OPT-IML [86] 在指导调优过程中加入了预训练数据，这可以看作是对模型调优的正则化。此外，一些研究尝试使用多任务学习，而不是使用独立的两阶段过程（预训练然后指导调优），从头开始训练模型，使用预训练数据（即纯文本）和指导调优数据（即格式化数据集）的混合数据 [73]。具体来说，GLM-130B [84] 和Galactica [35] 将指导格式化的数据集集成为预训练语料库的一小部分，用于预训练LLMs，从而可能同时实现预训练和指导调优的优势。

多阶段指导调优

对于指导调优，有两种重要的指导数据，即任务格式化指导和日常聊天指导。一般来说，前者的数量明显大于后者。在两种指导数据的训练中保持平衡非常重要。除了仔细混合不同的指导数据之外，我们还可以采用多阶段指导调优策略，其中LLMs首先使用大规模任务格式化指导进行微调，然后再对日常聊天指导进行微调。为了避免容量遗忘问题，在第二阶段添加一定数量的任务格式化指导也是有用的。实际上，这种多阶段调优策略也可以应用于指导调优的其他设置。例如，我们可以安排不同的微调阶段，逐渐增加难度和复杂性的水平，并逐渐提高LLMs遵循复杂指导的能力。

其他实用技巧

在实践中，还有一些有用的策略和技巧可以帮助提高LLMs的微调性能。我们列举一些代表性的如下：

• 高效训练多轮聊天数据。对于多轮聊天示例（用户和聊天机器人之间的对话），一个直接的微调方法是将其分割成多个上下文-响应对进行训练：LLMs被微调以根据对应的上下文生成响应，对于从用户每一轮发出的言辞都要进行微调。在这种微调方式中，显然在对话中的分割示例中存在重叠的言辞。为了节省训练成本，Vicuna [124] 采用了一种高效的方式，将整个对话提供给LLMs，但依赖于一个只在训练时计算聊天机器人响应的损失掩码。这可以显著减少由重叠言辞引起的计算成本。

• 使用LLMs过滤低质量指导。在指导数据收集之后，通常会包含低质量的指导，这可能降低模型性能并增加训练成本。为了解决这个问题，现有的工作[278] 通常使用强大的LLMs（例如ChatGPT和GPT-4）来注释一部分指导。它利用了诸如“确定其对于一个目标是学习世界知识的学生的教育价值”之类的提示来指导LLMs注释指导的质量，例如高、中和低。然后，这些LLMs注释的指导将用于训练一个分类器，以预测所有其余指导的质量，并最终过滤掉被预测为低质量的指导。

• 建立LLMs的自我识别。为了将LLMs部署到实际应用中，有必要建立其身份，并使LLMs意识到这些身份信息，例如名称、开发者和隶属关系。一个实际的方法是为微调LLMs创建与身份相关的指导。还可以在输入中加入自我识别提示，例如：“以下是一个人类和由开发者开发的名为CHATBOTNAME的AI助手之间的对话。”，其中CHATBOTNAME和DEVELOPER分别指代聊天机器人的名称和开发者。

除了上述的实用策略和技巧之外，现有的工作还使用了其他技巧，例如将多个示例连接成单个序列以接近最大长度[279]，使用推理损失来评估指导的质量[280]，以及将指导重写为更复杂的指导[281]。

表 7：所需 GPU 数量、调优时间、每个设备的批量大小（表示为 BS）（完全调优和 LoRA 调优）以及推理率（每秒生成的Token数量）的基本统计数据。我们的实验是在两台 Linux 服务器上进行的，两台 Linux 服务器分别具有 8 个 A800-80G SXM4 GPU、6 个 NVSwitch 和 8 个 3090-24G GPU。 A800 和 A100 之间的主要区别在于 NVLink 互连速度。因此，我们对 A100 的训练和推理效率的估计将略有提高，而其余内存消耗将保持不变。完整的调优实验是使用数据并行训练、ZeRO Stage 3、BF16 和梯度检查点进行的。此外，LoRA 调整可以在一个 80G GPU 上使用 INT8 量化执行，等级设置设置为 16。两种训练设置的最大序列长度设置为 512。推理实验在批量大小设置为 1 的情况下执行。

5.1.3 指导调优的效果

在这一部分中，我们从三个主要方面讨论指导调优对LLM的影响。

性能改进

尽管指导调优是在适度数量的实例上进行微调，但它已经成为提高或解锁LLMs能力的重要方式[64]。最近的研究在多个规模的语言模型上进行了实验（从77M到540B不等），显示不同规模的模型都可以从指导调优中受益[64, 275]，随着参数规模的增加，性能也得到了提高[85]。此外，经过指导调优的较小模型甚至可以比未经微调的较大模型表现更好[28, 64]。除了模型规模，指导调优在各种模型架构、预训练目标和模型适应方法中都表现出一致的改进[64]。在实践中，指导调优提供了一种通用方法，可以增强现有语言模型（包括小型PLMs）的能力[64]。此外，与预训练相比，指导调优成本要低得多，因为LLMs所需的指导数据数量明显小于预训练数据。

任务泛化

指导调优鼓励模型理解任务完成的自然语言指导。它赋予LLMs能够遵循人类指令[31]执行特定任务的能力，即使没有示范，甚至在未知任务上[64]。大量研究已经确认指导调优的有效性，可以在已知和未知任务上实现更好的性能[86, 275]。此外，已经显示指导调优对缓解LLMs的一些弱点（例如重复生成或补充输入而不完成某个任务）是有用的[61, 64]，从而提高了LLMs解决真实任务的能力。此外，使用指导调优训练的LLMs可以泛化到跨语言的相关任务。例如，BLOOMZ-P3 [85] 基于BLOOM [69] 使用仅包含英文任务的P3 [265] 进行微调。有趣的是，与BLOOM相比，BLOOMZ-P3在多语言句子完成任务中取得了50%以上的提高，这表明指导调优可以帮助LLMs从仅包含英文的数据集中获得一般任务技能，并将这些技能转移到其他语言[85]。此外，已经发现使用仅包含英文指导可以在多语言任务上产生满意的结果[85]，这有助于减少特定语言的指导工程的工作量。

领域专业化

现有的LLMs在传统的自然语言处理任务（例如生成和推理）和日常问题上展示出卓越的能力。但是，它们可能仍然缺乏完成特定任务（如医学、法律和金融）所需的领域知识（详见第9节，讨论了不同应用中的LLMs）。指导调优是将现有的通用LLMs调整为特定领域专家的有效方法。例如，研究人员提出使用医学数据对Flan-PaLM [64] 进行微调，创建了Med-PaLM [282]，一款医学知识助手，其性能水平可与专业临床医生相媲美。此外，最近的研究[283] 对FLAN-T5进行微调，以支持自然语言指导的电子商务推荐系统，在各种推荐任务中表现出强大的性能。还有一些基于LLaMA [57] 的开源医学模型进行了指导调优，如BenTsao [284]。此外，研究人员还探索了在法律[285]、金

5.1.4 指导调优的实证分析

使用不同类型的指导集来微调LLMs往往会导致在下游任务上性能不同的模型变种。在本节中，我们将探讨不同类型指导在微调LLMs（即LLaMA（7B）和LLaMA（13B））时的影响，以及检查一些指导改进策略的有效性。

指导数据集

根据第5.1.1节的讨论，我们主要考虑以下三种常见类型的指导：

• 任务特定指导。对于第一种类型的指导，我们采用最常用的多任务指导数据集，FLAN-T5 [64]，它包含1,836个任务和超过15M条指导，通过合并来自先前工作的四个数据混合而成。

• 每日聊天指导。这种类型的指导是用户关于日常生活的对话，更与实际场景相关。我们采用了ShareGPT指导集，其中包含63K条真实用户指导。它已被用作Vicuna的核心指导。

• 合成指导。除了重用现有指导，我们还可以使用LLMs自动合成大量指导。我们采用了流行的合成指导数据集Self-Instruct-52K [129]，其中包含52K条指导，配对约82K个实例输入和输出。这些生成的指导具有与人类编写的种子任务（例如语法检查、头脑风暴）相似的数据分布。

由于原始的FLAN-T5数据集非常庞大（即超过15M），我们从中随机抽取了80,000条指导，以便与其他指导数据集（即ShareGPT和Self-Instruct-52K）进行公平比较，这些数据集具有类似的规模。在我们的实验中，我们对每个单独的指导集进行测试，以探讨它们各自的影响，同时还检查它们对模型性能的组合影响。

改进策略

尽管来自人类用户的真实世界指导更适合用于微调LLMs，但大规模收集它们很困难。作为人工生成指导的替代方法，大多数现有研究主要采用LLMs生成的合成指导。然而，合成指导存在一些潜在问题，例如主题多样性不足和指导难度不均匀（要么太简单，要么太难）。因此，有必要提高合成指导的质量。接下来，我们总结了现有研究中广泛使用的四种主要改进策略如下：

• 提高指导复杂性。正如现有工作所讨论的[281]，提高指导的复杂性可以提高LLMs模型在遵循复杂指导方面的能力，例如包含更多任务要求或需要更多推理步骤。为了验证这一策略，我们遵循WizardLM [281]，逐渐提高复杂性水平，例如添加约束、增加推理步骤和复杂化输入。我们利用公开发布的WizardLM-70K指导作为复杂性增强指导数据集，该数据集是通过以上增强方法基于Self-Instruct52K数据集[281]生成的。

• 增加主题多样性。除了复杂性，提高指导数据集的主题多样性可以帮助激发LLMs在真实世界各种任务上的不同能力[288]。然而，直接控制生成多样指导的自我指导过程很困难。与YuLan-Chat [289]一样，我们使用ChatGPT重新编写Self-Instruct-52K数据集中的指导，通过特定提示将它们适应为293个主题。最终，我们获得了70K个指导，作为增加多样性的数据集。

• 扩大指导数量。除了上述方面，指导数量也是可能影响模型性能的重要因素。特别是，使用更多的指导可以扩展任务知识，提高LLMs的指导遵循能力[64]。为了检查这一策略，我们从MOSS项目发布的合成指导集中抽样新的指导，因为它们也是使用相同的自我指导方法[129]合成的。我们将它们与Self-Instruct52K数据集混合，组成一个包含220K个指导的更大数据集。

• 平衡指导难度。由于合成指导往往包含过于简单或过于困难的指导，可能导致LLMs的训练不稳定甚至过拟合。为了探索潜在的影响，我们利用LLMs的困惑度分数来估算指导的难度，并删除过于简单或过于困难的指导。为了进行公平比较，我们采用LLaMA（7B）模型来计算来自大型指导数据集的220K个指导的困惑度分数，然后保留70K个具有中等困惑度分数的指导，作为平衡难度的数据集。

实验设置

为了进行关于指导数据影响的实验，我们使用了这些新的指导数据集来微调LLaMA，这是一个广泛用于指导微调的热门LLM基础架构。我们使用了YuLan-Chat [289]的代码进行实验，并在具有8个A80080G GPU的服务器上训练LLaMA（7B）和LLaMA（13B）。所有超参数设置与Stanford Alpaca保持相同。为了更好地评估经过微调模型的指导遵循能力，我们考虑了两种设置，即聊天设置和问答设置。聊天设置主要利用来自日常聊天的用户指导和查询，而问答设置主要利用现有NLP数据集中的问答示例。对于聊天设置的评估是基于AlpacaFarm评估集[290]进行的。我们选择了LLaMA（7B）和LLaMA（13B）模型，它们在Self-Instruct-52K上进行了微调，作为参考基线，然后分别将它们与使用不同指导进行微调的其他LLaMA（7B）和LLaMA（13B）模型进行比较。由于我们的重点是检查生成指导的不同策略的实用性，微调在Self-Instruct-52K上的模型可以作为一个很好的参考。按照AlpacaFarm [290]的方法，对于每个比较，我们使用ChatGPT自动注释每次两个比较模型中哪一个对于用户查询的响应最佳，并报告胜率（%）作为评估指标。对于问答设置，我们选择了两个基准，MMLU [291]和BBH3k（由YuLan-Chat发布的BBH基准的子集），并根据它们的默认设置使用启发式规则解析这些LLMs的答案来评估准确性。

对于指导微调和评估，我们采用以下提示：“The following is a conversation between a human and an AI assistant. The AI assistant gives helpful, detailed, and polite answers to the user’s questions.\n [|Human|]:{input}\n[|AI|]:”。为了重现我们的结果，我们在以下链接发布了代码和数据：https://github.com/RUCAIBox/LLMSurvey/tree/main/Experiments。

结果与分析

基于7B和13B LLaMA的不同指令数据集的结果如表8所示。接下来，我们详细总结和分析了我们的发现。

表8：基于LLaMA（7B）和LLaMA（13B）模型在聊天和问答环境下的指令调整实验结果（均为单轮对话）。我们在Self-Instruct-52K数据集上采用了四种指令改进策略，即提高复杂性（w/ complexity）、增加多样性（w/ diversity）、平衡困难度（w/ difficulty）和扩展指令数量（w/ scaling）。∗由于我们选择了在Self-Instruct-52K上微调的LLaMA（7B）/（13B）模型作为基线，我们省略了与自身微调的Self-Instruct-52K模型的胜率。

• 任务格式化的指令更适用于问答环境，但对于聊天环境可能不太有用。通过比较使用FLAN-T5进行指令调整与ShareGPT和Self-Instruct-52K进行指令调整的性能，我们可以观察到FLAN-T5在问答基准上表现更好，但在聊天环境中不如ShareGPT。原因是FLAN-T5由来自现有自然语言处理任务（例如翻译和阅读理解）的指令和示例混合组成。因此，LLaMA经过FLAN-T5的微调在问答任务上表现更好，但在用户查询方面表现不佳。相比之下，ShareGPT由真实的人类-ChatGPT对话组成，能够更好地引导LLaMA遵循用户在日常生活中的指令，但可能不适用于完成问答任务。

• 不同类型指令的混合有助于提高LLM（语言模型）的综合能力。在对微调进行三种类型指令混合后，我们可以看到由此衍生的LLaMA变体（包括FLAN-T5、ShareGPT和Self-Instruct-52K）在两种任务环境中表现良好。在MMLU中，LLaMA（7B）的性能可以远远超过使用单独指令集的性能，例如，43.69 vs. 38.58（FLAN-T5）。这表明混合多个来源的指令数据集有助于提高指令调整LLM的性能，这增加了指令数量和多样性。

• 提高指令的复杂性和多样性可以提高模型性能。通过分别增加Self-Instruct-52K数据集的复杂性和多样性，LLaMA的聊天和问答性能可以持续改善，例如，LLaMA（7B）在MMLU中从37.52提高到39.73。这表明这两种策略都有助于提高LLM的指令遵循能力。此外，我们可以看到提高复杂性对问答任务的性能改善更大。原因是问答任务主要包含用于评估LLM的困难问题，而已经在微调阶段学习了复杂指令的LLM可以更好地解决这些问题。

• 简单地增加指令数量可能并不那么有用，平衡困难度也不一定有帮助。如表8所示的结果表明，在我们的实验中，平衡困难度和增加微调指令数量并不是非常有帮助的。特别是对于扩展指令数量，它甚至会损害性能，例如，LLaMA（7B）在BBH3k中从29.81下降到26.63。这表明简单地扩展合成指令数量而不进行质量控制可能不是提高性能的有效方法。此外，使用中等难度的指令进行微调在聊天环境中表现良好，但在问答环境中略微降低性能。可能的原因是我们使用大的困惑度分数来过滤复杂和难的指令，这会损害模型在回答复杂问题方面的性能。

• 更大的模型规模导致更好的指令遵循性能。通过比较使用相同指令数据集对LLaMA（7B）和LLaMA（13B）模型进行微调后的性能，我们可以看到LLaMA（13B）通常表现更好。这表明扩展模型规模有助于提高指令遵循能力。此外，我们可以看到问答性能得到了很大的改善，例如，在MMLU中从38.11提高到47.49。这可能是因为较大的模型通常具有更好的知识利用和推理能力，能够更准确地回答更复杂的问题。

指导调优建议

要对LLM（语言模型）进行指令调整，可以根据表7中所提供的有关所需GPU数量和调整时间的基本统计信息来准备计算资源。在设置开发环境之后，我们建议初学者按照Alpaca存储库中的指令调整代码进行操作。随后，用户应该选择基础模型并按照本节中讨论的方式构建指令数据集。当训练的计算资源受限时，用户可以使用LoRA进行参数高效的调整（请参阅第5.3节）。至于推理阶段，用户可以进一步使用量化方法将LLM部署在较少或较小的GPU上（请参阅第5.4节）。

5.2 对齐调优

这部分首先介绍了与对齐相关的背景，包括其定义和标准，然后重点讨论了为了对齐LLM（语言模型）而收集人类反馈数据的过程，最后讨论了通过人类反馈进行强化学习（Reinforcement Learning from Human Feedback，RLHF）的关键技术，用于对齐调整。

5.2.1 Alignment的背景和标准

背景

LLM（语言模型）在各种自然语言处理任务中展现出了显著的能力[55, 56, 62, 81]。然而，这些模型有时可能会表现出意外的行为，例如，制造虚假信息、追求不准确的目标，以及产生有害、误导和带有偏见的表达[61, 293]。对于LLM来说，语言建模的目标是通过单词预测来预训练模型参数，但缺乏考虑人类价值观或偏好。为了避免这些意外行为，人类对齐已被提出，以使LLM按照人类期望行事[61, 294]。然而，与原始的预训练和适应性调整（例如指令调整）不同，这种对齐需要考虑非常不同的标准（例如，帮助性、诚实性和无害性）。研究已经表明，对齐可能在一定程度上损害了LLM的通用能力，这在相关文献中被称为“对齐税”[295]。

对齐标准

最近，越来越多的关注点集中在开发多样化的标准来规范LLM（语言模型）的行为。在这里，我们以三个代表性的对齐标准（即帮助性、诚实性和无害性）作为例子进行讨论，这些标准已广泛采用于现有文献中[61, 295]。此外，还有其他来自不同角度的LLM对齐标准，包括行为、意图、激励和内在方面[293]，它们本质上与上述三个标准相似（或至少具有相似的对齐技术）。根据特定需求修改这三个标准也是可行的，例如，将诚实性替换为正确性[103]。接下来，我们对这三个代表性的对齐标准进行简要解释：

• 帮助性。为了具有帮助性，LLM应该明确尝试以尽可能简洁高效的方式协助用户解决任务或回答问题。在更高的层次上，当需要进一步澄清时，LLM应该通过相关的询问展示出诱发额外相关信息的能力，并表现出适当的敏感性、洞察力和审慎性[295]。实现帮助行为的对齐对于LLM来说是具有挑战性的，因为精确定义和测量用户意图很困难[293]。

• 诚实性。在基本水平上，对齐为诚实的LLM应该向用户呈现准确的内容，而不是虚构信息。此外，对于LLM来说，向输出中传达适当的不确定度程度非常重要，以避免任何形式的欺骗或信息歪曲。这要求模型了解自己的能力和知识水平（例如，“知道自己不知道的”）。根据[295]的讨论，诚实性是一个相对较客观的标准，因此诚实性的对齐可能可以在更少依赖人力努力的情况下开发。

• 无害性。为了做到无害，模型产生的语言不应该具有冒犯性或歧视性。在其能力范围内，模型应该能够检测到旨在恶意请求的隐秘行为。理想情况下，当模型被诱导执行危险行为（例如，犯罪行为）时，LLM应该礼貌地拒绝。然而，什么行为被视为有害，以及在何种程度上视为有害，高度取决于使用LLM的个体或社会[295]，还取决于谁在使用LLM，提出问题的类型以及LLM的使用环境（例如，时间）。

正如我们所看到的，这些标准相当主观，并基于人类认知进行开发。因此，很难直接将它们制定为LLM的优化目标。在现有工作中，在对齐LLM时有许多实现这些标准的方法。一种有前途的技术是红队测试[296]，它涉及使用手动或自动化手段以对抗性方式探测LLM以生成有害的输出，然后更新LLM以防止这种输出。

5.2.2 收集人类反馈

在预训练阶段，LLM（语言模型）是在大规模语料库上使用语言建模目标进行训练的。然而，它无法考虑到人类对LLM输出的主观和定性评估（在本次调查中称为人类反馈）。高质量的人类反馈对于将LLM与人类偏好和价值观对齐非常重要。在这部分中，我们将讨论如何选择一组人类标注员进行反馈数据收集。

人类标注员的选择

在现有工作中，生成人类反馈数据的主要方法是人工标注[61, 103, 294]。这突显了选择合适的人类标注员的关键作用。为了提供高质量的反馈，人类标注员应该具有合格的教育水平和出色的英语能力。例如，Sparrow [103] 要求人类标注员是英国本土的母语英语人士，至少获得了本科水平的教育资格。然而，一些研究[294]发现研究人员和人类标注员之间仍然存在意图不匹配的情况，这可能导致低质量的人类反馈并导致LLM（语言模型）产生意外的输出。为了解决这个问题，InstructGPT [61] 进一步进行了筛选过程，通过评估人类标注员与研究人员之间的一致性来筛选标注员。具体来说，研究人员首先标注少量数据，然后衡量他们与人类标注员之间的一致性。一致性最高的标注员将被选中继续进行后续的标注工作。在其他一些工作中[297]，使用“超级标注员”来确保人类反馈的高质量。研究人员评估人类标注员的表现，选择一组表现良好的人类标注员（例如，高一致性）作为超级标注员。超级标注员将优先与研究人员合作进行后续研究。当人类标注员对LLM的输出进行标注时，详细指定说明和为人类标注员提供即时指导是有帮助的，这可以进一步规范标注员的标注工作。

人类反馈收集

在现有工作中，主要有三种方法来从人类标注员那里收集反馈和偏好数据。

• 基于排名的方法。在早期的工作中[294]，人类标注员通常以粗略的方式评估模型生成的输出（即只选择最佳的），而不考虑更精细的对齐标准。然而，不同的标注员可能对最佳候选输出的选择持不同意见，而且这种方法忽视了未被选择的样本，可能导致不准确或不完整的人类反馈。为了解决这个问题，后续研究[103]引入了Elo评分系统，通过比较候选输出来得出偏好排名。输出的排名作为训练信号，引导模型更喜欢某些输出而不是其他输出，从而产生更可靠和更安全的输出。

• 基于问题的方法。此外，人类标注员可以通过回答研究人员设计的特定问题[72]提供更详细的反馈，这些问题涵盖了对LLM的对齐标准以及额外的约束条件。特别地，在WebGPT [72]中，为了帮助模型筛选和利用来自检索文档的相关信息，要求人类标注员回答关于检索文档是否有助于回答给定输入的多个选项问题。

• 基于规则的方法。许多研究还开发了基于规则的方法来提供更详细的人类反馈。以Sparrow [103]为代表，不仅选择标注员认为最好的响应，还使用一系列规则来测试模型生成的响应是否符合帮助性、正确性和无害性等对齐标准。通过这种方式，可以获得两种类型的人类反馈数据：（1）通过比较成对模型生成输出的质量来获得响应偏好反馈，（2）通过收集来自人类标注员的评估（即得分，表示生成的输出在多大程度上违反了规则）来获得规则违反反馈。此外，GPT-4 [46] 利用了一组零样本分类器（基于GPT-4本身）作为基于规则的奖励模型，可以自动确定模型生成的输出是否违反了一组人类编写的规则。

接下来，我们将重点关注一种广泛应用于最近强大的LLM（如ChatGPT）中的知名技术，即从人类反馈中进行强化学习（RLHF）。如下所讨论的，第5.2.1节介绍的对齐标准可以通过从人类反馈中学习LLM对用户查询的响应来实现。

5.2.3 根据人类反馈进行强化学习

要使LLMs与人类价值观保持一致，已经提出了从人类反馈中进行强化学习（RLHF）[70, 294]的方法，该方法旨在使用收集到的人类反馈数据对LLMs进行微调，有助于改善对齐标准（例如，帮助性、诚实性和无害性）。RLHF使用强化学习（RL）算法（例如，Proximal Policy Optimization（PPO）[115]）来通过学习奖励模型来调整LLMs以适应人类反馈。这种方法将人类纳入培训过程中，以开发与人类价值观良好一致的LLMs，正如InstructGPT [61]所示。

RLHF系统

RLHF系统主要由三个关键组件组成：待对齐的预训练LM、从人类反馈中学习的奖励模型，以及用于训练LM的RL算法。具体而言，预训练的LM通常是一个生成模型，其参数是使用现有的预训练LM参数初始化的。例如，OpenAI在其第一个流行的RLHF模型InstructGPT [61]中使用了175B GPT-3，而DeepMind在其GopherCite模型[297]中使用了2800亿参数的模型Gopher [59]。此外，奖励模型（RM）提供（学习的）指导信号，反映了人们对LM生成的文本的偏好，通常以标量值的形式表示。奖励模型可以采用两种形式：一个是经过微调的LM，另一个是使用人类偏好数据从头开始训练的LM。现有的工作通常使用具有不同参数规模的奖励模型来对齐LM [61, 297]。例如，OpenAI分别使用6B GPT-3和DeepMind使用7B Gopher作为奖励模型。最后，为了使用奖励模型的信号优化预训练LM，需要为大规模模型调整设计特定的RL算法。具体而言，Proximal Policy Optimization（PPO）[115]是现有工作中广泛使用的RL算法，用于对齐LM [61, 103, 297]。

RLHF 的关键步骤

图 10 说明了 RLHF [61] 的整体三步过程，如下所述。

图 10：RLHF 算法的工作流程。

• 监督微调。为了使LM最初执行所需的行为，通常需要收集一个包含输入提示（指令）和微调LM所需的期望输出的监督数据集。这些提示和输出可以由人类标注者为一些特定任务编写，同时确保任务的多样性。例如，InstructGPT [61]要求人类标注者为几个生成任务，如开放式问答、头脑风暴、聊天和改写，编写提示（例如，“列出五个如何恢复对我的职业热情的想法”）和期望输出。请注意，在特定设置或情景中，第一步是可选的。

• 奖励模型训练。第二步是使用人类反馈数据训练RM。具体而言，我们使用LM生成一定数量的输出文本，使用采样的提示（可以来自监督数据集或人类生成的提示）作为输入。然后，我们邀请人类标注者对这些配对进行偏好注释。注释过程可以以多种形式进行，常见的方法是通过对生成的候选文本进行排名注释，这可以减少标注者之间的不一致性。然后，RM被训练以预测人类首选输出。在InstructGPT中，标注者对模型生成的输出进行排名，RM（即6B GPT-3）被训练以预测排名。请注意，在最近的工作中[298]，对响应配对的偏好注释是由AI代理（通常是对齐的LLM）而不是人类进行的，这被称为“从AI反馈中进行强化学习（RLAIF）”。

• RL微调。在这一步中，将LM的对齐（即微调）形式化为RL问题。在这种情况下，预训练的LM充当策略，接受提示作为输入并返回输出文本，其行动空间是词汇表，状态是当前生成的标记序列，奖励由RM提供。为了避免显著偏离初始（调整前）LM，通常在奖励函数中加入了一个惩罚项。例如，InstructGPT使用PPO算法优化LM以对抗RM。对于每个输入提示，InstructGPT计算了当前LM生成的结果与初始LM之间的KL散度作为惩罚。值得注意的是，第二和最后两个步骤可以迭代多次以更好地对齐LLMs。由于RL算法的不稳定性，最近的工作[299]将RL调整替换为通过重用奖励较高的最佳排名样本进行的另一轮监督微调。

RLHF的实用策略

尽管RLHF有望有效改善LLM与人类的一致性，但研究人员成功实施它实际上具有挑战性。在这一部分中，我们将重点讨论提高RLHF有效性和效率的几种有用策略和技巧。具体来说，我们专注于奖励模型的有效训练，分别是高效和有效的强化学习训练。

• 有效的奖励模型训练。尽管InstructGPT使用了一个小的奖励模型（6B GPT模型），但越来越多的工作[90]表明，使用一个大的奖励模型（例如，等于或大于原始模型大小）通常更有效，因为大型奖励模型通常在判断LLM生成的输出的质量方面表现更好。在LLaMa 2 [90]中，预训练聊天模型检查点用于初始化奖励模型，他们认为这种方法可以通过共享相同的预训练知识来有效减少要对齐的模型与奖励模型之间的信息不匹配。然而，在训练大规模奖励模型时经常会遇到过拟合问题。作为一种简单而有效的解决方案，现有工作[300,301]在人工注释的对齐数据集的输入提示的首选响应上引入了LM损失作为正则化器，这减轻了二元分类任务上奖励模型的过度拟合。此外，由于有多个对齐标准（例如，乐于助人和诚实），通常很难训练出一个能够满足所有对齐标准的单一奖励模型。因此，训练关注不同对齐标准的多个奖励模型[90]是有用的，并通过特殊的组合策略（例如，均值池和加权和）基于它们产生的奖励来计算最终奖励。这种方式可以在多个标准上制定更灵活的规则或标准，例如，放宽对有益性的要求，同时对危害性提出更严格的限制。

• 有效的强化学习训练。由于强化学习训练过程趋于不稳定和超参数敏感，建议在强化学习训练前对语言模型进行良好的监督微调，以达到良好的模型容量。一种常用的方法是在对齐数据集中提示的最佳输出（称为拒绝采样或 N 最佳）上微调 LLM，直到 RL 之前收敛。给定提示，LLM将首先通过采样算法产生N个输出，然后由奖励模型从模型中选择最佳候选者进行学习。在最佳样本上微调LLM直到收敛后，将执行RL过程以进一步提高性能。LLaMA 2 [90] 先后训练了五个版本的 RLHF 模型，其中 LLM 随着奖励模型的改进而逐步改进。这样，收集到的人类偏好数据的提示和标注可以更好地反映当前模型检查点的问题，从而做出特殊调整来解决这些问题。此外，LLaMA 2 还将先前迭代的样本添加到后续迭代中，以缓解迭代优化过程中可能出现的容量回归问题。

•高效的RL训练。由于RL训练需要迭代LLM和奖励模型的推理过程，这将大大增加总内存和计算成本，尤其是对于较大的奖励模型和LLM。作为一个实用技巧，我们可以在单独的服务器上部署奖励模型，并调用相应的API在其自己的服务器上使用LLM。此外，由于RLHF需要LLM生成多个候选输出，因此不需要多次调用样本解码过程，而是更有效地利用波束搜索解码算法31。它只需要执行单程解码即可生成响应，同时这种策略还可以增强生成的响应的多样性

5.2.4 无需 RLHF 的对齐

尽管RLHF在使LLM的行为与人类价值观和偏好保持一致方面取得了巨大成功，但它也存在明显的局限性。首先，RLHF需要同时训练多个LM，包括被对齐的模型、奖励模型和参考模型，这在算法过程中是繁琐的，在实践中是占用内存的。此外，RLHF中常用的PPO算法相当复杂，并且通常对超参数敏感。作为替代方案，越来越多的研究探索直接优化LLM以遵守人类偏好，使用监督微调而不进行强化学习。

概述

非RL对齐方法的基本思想是在高质量对齐数据集上通过监督学习直接微调LLM。它基本上假设响应反馈或避免不安全行为的黄金法则已被注入或包含在专门策划的对齐数据集中，因此LLM可以通过适当的微调策略直接从这些演示数据中学习对齐行为。因此，要实现这种方法，两个关键问题是对齐数据集的构建和微调损失的设计。对于第一个问题，对齐数据集可以由对齐的LLM根据人类编写的安全原则[288]自动构建，或者使用编辑操作[302]完善现有示例。此外，我们还可以重用现有的奖励模型，从现有的人类反馈数据中选择高评价的响应[299]。对于第二个问题，非RL对齐方法主要在高质量对齐数据集上以监督学习方式（与原始指令调整损失相同）微调LLM，同时可以使用辅助学习目标来提高对齐性能，例如排名响应或对比指令-响应对。

对齐数据收集

对齐数据的构建对于有效地将LLM的行为与人类偏好保持一致非常重要。为了收集高质量的对齐数据，一些工作试图重用现有的奖励模型来选择高评级的响应，而另一些工作则探索利用强大的LLM（例如ChatGPT）或构建模拟环境来生成合成对齐示例。接下来，我们将讨论这三条研究方向。

• 基于奖励模型的方法。RLHF奖励模型已经被训练去评估大模型回应的对齐度。利用现有的奖励模型来选择高质量的响应作为后续微调的对齐数据非常简单。基于这一想法，RAFT[299]采用基于人类偏好数据训练的奖励模型来对LLM的反应进行排名，并收集那些具有更高奖励的LLMs进行监督微调。此外，奖励模型还可用于对模型响应进行评分，并将其分配到不同的质量组中。Quark [303] 根据奖励分数将LLM的响应分类为不同的分位数。每个分位数都附有一个特殊的奖励令牌，以表示分位数的奖励水平。以最高奖励代币为条件，LLM随后被提示生成高质量的响应。作为调整LLM的宝贵资源，已经发布了几种奖励模型，包括OpenAssistant的DeBERTabase/large/xxlarge，Fudan的Moss-7B和斯坦福大学的Flan-T5-xl。

• 基于LLM的生成方法。奖励模型有助于从模型响应中选择对齐的数据。然而，训练奖励模型本身需要大量高质量的人工标记数据，这些数据通常价格昂贵且供不应求。此外，尽管现有的奖励模型可以重用，但它们可能无法在另一个单独训练的LLM中准确捕获不对齐行为。因此，一些工作探索了利用强大的LLM自动生成人类对齐的数据。作为一部代表著作，宪法人工智能[298]提出，人类监督来自一套管理人工智能行为的原则（即自然语言指令）。基于这些原则，LLM将批评自己的有害反应，并反复修改为最终一致的反应。类似地，自对齐[288]首先采用自指示[129]来生成专注于涵盖不同主题的指令。然后，还提示模型使用多个人类编写的原则来描述预期模型行为的规则（也有几个上下文示例），以生成有用、合乎道德和可靠的响应作为对齐数据。

• 基于LLM的互动方法。大多数现有方法孤立地训练LLM，其中LLM不存在于实际环境中，以通过外部反馈信号进行自我改进。相比之下，人类从社会环境中与他人的互动中学习社会规范和价值观[304]。为了模仿这种学习方法，Stable Align[305]构建了一个由许多LLM代理组成的模拟交互环境，其中AI代理不断相互交互，接收有关改进的反馈。一旦中央代理收到指令，它就会生成响应并与附近的代理共享。这些评论代理生成反馈，包括有关响应和修订建议的评级。然后，中央代理将根据这些建议修改原始响应。这种对齐方法也可以扩展到与人类的现实世界环境。

监督对齐调整

在获得对准数据后，设计用于直接对齐的合适的微调策略也是关键。一种简单的方法是使用基于比对数据的传统序列间目标来优化LLM。除了传统的优化目标外，一些研究还进一步探索了辅助损耗，以增强从对齐数据中学习的能力。

• 主要训练目标。由于对齐数据通常由输入指令和输出响应组成，因此主要训练损失仍然是序列到序列学习的传统交叉熵损失。基于这种损失，许多研究提出了许多改进变体来增强监督对齐调整。例如，CoH [306] 通过分别在注释的好响应和坏响应前面加上“有用的答案：”和“无用的答案：”来构造训练数据，并且仅计算具有特殊掩码的响应令牌的损失。Quark [303] 将模型响应分类为具有不同对齐质量的不同分位数，它在每个模型响应前面附加一个特殊的奖励令牌来表示响应的奖励水平。此外，为了通过最大似然目标实现偏好建模，DPO [307]首先使用策略模型（即，正在优化的语言模型）重新参数化响应奖励，然后原始奖励建模目标只能基于策略模型重新制定。这样，DPO去掉了显式的奖励建模步骤，优化仅涉及策略模型的新学习目标就相当于优化了奖励。

• 辅助优化目标。除了初级交叉熵损失外，一些研究还提出了辅助训练损失，以增强从对齐数据中学习。首先，由于每条指令的响应都可以由奖励模型评分，因此可以使用排名损失来训练模型以保持这些响应的排名顺序。例如，该研究[308]对来自多个来源的响应进行采样，包括模型生成的响应，例如源自模型本身，ChatGPT和GPT-4的响应，以及人类编写的响应，跨越高质量和低质量实例。为了与奖励模型的分数保持一致，它通过鼓励模型对具有更高排名的响应具有更高的条件对数概率来进一步优化排名损失。其次，为了增强响应和指令之间的相关性，一些工作采用对比学习来提高正确指令-响应对的概率，同时推低不正确的指令-响应对。特别是，对于输出响应，[309]中提出的方法将目标指令与其他不相关的指令进行对比。通过这样做，它可以使模型学习指令和响应之间的正确相关性。

5.2.5 对于SFT和RLHF的评论

如第 5.1 节所述，指令调优是使用格式化的演示数据（与所需输出配对的指令）训练预训练语言模型的过程。在早期的探索中，指令数据主要从NLP任务中收集[62]，而现在已经扩展到更多样化的监督数据，将输入和输出文本配对（例如，开放式对话的话语）。在LLM的背景下，使用这种配对文本进行训练也称为监督微调（SFT）[61]。在这节，我们主要使用缩写SFT进行讨论，但由于简单性和流行性，不使用指导调优。

由于SFT和RLHF是LLM的两种主要适应调谐方法，因此了解它们之间的联系和差异非常重要。接下来，我们将就此问题进行一些讨论。

关于与强化学习（RL）公式的整体比较

根据第5.2.3节中的讨论（与RL训练相关的部分），文本生成问题可以被制定为基于RL的决策过程。以提示作为输入，LLM的任务是生成一个适当回应提示的文本完成。这个任务将逐步完成。在每一步中，一个代理（即LLM）将根据策略（即LLM的生成概率分布，在当前状态下，即当前生成的令牌序列和其他可用的上下文信息条件下）执行一个动作（即生成一个令牌）。预期LLM将产生高质量的输出文本，根据整个回应的完整性可以获得大量奖励分数。总的来说，RLHF和SFT可以被看作是优化LLM上述决策过程的两种不同训练方法。特别是，RLHF首先学习奖励模型，然后利用它来改进LLM的RL训练（例如，PPO）。相比之下，SFT采用了一种教师强制方法，直接优化演示输出的可能性。这种令牌级别的训练方式本质上是行为克隆（模仿学习的一种特殊算法[310]）：它利用专家的动作（即每一步的目标令牌）作为监督标签，直接学习模仿专家的演示，而不像典型的RL算法那样指定奖励模型。为了学习所需的策略，SFT采用了一种基于演示数据的“局部”优化方式（即令牌级别的损失），而RLHF采用了一种涉及人类偏好的“全局”优化方式（即文本级别的损失）。有关模仿学习和强化学习的更多理论分析可以参考相关的RL文献[310, 311]。

SFT的优点和缺点

已经证明SFT是提高LLM在各种基准测试中性能的有效方法[62, 64, 123, 124]，这可以大大增强任务的泛化能力，并为特定功能（例如建立聊天机器人的身份）提供灵活性。关于SFT的有用性的更多讨论可以在第5.1.3节中找到。众所周知，SFT主要释放了LLM的能力，而不是为LLM注入新的能力。因此，当试图通过SFT激发LLM的非内生能力时，可能会出现问题。作为一个具体的情景，当演示数据超出LLM的知识或能力范围时，它有可能提倡产生幻觉行为，例如训练LLM回答关于其未知事实的问题。关于John Schulman关于RLHF的讲话[312]中的一个有趣观点是，提取出优越模型以训练能力较差的模型（例如，提示GPT-4生成响应作为微调数据）可能会增加产生幻觉文本的可能性，从而可能影响LLM的事实准确性。此外，作为一种行为克隆方法，SFT旨在模仿构建演示数据的专家的行为（无需探索）。然而，不同的注释者在演示数据的写作风格、质量和偏好方面常常存在差异，这往往会影响SFT的学习性能。因此，在SFT阶段，高质量的指导数据（而不是数量）是有效训练LLM的主要因素[90]。

RLHF的优点和缺点

RLHF早在深度RL文献中就被探索了[70]，然后被借用来提高语言模型的能力（例如总结[116]），随后被采用为开发InstructGPT[61]的基本技术。最近的增加的证据[90, 298]已经证明了RLHF在减轻有害回应和增强模型容量方面的有效性。特别是，LLaMA 2已经证明RLHF可以提高帮助性和无害性评分[90]，并将其归因于更好的人-LLM协同作用用于数据注释。他们在两个主要方面解释了这个原因如下。首先，由于人类注释者主要为RLHF提供了偏好注释，因此它可以很大程度上减轻了像SFT中那样的注释者之间的差异。其次，偏好注释比编写演示数据要容易得多，注释者甚至可以判断比他们创建的更高质量的生成品的质量，从而可以探索超出人类注释者所能展示的更广阔的状态空间。另一个关键点是，RLHF本质上鼓励LLM通过对比自生成的回应（区分好坏回应）来学习正确的策略。它不再强迫模型模仿外部演示数据，因此可以减轻上面讨论的SFT中的幻觉问题。事实上，已经证明RLHF是减少GPT-4中幻觉行为的重要方法[46]。

然而，RLHF继承了经典RL算法的缺点，例如样本效率低和训练不稳定。当适应LLMs时，RLHF进一步依赖于强大的SFT模型作为初始模型检查点，以有效地实现良好的性能。此外，人类注释者参与了一个复杂的迭代优化过程，其中许多重要的细节（例如提示选择、奖励模型训练和PPO训练的时间表，以及超参数的设置）对整个模型性能有重要影响。

总的来说，SFT在预训练后的模型检查点上特别有用，可以增加模型的容量，而RLHF有望进一步提高SFT模型的容量。然而，RLHF的实现一直很困难，并且在公开文献中还没有得到充分的探索（根据公开文献）。还需要更多的改进（例如，高效可靠的注释[298]和简化的优化[307]）以进行进一步的研究。

5.3 参数高效的模型适应

“Parameter-Efficient Model Adaptation”（参数高效的模型适应）是一个涉及模型调整的领域，通常用于改进预训练的模型以适应特定任务或数据集。在这个领域中，研究人员致力于寻找方法，可以在保持模型参数数量相对较少的情况下，有效地调整模型以适应新任务或数据。

在上文中，我们已经讨论了指导调优和对齐调优的方法，以根据特定目标调整LLMs。由于LLMs包含大量模型参数，执行全参数调整将会非常昂贵。在本节中，我们将讨论如何对LLMs进行高效调整。首先，我们将回顾一些用于Transformer语言模型的代表性参数高效微调方法，然后总结了现有关于参数高效微调的LLMs的工作。

5.3.1 参数高效的微调方法

在现有文献中，参数高效微调[131, 313, 314]一直是一个重要的主题，旨在减少可训练参数的数量，同时尽可能保持良好的性能。接下来，我们将简要回顾用于Transformer语言模型的四种参数高效微调方法，包括适配器调优、前缀调优、提示调优和LoRA。这四种方法的示意图如图11所示。

图11：四种不同的参数高效微调方法示例。MHA和FFN分别代表Transformer层中的多头注意力和前馈网络。

Adapter调整

Adapter调整将小型神经网络模块（称为adapter）合并到Transformer模型中[315]。为了实现adapter模块，[315, 316]提出了一个瓶颈架构，首先将原始特征向量压缩到较小的维度（随后进行非线性转换），然后将其恢复到原始维度。通常，adapter模块将集成到每个Transformer层中，通常在Transformer层的两个核心部分（即注意力层和前馈层）之后进行串行插入。另外，也可以在Transformer层中使用并行adapter[317]，其中它将两个adapter模块与相应的注意力层和前馈层并行放置。在微调过程中，adapter模块将根据特定任务目标进行优化，同时原始语言模型的参数在此过程中被冻结。通过这种方式，我们可以有效地减少微调过程中可训练参数的数量。

前缀调整

前缀调整[313]在语言模型的每个Transformer层之前添加了一系列前缀，这些前缀是一组可训练的连续向量。这些前缀向量是任务特定的，可以被视为虚拟标记嵌入。为了优化前缀向量，提出了一种重新参数化技巧[313]，通过学习一个将较小矩阵映射到前缀参数矩阵的MLP函数，而不是直接优化前缀。已经证明这个技巧对稳定训练是有用的。在优化之后，映射函数将被丢弃，只有派生的前缀向量被保留用于增强任务特定性能。由于只有前缀参数会被训练，这可以导致参数高效的模型优化。类似于前缀调整，ptuning v2 [318]专门为自然语言理解将逐层提示向量合并到Transformer体系结构中，还利用多任务学习来联合优化共享提示。已经证明在提高不同参数规模的模型在自然语言理解任务上的性能方面是有用的。

提示调整

与前缀调整不同，提示调整[314, 319]主要侧重于在输入层37中引入可训练的提示向量。基于离散提示方法[321, 322]，它通过包括一组软提示标记（可以是自由形式[319]或前缀形式[314]）来扩充输入文本，然后将扩充后的输入用于解决特定的下游任务。在实现中，任务特定的提示嵌入与输入文本嵌入相结合，然后馈送到语言模型中。P-tuning [319]提出了一种自由形式来结合上下文、提示和目标标记，适用于自然语言理解和生成的架构。他们进一步通过双向LSTM学习软提示标记的表示。另一种代表性方法[314]称为提示调整，直接在输入前面添加前缀提示。在训练期间，只有提示嵌入会根据任务特定的监督进行学习。由于这种方法只在输入层包含少量可训练参数，因此发现性能高度依赖底层语言模型的模型容量[314]。

低秩适应（LoRA）

LoRA [131]对于在每个密集层中近似更新矩阵都施加了低秩约束，以减少适应下游任务所需的可训练参数。考虑优化参数矩阵 $W$ 的情况。更新过程可以以一般形式写成： $W \leftarrow W + ∆ W$ 。LoRA的基本思想是冻结原始矩阵 $W ∈ R^{m×n}$ ，同时通过低秩分解矩阵来近似参数更新 $∆ W$ ，即 $W = A · B^⊤$ ，其中 $A ∈ R^{m×k}$ 和 $B ∈ R^{n×k}$ 是用于任务适应的可训练参数， $k << min (m, n)$ 是降低的秩。LoRA的主要优点在于它可以大大节省内存和存储使用（例如，VRAM）。此外，可以仅保留一个单一的大型模型副本，同时保留一些用于适应不同下游任务的任务特定低秩分解矩阵。此外，一些研究还讨论了如何以更有原则的方法设置秩，例如基于重要性分数的分配[323]和无需搜索的最优秩选择[324]。

除了上述方法，关于Transformer语言模型的高效微调还有大量的研究。然而，对于高效微调的更全面讨论超出了本文的范围，可以在相关论文中找到有关这一主题的信息[317, 325]。

5.3.2 LLM的参数高效微调

随着大型语言模型的崛起，高效微调吸引了越来越多的研究关注，以开发更轻量级的适应方法来应对下游任务。

特别是，LoRA [131]已被广泛应用于开源的大型语言模型（例如，LLaMA和BLOOM）进行参数高效微调。在这些研究尝试中，LLaMA及其变种因其参数高效微调而引起了广泛关注。例如，AlpacaLoRA [130]已经使用LoRA对Alpaca [128]（一个经过微调的7B LLaMA模型，具有52K个人类遵循指令的演示）进行了轻量级微调版本的训练。对Alpaca-LoRA进行了广泛的研究探索，涵盖了不同语言或模型规模的范围，可以在收藏页面38中找到。最近的研究LLaMAAdapter [326]将可学习的提示向量插入到每个Transformer层中，其中提出了零初始化的注意力以改善训练，减轻了欠拟合提示向量的影响。他们还将这种方法扩展到多模态设置，例如视觉问答。

此外，已经进行了一项实证研究[316]，以检验不同微调方法对语言模型的影响。他们比较了四种高效微调方法，包括串行adapter微调[315]、并行adapter微调[317, 327]和LoRA [131]，对三个开源的大型语言模型进行了评估，分别是GPT-J（6B）、BLOOM（7.1B）和LLaMA（7B）。基于对六个数学推理数据集的实验结果，他们表明，这些高效微调方法在困难任务上表现不如参考基线GPT-3.5，而在简单任务上表现相当。总体而言，LoRA在这些比较方法中表现相对较好，同时使用明显较少的可训练参数。

作为一个重要的资源，PEFT库[328]（代表参数高效微调）已在GitHub上发布。它包括了几种广泛使用的高效微调方法，包括LoRA [131]/AdaLoRA [323]、前缀微调[313, 318]、P-Tuning [319]和提示微调[314]。此外，它支持多个语言模型，如GPT-2和LLaMA，还涵盖了几种代表性的视觉Transformer模型（例如，ViT和Swin Transformer）。

正如在第5.3.1节中讨论的那样，在现有文献中提出了大量高效微调方法。然而，大多数这些方法都是在小型预训练语言模型上进行测试，而不是在大型语言模型上进行测试。到目前为止，还缺乏对不同高效微调方法在不同设置或任务下对大型语言模型的影响进行彻底调查的研究。

5.4 内存高效的模型适应

由于模型参数的巨大数量，大型语言模型在推理时占用大量内存，这使得在实际应用中部署它们非常昂贵。在本节中，我们将讨论如何通过一种流行的模型压缩方法（即模型量化）来减少大型语言模型的内存占用，以便在资源有限的环境中使用大型语言模型，这也可能降低推理延迟。

5.4.1 量化的背景

在这一部分中，我们将介绍神经网络的量化技术。

在神经网络压缩中，量化通常指的是从浮点数到整数的映射过程[329]，尤其是8位整数量化（即INT8量化）。对于神经网络模型，通常有两种数据需要量化，即权重（模型参数）和激活（隐藏激活），这些数据最初以浮点数表示。为了阐述模型量化的基本思想，我们介绍一个简单但流行的量化函数： $x_q = R(x/S)−Z$ ，它将浮点数 $x$ 转化为量化值 $x_q$ 。在这个函数中， $S$ 和 $Z$ 分别表示缩放因子（涉及两个参数 $α$ 和 $β$ ，确定剪切范围）和零点因子（确定对称或非对称量化），而 $R (\cdot)$ 表示将缩放的浮点值映射到近似整数的舍入操作。

作为反向过程，反量化从相应的量化值中恢复原始值： $\tilde{x} = S \cdot (x q + Z)$ 。量化误差是原始值 $x$ 与恢复值 $\tilde{x}$ 之间的数值差异。范围参数 $α$ 和 $β$ 对于量化性能有很大影响，通常需要根据实际数据分布进行校准，可以通过静态（离线）或动态（运行时）方式进行。

关于神经网络上的量化方法，我们建议读者参考优秀的调查[329]以获取更多详细信息。

5.4.2 LLM的量化方法

通常有两种主要的模型量化方法，即量化感知训练（Quantization-Aware Training，QAT）（需要额外的完整模型重新训练）和后训练量化（Post-Training Quantization，PTQ）（不需要模型重新训练）。与小型语言模型相比，在设计或选择用于大型语言模型的量化方法时需要考虑两个主要区别。首先，大型语言模型包含大量参数，因此由于计算成本要低得多，更倾向于使用PTQ方法而不是QAT方法。其次，大型语言模型展示出非常不同的激活模式（即，大量的离群特征），因此对于大型语言模型，尤其是隐藏激活，量化变得更加困难。接下来，我们将简要回顾几种代表性的大型语言模型的PTQ方法。

后训练量化（PTQ）

我们首先介绍针对大型语言模型的PTQ方法。

• 混合精度分解。如[330]所观察到的，当模型大小达到6.7B参数或更多时，隐藏激活中出现了极大值（称为异常值的出现）。有趣的是，这些异常值主要分布在Transformer层的某些特定特征维度中。基于这一发现，[330]提出了一种名为LLM.int8()的矢量级量化方法，将带有异常值的特征维度与矩阵乘法中的其余维度分离。然后，分别使用16位浮点数和8位整数进行这两部分的计算，以恢复这些异常值，保持高精度。

• 精细粒度量化。对于Transformer模型，权重和激活通常以张量的形式表示。一个直接的方法是为整个张量使用粗粒度量化参数（即每张量量化）[331]。然而，这通常会导致不准确的重构结果。因此，提出了精细粒度方法来减少量化误差。ZeroQuant [332]采用了一种基于标记的激活压缩方法，具有动态校准。而对于权重（更容易量化），它使用了一种分组量化。在实践中，通常使用128的分组大小[332, 333]进行模型量化。

• 平衡量化难度。考虑到权重比激活更容易被量化，SmoothQuant [331]提出将难度从激活迁移到权重上。具体来说，他们在线性层中引入了一个缩放变换，以平衡权重和激活之间的难度： $Y = (Xdiag(s)^{−1} )· (diag(s)W)$ 。通过引入一个数学上等效的变换，这个公式通过缩放因子 $s$ 来控制量化难度。为了设置 $s$ ，它还引入了一个迁移强度参数 $α$ 来平衡难度，其中每个条目 $s_j = max(x_j)^α/ max(w_j)^{(1−α)}$ 由迁移强度决定。

• 逐层量化。这种方法寻找最小化逐层重构损失的最优量化权重： $arg\ min_{\overset{-}{W}} ∥ WX− \overset{-}{W}X ∥^2_2$ 。为了有效地优化这个目标，GPTQ [334]通过固定所有行的权重的量化顺序，改进了原始的最优脑量化（OBQ）[335]方法。此外，通过特别设计的方法（即，延迟批量更新和Cholesky重构），GPTQ能够以3位或4位精度量化非常大的模型（例如，175B OPT）。最近，AWQ [333]通过为权重引入激活感知的缩放进一步简化了优化形式，类似于SmoothQuant [331]的思想：与离群激活对应的权重更重要，需要精确量化。它不直接优化重构损失，而是执行简单的超参数搜索，以在校准数据上实现最小损失。

上述方法中的这些策略可以联合使用以提高量化性能。为了实现高效的实现，量化方法还依赖于硬件或系统级别的支持（例如，高效的GPU内核或硬件友好的分组分区）。

其他量化方法。

在上述内容中，我们主要关注了PTQ方法，并介绍了两项最近的研究，探讨了用于量化大型语言模型的高效微调方法或QAT方法。

• 高效微调增强量化。对于后训练量化，直接的低位量化（例如INT4量化）通常会导致性能大幅下降。为了克服这一挑战，QLoRA [336]将额外的小型可调适配器（16位精度）合并到量化模型中，以实现高效、高精度的模型微调。它结合了LoRA（见第5.3.1节）和量化方法的优点。实验结果显示，QLoRA可以通过4位量化实现完整的16位微调性能。

• 用于LLMs的量化感知训练（QAT）。最近的一项研究[337]通过将无数据蒸馏方法应用于压缩权重、激活以及键值缓存，探讨了QAT方法的效果。通过基于LLaMA进行大量实验，他们展示了在权重和键值缓存上使用4位量化取得了令人满意的结果，但在4位激活量化上效果不佳，仍需要进一步探索。

5.4.3 实证分析与发现

量化目前已经成为减小大型语言模型在部署中内存占用和延迟的常见技术。特别重要的是要了解可以应用于量化大型语言模型不同部分（例如权重或激活）的精度水平（例如INT8或INT4），同时保持高精度。

最近进行了一项非常全面的评估[338]，研究了多种因素（例如模型大小和灵敏度）对后训练量化方法的影响。另一项研究[339]研究了推理性能中k位量化的规模定律。除了总体性能，研究[340]特别关注了量化对新兴能力的潜在影响，以及在各种位精度水平上可以实现的性能水平。此外，以往的工作（例如LLM.int8() [341]、GPTQ [334]、QLoRA [336]和GLM [84]）还广泛地研究了不同设置中量化方法的性能。接下来，我们总结了这些研究中的一些重要发现，这些发现对于那些可能不想深入了解量化方法的技术细节的人可能会很有用。

• INT8权重量化通常在大型语言模型上可以取得很好的结果，而较低精度的权重量化性能依赖于具体的方法[331, 333, 334, 338]。在大多数情况下，INT8权重量化可以有效应用以减小内存占用，而不降低性能。对于INT4（或INT3）权重量化，现有方法依赖于特定策略来减少性能下降，例如，逐层方法[332, 334]、激活感知缩放[333]和低秩适配器微调[336]。有趣的是，大型语言模型似乎对低位权重量化的敏感性较小，而小型语言模型[338]的敏感性较大。在实践中，建议在相同的内存成本下，使用较低的量化精度的较大语言模型，而不是较高量化精度的较小语言模型。例如，一个4位的60GB大型语言模型被证明在性能上优于一个8位的30GB大型语言模型[339]。此外，关于新兴能力的研究[340]发现，在上下文学习、逐步推理和指令遵循方面，4位权重量化似乎很少受到影响。这个结果表明，INT4量化在总位数和新兴能力的性能方面展现出了有利的权衡。

• 激活比权重更难量化[330, 331, 338]。已经发现，当Transformer语言模型的大小达到6.7B或更大时，会出现大的离群值[330]。这个问题是量化大型语言模型的最基本困难之一。为了克服这个问题，可以采用各种方法，例如混合精度分解[330]、精细粒度量化[330, 342]和难度迁移[331]，以减轻离群值的影响。由于大的离群值主要存在于大型语言模型的激活中，小型语言模型更抵抗激活量化[338, 340]。在实践中，高质量的INT8激活量化仍然是一项困难的任务，尽管一些方法可以获得令人满意的结果。此外，即使对于QAT方法[337]，低精度激活量化仍然没有成功探索。

• 高效微调增强的量化是增强量化大型语言模型性能的好选择[131, 336]。高效微调方法在量化中的好处可以有两方面。首先，它可以通过更新高精度适配器来直接补偿低位量化所带来的性能下降[338, 340]，从而增加拟合能力。其次，它具有灵活性，可以以轻量级的方式支持LLMs的任务特定或目标特定的微调[336]，例如，指令微调或面向聊天的微调，只需微调小型适配器。总的来说，它在效果和训练成本之间取得了良好的平衡，为增强量化大型语言模型性能提供了一种有前景的方法。

5.4.4 开源库和量化的LLMs

在这部分，我们简要介绍了可用的开源量化库和量化的LLMs。

量化库。接下来，我们介绍了用于LLMs的三个主要量化库，包括：

• Bitsandbytes是基于LLM.int8() [330]和8位优化器[343]论文中介绍的方法开发的。它专注于LLMs的INT8量化，主要提供了对8位矩阵乘法和8位优化器的支持。

• GPTQ-for-LLaMA是专门为量化LLaMA模型而开发的。它基于GPTQ算法[334]实现了LLaMA模型不同大小的4位量化。此外，它在项目网站上提供了与bitsandbytes在内存和性能（PPL）方面的比较。

• AutoGPTQ是基于GPTQ算法[334]开发的量化包，支持LLMs的INT4量化。它在库中包含了许多量化模型，并通过与HuggingFace PEFT库集成支持了LoRA。

• llama.cpp使得在MacBook设备上运行量化的LLaMA模型成为可能。它支持INT4、INT5和INT8量化，是以高效的C/C++实现开发的。它还支持许多基于LLaMA的模型，如Alpaca和Vicuna。

量化的LLMs

与原始模型相比，量化语言模型占用更小的内存占用，可能具有更快的推理速度[84, 330, 344]。最近，HuggingFace上发布了一些公开可用语言模型的量化模型副本，包括BLOOM、GPT-J和ChatGLM。特别是，GPTQ [334]已广泛用于量化生成式语言模型，导致了LLaMA和OPT的各种量化变体。此外，它还被应用于量化经过指令微调的模型，如Vicuna和WizardLM。由于存在大量的量化LLMs，我们没有直接提供这些模型的链接。读者可以通过在HuggingFace上搜索轻松找到它们。

你可能感兴趣的:(NLP,语言模型,人工智能,自然语言处理)

笔记：大模型Tokens是啥？为啥大模型按Tokens收费？瞬间动力硅基蒸馏 easyui 前端 javascript 人工智能 to oneapi 阿里云
一、Token的定义与示例1.核心概念Token是自然语言处理中的最小文本单位，代表模型处理文本时的一次计算单元。英文场景：1个token≈1个单词或标点符号。示例：句子"Hello,world!"拆分为["Hello",",","world","!"]，共4个token。中文场景：1个token≈1个汉字或词语。示例：短语"深度求索"拆分为["深","度","求","索"]，共4个token；若
**LangChain 核心概念与架构详解** dgay_hua langchain 架构 python
简介LangChain是一个强大的框架，专注于构建基于大语言模型(LLM)的应用。本文将深入介绍LangChain的核心架构、关键组件以及其特性。通过理解这些内容，开发者能更高效地构建复杂的LLM应用。LangChain架构解析LangChain的架构由多个包组成，每个包负责特定的功能模块。以下是主要组件的功能和作用：1.核心基础包(langchain-core)此包定义了LangChain的基础
疯狂python_疯狂 python weixin_39646970 疯狂python
书籍：python游戏编码CodingGamesinPython-2018简介初学者和有经验的程序员可以使用Python来构建和玩电脑游戏，从令人惊叹的脑筋急转弯到具有爆炸性声音效果和3D图形的疯狂动作游戏。Python中CodingGames的每一章都展示了如何用简单的编号步骤构建一个完整的工作游戏。本书讲授如何使用免费的资源，如PyGameZero和Ble...文章python人工智能命理20
借助知识图谱和Llama-Index实现基于大模型的RAG 爱吃牛油果的璐璐知识图谱 llama oracle 语言模型 chatgpt transformer 人工智能
幻觉是在处理大型语言模型（LLMs）时常见的问题。LLMs生成流畅连贯的文本，但经常产生不准确或不一致的信息。防止LLMs中出现幻觉的一种方法是使用外部知识源，如提供事实信息的数据库或知识图谱。矢量数据库和知识图谱使用不同的方法来存储和表示数据。矢量数据库适合基于相似性的操作，知识图谱旨在捕捉和分析复杂的关系和依赖关系。对于LLM中的幻觉问题，知识图谱是一个比向量数据库更好的解决方案。知识图谱为L
【人工智能】数据挖掘与应用题库（101-200）奋力向前123 人工智能人工智能数据挖掘
1、有矩阵A3×2，B2×3，C3×3，下列运算有意义的是（）答案：BC2、13524的逆序数为（）答案：33、矩阵A中元素a14的余子式记作M14，代数余子式记作A14，二者关系为（）答案：相反4、关于机器学习与深度学习的范畴关系，下列说法正确的是？答案：深度学习是机器学习的子集（分支）5、关于机器学习的本质，下列表述最恰当的是？答案：从数据或环境反馈中自主学习到规则6、深度学习的“深度”是指？
【人工智能】数据挖掘与应用题库（301-400）奋力向前123 人工智能人工智能数据挖掘 pandas
1、关于pandas中的Series描述错误的是答案：Series默认没有index2、关于DataFrame描述正确的是答案：DataFrame指数据框，相当于程序中的虚拟Excel表格创建DataFrame后，可以重新指定indexDataFrame允许有缺失值3、在DataFrame中，可以获取某一列的值，也可以获取某一行的值。答案:对4、对于数据框book_info，以下用法有误的是答案：
【人工智能】数据挖掘与应用题库（1-100）奋力向前123 人工智能人工智能算法
1、涉及变化快慢的问题可以考虑使用导数来分析。答案:对2、导数的几何意义是曲线在某点处切线的斜率。答案:对3、函数在某点的左导数存在，则导数就存在。答案:错4、关于梯度下降算法，下列说法错误的是（）错误:梯度下降算法能找到函数精确的最小值。5、正弦函数的导数是余弦函数。答案：对6、[u(x)×v(x)]'=u(x)'×v(x)'答案：错7、链式法则的步骤可以概况为：分解、各自求导、相乘、回代。答案
全方位解析：大语言模型评测方法的综合指南大模型玩家语言模型人工智能自然语言处理深度学习 agi 大模型搜索引擎
自2017年Transformer模型提出以来，自然语言处理研究逐步转向基于该框架的预训练模型，如BERT、GPT、BART和T5等。这些预训练模型与下游任务适配后，持续刷新最优结果。然而，现有评测方法存在广度和深度不足、数据偏差、忽视模型其他能力或属性评估等问题。因此，需要全面评测和深入研究模型的各项能力、属性、应用局限性、潜在风险及其可控性等。本文回顾了自然语言处理中的评测基准与指标，将大语言
大语言模型原理与工程实践：手把手教你训练 7B 大语言模型自动化训练框架 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：手把手教你训练7B大语言模型自动化训练框架关键词：大语言模型、7B模型、自动化训练、深度学习、神经网络、自然语言处理、分布式计算文章目录大语言模型原理与工程实践：手把手教你训练7B大语言模型自动化训练框架1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.3算法优缺点3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4
全网国内外总结Prompt&LLM论文，开源数据&模型，AIGC应用（持续更新，收藏查看）代码讲故事智能工具 Prompt LLM AIGC 模型开源数据集深度学习
全网国内外总结Prompt&LLM论文，开源数据&模型，AIGC应用（持续更新，收藏查看）目录顺序如下国内外，垂直领域大模型Agent和指令微调等训练框架开源指令，预训练，rlhf，对话，agent训练数据梳理AIGC相关应用prompt写作指南和5星博客等资源梳理Prompt和LLM论文细分方向梳理Prompt是在自然语言处理（NLP）中，尤其是在使用预训练语言模型时，用来引导模型生成特定类型输
机器学习AI/ML/CV/NLP/GNN算法公式汇总Latex代码 rockingdingo tensorflow 大数据自然语言处理算法深度学习机器学习
图学习和LinkPrediction任务KnowledgeGraphLinkPredictionEquationsAndLatexCodehttp://www.deepnlp.org/blog/knowledge-graph-link-prediction小样本学习和零样本学习公式的Latex代Few-ShotLearningAndZero-ShotLearningEquationsLatexCo
Transformer 代码剖析1 - 数据处理（pytorch实现） lczdyx Transformer代码剖析人工智能 transformer 深度学习 pytorch python
引言Transformer架构自《AttentionIsAllYouNeed》论文发表以来，在自然语言处理领域引起了巨大的变革。它摒弃了传统的循环结构，完全基于注意力机制，显著提高了处理序列数据的效率和性能。本文将通过对一个具体的项目代码结构进行详细分析，带领大家深入了解Transformer模型的数据处理部分。项目结构概述首先，让我们来看看项目的整体结构：（参考项目代码）transformer-
BERT模型深入理解——自然语言处理的里程碑 cufewxy2018 自然语言处理 bert 人工智能
1BERT的诞生背景2018年谷歌团队发布了BERT（BidirectionalEncoderRepresentationsfromTransformers）模型，在自然语言处理领域引领了技术性的革命。BERT创新性地使用预训练+微调模式，先用预训练在大量无标注的语料中进行自监督学习，学习到语言的通用规律，然后在少量有标注的数据中进行有监督学习，适配更精细化的任务。这种模式一直影响到最新的大模型结
怎样通过人机融合智能去除“机器幻觉”？人机与认知实验室
人机融合智能的目标是通过深度结合人类智能和机器智能，解决现有人工智能系统（特别是深度学习模型，如各种大模型）可能出现的问题，比如“机器幻觉”现象。机器幻觉指的是人工智能模型在处理信息时，做出错误的、非理性的判断或预测，这种现象往往源于模型在训练数据中的偏差、不完全信息或过度依赖某些特定模式。通过人机融合的方式，可以有效减少这种“幻觉”，进而提升人机环境系统智能的可靠性和解释能力。1.结合人类的直觉
从机器幻觉到智能幻觉人机与认知实验室
机器幻觉与智能幻觉主要是关于人工智能（AI）系统在处理信息和生成输出时，可能会产生的错误认知或“幻觉”现象。1.机器幻觉在早期的计算机科学中，“机器幻觉”通常指的是计算机在进行数据处理时，出现了错误的输出或意外的结果。这类“幻觉”并不是指计算机本身具有意识，而是因为程序的设计、数据的不完整性或噪声、或算法的偏差等问题，导致机器产生了不符合现实的假设、错误的结论或奇怪的输出，具体涉及：图像生成幻觉：
注意力机制是如何提取有用信息的？人机与认知实验室
我们用通俗的方式解释注意力机制是如何通过比较查询（Query,Q）和键（Key,K）的相似度，来决定从值（Value,V）中提取多少有用信息的。场景：图书馆找书假设你在图书馆里，脑海中的问题是：“我想找一本关于人工智能的书。”（这就是你的查询，Q）。图书馆里的每本书都有一个标签，比如“人工智能入门”或“历史小说”（这些是键，K）。每本书的详细内容（比如具体的章节、知识点等）就是值，V。1、计算相似
【附源码】基于opencv+pyqt5搭建的人脸识别系统 ~啥也不会~ opencv 人工智能计算机视觉人脸识别 pyqt
文章目录前言一、人脸检测二、人脸识别1.训练识别器2.识别人脸三、界面相关1.Qlabel展示图片2.表格跟随内容而增加和减少3.选择图片文件4.警告框四、源码获取总结前言人脸识别技术作为人工智能领域的一颗璀璨明珠，正逐渐渗透到我们生活的每一个角落，从智能手机的解锁到机场的快速通关，从金融交易的安全认证到智慧城市的高效管理，它正以其独特的优势和强大的功能，为我们的生活带来前所未有的便捷与安全。本篇
[LangChain 学习资源大集合] qahaj langchain 学习人工智能 python
在构建语言模型应用（LLM）时，LangChain是当前备受关注的框架之一。无论是初学者还是进阶用户，丰富的学习资源可以帮助我们高效掌握LangChain的核心概念、工具和最佳实践。这篇文章为大家整理了一些优秀的LangChain学习资源，包括官方教程、课程、短视频以及书籍。官方教程（Tutorials）1.LangChain官方教程LangChain官方提供了非常详细的初学者和进阶教程，推荐从这
MCP模型上下文协议集锦 galileo2016 人工智能
MCP模型上下文协议简介MCP模型上下文协议（Model-Context-Protocol，MCP），能够实现大型语言模型（LLM）应用程序与本地或远程资源之间的安全、可控的交互。2024年11月底，Anthropic公司发布了MCP开放标准，实现大型语言模型（LLM）应用程序与外部数据源和工具之间的无缝集成。官方网站:https://modelcontextprotocol.io项目仓库:Mod
大模型时代的软件架构设计 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
引言当今世界，人工智能（AI）技术正以惊人的速度发展，其中大模型（LargeModels）的崛起尤为引人注目。大模型，也被称为深度学习模型，因其庞大的参数规模和强大的数据处理能力，成为推动AI技术前进的重要力量。随着大模型的广泛应用，软件架构设计面临着前所未有的挑战和机遇。大模型时代的软件架构设计，不仅需要解决传统软件架构所面对的问题，如性能、可靠性和可扩展性等，还需要应对大模型带来的新挑战，如计
大语言模型LLM原理篇_图解大模型从用户输入prompt到llm输出答案的流程原理喝不喝奶茶丫 prompt 人工智能自然语言处理语言模型 javascript 大模型 LLM
大模型席卷全球，彷佛得模型者得天下。对于IT行业来说，以后可能没有各种软件了，只有各种各样的智体（Agent）调用各种各样的API。在这种大势下，笔者也阅读了很多大模型相关的资料，和很多新手一样，开始脑子里都是一团乱麻，随着相关文章越读越多，再进行内容梳理，终于理清了一条清晰的脉络。笔者写原理篇时心情是有些惴惴不安的，因为毕竟对大模型的研究有限，缺乏深度。但是，还是觉得有必要记录一下学习理解心得，
开发基于提示工程的大语言模型（LLM）应用——学习笔记 ricky_fan 人工智能 python
本文是学习笔记。学习通过提示工程与大语言模型进行程序化的交互。将从最基本的开始，比如使用哪些模型，以及如何向它们发送提示词并查看响应。将逐步构建更复杂的提示词，并学习LangChain为我们提供的、用于与大语言模型交互的丰富工具。Langchain链核心是运行时（runnable），它们能以多种方式组合的为工作流。如何创建LangChain链 fromlangchain_nvidia_ai_end
《AI大模型开发笔记》——提示词工程 Richard Chijq AI大模型开发笔记前端服务器运维
1.什么是提示工程提示工程（PromptEngineering），也被称为上下文学习，是指通过精心设计的提示技术来引导LLM行为，而无需更改模型权重。其目标是使模型输出与给定任务的人类意图一致。提示工程帮助用户控制语言模型输出，生成适合的特定需求。提示调整提供了对模型行为的直观控制，但对提示的确切措辞和设计敏感，因此需要精心制定的准则以实现期望的结果。2.提示工程的原则2.1.给模型清晰指令：
GitHub每日最火火火项目（2.28） FutureUniant github日推 github 人工智能计算机视觉音视频 ai
olmocr项目介绍：olmocr是由allenai开发的一款用于将PDF文件线性化，以适配大语言模型（LLM）数据集和训练的工具包。在大语言模型的训练过程中，数据的格式和预处理极为关键。PDF文件作为常见的数据来源，其内部复杂的排版和结构使得其中的文本信息难以直接被模型有效利用。olmocr通过一系列的技术和算法，对PDF文件进行处理，将其中的文本内容按照合适的顺序和格式提取出来，转化为线性的、
如何使用Anyscale平台运行、微调和扩展大语言模型(LLMs) eahba 语言模型人工智能自然语言处理 python
Anyscale是一个功能强大的平台，主要用于运行、微调和扩展大语言模型(LLMs)，并且通过生产就绪的API提供成本效益的调用服务。AnyscaleEndpoints提供了多种开源模型，适合不同的应用场景。技术背景介绍在处理大规模的自然语言处理任务时，我们常常需要一个可靠且经济高效的解决方案来运行和管理LLMs。Anyscale提供了一个强大的接口，能够简化这一过程。结合LangChain，我们
计算机毕业设计 ——jspssm508Springboot 的旅游管理奔强的程序课程设计旅游
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
利用OllamaLLM模型实现多模态文本生成 bavDHAUO python
利用OllamaLLM模型实现多模态文本生成在这篇文章中，我们将介绍如何使用OllamaLLM模型实现多模态文本生成，包括文本和图像输入的处理。我们将详细解析核心原理，提供代码示例，并分析应用场景。希望这篇文章能帮助你更好地理解和使用OllamaLLM模型。技术背景介绍多模态模型是指能够处理和生成多种类型的数据，如文本、图像、音频等。在自然语言处理领域，结合图像和文本的多模态模型越来越受到关注。O
Crawl4AI：开源的网络爬虫和抓取工惟贤箬溪穷玩Ai github 开源 ai
crawl4ai是一个开源项目，旨在帮助用户爬取GitHub上与AI（人工智能）相关的内容。这些内容通常包括AI相关的开源项目、库、资源、论文、教程等。项目提供了一个爬虫工具，可以自动化地抓取并提取GitHub上与人工智能相关的资源。以下是对该项目的详细解读：1.项目概述crawl4ai是一个爬虫框架，专门用于从GitHub上抓取与AI相关的开源项目或仓库。这些仓库包括AI领域的机器学习、深度学习
如果GPT-4还只是阿米巴原虫，未来的霸王龙会是什么样？| 赫拉利《智人之上》量子位
关注前沿科技量子位几乎所有人都已经发现，我们正生活在一场前所未有的信息革命之中。但这到底是一场怎样的革命？最近这几年，太多突破性的发明如洪水般滚滚而来，以至于我们很难判断到底是什么推动了这场革命。是互联网？智能手机？社交媒体？区块链？算法？还是人工智能？所以，在讨论目前这场信息革命的长期影响之前，让我们先回顾一下它的基础。本文分为三大部分，分别为：我们真的了解计算机吗？计算机正在塑造一个全新的信息
DeepSeek 最新发布 DeepEP：一款用于 MoE 模型训练和推理的开源 EP 通信库强哥之神人工智能 LLM 机器学习 Latent Space 语言模型 deepseek
采用Mixture-of-Experts（MoE）架构的大型语言模型在没有相应计算量增加的情况下显著提升了模型容量。然而，这种方法也引入了一些挑战，尤其是在GPU之间的通信方面。在MoE模型中，对于任何给定的token，只有一部分专家是活跃的，因此在设备之间高效地交换数据至关重要。传统的全对全（all-to-all）通信方法可能会造成瓶颈，增加延迟，并导致GPU资源利用不足。在对延迟敏感的场景中，
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在