BQW_

【自然语言处理】【ChatGPT系列】FLAN：微调语言模型是Zero-Shot学习器

FLAN: 微调语言模型是Zero-Shot学习器 《Finetuned Language Models are Zero-shot Learners》

论文地址：https://arxiv.org/abs/2109.01652

相关博客
【自然语言处理】【ChatGPT系列】FLAN：微调语言模型是Zero-Shot学习器
【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里？
【自然语言处理】【ChatGPT系列】Chain of Thought：从大模型中引导出推理能力
【自然语言处理】【ChatGPT系列】InstructGPT：遵循人类反馈指令来训练语言模型
【自然语言处理】【ChatGPT系列】大模型的涌现能力

一、简介

大语言模型(例如 $\text{GPT-3}$ )已经展现出了非常好的 $\text{few-shot learning}$ 的能力。然而，在 $\text{zero-shot learning}$ 上并不成功。例如， $\text{GPT-3}$ 在阅读理解、问答和自然语言推断上的 $\text{zero-shot}$ 效果远差于 $\text{few-shot}$ 。一个潜在的原因是，不使用 $\text{few-shot}$ 样例模型很难在与预训练数据形式不一样的 $\text{prompts}$ 上表现良好。

本文探索一种改善大语言模型 $\text{zero-shot}$ 效果的简单方法，这将扩大语言模型的受众。利用一个直觉： $\text{NLP}$ 任务可以通过自然语言指令来描述，例如："这篇影评是正面还是负面？“或者"将how are you翻译为中文”。本文在 $\text{137B}$ 参数的预训练语言模型上执行 $\text{instruction tuning}$ ，即通过自然语言指令在60个 $\text{NLP}$ 任务混合数据集上微调模型。这个模型称为 $\text{FLAN}$ ，即 $\text{Finetuned Language Net}$ 。

为了评估 $\text{FLAN}$ 在未见过任务上的 $\text{zero-shot}$ 效果，根据任务类型将 $\text{NLP}$ 数据集分为不同的组，将一个组的任务留出来，然后在其他组上微调 $\text{FLAN}$ 。如上图1所示，为了评估 $\text{FLAN}$ 在执行自然语言推理的能力，在常识推理、翻译和情感分析等广泛的 $\text{NLP}$ 任务上 $\text{instruction tune}$ 模型。

评估结果显示， $\text{FLAN}$ 显著的改善了 $\text{137B}$ 参数量模型的 $\text{zero-shot}$ 效果。 $\text{FLAN}$ 在25个数据集中的20个上的 $\text{zero-shot}$ 效果都优于 $\text{GPT-3}$ 的 $\text{zero-shot}$ 效果，甚至在ANLI, RTE, BoolQ, AI2-ARC, OpenbookQA, StoryCloze数据集上的效果大幅度超过了 $\text{few-shot}$ 的 $\text{GPT-3}$ 。在消融研究中发现增加任务组的数量能够改善模型在未见过任务上的效果，并且 $\text{instruction tuning}$ 仅出现在足够大的模型上。

如上图2描述， $\text{instruction tuning}$ 是一种结合了预训练-微调和 $\text{prompting}$ 范式的简单方法，其通过微调来改善语言模型对于推理时文本交互的响应。实验结果显示语言模型能够很好的执行指令描述的任务。

二. $\text{FLAN}$ ： $\text{Instruction Tuning}$ 改善 $\text{Zero-shot Learning}$

$\text{instruction tuning}$ 的动机是改善语言模型回答 $\text{NLP}$ 指令的能力。想法是使用监督来教语言模型执行指令描述的任务， $\text{LM}$ 将学会遵循指令并且在未见过的任务上也可以完成。为了在未见过的任务上进行评估，根据任务类型将任务分组，将一组任务留出评估，并使用余下的任务进行 $\text{instruction tuning}$ 。

2.1 任务和模板

由于从头创建一个具有许多任务的 $\text{instruction tuning}$ 数据集非常消耗资源，所以将研究社区的现有数据集转换为指令的形式。将 $\text{Tensorflow}$ 数据集中的62文本数据集整合为单个混合数据集，包含语言理解和语言生成任务。上图3展示了这些数据集，每个数据集会被分类至12个任务组中。

对于每个数据集，手动构造10个唯一的模板，这些模板使用自然语言指令来描述该数据集的任务。10个模板中的大多数都描述原始任务，但为了增加多样性，每个数据集还会增加3个“扭转任务”的模板(例如：对于情感分类，包含了一些要求生成电影评论的模板)。然后在所有数+据集混合的数据集上 $\text{instruction tune}$ 预训练语言模型。下图4展示了一个自然语言推理数据集的多个指令模板。

2.2 评估划分

本文感兴趣的是， $\text{FLAN}$ 在未见过任务上 $\text{instruction tuning}$ 表现，所以定义什么是未见过的任务至关重要。尽管先前的工作通过不允许相同的数据集出现在训练中来定义未见过的任务，本文通过上图3的任务分组来使用更加保守的定义。在本文中，若在 $\text{instruction tuning}$ 时没有见过 $\mathcal{D}$ 所属任务组中的所有数据集，那么在评估时 $\mathcal{D}$ 是未见过的。例如，若 $\mathcal{D}$ 是一个蕴含任务，然后在 $\text{instruction tuning}$ 中没有任何蕴含数据集，并且在所有的其他组中的任务上进行 $\text{instruction-tuned}$ 。

2.3 带有选项的分类

给定任务的输出空间通常是几个类别中的一个(分类)，或者是自由文本(生成)。由于 $\text{FLAN}$ 是 $\text{instruction-tuned}$ 版本的纯解码器语言模型，其天然能够生成自由文本，所以对于生成任务不需要进一步修改。

对于分类任务，先前的工作使用一个 $\text{rank classification}$ 方法，例如：仅有两个输出被考虑(“yes"和"no”)，较高概率的一个就是模型的预测。虽然这个过程在逻辑上是合理的，但是不完美。因此，我们包括了一个选项后缀，即将 $\text{OPTIONS}$ 这个单词添加至分类任务的末尾，附带该任务输出类别列表。这使得模型知道在响应分类任务时需要选择哪些。样本如上图1所示。

2.4 训练细节

模型结构和预训练

在本文实验中，使用 $\text{LaMDA-PT}$ ，一个具有 $\text{137B}$ 参数量的稠密的 $\text{left-to-right }$ 纯解码器 $\text{Transformer}$ 语言模型。该模型在网络文档(包括计算机代码)、对话数据和 $\text{Wikipedia}$ 上进行预训练，使用 $\text{SentencePiece}$ 和 $\text{32k}$ 词表，共有 $\text{2.49T}$ 的 $\text{BPE tokens}$ 。大约有10%的预训练数据是非英文的。
$\text{Instruction tuning}$ 过程

$\text{FLAN}$ 是 $\text{instruction-tuned}$ 版本的 $\text{LaMDA-PT}$ 。 $\text{instruction tuning pipeline}$ 混合了所有的数据集，并且随机从每个数据集中采样。为了平衡不同数据集的尺寸，限制每个数据集的训练样本数量为 $\text{30k}$ 。模型微调时， $\text{learning rate}$ 为 $\text{3e-5}$ ， $\text{batch size}$ 为8192，使用 $\text{Adafactor}$ 优化器，所有模型都微调 $\text{30k}$ 个梯度步。微调时输入和输出的序列的长度为1024和256。整个 $\text{instruction tuning}$ 在128核的 $\text{TPUv3}$ 上用了60个小时。对于所有的评估，报告最终 $\text{checkpoint}$ 的结果。

三、结果

本文在自然语言推理、阅读理解、闭卷问答、翻译、常识推理、指代消解和 $\text{struct-to-text}$ 上评估了 $\text{FLAN}$ 。对于每个数据集，评估所有模板效果的平均值，其代表了给定一个典型自然语言指令的预期性能。

为了比较，报告了使用与 $\text{GPT-3}$ 相同 $\text{prompts}$ 下 $\text{LaMDA-PT}$ 的 $\text{zero}$ 和 $\text{few-shot}$ 结果。这个 $\text{baseline}$ 提供了最直接的消融， $\text{instruction tuning}$ 到底有多少帮助。 $\text{instruction tuning}$ 在大多数数据集上改善了 $\text{LaMDA-PT}$ 。

本文还展示了 $\text{GPT-3 175B}$ 和 $\text{GLaM 64B/64E}$ 的 $\text{zero-shot}$ 效果。 $\text{zero-shot FLAN}$ 在25个数据集中的20个上超过了 $\text{zero-shot GPT-3}$ ，甚至在10个数据集上超过了 $\text{GPT-3}$ 的 $\text{few-shot}$ 性能。 $\text{zero-shot GLaM}$ 在19个数据集中的13个上超越了 $\text{zero-shot GLaM}$ ，以及在19个数据集中的11个上超越了 $\text{one-shot GLaM}$ 。

总的来说，发现 $\text{instruction tuning}$ 对自然表述为指令的任务上非常有效，并且对于那些直接形式化为语言模型的任务上不是很有效，其中指令大部分冗余(例如：常识推理和指代消歧任务被形式化为完成不完整的句子或者段落)。自然语言推理、阅读理解、闭卷问答和翻译的结果如上图5所示。

自然语言推理 $\text{(NLI)}$

在5个 $\text{NLI}$ 数据集，对于给定 $\text{premise}$ ，模型需要判断 $\text{hypothesis}$ 是否为真， $\text{FLAN}$ 大幅度超越了所有的 $\text{baselines}$ 。正如Brown et al.所说， $\text{GPT-3}$ 在 $\text{NLI}$ 上挣扎的一个原因是， $\text{NLI}$ 样本不太可能自然的出现在无监督训练集中，其只会作为句子的延续来使用。对于 $\text{FLAN}$ ，将 $\text{NLI}$ 作为更加自然的问题 $\text{Dose mean that ?}$ ，从而实现更好的效果。
阅读理解

在阅读理解上，模型要求在给定的段落上回答问题， $\text{FLAN}$ 效果超过了baseline $\text{MultiRC}$ 和 $\text{QBQA}$ 。在 $\text{BoolQ}$ 上， $\text{FLAN}$ 大幅度超越了 $\text{GPT-3}$ 。
闭卷问答

对于闭卷问答，在不访问包含答案的具体信息情况下，要求模型回答关于世界的问题， $\text{FLAN}$ 在所有4个数据集上都超越了 $\text{GPT-3}$ 。相较于 $\text{GLaM}$ ， $\text{FLAN}$ 在 $\text{ARC-e}$ 和 $\text{ARC-c}$ 上的效果更优，在 $\text{NQ}$ 和 $\text{TQA}$ 上的效果略差于 $\text{GLaM}$ 。
翻译

类似于 $\text{GPT-3}$ ， $\text{LaMDA-PT}$ 的训练数据90%是英文并且包含一些其他语言的文本。本文在 $\text{GPT-3}$ 论文中评估的三个机器翻译数据集上评估了 $\text{FLAN}$ ：来自于 $\text{WMT'14}$ 的法语-英语，来自 $\text{WMT'16}$ 的德语-英语和罗马尼亚语-英语。相较于 $\text{GPT-3}$ ， $\text{FLAN}$ 在6个评估上效果优于 $\text{zero-shot GPT-3}$ ，大多数情况下效果差于 $\text{few-shot GPT-3}$ 。类似于 $\text{GPT-3}$ ， $\text{FLAN}$ 在翻译为英文上有很好的效果，并且比监督翻译基线效果更好。然而，将英语翻译为其他语言的效果相对较弱，可能是因为 $\text{FLAN}$ 使用英文的 $\text{sentencepiece tokenizer}$ 且主要在英文数据集上预训练。
额外任务

虽然在上面几组任务中有很好的结果， $\text{instruction tuning}$ 的一个局限是不能够改善需要语言建模任务的表现(例如：常识推理或者指代消解)。对于7个常识推理和指代消解任务， $\text{FLAN}$ 仅在7个任务中的3个上超越了 $\text{LaMDA-PT}$ 。负面结果表明，当下游任务与原始语言建模预训练目标相同时， $\text{instruction tuning}$ 是没有用的。最终，本文在附录中报告了情感分析、段落检测和 $\text{struct-to-text}$ 的结果。一般来说， $\text{zero-shot FLAN}$ 效果优于 $\text{zero-shot LaMDA-PT}$ ，并且能够达到甚至超过 $\text{few-shot LaMDA-PT}$ 。

四、消融研究和进一步分析

1. $\text{Instruction tuning}$ 组的数量

本篇文章的核心问题是 $\text{instruction tuning}$ 如何改善模型在未见过任务上的 $\text{zero-shot}$ 效果。在第一个消融实验中，主要是研究任务组的数量和任务类型在 $\text{instruction tuning}$ 的影响。在这个设定下， $\text{NLI}$ 、闭卷问题和常识推理作为评估任务组，并使用7个余下的组来进行 $\text{instruction tuning}$ 。本文展示了1到7个 $\text{instruction tuning}$ 组的结果，每个组按照任务数量递减的顺序添加。

上图6展示了这些结果。正如预期的那样，发现随着向 $\text{instrunction tuning}$ 添加组和任务时，三个留出来组的平均效果都有提高，确定了提出的 $\text{instruction tuning}$ 方法在新任务上的 $\text{zero-shot}$ 表现是有改善的。更有趣的是，对于测试的7个组，效果并没有饱和，意味着向 $\text{instruction tuning}$ 添加更多的任务组，效果可能进一步改善。

2. $\text{Scaling Laws}$

对于更大的模型，语言模型的 $\text{zero}$ 和 $\text{few-shot}$ 能力会得到显著的改善。接下来我们会探索模型规模对 $\text{instruction tuning}$ 的影响。使用前一个消融实验相同的组划分，评估了 $\text{442M,2B,8B,68B}$ 和 $\text{137B}$ 参数量对于 $\text{instruction tuning}$ 的影响。

上图7展示了这些结果。可以看到两个模型在 $\text{100B}$ 参数的规模， $\text{instruction tuning}$ 在留出的任务上有显著的改善。然而， $\text{instruction tuning}$ 在 $\text{8B}$ 以及更小模型上是对效果有害的。对这个结果的潜在解释可能是：对于小模型来说，通过 $\text{instruction tuning}$ 学习约40个任务已经填充满整个模型的容量，导致模型在新任务上效果差。在这个潜在的解释下，对于更大的模型， $\text{instruction tuning}$ 填充了模型的一些容量，但是也教会这些模型遵循指令，允许使用其余的容量泛化到新任务上。

3. $\text{Instructions}$ 的角色

在最后的消融研究中，探索了 $\text{instruction}$ 在微调过程中的角色。一个可能是效果的收益完全来自于多任务微调，在没有 $\text{instruction}$ 模型也能够有相同的表现。因此考虑两种没有 $\text{instruction}$ 的微调设置。在"no template"的设置中，仅把输入和输出给到模型；在“dataset name”设置中，每个输入前添加任务名和数据集名(例如: 对于翻译为法语任务，输入为"[Translation: WMT’14 to French] The dog runs.")

比较了两种消融实验与 $\text{FLAN}$ 微调。对于"no template"设置，在 $\text{zero-shot}$ 推断时使用 $\text{FLAN instructions}$ (因为没有使用模板，模型不知道该执行哪个任务)。对于在数据集名上微调的模型，报告 $\text{FLAN instructions}$ 和使用数据集名的 $\text{zero-shot}$ 效果。上图8展示了结果，这两种消融配置都显著差于 $\text{FLAN}$ ，表明使用 $\text{instructions}$ 训练对于在未见过任务上的 $\text{zero-shot}$ 效果至关重要。

4. 带有 $\text{few-shot}$ 样例的 $\text{Instructions}$

目前为止都专注在 $\text{zero-shot}$ 设置下的 $\text{instruction tuning}$ 。这里研究当在推理时有 $\text{few-shot}$ 样例时如何使用 $\text{instruction tuning}$ 。 $\text{few-shot}$ 设置中的格式是建立在 $\text{zero-shot}$ 格式上。对于输入 $x$ 和输出 $y$ ，令 $\text{instruct(x)}$ 表示 $\text{zero-shot instructions}$ 。然后，给定 $k$ 个 $\text{few-shot}$ 样例 $x_i,y_i)_{i=1}^k$ 和一个新输入 $x$ ，对于 $\text{few-shot}$ 设置下的 $\text{instruction}$ 格式为
$\text{instruct}(x_1)\oplus y_1\oplus\text{instruct}(x_2)\oplus y_2\oplus\dots\oplus\text{instruct}(x_k)\oplus y_k\oplus\text{instruct}(x)$
其中 $\oplus$ 表示通过分隔符来平均字符串。在训练和推理阶段，样例是随机从训练集中采样的，并且样例数量的上限是16且总长度序列小于960。实验使用相同的任务划分和评估过程，未见过任务上的 $\text{few-shot}$ 样例仅在推理时使用。

如上图9所示，相较于 $\text{zero-shot FLAN}$ ， $\text{few-shot}$ 样例在所有任务上都有显著改善。 $\text{few-shot}$ 样例对于具有大型且复杂输出空间任务都特别有效，例如： $\text{struct to text}$ ，翻译，闭卷问答。可能是因为样例有助于模型更好的理解输出格式。

Prompt 精通之路（四）- AI 赋能：10 个超实用的 Prompt 模板，覆盖写作、编程、学习和办公程序员阿超的博客 Prompt 精通之路：从零基础到 AI 高效玩家人工智能 prompt 学习 Prompt模板 AI工作流 ChatGPT应用生产力工具
Prompt精通之路：系列文章导航第一篇：[本文]AI时代的新语言：到底什么是Prompt？为什么它如此重要？第二篇：告别废话！掌握这4个黄金法则，让你的Prompt精准有效第三篇：像专业人士一样思考：Zero-Shot,Few-Shot和思维链（CoT）技巧详解第四篇：AI赋能：10个超实用的Prompt模板，覆盖写作、编程、学习和办公第五篇：构建你的“AI指令系统”：超越简单提问的CRISPE
深入剖析AI大模型：关于模型训练 chilavert318 熬之滴水穿石人工智能
今天说的是模型训练，在AI模型里，它是点亮智慧星辰的关键引擎。今天将围绕开源预训练模型的使用、数据与模型的集成、模型的部署管理，以及大规模模型的可扩展性与效率提升展开，带大家开启一场深入浅出的模型训练实战之旅。一、使用开源预训练模型1、如何利用开源模型（如BERT、GPT）进行微调开源预训练模型就像是已经搭建好框架的摩天大楼，BERT、GPT等模型便是其中声名赫赫的标志性建筑。它们经过海量数据的“
微调 || RAG，项目落地怎么选？LLM应用选型指南，适用场景全解析认知超载 AI 人工智能
基本定义微调：是指利用更小、更具针对性的数据集对经过预先训练的大语言模型进一步训练的过程。在这个过程中，模型基于新数据集修改权重和参数，学习特定于任务的模式，同时保留来自最初预训练模型的知识。RAG：即检索增强生成，是将检索大量外部知识的过程与文本生成结合在一起的一种方法。它会从大型外部数据库中检索与输入问题相关的信息，将这些信息作为上下文提供给大语言模型，辅助其生成回答。微调适用场景1.特定领域
百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
Prompt 精通之路（五）- 构建你的“AI 指令系统”：超越简单提问的 CRISPE 与 APE 框架
Prompt精通之路：系列文章导航第一篇：[本文]AI时代的新语言：到底什么是Prompt？为什么它如此重要？第二篇：告别废话！掌握这4个黄金法则，让你的Prompt精准有效第三篇：像专业人士一样思考：Zero-Shot,Few-Shot和思维链（CoT）技巧详解第四篇：AI赋能：10个超实用的Prompt模板，覆盖写作、编程、学习和办公第五篇：构建你的“AI指令系统”：超越简单提问的CRISPE
Python Day58 别勉. python机器学习 python 信息可视化数据分析
Task：1.时序建模的流程2.时序任务经典单变量数据集3.ARIMA（p，d，q）模型实战4.SARIMA摘要图的理解5.处理不平稳的2种差分a.n阶差分—处理趋势b.季节性差分—处理季节性建立一个ARIMA模型，通常遵循以下步骤：数据可视化：观察原始时间序列图，判断是否存在趋势或季节性。平稳性检验：对原始序列进行ADF检验。如果p值>0.05，说明序列非平稳，需要进行差分。确定差分次数d:进行
Python Day44 别勉. python机器学习 python 开发语言
Task：1.预训练的概念2.常见的分类预训练模型3.图像预训练模型的发展史4.预训练的策略5.预训练代码实战：resnet181.预训练的概念预训练（Pre-training）是指在大规模数据集上，先训练模型以学习通用的特征表示，然后将其用于特定任务的微调。这种方法可以显著提高模型在目标任务上的性能，减少训练时间和所需数据量。核心思想：在大规模、通用的数据（如ImageNet）上训练模型，学习丰
零基础起步：基于GpuGeek的文本生成模型实战昊昊该干饭了人工智能 nlp 深度学习 gpu算力 gru
在自然语言处理（NLP）领域，文本生成任务广泛应用于问答系统、智能摘要、内容创作等方向。本文将带领读者使用GpuGeek平台，从注册、上传数据到实例部署与训练，完整构建一个基于GPT2模型的文本生成系统，实战掌握AI模型的云端开发流程。目录一、GpuGeek平台使用流程详解1.注册与登录2.数据上传3.创建训练实例4.启动与使用实例5.关闭实例（手动&自动）二、文本生成实战任务：微调GPT-21.
大模型智能运维详解：技术架构、落地挑战与行业实践 FreeTools FreeAiGuard 运维架构人工智能运维开发科技
大模型智能运维详解：技术架构、落地挑战与行业实践作者：开源大模型智能运维FreeAiOps在数字化转型加速的背景下，企业IT系统复杂度呈指数级增长，传统运维模式面临效率低下、故障定位困难、成本高昂等瓶颈。大模型技术的出现为智能运维提供了突破性解决方案，其通过自然语言处理、多模态数据分析与自动化决策能力，正在重塑运维工作的底层逻辑。本文将从技术原理、落地挑战、行业实践三个维度，系统解析大模型智能运维
数据结构学习之栈楼田莉子数据结构学习笔记算法数据结构 c语言
本篇博客我们将深入学习数据结构中栈与队列相关的内容作者的个人gitee：楼田莉子(riko-lou-tian)-Gitee.com目录概念栈的实现初始化销毁入栈判空出栈获取栈顶元素栈的有效元素个数源代码与栈相关的算法题（力扣）有效的括号编辑概念栈是一种特殊的线性表，只允许在固定的一端进行插入删除元素的操作。进行数据插入和删除操作的一端叫栈顶，另一端叫栈底。遵循“后进先出”的原则。下图就是对栈后进先
基于PLC的楼宇自动化监控系统方案大雨淅淅物联网大数据人工智能
目录一、系统概述二、系统组成三、功能模块四、系统优势五、系统实施步骤六、系统安全性与隐私保护七、结语一、系统概述本系统采用先进的PLC（可编程逻辑控制器）作为核心控制单元，旨在实现对楼宇内各项设施的自动化监控与管理。通过智能化的手段，提高楼宇的运行效率，确保环境的舒适性与安全性，同时达到节能减排的目的。二、系统组成PLC控制器：作为系统的大脑，负责接收传感器信号，处理数据，并发出控制指令给执行器。
LabVIEW用户界面设计
LabVIEW用户界面设计如需将一个VI作为用户界面或对话框，前面板的外观和布局非常重要。前面板的设计应类似于仪器或其它设备，以使用户更容易识别进行何种操作。使用前面板控件、分隔栏和窗格、窗口设置等等，改进前面板的易用性。也可使用事件增强用户界面的功能。编辑添加图片注释，不超过140字（可选）设计前面板输入控件和显示控件是前面板的重要组成部分。设计用户界面类前面板时需遵循下列规范：考虑用户如何与V
CNC编程实战解析：钻孔与攻螺纹技巧 Salton Z CNC编程钻孔循环攻螺纹循环 G81 G82
背景简介在现代制造业中，CNC（计算机数控）机床扮演着至关重要的角色。通过精确的编程，CNC机床能够在材料上完成复杂的加工任务。本章将深入探讨CNC编程中的两个核心环节：钻孔与攻螺纹，通过具体程序实例，揭示如何编写高效准确的CNC程序。G81与G84循环程序解析首先，我们来看G81钻孔循环和G84攻螺纹循环的程序示例。这些循环是CNC编程中常用的指令，能够简化钻孔和攻螺纹的编程过程。G81钻孔循环
.wgt 是一种用于打包 Web 应用的标准格式，主要应用于 W3C Widgets 规范中。它是一种轻量级的打包方式，特别适用于移动设备和嵌入式系统中的小型 Web 应用程序爱的叹息开发运维架构前端
.wgt是一种用于打包Web应用的标准格式，主要应用于W3CWidgets规范中。它是一种轻量级的打包方式，特别适用于移动设备和嵌入式系统中的小型Web应用程序。一、什么是.wgt包？.wgt是一个压缩包（本质是ZIP格式），包含运行一个Widget所需的所有资源文件。它遵循W3C的WidgetsPackagingandConfiguration规范。可以被支持的平台（如某些手机操作系统、车载系统
(论文总结)思维链激发LLM推理能力靈镌sama 论文解读人工智能
研究背景&动机背景:扩大模型规模已被证实具有提升模型性能和模型效率的功效，但是LLM对于完成推理、算术任务仍有较大不足。动机:从之前的应用和研究中得知，可以用生成自然语言解释、使用神经符号等形式语言的方法来提高大模型的算术推理能力，当时采用了从头预训练和微调模型的方法，耗费的成本较多；而且大模型具有根据少量文本提示进行上下文少样本学习的能力，使用少量输入输出示例即可提高LLM的推理性能，而不必对单
X86和ARM架构的优缺点？心对元&鑫鑫 arm开发架构
x86和ARM是当前主流的两种处理器架构，分别主导不同领域（如PC/服务器和移动/嵌入式设备）。它们的优缺点对比如下：1.x86架构（Intel/AMD）优点：高性能：复杂指令集（CISC）设计，单条指令功能强大，适合高吞吐量计算。强大的单线程性能，尤其在浮点运算和多媒体处理（如视频编辑、游戏）。软件生态成熟：主导PC和服务器市场，兼容Windows、Linux等主流操作系统。支持大量专业软件（如
代理导致虚拟机无法连接网络解决办法
虚拟机使用代理科学上网后，当关闭代理，虚拟机无法连接原来的网络解决方法重启虚拟机网络服务器：ctrl+alt+t打开虚拟机命令终端，依次输入以下指令：sudoservicenetwork-managerstopsudorm/var/lib/NetworkManager/NetworkManager.statesudoservicenetwork-managerstart注：若network-man
git 总结+场景应用放逐者-保持本心，方可放逐工具配置 git git 远程连接 git 标签 git 应用 git 打包迁移 git 版本控制 git 新手应用
文章目录概要（git）git冲突经验之谈git相关操作后续git具体应用回退到指定版本git校验忽略git版本标签管理git代码仓库迁移gitbundle后续git新手应用指南概要（git）一、Git简介Git是一个分布式版本控制系统，用于高效地处理从非常小到非常大的项目版本管理。它允许开发者跟踪文件的更改历史，方便团队协作开发，并且可以在不同分支上进行并行开发。二、基础指令连接（配置）gitco
DAY 45 Tensorboard使用介绍 HINOTOR_ Python训练营 python 开发语言
目录DAY45Tensorboard使用介绍1.tensorboard的发展历史和原理2.tensorboard的常见操作3.tensorboard在cifar上的实战：MLP和CNN模型作业：对resnet18在cifar10上采用微调策略下，用tensorboard监控训练过程。DAY45Tensorboard使用介绍1.tensorboard的发展历史和原理2.tensorboard的常见操
成像光谱遥感技术中的AI革命：ChatGPT在遥感领域中的应用科研的力量人工智能 ChatGPT chatgpt 人工智能
课程将最新的人工智能技术与实际的遥感应用相结合，提供不仅是理论上的，而且是适用和可靠的工具和方法。无论你是经验丰富的研究人员还是好奇的从业者，本课程都将为分析和解释遥感数据开辟新的、有效的方法，使你的工作更具影响力和前沿性。遥感技术主要通过卫星和飞机从远处观察和测量我们的环境，是理解和监测地球物理、化学和生物系统的基石。ChatGPT是由OpenAI开发的最先进的语言模型，在理解和生成人类语言方面
Prompt Engineering 指南教程班磊闯Andrea
PromptEngineering指南教程Prompt-Engineering-Guidedair-ai/Prompt-Engineering-Guide:是一个用于指导对话人工智能开发的文档。适合用于学习对话人工智能开发和自然语言处理。特点是提供了详细的指南和参考资料，涵盖了多种对话人工智能技术和算法，并且可以自定义学习路径和行为。项目地址:https://gitcode.com/gh_mirr
从0开始的Linux基础定偶 linux 服务器数据库
一、Linux文件系统核心特性层级式倒置树结构，以根目录/为起点统一资源管理方式（文件=目录=设备=socket等）关键目录说明/bin系统基础命令/boot引导程序/dev设备文件/etc配置文件/home用户家目录/lib系统库文件/proc运行时信息/usr应用安装目录/var动态数据/mnt临时挂载点/media外设挂载点/sbin管理员命令二、目录操作指令核心指令集指令功能常用选项示例p
Prompt 精通之路（七）- 你的终极 AI 宝典：Prompt 精通之路系列汇总程序员阿超的博客 Prompt 精通之路：从零基础到 AI 高效玩家人工智能 prompt Prompt指南 AI学习资源速查手册 ChatGPT 系列总结
你的终极AI宝典：Prompt精通之路系列汇总标签：#Prompt指南#AI学习资源#速查手册#ChatGPT#系列总结Prompt精通之路：系列文章导航第一篇：AI时代的新语言：到底什么是Prompt？为什么它如此重要？第二篇：告别废话！掌握这4个黄金法则，让你的Prompt精准有效第三篇：像专业人士一样思考：Zero-Shot,Few-Shot和思维链（CoT）技巧详解第四篇：AI赋能：10个
电子词典开源项目源代码完全解析
本文还有配套的精品资源，点击获取简介：电子词典作为数字化学习工具，已由传统硬件发展为可定制的开源软件应用。本源代码提供深入理解其工作机制的机会，包括用户界面设计、词典数据库、查询引擎、翻译算法等。源代码通常由主流编程语言编写，涉及到数据结构与算法、UI设计、数据库管理、自然语言处理、本地化与多语言支持、版本控制、软件工程、API接口以及开源社区的协作和交流。1.电子词典工作原理和定制功能电子词典工
提示技术系列——主动提示 AIGC包拥它提示技术人工智能 prompt python langchain
什么是提示技术？提示技术是实现提示工程目标的具体技术手段，是提示工程中的“工具库”。什么又是提示工程？提示工程是指通过设计、优化和迭代输入到大语言模型（LLM）的提示（Prompt），系统性提升模型输出质量（如相关性、准确性、可控性）的实践领域。它是一个覆盖全流程的方法论，包括：明确目标任务（如生成教学内容、问答、翻译）；设计提示结构（如指令、上下文、示例）；选择模型与参数（如温度、top_p）；
修饰符 Modifiers 翻滚吧键盘 vue 前端 javascript 开发语言
好的，我们来详细讲解Vue中的修饰符(Modifiers)。修饰符是以点（.）开头的特殊后缀，用于告知指令（如v-on或v-model）应该以某种特殊的方式来绑定。它们极大地简化了代码，让我们不必在方法中编写大量的事件处理逻辑。Vue的修饰符主要分为三大类：事件修饰符(EventModifiers)：用于v-on(简写为@)指令。v-model修饰符(v-modelModifiers)：用于v-m
js代码08 翻滚吧键盘 vue javascript 开发语言 ecmascript
题目好的，我们正式进入JavaScript的另一个深水区，这也是面向对象编程的基石：this关键字。this是JavaScript中最强大、最灵活，也最容易引起困惑的概念之一。但别担心，它的行为遵循一套清晰的规则。一旦你理解了这些规则，就能完全驾驭它。练习08:this的指向-解开JS中最微妙的谜题核心法则:在学习this之前，请先记住这条黄金法则：this的值取决于函数被调用时的“执行上下文”（
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
创建对象的步骤玩代码 jvm
以下是创建对象的具体步骤及详细说明，结合关键流程与原理分析：1.判断对象是否加载、链接阶段、初始化阶段类加载检查是对象创建的第一步。当遇到new指令时，虚拟机会检查该指令的参数是否能在常量池中定位到类的符号引用，并检查该类是否已被加载、解析和初始化。若未加载，需先执行类加载过程。链接分为三个子步骤：验证：确保类信息符合虚拟机规范，避免安全问题。准备：为类的静态变量分配内存并设置默认初始值（如int
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

【自然语言处理】【ChatGPT系列】FLAN：微调语言模型是Zero-Shot学习器

一、简介

二. FLAN \text{FLAN} FLAN： Instruction Tuning \text{Instruction Tuning} Instruction Tuning改善 Zero-shot Learning \text{Zero-shot Learning} Zero-shot Learning

2.1 任务和模板

2.2 评估划分

2.3 带有选项的分类

2.4 训练细节

三、结果

四、消融研究和进一步分析

1. Instruction tuning \text{Instruction tuning} Instruction tuning组的数量

2. Scaling Laws \text{Scaling Laws} Scaling Laws

3. Instructions \text{Instructions} Instructions的角色

4. 带有 few-shot \text{few-shot} few-shot样例的 Instructions \text{Instructions} Instructions

你可能感兴趣的:(自然语言处理,自然语言处理,chatgpt,FLAN,指令微调,指令遵循)

二. $\text{FLAN}$ ： $\text{Instruction Tuning}$ 改善 $\text{Zero-shot Learning}$

1. $\text{Instruction tuning}$ 组的数量

2. $\text{Scaling Laws}$

3. $\text{Instructions}$ 的角色

4. 带有 $\text{few-shot}$ 样例的 $\text{Instructions}$