BQW_

【自然语言处理】【ChatGPT系列】大模型的涌现能力

大语言模型的涌现能力 《Emergent Abilities of Large Language Models》

论文地址：https://arxiv.org/pdf/2206.07682.pdf

相关博客
【自然语言处理】【ChatGPT系列】大模型的涌现能力
【自然语言处理】【文本生成】CRINEG Loss：学习什么语言不建模
【自然语言处理】【文本生成】使用Transformers中的BART进行文本摘要
【自然语言处理】【文本生成】Transformers中使用约束Beam Search指导文本生成
【自然语言处理】【文本生成】Transformers中用于语言生成的不同解码方法
【自然语言处理】【文本生成】BART：用于自然语言生成、翻译和理解的降噪Sequence-to-Sequence预训练
【自然语言处理】【文本生成】UniLM：用于自然语言理解和生成的统一语言模型预训练
【自然语言处理】【多模态】OFA：通过简单的sequence-to-sequence学习框架统一架构、任务和模态

一、简介

语言模型已经彻底改变了自然语言处理 $\text{(NLP)}$ 。总所周知，增加语言模型的规模能够为一系列下游的 $\text{NLP}$ 任务带来更好的效果和样本效率。在某些场景中，模型规模对于模型的效果可以通过 $\text{scaling laws}$ 预测。但是，某些下游任务的效果并没有随着规模的上升而改善。

本文讨论了大规模语言模型的涌现能力 $\text{(Emergent Ability)}$ ，一种不可预测的现象。涌现这一概念已经在物理、生物、计算机科学等领域被讨论了很长时间。本文考虑涌现的一般性定义，来自于诺贝尔物理学奖得主Philip Anderson1972年的一篇文章《More is Different》。
$\text{Emergence is when quantitative changes in a system result in qualitative changes in behavior.}$
本文将讨论与模型规模相关的涌现能力，并通过训练计算量和模型参数进行衡量。本文定义大规模语言模型的涌现能力为：在小模型上没有，但是会出现在大模型上的能力。因此，该能力不能通过简单的对小规模模型的改善了预测。本文总结了先前工作中一系列观察到的涌现能力，并将其分类为 $\text{few-shot prompting}$ 和 $\text{augmented prompting strategies}$ 。涌现现象也会激发更多的研究，包括为什么能有这样的能力、是否更大的模型将带来进一步的涌现。

二、涌现能力定义

涌现是一个广泛的概念，通常有着不同的解释。本文主要是专注在大规模语言模型的涌现能力：
$\text{An ability is emergent if it is not present in smaller models but is present in larger models.}$
涌现能力无法使用 $\text{scaling law}$ 来从较小模型上进行预测。当绘制一个尺度曲线， $x$ 轴是模型的尺寸， $y$ 轴是某种能力的效果，那么涌现能力有一个清晰的模式：在某个阈值之前的效果接近随机，但是超过该阈值后效果将大大高于随机。

当今的语言模型根据三个因素进行扩展：计算量、模型参数量和训练集规模。本文将绘制各种"训练量-效果"曲线，每个模型的训练量通过 $\text{FLOPs}$ 来衡量。由于语言模型使用更多的计算量，也意味着更多的参数量，所以也额外绘制了 $x$ 轴为模型参数量的图。由于大多数稠密 $\text{Transformer}$ 语言模型都会基于模型的参数量来粗略估计训练计算量(也就是参数量和训练计算量大致线性相关)，因此使用训练 $\text{FLOPs}$ 或者模型参数量作为 $x$ 轴，最终得到的曲线将是相似的。

虽然训练集的尺寸也很重要，但是许多语言模型族对所有尺寸的模型使用了固定数量的训练样本，所以没办法绘制相关的图。因此，本文专注在训练计算量和模型尺寸，但是没有一种单独的指标能够充分捕获所有规模的性质。例如， $\text{Chinchilla}$ 的参数量是 $\text{GOpher}$ 的四分之一，但是使用相似的训练计算量。稀疏混合专家模型在每次训练/推断时要比稠密模型具有更多的参数量。总的来说，明智的做法是将涌现看作是许多相关变量的函数。

某种能力的涌现尺度取决于许多因素，且这些因素也不是不可改变的属性。例如，涌现可能出现在高质量数据上训练的更少训练量、更少模型参数的模型。此外，涌现能力也可能会依赖其他的因素，而不是数据量、数据质量或者模型的参数量。当今训练语言模型的方法可能不是最优的，并且对于最优模型的理解随着时间推移而进化。

三、 $\text{Few-Shot Prompted}$ 任务

首先讨论 $\text{GPT-3}$ 中流行的 $\text{prompting}$ 范式的涌现能力。给预训练语言模型一个任务相关的 $\text{prompt}$ ，其不需要任何训练或者梯度更新就能完成应答。Brown et al.提出了 $\text{few-shot prompting}$ ，其在模型的输入中包含少量的"输入-输出"示例，并要求模型在未见过的样本上完成任务。上图是一个 $\text{prompt}$ 例子。

"通过 $\text{few-shot prompting}$ 来执行任务的能力"是一种涌现现象，当模型规模达到某个阈值之前效果基本等于随机，超高该阈值够则会显著的改善。下图展示了5个语言模型的8种涌现能力。

1. $\text{BIG-Bench}$

图A-D是来自于基准 $\text{BIG-Bench}$ 中的4个涌现 $\text{few-shot prompted}$ 任务，该基准包含了200多个评估语言模型的基准套件。图A是一个算术基准测试，用于测试3位加减法和2位的乘法。 $\text{GPT-3}$ 和 $\text{LaMDA}$ 的训练量较小时的效果基于接近于0，而 $\text{GPT-3}$ 在训练量达到 $2\cdot 10^{22}\text{ FLOPs}$ 后效果突然超越随机，而 $\text{LaMDA}$ 的阈值为 $10^{23}\text{ FLOPs}$ 。对于其他任务来说，类似的涌现能力也发生在相同的规模，包含：国际音标翻译(图B)、从混乱的字母中恢复出单词(图C)、以及波斯语问答。文章的附录E中给出了 $\text{BIG-Bench}$ 上更多的涌现能力。

2. $\text{TruthfulQA}$

上图E展示了 $\text{TruthfulQA}$ 基准上的 $\text{few-shot prompted}$ 涌现能力，该基准用来衡量诚实回答问题的能力。该基准是通过对抗的方式针对 $\text{GPT-3}$ 构建的，所以即使将 $\text{GPT-3}$ 放大到最大的规模，其效果也不会高于随机。小尺寸的 $\text{Gopher}$ 模型效果也接近随机，但是当模型放大至 $5\cdot 10^{23} \text{ FLOPs(280B)}$ ，其效果会突然高于随机20%。

3. $\text{Grounded conceptual mappings}$

上图F展示了 $\text{Grounded conceptual mappings}$ 任务，该任务中语言模型必须学会映射一个概念领域，例如：理解文本中方向的表示。同样，使用大的 $\text{GPT-3}$ 模型效果才能超过随机。

4. $\text{Multi-task language understanding}$

上图G展示了 $\text{Massive Multi-task Language Understanding(MMLU)}$ 基准，该基准包含了57个测试，覆盖主题包含数学、历史、法律等等。对于模型 $\text{GPT-3、Gopher、Chinchilla}$ ，当训练计算量小于 $10^{22} \text{FLOPs}$ 时，在所有的主题上效果都解决随机，但是当训练计算量达到 $\text{3-5}\cdot 10^{23}\text{ FLOPs(70B-280B)}$ 后效果将远远超过随机。该结果并不令人惊奇，这意味着解决那些需要大量主题集合并且基于知识的问题的能力可能需要超过某个阈值。

5. $\text{Word in Context}$

最后，上图H展示了 $\text{Word in Context}$ 基准，该基准是一个语义理解基准。显然， $\text{GPT-3}$ 和 $\text{Chinchilla}$ 即使放大至最大的尺寸 $\sim 5\cdot 10^{23} \text{ FLOPs}$ ，也不能通过one-shot实现比随机更好的效果。目前为止的结果表明单纯的发大模型并不能解决 $\text{Word in Context}$ 基准，但是当 $\text{PaLM}$ 被缩放至 $2.5\cdot10^{24}\text{ FLOPs(540B)}$ 时，高于随机的效果出现了。

四、 $\text{Augmented Prompting}$ 策略

虽然 $\text{few-shot prompting}$ 是目前与大规模语言模型交互最常用的方法，但近期的工作提出了其他prompting和微调策略来进一步增强语言模型的能力。若某一项技术对于baseline没有改进或者是有害的，但是当模型达到某个规模后该技术就生效了，则认为该技术也是涌现能力。

1. 多步推理

多步推理对于语言模型来说非常有挑战。近期，一种称为 $\text{chain-of-thought prompting}$ 的 $\text{prompting}$ 策略能够使模型解决多步推理问题，该策略要求语言模型在给出答案之前产生出一系列的中间步骤。如上图A所示，当模型规模达到 $10^{23}\text{ FLOPs}(\sim\text{100B})$ ， $\text{chain-of-thought prompting}$ 就会超越标准的 $\text{prompting}$ 。

2. 指令遵循 $\text{(Instruction following)}$

另一个正则快速发展的工作时，通过让语言模型来阅读描述任务的指令来让其更好的执行新任务。通过对混合任务的指令进行微调，语言模型可以对一个未见过的任务做出适当的应答。如上图B所示，Wei et al.发现该 $\text{instruction-finetuning}$ 技术对于训练量小于 $7\cdot10^{21}\text{ FLOPs(8B)}$ 的模型效果有害，仅能够改善训练量大于 $10^{23}\text{ FLOPs}(\sim\text{100B})$ 的模型。

3. Program execution

对于多步计算问题，Nye et al.的研究显示，对语言模型进行微调来预测中间输出可以使模型成功执行这种多步运算。如上图C所示，对于8位数加法，仅对训练量为 $\sim 9\cdot 10^{19}\text{ FLOPs}$ 的模型有用。

4. Model calibration

最后一个重要的语义模型研究方向是模型校准，也就是衡量模型是否能够预测出其对哪些问题能够回答正确。Kadavath et al.比较了两种校准方法：1. True/False技术，模型先给出答案，然后让模型评估这个答案的正确性；2. 更标准的校验方法，使用正确答案的概率与其他答案进行对比。如上图D所示，True/False技术只有当模型规模达到 $\sim 3\cdot10^{23}\text{FLOPs}$ 才能有效。

五、讨论

上面的实验中的能力只有在足够大的语义模型上才能观察到，因此这些能力的涌现并不能通过外推小规模模型来简单预测。涌现出来的 $\text{few-shot prompted}$ 能力是不可预测的，因为这些能力并没有包含预训练任务中，并且我们无法知道语言模型执行 $\text{few-shot prompted}$ 任务的全部范围。语言模型目前还有很多不能通过涌现实现的能力，包括 $\text{BIG-Bench}$ 中数十个任务，这些任务即使是最大的 $\text{GPT-3}$ 和 $\text{PaLM}$ 模型都不能实现高于随机的表现。

1. 涌现的潜在解释

虽然已经有数十个涌现能力的例子，但是对于这种能力为什么会以这种方式出现还没有令人信服的解释。对于某个任务为什么涌现需要模型规模超过某个阈值，可能有一种直觉上的解释。例如，若一个多步推理需要 $l$ 步的序列计算，这可能需要模型至少有 $O (l)$ 层的深度。一个合理的假设，更多的参数和更多的训练能够确保更好的记忆那些有助于各类任务的世界知识。例如，要在closed book问答上取得好的表现，可能需要一个模型具有足够的参数来捕获知识库本身(基于语言模型的压缩要比传统的压缩器具有更高的比例)。

评估涌现能力的指标也很重要。例如，若使用精确字符串匹配作为长序列的评估指标，真实情况可能是逐步的改善，只不过评估指标导致看起来是涌现现象。类似的逻辑也可能发生在多步推理或者数学推理，模型只对多步推理的最终结果进行评分，而没有对部分正确的解决方案进行评分。然而，最终答案准确率的跳跃式改善并不能解释中间步骤突然高于随机。

我们使用交叉熵损失函数来替代评估指标，在6个 $\text{BIG-Bench}$ 任务上虽然下游指标仍然接近随机，但是损失函数值在小规模模型上仍然改善，这表明模型的此次改善被下游的评估指标所掩盖。然而，该分析也并不能解释为什么下游指标的涌现现象。总的来说，还需要更多的工作来梳理是什么使得规模能够导致解锁涌现的能力。

2. 超越规模

虽然某个确定的尺寸能够观察到涌现能力，但是该能力随后在更小尺寸被实现。也就是说，模型的尺寸并不是解锁涌现能力的唯一因素。例如， $\text{LaMDA 137B}$ 和 $\text{GPT-3 175B}$ 模型在14个 $\text{BIG-Bench}$ 任务上都是解决随机的，但是 $\text{PaLM 62B}$ 使用更少的参数和训练 $\text{FLOPs}$ 实现了高于随机的效果。尽管还没有实证研究来消除 $\text{PaLM 62B}$ 与先前模型的区别， $\text{PaLM}$ 表现更好的潜在原因可能包括高质量的训练数据和架构的不同。另一个潜在的解锁涌现能力的方法是通过不同的预训练目标。

一旦某种涌现能力被发现，进一步的研究将使该能力在更小规模的模型上可用。在使用自然语言描述新任务来使用语言模型的新方向中，Wei et al.发现 $\text{instruction-based finetuning}$ 仅在 $\text{68B}$ 或者更大的模型，随后Sanh et al.在 $\text{11B}$ 的编码器-解码器架构上诱导出了相似的行为。另一个例子，Ouyang et al.提出d的 $\text{InstructGPT}$ 模型基于人类反馈进行强化学习和微调，其能够在 $\text{1.3B}$ 模型上超越大多数的模型。

还有一些工作尝试改善语言模型的通用 $\text{few-shot prompting}$ 能力。对"为什么语言建模目标可以促进某些下游行为"这件事的理解和解释性研究，反过来也会对在小规模模型上实现这些能力带来影响。例如，预训练数据的某些特征(一致性、包含稀有类型)也已经被证明其与涌现 $\text{few-shot prompting}$ 相关，并且可以使更小的模型具有相同的能力。计算语言学的研究进一步表明，当模型参数和训练 $\text{FLOPs}$ 保持不变时，训练数据的阈值频率能够激活语法规则学习的涌现能力。随机预训练研究的发展，降低涌现能力的规模阈值将会对研究这些能力越来越重要。

仅通过增加规模对于应用和研究来说是有限制的。例如，规模可能会受到硬件瓶颈的约束，并且某些能力在这个点上可能还没有涌现。某些能力可能不会涌现，即使是一个非常大的训练集，但是远离分布的任务可能永远不能实现好的效果。

3. 涌现风险

$\text{few-shot prompting}$ 并没有包含在预训练中，但是其能够通过涌现来实现，风险可能也会以类似的方式出现。大规模语言模型的社会风险，包含真实性、偏见和毒性都是一个增长的研究领域。这类风险需要着重考虑，无论其是否通过涌现能力出现。涌现能力会随着语言模型增大而出现，那么随着模型规模的增加，风险也在增加。

这里总结一些先前的发现。在 $\text{WinoGender}$ 上，随着模型规模的增加，职业中的性别歧视被改善了。而 $\text{BIG-Bench}$ 的 $\text{BBQ}$ 偏见基准上，对于模糊的上下文，偏见会随着规模的增加而增加。对于毒性， $\text{Askell et al.}$ 发现较大的语言模型能够从 $\text{RealToxicityPrompts}$ 数据中生成更多毒性的响应，这种行为可以通过给模型一些无毒的示例来缓解。 $\text{TruthfulQA}$ 基准展示了 $\text{GPT-3}$ 模型越大就越有可能模仿人类说谎言。

4. 未来的方向

一些潜在的未来方向包含但不限于：

进一步扩大模型规模

目前为止，进一步扩大模型的规模是能够增加语言模型的能力，并且也是一种未来工作的方向。然而，简单的增加语言模型规模是计算昂贵的，并且需要解决巨大的硬件挑战，因此其他方法将会在未来语言模型的涌现能力扮演重要的角色。
改善模型架构和训练

改善模型的架构或者训练过程可能会带来具有涌现能力的高质量模型，并减少计算量。一种方向是使用稀疏混合专家架构，其在保持恒定输入成本时具有更好的计算效率，使用更加局部的学习策略，而不是在神经网络的所有权重上进行反向传播，以及使用外部存储来增强模型。这些新兴的方向已经在许多设置中展现出了前景，但是仍然没有被广泛的使用，这需要未来的工作。
扩大数据规模

在一个足够大的数据集上训练足够长的时间被证明是语言模型获得语法、语义和其他世界知识的关键。近期，Hoffmann et al.认为先前的工作低估了训练一个最优模型的训练数据量，低估了训练数据的重要性。收集模型可以在其上训练更长时间的大量数据，允许在一个固定模型尺寸的约束下有更大范围的涌现能力。
$\text{prompting}$ 更好的技术和更好的理解

虽然 $\text{few-shot prompting}$ 简单有效，对 $\text{prompting}$ 通用性的改善将进一步扩展语言模型的能力。例如，使用校准输出概率或者噪音通道已经改善了广泛的任务。用带有中间步骤的 $\text{few-shot}$ 示例增强后，能够使模型执行多步推理任务，这是标准 $\text{prompting}$ 无法实现的。此外，更好的解释为什么 $\text{prompting}$ 有效，可能对在更小模型上引导涌现能力具有帮助。充分的理解模型为什么能够工作通常会滞后于技术的开发和流行，并且随着更加强大的模型被开发出来，prompting的最佳实践也可能改变。
前沿任务

虽然语言模型能够执行广泛的任务，但仍然有很多任务即使是最大的语言模型都无法超过随机的准确率。 $\text{BIG-Bench}$ 中存在大量的这类任务，这些任务涉及到抽象推理(例如扮演象棋、挑战数学)。未来的研究可能需要调查为什么这些能力还没有出现，以及如何使得模型能够执行这些任务。展望未来，另一个增长的方向可能是多语言涌现；多语言 $\text{BIG-Bench}$ 任务表明：模型规模和训练数据在涌现中扮演着重要的角色。其他的前沿任务包括多模态prompting。
理解涌现

除了研究如何进一步解锁涌现能力，一个未来研究方向是，涌现能力是如何以及为什么出现在大语言模型。本文对 $\text{BIG-Bench}$ 上的交叉熵损失与规模的关系、生成任务的不同度量、以及哪种任务会出现涌现。这个分析并不能完整解释为什么会出现涌现。未来的研究可能会以新的方式来分析涌现。总的来说，理解涌现是一个非常重要的方向，这有助于我们确定模型可以拥有哪些涌现能力以及如何训练一个能够更强的语义模型。

元戎启行周光：智能驾驶的竞争，靠VLA模型决出胜负量子位
智能驾驶行业，有黑马杀出。据中国电动汽车百人会最新数据统计，自2024年9月至2024年12月，短短4个月时间，元戎启行凭借两款量产车，冲击行业第一梯队，在城区高阶智能驾驶供应商市场中拿下近10%的市场份额。对元戎启行来说，10%，只是一个开始。2025年1月22日，在第17届日本国际汽车工业技术展上，元戎启行再次亮出技术杀手锏——VLA模型（VisionLanguageActionModel，视
【AIGC半月报】AIGC大模型启元：2024.07（上） LeeZhao@ AIGC 人工智能 AI Agent
AIGC大模型启元：2024.07（上）(1)AIGVBench-T2V（文生视频基准测评）(2)Gen-3Alpha（Runway）(3)Step-2、Step-1.5V、Step-1X（阶跃星辰开源大模型）(4)InternVL2.0“书生·万象”（上海人工智能实验室）(5)CodeGeeX4-ALL-9B（智谱AI）(6)TTT（全新LLM架构）(1)AIGVBench-T2V（文生视频基准
认知的形式化：数学是建立在明确的公设定理体系之上的高级语言形态 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
认知形式化，数学语言，公设理体系，高级语言，人工智能，逻辑推理，算法设计1.背景介绍在当今数据爆炸和人工智能飞速发展的时代，如何有效地理解和处理信息成为了一个至关重要的课题。认知科学、人工智能和计算机科学等领域都在积极探索如何将人类的认知能力形式化，并将其转化为可计算的模型。数学作为一种高度抽象和形式化的语言，在认知科学和人工智能领域扮演着至关重要的角色。它为我们提供了描述和推理世界的逻辑框架，并
大模型管理工具：Ollama m0_37559973 大模型 Ollama 大模型管理工具
目录一、Ollama介绍二、Linux安装Ollama2.1一键安装2.2手动安装三、使用Ollama3.1配置模型下载路径3.2运行模型3.3常用命令四、模型管理4.1官方模型库4.2导入自定义模型五、RESTAPI六、WebUI一、Ollama介绍Ollama是一个基于Go语言开发的可以本地运行大模型的开源框架，同时提供RESTAPI管理和使用大模型。二、Linux安装Ollama2.1一键安
【LLM】25.1.11 Arxiv LLM论文速递 hinmer arxiv LLM每日更新 chatgpt gpt 人工智能自然语言处理 ai aigc 深度学习
25.1.1012:00-25.1.1112:00共更新36篇—第1篇----=====Supervisionpoliciescanshapelong-termriskmanagementingeneral-purposeAImodels关键词:通用型人工智能，风险管理，监督政策，模拟框架PDF链接摘要:通用型人工智能（GPAI）模型，包括大型语言模型（LLM）的快速普及和部署，给AI监管实体带来
大模型GUI系列论文阅读 DAY2续2：《使用指令微调基础模型的多模态网页导航》 feifeikon 论文阅读
摘要自主网页导航的进展一直受到以下因素的阻碍：依赖于数十亿次的探索性交互（通常采用在线强化学习），依赖于特定领域的模型设计，难以利用丰富的跨领域数据进行泛化。在本研究中，我们探讨了基于视觉-语言基础模型的数据驱动离线训练方法，以改进网页代理的性能。我们提出了一种名为WebGUM的指令跟随多模态代理，该代理能够同时观察网页截图和HTML页面，并输出网页导航操作，例如点击和输入文本等。WebGUM通过
AI需要的基础数学知识大囚长机器学习大模型人工智能
AI（人工智能）涉及多个数学领域，以下是主要的基础数学知识：1.线性代数矩阵与向量：用于表示数据和模型参数。矩阵乘法：用于神经网络的前向传播。特征值与特征向量：用于降维和主成分分析（PCA）。奇异值分解（SVD）：用于数据压缩和降维。2.微积分导数与偏导数：用于优化算法（如梯度下降）。链式法则：用于反向传播算法。积分：在概率和统计中有应用。3.概率与统计概率分布：如高斯分布、伯努利分布等。贝叶斯定
EMO2: 情感表达驱动的语音控制头像视频生成 AIGC探路者计算机视觉数字人 talking head talking face AIGC
本文提出了一种新颖的语音驱动说话头像方法，能够同时生成高度表现力的面部表情和手势。与现有专注于生成全身或半身姿态的方法不同，我们研究了语音手势生成的挑战，并识别出音频特征与全身手势之间较弱的对应关系作为关键限制。为解决这一问题，我们将任务重新定义为两阶段过程。在第一阶段，我们直接从音频输入生成手部姿势，利用音频信号与手部动作之间的强相关性。在第二阶段，我们采用扩散模型合成视频帧，结合第一阶段生成的
Transformer中query、key和value的状态为什么要是 contiguous？ AI老兵 transformer 深度学习人工智能知识图谱 agi AIGC
Transformer中query、key和value的状态为什么要是contiguousd值？在阅读Transformer模型的相关代码时，会发现query、key和value都会有contiguous()化操作，如下所示：...query_states=query_states.contiguous()key_states=key_states.contiguous()value_states
Ollama 完整教程：本地 LLM 管理、WebUI 对话、PythonJava 客户端 API 应用 web13765607643 java
随着大语言模型（LLM）的普及和应用场景的广泛扩展，Ollama提供了一个强大的本地LLM管理工具，支持WebUI对话功能，同时还为Python和Java提供了灵活的客户端API。本教程将详细介绍如何使用Ollama工具，涵盖从本地安装、模型管理、WebUI聊天界面到通过Python和Java进行集成的全方位应用。一、Ollama简介Ollama是一款用于本地运行大语言模型的工具，支持对LLM模型
大模型GUI系列论文阅读 DAY3：《GPT-4V(ision) is a Generalist Web Agent, if Grounded》 feifeikon 论文阅读
摘要近年来，大型多模态模型（LMMs）的发展，特别是GPT-4V(ision)和Gemini，迅速扩展了多模态模型的能力边界，不再局限于传统任务如图像描述和视觉问答。在本研究中，我们探讨了LMMs（如GPT-4V）作为通用网页代理的潜力，这类代理能够根据自然语言指令完成任意网站上的任务。我们提出了SEEACT，这是一种通用网页代理，利用LMMs的视觉理解能力，实现网页上的操作。我们在最新的MIND
Java 封装与继承：面向对象编程的两大支柱来恩1003 Java 从入门到精通 java 开发语言
Java学习资料Java学习资料Java学习资料引言在Java的面向对象编程（OOP）体系里，封装和继承是极为关键的概念。它们不仅是构建复杂软件系统的基础，也为代码的设计、维护与扩展提供了强大助力。接下来，我们将深入探究这两大支柱的内涵、实现方式及其在实际开发中的价值。封装封装的定义封装是把对象的属性和操作这些属性的方法捆绑在一起，形成一个独立的单元，并尽可能隐藏对象的内部实现细节，只向外部提供必
人工智能与人工计算的发展——孙凝晖院士一位安分的码农大语言模型人工智能
人工智能领域近年来正在迎来一场由生成式人工智能大模型引领的爆发式发展。2022年11月30日，OpenAI公司推出一款人工智能对话聊天机器人ChatGPT，其出色的自然语言生成能力引起了全世界范围的广泛关注，2个月突破1亿用户，国内外随即掀起了一场大模型浪潮，Gemini、文心一言、Copilot、LLaMA、SAM、SORA等各种大模型如雨后春笋般涌现，2022年也被誉为大模型元年。当前信息时代
自学成才之路，DeepSeek R1 论文解读智识世界Intelligence 神经网络深度学习自然语言处理课程设计学习方法
DeepSeekR1的论文看完后，后劲很大。虽然我推荐所有人都去阅读一下，但我估计实际去读的人应该很少。今天把论文里的三个亮点，用通俗易懂地方式写出来，希望能让更多人了解这篇论文有多么重要。亮点一：告别“刷题班”，纯“实战”也能练出推理大神！我们平时学习，是不是经常要“刷题”？做大量的练习题，才能巩固知识，提高解题能力。以前训练AI模型，也差不多是这个套路，要先给AI“喂”大量的“习题”（监督数据
金融行业业务流程指南-三级模型 fajianchen 系统设计思维金融架构
背景当前，金融科技作为驱动创新的主要动力，借助技术与业务深度融合的方式，创新催生出层出不穷的商业模式与金融产品，为客户提供更好的服务体验。实现“金融服务适时而在”的“情境化金融服务”，亦即金融服务因地制宜、应需而为，实现真正的“价值交付”，其核心特征是智能分析基础上的实时感知和响应，要实现风险的可计量、可控制的全面风险管理。而传统金融机构的部门级、竖井式的业务管理与IT设计不能满足上述要求，亟待以
物联网导论复习材料物腐虫生物联网学习
简答题Q1：物联网的概述，特点，模型，应用，重点是应用层，云计算，数据集成。物联网的概述物联网（IoT，InternetofThings）是指通过各种传感器、设备和网络技术，将物理世界中的物体连接到互联网，实现数据的采集、传输、处理和应用的智能化系统。物联网的特点全面感知：通过传感器实时采集数据。可靠传输：通过互联网和无线网络传输数据。智能处理：利用云计算和大数据技术对数据进行分析和处理，实现智能
第04章 06 VTK静态数据模型和动态数据模型示例捕鲸叉 VTK编程学习 VTK 信息可视化
VTK（VisualizationToolkit）提供了多种数据模型来处理和表示各种类型的数据。其中，静态数据模型和动态数据模型是两种不同的数据表示方式，各自具有不同的特点和适用场合。静态数据模型特点静态数据模型是VTK中默认的数据模型，适用于数据不随时间变化的场景。数据结构稳定：在静态数据模型中，数据结构在创建后不发生改变，或者改变的频率很低。高效处理：由于数据结构稳定，VTK可以优化数据的存储
华为OD机试E卷 - 最大值（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python javascript c++华为OD机试E卷 C语言
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述给定一组整数（非负），重排顺序后输出一个最大的整数。示例1输入：[10,9]输出：910说明:输出结果可能非常大，所以你需要返回一个字符串而不是整数。输入描述数字组合输出描述最大的整数示例1输入109输出910说明解题思路题目要求是：给定一组
理解WPF中的布局会敲键盘的肘子 .Net实用方法总结 wpf .net
一、理解WPF中的布局在WPF问世之前，Windows开发人员使用刻板的基于坐标的布局将控件放到正确位置。在WPF中，这种方式虽然可行，但已经极少使用。大多数应用程序将使用类似于Web的流(flow)布局；在使用流布局模型时，控件可以扩大，并将其他控件挤到其他位置，开发人员能创建与显示分辨率和窗口大小无关的、在不同的显示器上正确缩放的用户界面；当窗口内容发生变化时，界面可调整自身，并且可以自如地处
Python 如何使用 Bert 进行中文情感分析程序员徐师兄 Python 入门专栏 python bert 开发语言情感分析
前言在自然语言处理（NLP）领域，情感分析是一个非常常见且重要的应用。情感分析通常用于识别文本中的情感，例如判断一条微博或评论是正面、负面还是中性。在过去的几年中，随着深度学习的发展，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型迅速成为了处理自然语言的强大工具。BERT是一种基于Transformer架构的预训练模型，它能够
R数据分析：多分类问题预测模型的ROC做法及解释公众号Codewar原创作者 R 数据分析
有同学做了个多分类的预测模型，结局有三个类别，做的模型包括多分类逻辑回归、随机森林和决策树，多分类逻辑回归是用ROC曲线并报告AUC作为模型评估的，后面两种模型报告了混淆矩阵，审稿人就提出要统一模型评估指标。那么肯定是统一成ROC了，刚好借这个机会给大家讲讲ROC在多分类问题情形下的具体使用和做法。ROC曲线回顾ROC曲线（ReceiverOperatingCharacteristicCurve）
[论文笔记]自监督sketch-to-image生成：Self-Supervised Sketch-to-Image Synthesis 沉迷单车的追风少年深度学习-计算机视觉 sketch 深度学习计算机视觉
前言：2020年顶会同时出现了两篇很有意思的论文《Self-SupervisedSketch-to-ImageSynthesis》和《UnsupervisedSketch-to-PhotoSynthesis》，分别用自监督和无监督的方法做sketch-to-image生成，可以说是GANs在这一任务中表现的巅峰。目录主要贡献主要工作域转换模型TOMPS：边缘图、铅笔画图、草图sketch之间的区别
搭建vue项目 LYy0 vue.js 前端 javascript
一、VueVue是一款用于构建用户界面的JavaScript框架。它基于标准HTML、CSS和JavaScript构建，并提供了一套声明式的、组件化的编程模型，帮助你高效地开发用户界面。无论是简单还是复杂的界面，Vue都可以胜任。二、环境1.nodejs环境:下载地址三、创建Vue应用创建的项目将使用基于Vite的构建设置，并允许我们使用Vue的单文件组件(SFC)。$npmcreatevue@l
类与对象中的六大默认成员函数万字详解 kk\n c++开发语言
目录1、类的6个默认成员函数2、构造函数2.1、概念2.2、特性3、析构函数3.1、概念3.2、特性4、拷贝构造函数4.1、概念4.2、特性5、赋值运算符重载5.1、运算符重载5.2、赋值运算符重载5.3、前置++和后置++重载1、类的6个默认成员函数如果一个类中什么成员都没有，简称为空类。空类中真的什么都没有吗？并不是，任何类在什么都不写时，编译器会自动生成以下6个默认成员函数。默认成员函数：用
AI时代，需要怎样的架构师？腾讯云架构师峰会来了！架构
引言架构设计对应用有关键性的影响，不仅决定应用的整体品质，还直接影响开发、维护和扩展的难易度。卓越的架构设计不仅能够确保系统的稳定性、高效性和可扩展性，还能大幅提升研发效能，同时显著降低维护成本。在快速变化的技术环境中，架构师们面临业务需求快速迭代、数据量急剧膨胀以及系统复杂性不断提升等挑战。随着云计算、大数据、人工智能等前沿技术的蓬勃发展，一系列创新解决方案如微服务架构、AI大模型、自动化运维工
Alluxio在数据索引和模型分发中的核心价值与应用人工智能大数据模型索引
在当前的技术环境下，搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息，进行模型训练和推理。这一过程需要强大的数据分发能力，尤其是在多个服务器同时拉取同一份数据时，更是考验基础设施的性能。在这样的背景下，AlluxioEnterpriseAI在数据索引与模型分发/部署方面展示了其独特的优势，特别是在处理海量
npm publish 发布一个 Angular 库的时候报错以及解决方法
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
PyTorch深度学习实战（43）——手写文本识别盼小辉丶深度学习 pytorch 人工智能
PyTorch深度学习实战（43）——手写文本识别0.前言1.手写文本识别1.1基本概念1.2输入和输出格式1.3CTC损失值2.模型与数据集分析2.1数据集分析2.2模型分析3.实现手写文本识别模型小结系列链接0.前言手写文本识别，也称为手写文本的光学字符识别(OpticalCharacterRecognition,OCR)，是计算机视觉和自然语言处理中的一项具有挑战性的任务。与印刷文本不同，手
DeepMind的新突破：GenCast 新加坡内哥谈技术人工智能大数据语言模型
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/如今，人工智能（AI）在天气预报领域的表现已经可以与传统计算方法媲美。然而，AI模型的训
设计模式Python版单例模式小王子1024 设计模式Python版设计模式 python 单例模式
文章目录前言一、单例模式二、单例模式实现方式三、单例模式示例四、单例模式在Django框架的应用前言GOF设计模式分三大类：创建型模式：关注对象的创建过程，包括单例模式、简单工厂模式、工厂方法模式、抽象工厂模式、原型模式和建造者模式。结构型模式：关注类和对象之间的组合，包括适配器模式、桥接模式、组合模式、装饰模式、外观模式、享元模式和代理模式。行为型模式：关注对象之间的交互，包括职责链模式、命令模
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

【自然语言处理】【ChatGPT系列】大模型的涌现能力

一、简介

二、涌现能力定义

三、 Few-Shot Prompted \text{Few-Shot Prompted} Few-Shot Prompted任务

1. BIG-Bench \text{BIG-Bench} BIG-Bench

2. TruthfulQA \text{TruthfulQA} TruthfulQA

3. Grounded conceptual mappings \text{Grounded conceptual mappings} Grounded conceptual mappings

4. Multi-task language understanding \text{Multi-task language understanding} Multi-task language understanding

5. Word in Context \text{Word in Context} Word in Context

四、 Augmented Prompting \text{Augmented Prompting} Augmented Prompting策略