baidu_huihui

论文阅读-PaLM-E：多模态语言模型

摘要

1. 介绍

2. 相关工作

3. PaLM-E：一种体现的多模态语言模型

3.1 仅解码器LLM

3.2 仅限前缀解码器LLM

3.3 在机器人控制回路中体现输出：PaLM-E

4. 不同传感器模式的输入和场景表示

4.1 状态估计向量

4.2 Vision Transformer (ViT)

4.3 以对象为中心的表示

4.4 对象场景表示Transformer（OSRT）

4.5 实体转介

5 训练方法

5.1 PaLM-E

5.2 随模型冻结而变化

6. 实验

6.1 机器人环境/任务

6.2 TAMP环境

6.3. Language-Table环境

6.4 移动操作环境

6.5 执行一般视觉语言任务

6.6 执行一般语言任务

7. 实验和讨论总结

7.1 通用模型与专业模型–迁移

7.2 数据效率

7.3 保留语言能力

PaLM-E: An Embodied Multimodal Language Model

https://palm-e.github.io/assets/palm-e.pdf

https://arxiv.org/pdf/2204.02311.pdf

Danny Driess， Fei Xia ， Mehdi S. M. Sajjadi等人

Robotics at Google，TU Berlin ，Google Research

小虎AI珏爷：论文阅读：Language Models are Few-Shot Learners（巨无霸OpenAI GPT3 2020）

小虎AI珏爷：ControlNet：是时候放下画笔了，向文本到图像扩散模型添加条件控制（2023）

小虎AI珏爷：ChatGPT背后的技术之理解人类反馈强化学习（RLHF）

小虎AI珏爷：ColossalChat：完整RLHF平替ChatGPT的开源方案

00:49

00:50

00:45

摘要

大型语言模型已被证明可以执行复杂的任务。然而，在现实世界中实现一般推理，例如机器人问题，会带来接地气的挑战。论文提出了具体化的语言模型，以将真实世界的连续传感器模态直接结合到语言模型中，从而建立单词和感知之间的联系。具体语言模型的输入是多模态语句，它们交织了视觉、连续状态估计和文本输入编码。结合预训练的大型语言模型，对这些编码进行端到端训练，用于多个具体任务，包括顺序机器人操作规划、视觉问题解答和图像视频字幕描述。论文的评估表明，PaLM-E，一个单一的大型体现多模态模型，可以在多个实施例上处理来自各种观察模式的各种体现推理任务，并且进一步表现出积极的迁移：该模型受益于跨互联网规模的语言、视觉和视觉语言领域的各种联合训练。最大的模型PaLM-E-562B具有562B参数，除了接受机器人任务训练外，它是一种视觉语言通用，在OK-VQA上具有最先进的性能，并保持了日益扩大的通用语言能力。

图1:PaLM-E是用于具体推理任务、视觉语言任务和语言任务的单一通用多模态语言模型。

图1:PaLM-E是用于具体推理任务、视觉语言任务和语言任务的单一通用多模态语言模型。PaLM-E将视觉语言领域的知识转化为具体推理——从复杂动力学和物理约束环境中的机器人规划，到回答有关可观察世界的问题。PaLM-E对多模态句子进行操作，即标记序列，其中来自任意模态的输入（例如，图像、神经3D表示或状态，绿色和蓝色）与文本标记（橙色）一起插入，作为LLM的输入，进行端到端训练。

1. 介绍

大型语言模型（LLM）在各个领域表现出强大的推理能力，包括对话（Glaese等人，2022；Thoppilan等人，2022）、分步推理（Wei等人，2022年；Kojima等人，2022》）、数学问题解决（Lewkowycz等人，2022，Polu等人，2022”）和代码编写（Chen等人，2021a）。然而，现实世界中此类推理模型的局限性在于基础问题：尽管在大量文本数据上训练LLM可能会导致与我们的物理世界相关的表示，将这些表示与真实世界的视觉和物理传感器模态相连接对于解决计算机视觉和机器人学中更广泛的基础现实世界问题至关重要（Tellex等人，2020）。先前的工作（Ahn等人，2022）将LLM的输出与学习到的机器人策略和启示功能联系起来，以做出决策，但受限于LLM本身仅提供文本输入，这对于场景的几何配置很重要的许多任务来说是不够的。此外，在论文的实验中，论文表明当前最先进的视觉语言模型在典型的视觉语言任务（如视觉问题解答（VQA））上训练，不能直接解决机器人推理任务。

在本文中，论文提出了具体化语言模型，它直接结合了来自具体化代理的传感器模态的连续输入，从而使语言模型本身能够为现实世界中的顺序决策做出更为基础的推断。图像和状态估计等输入被嵌入到与语言标记相同的潜在嵌入中，并由基于Transformer的LLM的自注意力层以与文本相同的方式进行处理。论文从预训练的LLM开始，在LLM中，通过编码器注入连续输入。这些编码器被端到端地训练，以输出自然文本方面的顺序决策，该自然文本可以由具体化的代理通过调节低级策略来解释，或者给出具体化问题的答案。在各种设置中评估该方法，比较不同的输入表示（例如，视觉输入的标准与以对象为中心的ViT编码），在训练编码器时冻结与微调语言模型，并调查在多个任务上的联合训练是否能实现传输。

为了研究该方法的广度，论文对三个机器人操作领域（其中两个是真实世界中的闭环）、标准视觉语言任务（如VQA和图像字幕）以及语言任务进行了评估。结果表明，与单个任务的训练模型相比，多任务训练提高了性能。论文研究表明，跨任务的这种迁移可以导致机器人任务的高数据效率，例如，从大量训练示例中显著提高学习成功率，甚至演示了对对象或不可见对象的新组合的few-shot或zero-shot泛化。

图2:PaLM-E-562B可以进行zero-shot多模态chain-of-thought推理。

图2:PaLM-E-562B可以进行zero-shot多模态chain-of-thought推理，可以在给定图像的情况下讲述视觉条件下的笑话，并展示了一系列与机器人相关的多模态知情能力，包括感知、视觉基础对话和计划。PaLM-E还将zero-shot推广到多图像提示，尽管只针对单个图像提示进行了训练。PaLM-E还可以对带有文本交错手写数字的图像进行数学运算。此外，该模型可以在时间标注的以自我为中心的视觉上执行、zero-shot、提问和回答，类似于（Zeng等人，2022）中所示，但端到端都在一个模型中。

论文将PaLM-E缩放到562B参数，将540B PaLM（Chowdhery等人，2022）LLM和22B视觉Vision Transformer（ViT）（Deghani等人，2023）集成到目前报告的最大视觉语言模型中。PaLM-E-562B在OK-VQA（Marino等人，2019）基准上实现了最先进的性能，无需依赖特定任务的微调。虽然不是实验的重点，但论文还发现（图2）PaLM-E-562B展示了广泛的能力，包括zero-shot多模态思维链（CoT）推理、few-shot提示、无OCR数学推理和多图像推理，尽管只针对单个图像示例进行了训练。zero-shot CoT（Kojima等人，2022）最初是一个纯语言的概念，已通过任务特定程序在多模态数据上显示（Zeng等人，2022年），但据我们所知，并非通过端到端模型。

论文的主要贡献，（1）提出并证明，通过将具体数据混合到多模态大型语言模型的训练中，可以训练一个通用、迁移学习、多实施决策主体。论文表明（2）尽管当前最先进的开箱即用的通用视觉语言模型（zero-shopt）不能很好地解决具体推理问题，但有可能训练出一个合格的通用视觉模型，它也是一个有效的具体推理器。在研究如何最好地训练此类模型时，（3）引入了新的架构思想，如神经场景表示和实体标记多模态token。最后，除了将PaLM-E作为一个具体的推理器之外，论文（4）还表明，PaLM-E也是一个定量胜任的视觉和语言通用，并且（5）证明，缩放语言模型大小可以实现多模态微调，同时减少灾难性遗忘。

2. 相关工作

通用视觉语言模型。基于大语言（Brown等人，2020；Devlin等人，2018）和视觉（Dosovitskiy等人，2020）模型的成功，近年来人们对大视觉语言模型（VLM）的兴趣越来越大（Li等人，2019；Lu等人，2019年；Hao等人，2022年；Gan等人，2022）。与前辈不同，VLM能够同时理解图像和文本，并且可以应用于诸如视觉问答（Zhou等人，2020；Zellers等人，2021b）、字幕（Hu等人，2022）、光学字符识别（Li等人，2021）和物体检测（Chen等人，2021）等任务。整合图像的方法各不相同。例如，Alayrac等人（2022）使用直接关注单个上下文图像的机制来增强预训练的语言模型。相比之下，PaLM-E将图像和文本表示为潜在向量的“多模态句子”，允许它在句子的任何部分以灵活的方式处理多个图像。与论文的工作更密切相关的是Frozen（Tsimpoukelli等人，2021），其中视觉编码器参数通过通过冻结LLM的反向传播进行优化（Lu等人，2021）。受这项工作的启发，论文通过引入替代输入模态（例如，神经场景表示）在更大范围内研究设计，并且论文提出的方法在VQAv2基准上以超过45%的经验表现优于Frozen。更重要的是，论文证明PaLM-E不仅适用于感知任务，也适用于具体任务。

动作输出模型。之前的工作侧重于将具体环境中的视觉和语言输入与直接行动预测目标相结合（Guhur等人，2022年；Shridhar等人，2022b；a；Zhang&Chai，2021；Silva等人，2021；Jang等人，2022.Nair等人，2022.Lynch等人，2022,Brohan等人，2020年）。在这些方法中，VIMA（Jiang等人，2022）探索了类似于PaLM-E的多模态提示。在这些作品中，语言的作用被描述为任务规范也许是最恰当的。相反，PaLM-E以文本形式生成高级指令；在这样做的过程中，模型能够自然地根据自己的预测进行调整，并直接利用嵌入其参数中的世界知识。这不仅实现了具体的推理，而且还实现了问题的回答，正如论文的实验所证明的那样。在输出动作的作品中，可能最相似的是Gato（Reed等人，2022）中提出的方法，该方法与PaLM-E一样，是一种通用的多实施体代理。与Gato相比，论文展示了不同任务之间的正向迁移，其中模型受益于跨多个领域的不同联合训练。

具体任务规划中的LLM。已经提出了几种方法来在具体领域中利用LLM。尽管许多工作侧重于理解自然语言目标（Lynch&Sermanet，2020；Shridhar等人，2022a；Nair等人，2022；Lynch等人，2022），但很少有人将自然语言作为规划本工作重点的代表。LLM包含大量关于世界的内部化知识（Bommasani等人，2021），但如果没有基础，生成的计划可能无法执行。一项研究采用了提示，通过利用LLM生成与合格指令集之间的语义相似性（Huang等人，2022b），结合启示功能（Ahn等人，2022），视觉反馈（Huang等，2022c），生成世界模型（Nottingham等人，2023；Zellers等人，2021a），在图形和地图上进行规划（Shah等人，2022；Huang等人，2022a）、视觉解释（Wang等人，2023）、程序生成（Liang等人，2022年；Singh等人，2022），或向提示中注入信息（Zeng等人，2022。相比之下，PaLM-E被训练为直接生成计划，而无需依赖辅助模型进行接地。这反过来又使存储在预训练的LLM中的丰富语义知识能够直接集成到规划过程中。

除少数例外情况外，许多此类工程中使用的LLM的参数均按原样使用，无需进一步训练。在LID（Li等人，2022）中，该约束被放松，LLM参数被微调以产生用于生成高级指令的规划网络。（SL）3（Sharma等人，2021）解决了同时微调两个LLM的更具挑战性的任务：一个生成高级指令的规划网络，和一个选择行动的低级政策网络。论文研究了一个跨多种模式的通用多实施模式。

3. PaLM-E：一种体现的多模态语言模型

PaLM-E的主要架构思想是将连续的、具体化的观察（如图像、状态估计或其他传感器模态）注入预训练的语言模型的语言嵌入空间。这是通过将连续观察结果编码为与语言标记的嵌入空间具有相同维度的向量序列来实现的。因此，连续信息以类似于语言标记的方式注入到语言模型中。PaLM-E是一种仅用于解码器的LLM，它在给定前缀或提示的情况下自动生成文本补全。称论文的模型为PaLM-E，因为论文使用PaLM（Chowdhery等人，2022）作为预训练语言模型，并使其具体化。

PaLM-E的输入包括文本和（多个）连续观察。对应于这些观察的多模态标记与文本交错，以形成多模态句子。这样一个多模态句子的例子是问：＜img 1＞和＜img 2＞之间发生了什么？其中＜img i＞表示图像的嵌入。PaLM-E的输出是模型自回归生成的文本，它可以是问题的答案，也可以是PaLM-E以文本形式生成的一系列决策，这些决策应由机器人执行。当PaLM-E负责制定决策或计划时，论文假设存在一个低级策略或计划器，可以将这些决策转化为低级行动。先前的工作讨论了训练此类低级政策的各种方法（Lynch&Sermanet，2020；Brohan等人，2022），论文直接使用这些先前的方法而不进行修改。

3.1 仅解码器LLM

仅解码器大型语言模型（LLM）是经过训练的生成模型，用于预测一段文本 w1:L=(w1,…,wL) 的概率 p(w1:L) ，该文本由一系列标记 wi∈W 表示。(1)p(w1:L)=∏l=1LpLM(wl∣w1:l−1)其中pLM是大型Transformer网络。

3.2 仅限前缀解码器LLM

由于LLM是自回归的，预训练的模型可以以前缀 w1:n 为条件，而无需更改架构，

(2)p(wn+1:L∣w1:n)=∏l=n+1LpLM(wl∣w1:l−1)

令牌嵌入空间。标记 wi 是固定词汇W的元素，固定词汇W是与自然语言中的（子）单词相对应的离散有限集合。在内部，LLM通过 γ:W→X, i.e. pLM(wl∣x1:l−1) with xi=γ(wi)∈Rk 将 wi 嵌入到单词令牌嵌入空间 X⊂Rk 中。映射 γ 通常表示为大小为 k×|W| 的大嵌入矩阵，并进行端到端的训练。在论文的案例中， |W|=256000 （Chowdhery等人，2022）。

多模态句子：连续观察的注入。通过跳过离散令牌级别并将连续观察直接映射到语言嵌入空间 X 中，可以将诸如图像观察的多模态信息注入到LLM中。为此，训练编码器 ϕ:O→Xq 将（连续）观测空间O（详见第4节）映射为 X 中q个向量序列。然后将这些向量与普通嵌入文本标记交错，以形成LLM的前缀。这意味着前缀中的每个向量 xi 由单词标记嵌入器 γ 或编码器 ϕi 构成：

(3)xi={γ(wi) if i a is text token, or ϕj(Oj)i if i corresponds to observation Oj注意，单个观测 Oj 通常被编码为多个嵌入向量。可以在前缀中的不同位置交错不同的编码器 ϕi ，以组合例如来自不同观测空间的信息。以这种方式将连续信息注入LLM将重用其现有的位置编码。与其他VLM方法（例如，（Chen等人，2022））相比，观察嵌入没有插入固定位置，而是动态地放置在周围文本中。

3.3 在机器人控制回路中体现输出：PaLM-E

PaLM-E是一种生成模型，基于多模型句子作为输入生成文本。为了将模型的输出连接到实施例。论文区分了两种情况。如果任务可以通过仅输出文本来完成，例如，在具体的问题回答或场景描述任务中，则模型的输出被直接认为是任务的解决方案。

或者，如果PaLM-E用于解决一个具体的计划或控制任务，它会生成一个文本来调节低级命令。特别是，假设可以使用一些（小的）词汇表来执行低级技能的策略，而PaLM-E的成功计划必须包含一系列此类技能。请注意，PaLM-E必须根据训练数据和提示自行确定哪些技能可用，并且不使用其他机制来约束或过滤其输出。尽管这些策略受语言限制，但它们无法解决长期任务或接受复杂指令。因此，PaLM-E被集成到一个控制回路中，在该回路中，机器人通过低级策略执行其预测决策，从而产生新的观察结果，如果需要，PaLME能够根据这些观察结果重新规划。从这个意义上讲，PaLME可以理解为一种高级策略，它对低级策略进行排序和控制。

4. 不同传感器模式的输入和场景表示

在本节中，将描述结合到PaLM-E中的各个模态，以及如何设置它们的编码器。为每个编码器 ϕ:O→X 提出了不同的架构选择将相应的模态映射到语言嵌入空间中。研究2D图像特征的状态估计向量、Vesrion Transformer（ViTs）（Dosovitskiy等人，2020；Chen等人，2022；Ryoo等人，2021）和3D-ware对象场景表示Transformer（OSRT）（Sajjadi等人，2022a）。除了全局表示输入场景的编码器之外，论文还考虑以对象为中心的表示，这些表示将观察结果转化为表示场景中各个对象的标记。

4.1 状态估计向量

状态向量，例如来自机器人或对象的状态估计，可能是输入到PaLM-e中最简单的。设 s∈RS 是描述场景中对象状态的向量。例如，s可以包含这些对象的姿势、大小、颜色等。然后，MLP ϕstate 将状态s映射到语言嵌入空间。

4.2 Vision Transformer (ViT)

ViT ϕ~ViT （Dosovitskiy等人，2020）是一种将图像I映射为多个令牌嵌入 x~1:m=ϕ~ViT(I)∈Rm×k~ 的Transformer体系结构，这两者都已经在图像分类上进行了预训练。论文考虑了几个变体，包括Chen等人（2022）的40亿参数模型（称之为ViT-4B）和类似的220亿参数模型ViT22B（Deghani等人，2023），这两个模型都已在图像分类上进行了预训练。进一步研究了ViT令牌学习者体系结构（ViT+TL）（Ryoo等人，2021），它是从头开始的端到端训练。注意，ViT嵌入的维数与语言模型的维数不一定相同。因此，将每个嵌入投影到 xi=ϕViT(I)i=ψ(ϕ~ViT(I)i) 中，ψ是一个学习的仿射变换。

4.3 以对象为中心的表示

与语言不同，视觉输入不是预先构造成有意义的实体和关系的：虽然ViT可以捕捉语义，但表示的结构类似于静态网格，而不是对象实例的集合。这对与经过符号预训练的LLM接口以及解决需要与物理对象交互的具体推理都提出了挑战。因此，论文还探索了结构化编码器，其目的是在将视觉输入注入LLM之前将其分离成不同的对象。给定真是对象实例掩码 Mj ，对于对象j，可以将ViT的表示分解为 x1:mj=ϕViT(Mj∘I) 。

4.4 对象场景表示Transformer（OSRT）

另一种不需要真实标注分割的方法是OSRT（Sajjadi等人，2022a）：它们不是依赖于关于对象的外部知识，而是通过架构中的归纳偏见以无监督的方式发现（Locatello等人，2020）。基于SRT（Sajjadi等人，2022b），OSRT通过新的视图合成任务学习域内数据上的3D中心神经场景表示。它的场景表示由对象槽 oj=ϕ¯OSRT(I1:v)j∈Rk→ 组成。将这些槽中的每一个投影到具有MLP ψ的 x1:mj=ψ(ϕ¯OSRT(I1:v)j) 。请注意，每个对象总是标记为多个嵌入，即 ψ:Rk¯→Rm×k 映射成m个嵌入。

4.5 实体转介

对于具体的计划任务，PaLM-E必须能够在其生成的计划中引用对象。在许多情况下，包括大多数实验，场景中的对象可以通过其独特的财产在自然语言中识别。然而，也存在这样的设置，即对象不容易通过语言用几个词来识别，例如，如果在不同位置的同一颜色的表上有多个块。对于以对象为中心的表示（如OSRT），在输入提示中标记与对象对应的多模态标记，如下所示：对象1是＜obj 1＞。对象j是＜obj j＞。这使得PaLM-E能够在其生成的输出语句中通过obj j形式的特殊标记来引用对象。在这种情况下，假设低级策略也对这些令牌进行操作。

5 训练方法

5.1 PaLM-E

PaLM-E是在 D={(I1:uii,w1:Lii,ni)}i=1N 形式的数据集上训练的，其中每个示例i由 ui 多连续观察 Iji 、文本 w1:Lii 和索引 ni 组成。尽管是仅解码器模型，但文本由前缀部分和索引 ni 构成，索引 ni 由多模态句子形成，预测目标仅包含文本标记。因此，损失函数是在各个非前缀令牌 wni+1:Lii 上平均的交叉熵损失。为了在模型中形成多模态句子，论文在文本中有特殊的标记，这些标记在文本中的位置被编码器的嵌入向量所取代。将PaLM-E基于PaLM的预训练8B、62B和540B参数变体，作为仅解码器LLM，通过输入编码器将连续观测值注入其中。这些编码器要么经过预训练，要么从头开始训练，见第4节。论文将结合4B ViT的8B LLM称为PaLM-E12B，类似地，将62B LLM+22B ViT称为PaLM-E-84B，将540B LLM+202B ViT称作PaLM-E-562B。

5.2 随模型冻结而变化

大多数架构由三个部分组成，编码器 ϕ~ 、投影器 ψ 和 LLM pLM 。在训练PaLM-E时，一种方法是更新所有这些组件的参数。然而，如果提供适当的提示，LLM显示出令人印象深刻的推理能力（Wei等人，2022）。因此，论文研究是否有可能冻结LLM并仅训练输入编码器，如果有，不同的模态编码器如何比较。在这种情况下，编码器必须产生嵌入向量，使得冻结的LLM基于观测，并且还将关于实施例的能力的信息传播给LLM。训练这种编码可以理解为一种与正常软提示相关的输入条件软提示形式（Tsimpoukelli等人，2021）（Lester等人，2021）。在 ϕOSRT 的实验中，论文还冻结了槽表示，即我们只更新了充当OSRT和LLM之间接口的小投影器 ψ 。

6. 实验

实验考虑了三个不同机器人实施例中的不同机器人（移动）操纵任务，在模拟中，使用两个不同的真实机器人虽然不是工作的重点，但论文还对PaLM-E进行了一般视觉语言任务的评估，如视觉问题解答（VQA）、图像字幕和既定语言模型任务。

图3:PaLME演示的迁移学习概述：在三个不同的机器人领域中，使用PaLM和ViT预训练以及机器人和通用视觉语言数据的完全混合，与仅在各自的领域内数据上进行训练相比，可以显著提高性能。

论文将实验研究分为两大类。首先，比较了第4节中关于性能、泛化和数据效率的不同输入表示。第二个实验线程集中于一个架构，即主要的PaLM-E版本，由预训练的ViT和PaLM语言模型组成，该模型将原始图像作为连续输入。这里，论文表明，在多个数据集的混合上、跨不同任务和跨机器人实施例训练的单个模型可以同时在所有这些任务上实现高性能。至关重要的是，论文研究了在这些数据集上的联合训练是否能够实现迁移（图3）：尽管任务和实例不同，但通过对混合任务的训练，单个任务的性能会提高。论文研究了联合训练策略和模型参数大小对性能、泛化和数据效率的影响。最后，考虑冻结LLM并仅仅训练向LLM注入vision的ViT是否是一条可行的道路。

作为基线，考虑了最先进的视觉语言模型PaLI（Chen等人，2022），该模型尚未在实例机器人数据上进行训练，以及SayCan算法（Ahn等人，2022年），该算法提供了预言启示。

6.1 机器人环境/任务

论文的三个机器人环境（图1）包括一个任务和运动规划（TAMP）域，其中机器人必须操纵（抓取和堆叠）对象，一个桌面推动环境，以及一个移动操纵域。在每个领域中，PaLM-E都根据该领域的专家数据进行训练。在许多情况下，每个任务的数据量都很稀少。TAMP任务涉及可能计划上的大型组合数学，许多决策序列是不可行的。PaLM-E必须生成包含多个步骤的计划，具有复杂的决策边界。多对象桌面推送环境取自公开可用的语言表数据集（Lynch等人，2022），具有挑战性，因为它包括多个对象、大量语言和复杂的推送动态。对于TAMP和语言表环境，PaLM-E都必须考虑对象的姿势。仅仅知道表上有哪些对象或知道它们的粗略关系是不够的，关于场景几何体的更精细的细节对于解决任务非常重要。最后，考虑一个类似于SayCan（Ahn等人，2022）的移动操作领域，机器人必须解决厨房环境中的各种任务，包括在抽屉中找到物体，将其拣起来，并将其带给人类。对于所有领域，都考虑这些环境中的规划和VQA任务。对于移动操作和语言表环境，PaLM-E被集成到控制回路中以在现实世界中执行计划，并且必须在存在外部干扰或低级控制策略故障的情况下调整计划。

表1：TAMP环境中不同输入表示的比较。

表1：TAMP环境中不同输入表示的比较（就成功率而言），其中来自TAMP的数据仅占总训练数据大小的1%（即，p1、p2各320个样本）。PaLM-E在具体的VQA和规划任务上优于PaLI和SayCan。观察到跨域迁移，因为在全数据混合上训练的具有ViT-4B的PaLM-E提高了规划性能。尽管OSRT没有使用大规模数据，但它为学习提供了最有效的输入编码。（GT）指提供的以地面真相为中心的信息。在所有实验中，LLM都是冻结的。非以对象为中心的ViT-4B变体利用颜色来参考对象，因此q1无法在此处进行评估。LLM在这些实验中被冻结（除了没有经过预训练的情况）。

6.2 TAMP环境

表7：不同输入表示的TAMP环境的成功率。场景中的3-5个对象对应于训练分布。OOD任务指的是通过颜色引用对象的分发外任务，尽管在训练数据中，在以对象为中心的情况下，它们被其特殊标记objj引用。SayCan基线（Ahn等人，2022）利用了预言，一步启示功能。

表7显示了TAMP环境的规划成功率和VQA性能。LLM在这些实验中被冻结（对于预训练的LLM）。对于表7中报告的结果，输入表示在仅包含TAMP环境的96000个训练场景的数据集上进行训练，即没有其他数据是混合的一部分。对于场景中的3-5个对象（与训练集中的数量相同），大多数输入表示的表现类似。然而，当增加对象的数量时，事实证明，使用预训练的LLM可以显著提高性能，尤其是在实体引用时。此外，论文表明，与8B变体相比，62B LLM表现出更好的分布外泛化，而未经预训练的LLM基本上不表现出分布外泛化。SayCan基线（Ahn等人，2022）利用了预言启示功能，但很难解决这一环境，因为启示功能仅限制了当前可能的情况，但信息不足，无法让LLM在TAMP环境中构建长期计划。

表1显示了在1%的数据集上训练时3-5个对象的结果，这对应于两个计划任务中的每个任务的320个示例。在这里，看到输入表示之间存在显著差异，特别是对于规划任务。首先，在状态输入的低数据状态下，预训练LLM是有益的。第二，两种ViT变体（ViT+TL、ViT-4B）在解决这一小数据的规划任务方面表现不佳。然而，如果我们在所有其他机器人环境以及通用视觉语言数据集（ViT-4B通用型）上进行联合训练，那么ViT-4B的性能将提高一倍以上。这显示了不同机器人实施例和任务之间的显著传递效果。最后，使用OSRT作为输入表示可获得最佳性能，展示了3D感知对象表示的优势。我们在这里还观察到另一个迁移实例：当论文删除TAMP VQA数据并仅对640个计划任务示例进行训练时，性能会有（轻微）下降。没有在机器人数据上训练的最先进视觉语言模型PaLI（Chen等人，2022）无法解决任务。论文只对 q2 （表上的左/右/中心对象）和 q3 （垂直对象关系）进行了评估，因为它们最类似于典型的VQA任务。

图4：PaLM-E-12B在TAMP环境中的规划成功结果（1%数据），比较了PaLM-E模型的效果（i）使用完整的训练混合物，（ii）预训练（ViT和PaLM），以及（iii）冻结或微调语言模型。从完全混合物中转移特别有效。请注意，对于此处评估的任务，完全混合仅包含1%的训练数据（每个320个示例）。所示为任务p1、p2的

6.3. Language-Table环境

表2：Lynch等人（2022）在模拟环境中规划任务的结果。

表3：表2的任务提示。

表2报告了Language-Table环境中长期任务的成功率（Lynch等人，2022）。PaLM-E集成到一个控制回路中，该回路将长期任务和当前图像作为输入，并输出低级别策略的指令。论文看到，互联网规模的视觉和语言联合训练为机器人规划带来了一个更有效的模型，特别是在每个任务只有10个演示的few-shot模式下。将12B模型扩展到84B模型可以改进3项任务中的2项。与TAMP环境一样，SayCan和zero-shot PaLI都不有效，无法解决最简单的测试任务。

图5：单个PaLM-E模型指导两个真实机器人的低级策略。图中显示的是厨房中的长视野移动操作任务，以及桌面操作机器人的oen-shot/zero-shot概括。

图6：一般语言任务的结果（NLG=自然语言生成）：规模的增加导致相应的PaLM-E模型与其继承的PaLM模型之间的灾难性遗忘减少。

图7:PaLM-E交互式地指导真实机器人完成语言表上的长时间操纵任务，同时保持对对抗性干扰的鲁棒性。证据表明，PaLM-E能够进行one-shot和zero-shot推广。

真实机器人结果和few-shot泛化。（在图7，a）中，看到PaLM-E能够引导真正的机器人完成多阶段桌面操作任务，同时保持对对抗性干扰的鲁棒性。给定观察到的图像和长期目标，例如“按颜色将块分类到角落”，PaLM-e以1Hz输出语言子目标到Lynch等人（2022）的策略，以5Hz输出低级机器人动作。之前的工作（Lynch等人，2022）改为让人在循环中交互指导子目标和纠正。在图5中，b）看到PaLME能够进行few-shot和zero-shot次学习。在这里，在100个不同的长期任务上对PaLM-E进行了微调，每个任务都有一个训练示例，例如“将所有块放在中心”，“将蓝色块从线中移除”。还发现，PaLM-E可以将zero-shot推广到涉及新对象对的任务（图7，c），以及涉及原始机器人数据集或微调数据集中看不到的对象的任务，例如玩具乌龟（图5，d）。

6.4 移动操作环境

论文演示了PaLM-E在具有挑战性和多样性的移动操作任务中的性能。论文在很大程度上遵循了Ahn等人（2022）的设置，其中机器人需要根据人类的指令规划一系列导航和操纵动作。例如，给定“我把饮料洒了，你能给我拿点东西来清理吗？”的指令，机器人需要计划，1.找块海绵，2.拿起海绵，3.把它带给用户，4.放下海绵。”受这些任务的启发，论文开发了3个用例来测试PaLM-E的具体推理能力：启示预测、故障检测和长期规划。低级策略来自RT-1（Brohan et al.，2022），这是一种Transformer模型，它采用RGB图像和自然语言指令，并输出末端效应器控制命令。

表4：移动操作环境：故障检测和启示预测（F1得分）。

可承受性预测。论文研究了PaLM-E在可承受性预测方面的性能，即低级别策略的技能是否可以在当前环境中执行。这可以表述为VQA问题Given＜img＞。Q：这里有可能＜skill＞吗？。PaLM-E优于PaLI（zero-shot），以及使用QT-OPT训练的值函数的阈值（表4）。

真正的机器人成果：长远规划。最后，使用PaLM-E为移动操作任务执行端到端的具体规划。此任务的提示结构为Human:Robot:。我看到。PaLM-E被训练以生成计划的下一步，条件是所采取步骤的历史和场景的当前图像观察。在解码每个步骤之后，论文将它们映射到Ahn等人（2022）中定义的低级策略。该过程以自回归方式进行，直到PaLM-E输出“终止”。通过使用来自（Ahn等人，2022）的运行来训练模型，该运行包含2912个序列。论文在真实厨房中对该模型进行了定性评估，发现该模型可以执行长期移动操作任务，即使在对抗性干扰下也是如此（图5）。

6.5 执行一般视觉语言任务

表5：一般视觉语言任务的结果。对于通用模型，它们在不同的评估中是相同的检查点，而特定于任务的微调模型对不同的任务使用不同的微调模型。COCO使用Karpathy拆分。†是OK-VQA上的32次拍摄（未微调）。

虽然这不是论文工作的重点，但在表5中报告了一般视觉语言任务的结果，包括OKVQA（Marino等人，2019）、VQA v2（Goyal等人，2017）和COCO字幕（Chen等人，2015）。单一的、通用的PaLM-E-562B模型在OK-VQA上实现了最高的报告数量，包括优于专门针对OK-VQA进行微调的模型。与（Tsimpoukelli等人，2021）相比，据我们所知，PaLM-E在VQA v2上取得了最高的性能，拥有一个冻结的LLM。这证明了PaLM-E是一个有竞争力的视觉语言通才，同时也是机器人任务的具体推理者。

6.6 执行一般语言任务

表8：原始PaLM模型和相关PaLM-E（未冻结）模型的NLU和NLG任务的全语言评估任务结果。具有冻结LLM的PaLM-E模型具有与其对应的基础PaLM模型相同的性能。

表8报告了PaLM-E在自然语言理解（NLU）和自然语言生成（NLG）任务的21个通用语言基准上的平均性能。值得注意的趋势是，随着模型规模的增加，对语言能力的灾难性遗忘大大减少。如图6所示，对于最小的（PaLM-E-12B）模型，其NLG性能（相对）的87.3%在多模式训练期间下降，而对于最大的模型（PaLME-562B），仅3.9%下降。

7. 实验和讨论总结

7.1 通用模型与专业模型–迁移

表9：移动操作环境：故障检测，显示个人精度和召回分数。

如图3所示，论文在这项工作中展示了几个迁移实例，这意味着与单独在不同任务上训练的模型相比，在不同任务和数据集上同时训练的PaLM-E会显著提高性能。在图4中，在“完全混合”上进行的联合训练取得了两倍以上的成绩。在表9中，添加LLM/ViT预训练，以及对完全混合的训练，而不是仅使用移动操作数据，可以看到性能的显著提高。对于表2中的语言表实验，观察到类似的行为。

7.2 数据效率

与现有的大量语言或视觉语言数据集相比，机器人数据的丰富程度要低得多。如上一段所述，论文的模型展示了迁移能力，这有助于PaLM-E从机器人领域的极少数训练示例中解决机器人任务，例如，语言表的10到80或TAMP的320。OSRT结果显示了使用几何输入表示的数据效率的另一实例。未来工作的一个有希望的机会是将其与受益于大规模视觉数据的方法相结合。

7.3 保留语言能力

论文展示了在多模式训练期间保持模型语言能力的两种途径。作为一种选择，冻结LLM并仅训练输入编码器是构建具体语言模型的可行途径，尽管这种方法偶尔会在机器人任务中遇到困难（表2）。作为一种替代途径，当整个模型进行端到端训练时，随着模型规模的增加，模型保留了更多的原始语言性能（图6）。

你可能感兴趣的:(论文阅读,palm,语言模型,多模态)

autoMate - AI实现电脑任务自动化的本地工具小众AI AI开源人工智能自动化运维
GitHub：https://github.com/yuruotong1/autoMate更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AIautoMate是一款由开源开发的本地自动化工具，以AI+RPA（人工智能+机器人流程自动化）为核心特色。它将大型语言模型的智能理解与RPA的流程执行能力结合，用户只需用自然语言描述任务，如“整理桌面文件”或“生成周报”，即可
Towards Multimodal Large-Language Models for Parent-Child Interaction: A Focus on Joint Attention UnknownBody LLM Daily Multimodal 语言模型人工智能大数据
摘要共同注意是儿童早期语言发展的关键组成部分，也是亲子互动有效性的重要指标。然而，目前对共同注意的检测和分析研究仍然有限，尤其是在多模态大语言模型（MLLMs）方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频，评估了多模态大语言模型理解共同注意的能力。这些标注识别出了共同注意程度高和低的片段，作为评估模型解释能力的基准。我们的研究结果显示，由于当前的多模态大语言模型对儿童发起的眼神交
哪个AI论文生成助手好用？5 款AI论文工具深度评测 AI论文图鉴人工智能
2025年，AI论文写作工具如雨后春笋般涌现，迅速在学术圈走红。身为一个常被论文写作困扰的“懒人”，我对这些工具的实际表现充满好奇。于是，我亲测了五款当下国内外最热门的AI论文写作助手，从功能、交互、写作水平、写作效率等维度进行全面评测，结果令人惊喜。相信这篇文章能为仍在观望的你带来新的启发与认识。这次测评，我挑选了五款极具代表性的AI工具，以“基于大语言模型的医疗诊断研究”为主题，看它们如何大显
大语言模型(LLM)入门学习路线图_llm教程，从零基础到精通，理论与实践结合的最佳路径！ AGI学习社语言模型学习人工智能 LLM 大模型大数据自然语言处理
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
ollama教程——使用Ollama与LangChain实现Function Calling(函数调用)的详细教程（二）【附完整源码】 walkskyer ollama入门教程 langchain ollama LLM
ollama入门系列教程简介与目录相关文章:Ollama教程——入门：开启本地大型语言模型开发之旅Ollama教程——模型：如何将模型高效导入到Ollama框架Ollama教程——兼容OpenAIAPI：高效利用兼容OpenAI的API进行AI项目开发Ollama教程——使用LangChain：Ollama与LangChain的强强联合Ollama教程——生成内容API：利用Ollama的原生AP
程序员必看！DeepSeek隐藏用法大揭秘：从代码优化到多模态开发，这些技巧让你少熬三夜班后端
最近在程序员圈子里，有个同事老张的故事特别火。他原本每周要花20小时写接口文档，自从用上DeepSeek的代码补全功能，现在喝着咖啡看AI自动生成Swagger注释——这让我想起刚入行时，为了调通一个正则表达式熬夜到凌晨三点的自己。今天咱们不聊那些官方说明书，就说点真正能让键盘冒火星的实战技巧。藏在代码补全里的"作弊码"很多人以为DeepSeek就是个加强版搜索引擎，其实它对代码的理解远超想象。比
如何在DigitalOcean的H100 GPU服务器上运行DeepSeek R1 模型 DO_Community 教程 DeepSeek GPU ai 大语言模型人工智能
在DigitalOcean，我们一直在关注开源大语言模型（LLMs）和商业封闭模型之间差距的不断缩小。其中一个最关键的能力就是“推理”，也就是用合乎逻辑、讲得通的方式思考问题。以前，大语言模型的表现比较单一。只要给它们一个提示，它们就会直接给出答案，根本没有什么“二次思考”的过程，也没有什么机制能让模型在出错时自己纠正。这就让它们在遇到那些指令本身就可能有问题的情况时，很难进行深入推理、提出疑问或
首个国产AI编辑器Trace的安装及使用教程除了编程啥都会编辑器
关于国产AI编辑器Trace安装教程进入Trace官网，下载适合你系统的安装包。Trace官网https://www.trae.com.cn/download双击安装包进行安装安装完成打开Trace，点击登录登录成功后就可以使用大语言模型进行项目开发了！
大语言模型原理基础与前沿双层路由多模态融合、多任务学习和模块化架构 AI智能涌现深度研究 AI大语言模型和知识图谱融合 Python入门实战 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿：双层路由多模态融合、多任务学习和模块化架构关键词：大语言模型、双层路由、多模态融合、多任务学习、模块化架构、神经网络、自然语言处理1.背景介绍大语言模型（LargeLanguageModels，LLMs）已经成为人工智能和自然语言处理领域的重要研究方向。随着GPT-3、BERT等模型的出现，大语言模型在各种任务中展现出了惊人的性能。然而，随着模型规模的不断扩大和应用场景的
“大语言模型微调”（Fine-tuning）与“大语言模型应用”（LLM Applications）之间的区别 AI Echoes 人工智能机器学习深度学习
1.概念与定义大语言模型微调微调指的是在一个经过大规模预训练的通用语言模型基础上，利用针对性较强的小规模数据集对模型进行进一步训练，从而使模型在特定领域或任务上表现得更优秀。目标：使模型更好地适应特定任务（如医疗问答、法律咨询、编程辅助等），提高准确性和专业性。方法：可以是全参数微调，也可以采用参数高效微调（如LoRA、Adapter、PrefixTuning等），后者只调整部分参数而保持原有权重
LangChain 发布政策详解 VYSAHF langchain 人工智能深度学习 python
技术背景介绍LangChain是一个用于构建和部署大型语言模型（LLM）应用的生态系统。它由多个组件包组成，例如langchain-core、langchain、langchain-community、langgraph和langserve等。随着应用需求的快速变化，LangChain的开发与发布策略也相应调整，以便更好地服务于用户社区。核心原理解析LangChain生态系统采用语义版本控制（Se
领域大模型之微调技术和最佳实践程序员莫玛人工智能深度学习语言模型金融
BERT和GPT-3等语言模型针对语言任务进行了预训练。微调使它们适应特定领域，如营销、医疗保健、金融。在本指南中，您将了解LLM架构、微调过程以及如何为NLP任务微调自己的预训练模型。-介绍-大型语言模型（LLM）的特别之处可以概括为两个关键词——大型和通用。“大”是指它们训练的海量数据集及其参数的大小，即模型在训练过程中学习的记忆和知识;“通用”意味着他们具有广泛的语言任务能力。更明确地说，L
利用AI大模型，破解医疗数据困境_医疗ai大模型喝不喝奶茶丫人工智能语言模型大模型深度学习 AI大模型 AI 机器学习
随着AI技术飞跃，医疗基础模型在2023年逐渐涌现。它们不仅能深刻理解临床数据，还能生成富有洞见的医疗知识。从影像诊断到药物研发，这些模型正逐步改写医疗服务的未来。然而，数据量有限、标注成本高、多模态数据融合困难等挑战仍旧存在。如何在确保隐私的前提下，高效利用有限的医疗数据？医疗数据困境新解：基础模型医疗诊断对减少疾病发生、降低死亡率、提高民众健康水平具有重要意义。高质量的医疗数据在其中扮演了不可
llama.cpp框架下GGUF格式及量化参数全解析 Black_Rock_br 人工智能
前言：在人工智能领域，语言模型的高效部署和推理一直是研究热点。随着模型规模的不断扩大，如何在有限的硬件资源上实现快速、高效的推理，成为了一个关键问题。`llama.cpp`框架以其出色的性能和灵活性，为这一问题提供了有效的解决方案。其中，GGUF格式和模型量化参数是实现高效推理的重要技术手段。本文将对`llama.cpp`框架下的GGUF格式及量化参数进行详细解析，帮助读者更好地理解和应用这些技术
如何对大模型进行微调？从原理到实战全解析挣扎与觉醒中的技术人人工智能外包转型集成学习 chatgpt gpt-3 软件工程
随着大语言模型（LLM）的快速发展，微调（Fine-tuning）已成为将通用模型转化为垂直领域专家的核心技术。本文将从原理、方法到实战步骤，结合OpenAI、HuggingFace等平台的最佳实践，详解大模型微调全流程。文末附赠独家资料包，助你快速上手！一、什么是大模型微调？微调指在预训练大模型（如GPT-3.5、LLaMA）的基础上，使用特定领域的数据进行二次训练，使模型适应新任务或领域需求。
Gemini 2.0 Flash dev.null AI python
Gemini2.0Flash是Google最新推出的AI语言模型，旨在提升速度和效率，满足各种任务需求，包括写作、规划、学习和图片生成等。citeturn0search3Gemini2.0Flash的主要特性包括：低延迟和高性能：专为低延迟和高性能设计，适用于需要快速处理大量数据的任务。citeturn0search4多模态输入：支持多种输入形式，包括文本、图片、音频和视频，能够处理多
使用Activeloop Deep Lake构建深度学习数据仓库与向量存储 dgay_hua 深度学习人工智能 python
技术背景介绍随着深度学习技术的发展，数据的存储与管理成为了一个重要的问题。尤其是对于需要处理大量数据的应用，例如自然语言处理和图像识别，传统的数据存储方式已经无法满足需求。ActiveloopDeepLake是专为深度学习设计的数据仓库，可以作为向量存储使用，支持多模态数据的存储和处理，并且可以直接用于细调大型语言模型（LLMs）。此外，它还提供自动版本控制，无需依赖其他服务，兼容主要云服务提供商
从零起步：LangChain ChatPromptTemplate基础使用软件不硬 langchain
在上篇文章中，我们已经学习PromptTemplate。现在，我们继续学习ChatPromptTemplate。ChatPromptTemplate是LangChain框架中用于构建对话提示的强大工具。它专为多轮对话场景设计，能将不同角色的消息整合为连贯提示，助力开发者精准引导语言模型生成符合预期的回复。通过定义角色、消息内容及灵活的模板变量，ChatPromptTemplate让创建复杂对话提示
多模态模型在做选择题时，如何设置Prompt，如何精准定位我们需要的选项暗巷提灯 prompt
我们这里以Qwen2-VL-7B-instruct为例：假设我们需要分析一张图片的情绪（从现有的情绪中进行选择），并且我们需要它以思维链的形式展现出来，我们可以这样设置prompt：emotion6_CoT="""Analyzethegivenimageanddeterminetheemotionitrepresents.Emotionaloptions:(A)anger(B)disgust(C)
如何添加示例到提示中进行查询分析 dgay_hua windows python linux
在我们的查询分析变得越来越复杂时，LLM（大型语言模型）可能难以理解在某些场景下到底应该如何响应。为了提升性能，我们可以在提示中添加示例来指导LLM。在本文中，我们将演示如何为我们构建的LangChainYouTube视频查询分析器添加示例。技术背景介绍随着查询分析的复杂度增加，LLM可能无法准确识别用户意图并生成对应的高质量查询。通过在提示中添加具体示例，我们可以向模型提供引导，帮助其更好地理解
大语言模型原理基础与前沿挑战与机遇 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿挑战与机遇1.背景介绍大语言模型（LargeLanguageModels,LLMs）是近年来人工智能领域的一个重要突破。它们通过深度学习技术，特别是基于变换器（Transformer）架构的模型，能够在自然语言处理（NLP）任务中表现出色。大语言模型的出现不仅推动了学术研究的发展，也在实际应用中展现了巨大的潜力。1.1大语言模型的起源大语言模型的起源可以追溯到早期的统计语言
AI Prompt 提示词工程入门指南：新手小白快速上手机器学习司猫白人工智能 prompt
近年来，人工智能（AI）发展迅猛，特别是大语言模型（LLMs）（如ChatGPT、Claude、Gemini、Llama等）的广泛应用，让人们可以用自然语言与AI进行互动。而提示词工程（PromptEngineering），即如何设计有效的提示词，已经成为一项重要技能。本篇博客专为新手小白打造，帮助你快速掌握Prompt工程的基础，学会如何撰写高质量的提示词，让AI更精准地理解你的需求，并产出最优
LLM Weekly（2025.02.17-02.23） UnknownBody LLM Daily LLM Weekly 人工智能自然语言处理
本文是LLM系列文章，主要是针对2025.02.17-02.23这一周的LLM相关新闻与文章、GitHub资源分享。网络新闻Grok3Beta——推理代理的时代。Grok发布了Grok3Beta，通过强化学习、扩展计算和多模态理解提供卓越的推理能力。Grok3和Grok3mini在学术基准上取得了高分，其中Grok3在AIME’25上获得了93.3%的分数。Grok3的推理可通过“思考”按钮访问，
华为昇腾适配阶跃星辰多模态开源模型，上线魔乐社区量子位
今日，魔乐社区（Modelers）宣布已上架由阶跃星辰自研的Step-Video视频生成和Step-Audio语音模型两款开源多模态大模型，并基于华为昇腾CANN异构计算架构和昇腾服务器，完成了对模型的适配。开发者和企业用户在魔乐社区中可以直接下载并体验。Step-Video-T2V是目前全球参数量最大的开源视频生成模型，达到300亿参数。可直接生成204帧、540P分辨率的高质量视频。根据阶跃星
大语言模型(LLM)入门学习路线图，从零基础到精通，理论与实践结合的最佳路径！ ai大模型应用开发语言模型学习人工智能机器学习 AI 自然语言处理
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
在Ubuntu系统下部署大语言模型脱泥不tony ubuntu 语言模型 linux 人工智能大数据产品经理 transformer
前言在Ubuntu系统下部署大语言模型，可以使用HuggingFace的Transformers库来加载和使用预训练的模型。以下是一个详细的步骤：1.安装环境依赖确保你已经安装了Python3和pip。可以使用以下命令安装它们：sudoapt-getupdatesudoapt-getinstall-ypython3python3-pip2.创建并激活虚拟环境（可选）为了隔离项目依赖，你可以创建一个
周报 | 25.3.3-25.3.9文章汇总双木的木大模型专栏深度学习拓展阅读人工智能 linux 服务器 deepseek llama YOLO transformer
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|25.2.24-25.3.2文章汇总-CSDN博客Datawhale|最新「大模型简史」整理！从Transformer（2017）到DeepSeek-R1（2025）--建议收藏！-CSDN博客AI生成未来|CVPR2025|多模态六边形战士Magma：会点按钮会搬砖，标注竟让AI长出“时空大脑“_magma-8b-CSDN博客机
gemini 2.0 国内怎么使用？请收下这份最新使用攻略！ gemini-pro
好的，这是对原文的重写，力求在保持核心信息的同时，使用不同的表达方式和结构：AI新篇章：Gemini2.0如何触手可及？国内用户全攻略人工智能的浪潮再次汹涌而来，谷歌凭借其持续的创新，推出了备受瞩目的GeminiAI模型的升级版——Gemini2.0。这款新一代AI模型以其卓越的性能、广泛的应用场景和对多模态交互的深度支持，预示着一个全新AI时代的开启。2024年末，Gemini2.0Flash率
避坑指南：chatgpt账号购买成品号- chatgpt 4.0 plus成品号购买手册！ openai
购买ChatGPT账号的注意事项及指南✨在当前人工智能技术快速发展的背景下，ChatGPT作为一种强大的语言模型工具️，受到了广泛关注。然而，在获取ChatGPT账号的过程中，用户需审慎考虑多项关键因素，以确保所购账号的安全、可靠及合法性✅，规避潜在风险⚠️。本文将深入探讨购买ChatGPT账号时需重点关注的几个方面，并提供相关建议。1.账号来源审查️‍♂️账号来源是决定其安全性和可靠性的首要因素
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理