柴神

Transformers 2023年度回顾：从BERT到GPT4

人工智能已成为近年来最受关注的话题之一，由于神经网络的发展，曾经被认为纯粹是科幻小说中的服务现在正在成为现实。从对话代理到媒体内容生成，人工智能正在改变我们与技术互动的方式。特别是机器学习 (ML) 模型在自然语言处理 (NLP) 领域取得了重大进展。一个关键的突破是引入了“自注意力”和用于序列处理的Transformers架构，这使得之前主导该领域的几个关键问题得以解决。

在本文中，我们将研究革命性的Transformers架构以及它如何改变NLP，我们还将全面回顾从BERT到Alpaca的Transformers模型，重点介绍每种模型的主要特征及其潜在应用。

类bert的文本模型

第一部分是基于Transformer编码器的模型，用于向量化、分类、序列标记、QA(问答)、NER(命名实体识别)等。

1、BERT Google / 2018

Transformer 编码器，wordpiece tokenization（30K 词汇量）。输入嵌入由三个向量组成：标记向量、可训练位置向量和片段向量（第一个文本或第二个文本）。模型输入是 CLS 标记嵌入、第一个文本的嵌入和第二个文本的嵌入。

BERT 有两个训练任务：Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP)。在 MLM 中，15% 的令牌被屏蔽，80% 被 MASK 令牌替换，10% 被随机令牌替换，10% 保持不变。模型会预测正确的令牌，而损失仅在这 15% 的屏蔽令牌上计算。在 NSP 中，模型预测第二个文本是否跟在第一个文本之后。预测是在 CLS 令牌的输出向量上进行的。

为了加快训练速度，首先90%的训练在序列长度为 128 个标记上进行，然后剩下的10% 的时间在 512 个标记上训练模型以获得更有效的位置嵌入。

2、RoBERTa Facebook / 2019

BERT的改进版本，它只在MLM上训练(因为NSP被认为不太有用)，训练序列更长(512个令牌)。使用动态屏蔽(当再次处理相同的数据时，不同的令牌被屏蔽)，训练超参数是精心选择的。

3、XLM Facebook / 2019

训练多语言模型的方法之一是使用不同的基本模型(目前最流行的模型是基于RoBERTa的XLM-R)。在最初的XLM中，所有语言都有一个共享的BPE词汇表。

XLM 有两个训练任务:MLM和翻译。翻译本质上与一对文本上的 MLM 相同，但文本是彼此的平行翻译，具有随机掩码和段嵌入编码语言。

4、Transformer-XL Carnegie Mellon University / 2019

该模型设计用于处理长序列，主要有两个思想:片段的循环处理和相对位置编码。

长文本被分成几个片段，每次处理一个片段。前一段的输出被缓存，在计算当前段中的自我关注时，键和值是基于当前段和前一段的输出计算的(只是简单地连接在一起)。梯度也只在当前段内计算。

这种方法不适用于绝对位置。所以模型中重新参数化了注意力权重公式。绝对的位置编码向量被一个固定的矩阵取代，该矩阵基于标记位置之间距离的正弦值和对所有位置共有的可训练向量。

5、ERNIE 清华大学，华为 / 2019

将知识图谱中有关命名实体的信息嵌入到 BERT 中。输入由一组文本标记和一组实体标记组成（每个标记代表整个实体）。文本标记由 BERT 编码。在 BERT 之上，有一组 K 编码器块（约占网络参数的 3%）。在这些块中：

文本标记的更新向量和实体标记的原始向量首先独立地计算自注意力；
实体向量与它们在文本中出现的第一个标记相匹配；
使用GeLU 激活，并且用于获得文本标记的新隐藏表示；
文本和实体标记的新向量从隐藏表示中获得，并作为输入传递给下一个编码器块。

在预训练期间，计算三种损失：MLM、NSP 和来自令牌的实体预测（如自编码器），自编码器使用下面规则：

在 5% 的情况下，实体被替换为错误的实体，但匹配被保留，模型必须预测正确的实体；
在 15% 的情况下，匹配被移除，模型必须仅基于文本来预测实体；
在其他情况下，是正常的。

预训练模型可以像常规 BERT 模型一样进行微调（有 CLS 令牌）。也可以使用额外的程序进行微调以确定实体及其类型之间的关系。

6、XLNet Carnegie Mellon University / 2019

因为BERT训练过程存在问题：

在训练期间，损失计算仅计算掩码标记。
只有个别标记被屏蔽，一个屏蔽标记的预测不会影响其他标记的预测。
模型在训练期间主动看到的实际应用程序中没有 MASK 令牌。

XLNet 基于 Transformer-XL，除了替换语言建模 (PLM) 任务外，它学习在短的上下文中预测标记，而不是直接使用 MASK。这确保了梯度会计算所有标记并消除了对特殊掩码标记的需要。

上下文中的标记被打乱（比如：可以根据第 i-2个和第i+1个标记预测第 i 个标记），但它们的位置仍然是已知的。这无法通过当前的位置编码（包括 Transformer-XL）实现。当尝试在给定上下文的一部分的情况下预测令牌的概率时，模型不应该知道本身的令牌，但应该知道令牌在上下文中的位置。为了解决这个问题，他们将self-attention 分为两个流：

在每个标记位置，有两个向量而不是一个：内容向量和查询向量。
内容向量包含有关令牌的完整信息，而查询向量仅包含位置信息。
token 的两个向量都是基于上下文向量计算的，但是 self-attention 中的查询向量是使用过去的内容向量计算的，内容向量是使用过去的查询向量计算的。
query vector 不接收关于相应 token 的内容的信息，但知道上下文的所有信息，而 content vector 包含完整的信息。

在微调期间，如果忽略查询向量，模型将像常规的 Transformer-XL 一样工作。

在实践中该模型的要求上下文必须足够长，以便模型能够正确学习。它在与 RoBERTa 相同数量的数据上学习，结果相似，但由于实现的复杂性，该模型并没有像 RoBERTa 那样流行。

7、ALBERT Google / 2019

在不牺牲质量的情况下简化BERT:

在不同的编码器块中使用共同的参数，并且已经证明可以共享自注意力的权重，但是分离全连接层的权重会导致质量下降。
与BERT相比，使用了更小的输入嵌入和更大的隐藏层向量。这可以通过在网络输入处使用一个额外的投影矩阵来实现，这样也可以将嵌入的大小与隐藏表示的大小解耦。
模型的参数减少了18倍，运行速度提高了1.7倍。

模型在MLM和句子顺序预测(SOP)上进行训练。

8、DistilBERT Google / 2019

另一种优化BERT的方法是蒸馏:

编码器块的数量减半
三个损失成分:MLM、与教师模型输出的交叉熵，以及相应层输出之间的余弦距离。
模型比教师模型小40%，速度快60%，并且在各种任务上保持了97%的质量。

9、LaBSE Google / 2020

基于BERT的多语言矢量化模型。它在MLM和TLM上进行训练(20%的标记被屏蔽)，然后对其进行微调。它支持100多种语言，包含500K个标记的词汇表。

10、ELECTRA Google, Stanford University / 2020

使用生成对抗方法加速BERT训练:

训练了两个类bert模型:一个小型生成器和一个主鉴别器
生成器在MLM上进行训练，然后填充掩码令牌
鉴别器被训练来预测由生成器生成的文本的原创性(替换检测任务)
训练完成后，去掉生成器，用鉴别器进行微调

训练数据的数量与RoBERTa或XLNet相同，并且模型比BERT、RoBERTa和ALBERT更快地学习到相似的质量水平。训练时间越长，它的表现就越好。

11、DeBERTa Microsoft / 2020

另一种将标记向量的内容和位置分离为两个单独的向量的模型:

位置向量在所有层之间共享，并且是相对的，即标记之间的每个可能距离都有一个。
为它们添加了两个新的权重矩阵K_pos和Q_pos。
对注意力权重计算进行修改，简化为三个乘积的和:Q_cont * K_cont + Q_cont * K_pos + K_cont * Q_pos
与ALBERT中一样，使用投影矩阵将嵌入大小与隐藏标记表示向量的大小解耦。

类GPT 和T5模型

基于完整Transformers的模型。它的应用范围非常广泛：除了上一节的任务外，它还包括会话代理、机器翻译、逻辑和数学推理、代码分析和生成，以及基本上文本生成。最大和“最智能”的模型通常基于解码器架构。此类模型通常在 few-shot 和 zero-shot 模式下无需微调即可表现良好。

1、GPT-2 OpenAI / 2018

解码器在因果LM的任务上进行训练(根据左侧上下文预测下一个令牌)。从体系结构的角度来看，有一些小的变化:从每个解码器块中移除交叉注意层，并使用了LayerNorm

使用的标记器是字节级BPE (50K词汇表)，没有使用类似的子字符串例如（“dog”、“dog!”、“dog.”）。最大序列长度为 1024。层输出缓存所有先前生成的标记。

2、T5 Google / 2019

在MLM上进行完整的预训练(15%的令牌被屏蔽)，跨度由代码掩码(，，…)屏蔽。输出预测序列spanspan…

LayerNorm在自注意力层和全连接层输入之前应用。使用相对位置编码:

位置由可学习的嵌入编码，其中每个“嵌入”只是在计算注意力权重时添加相应logit的标量

矩阵B是跨层共享的，但对于不同的自注意力注头是不同的。

每一层考虑令牌之间的128个距离，其余的归零，这样可以对比训练期间看到的序列更长的序列进行推理。

标记化使用sentencepece (32K词汇表)完成，在预训练期间最大序列长度为512。

3、BART Facebook / 2019

另一个完整的transformers，但是用GeLU取代了ReLU。训练它从噪声文本(AE去噪)中预测原始文本，噪声类型如下:

令牌屏蔽
删除令牌
令牌填充
句子中令牌顺序颠倒
使随机令牌成为序列的开始

使用字节级BPE(词汇表大小为50K)

4、CTRL Salesforce / 2019

使用前缀代码令牌(例如， input text…)控制生成的解码器。在训练期间将代码分配给适当的文本，然后在推理期间使用代码生成相应样式的文本。该模型是在因果LM上训练的，并且没有使用额外的损失。使用的标记化是BPE，词汇表大小为250K。

4、GPT-3 OpenAI / 2020

这是一个具有Sparse Transformer架构的GPT-2模型，并且增加了2048个令牌的序列长度。还记的那句话吗：别问，问就是GPT3

5、mT5 Google / 2020

基于T5模型，具有类似的训练，但使用多语言数据。ReLU激活被替换为GeGLU，词汇表扩展到250K个标记。

6、GLAM Google / 2021

这个模型在概念上类似于Switch Transformer，但更侧重于在少样本的模式下工作，而不是微调。不同规模的模型使用32到256个专家层，K=2。使用来自Transformer-XL的相对位置编码。在处理令牌时，只有不到10%的网络参数被激活。

7、 LaMDA Google / 2021

类似gpt的模型。该模型是一个会话模型，在因果LM上进行了预训练，并在生成和判别任务上进行了微调。该模型还可以对外部系统(搜索、翻译)的调用。

8、GPT-NeoX-20B EleutherAI / 2022

这个模型类似于GPT-J，也使用旋转位置编码。模型权重使用float16表示。最大序列长度为2048。

9、BLOOM BigScience / 2022

这是46种语言和13种编程语言的最大开源模型。为了训练模型，使用一个名为ROOTS的大型聚合数据集，其中包括大约500个开放数据集。

10、PaLM Google / 2022

这是一个大型多语言解码器模型，使用Adafactor进行训练，在预训练时禁用dropout，在微调时使用0.1。

11、LLaMA Meta / 2023

用于科学研究的开源大型gpt类LM，已用于训练多个指令模型。该模型使用了pre-LayerNorm、SwiGLU激活和RoPE位置嵌入。因为开源所以这是弯道超车的主要模型之一。

文本的指导模型

这些模型抓哟用于校正模型输出（例如 RLHF）以提高对话和任务解决期间的响应质量。

1、InstructGPT OpenAI / 2022

这项工作调整GPT-3以有效地遵循指示。该模型在一个由提示和答案组成的数据集上进行微调，这些提示和答案是人类根据一套标准认为好的。基于InstructGPT，OpenAI 创建了一个被我们现在熟知的模型ChatGPT。

2、Flan-T5 Google / 2022

适用于T5的指导模型。在某些任务中，Flan-T5 11B在没有这种微调的情况下优于PaLM 62B。这些模型已经作为开源发布。

3、Sparrow DeepMind / 2022

基本模型是通过在选定的高质量对话上对Chinchilla进行微调获得的，前80%的层被冻结。然后该模型被进一步训练，使用一个大提示来引导它进行对话。有几个奖励模型也在Chinchilla的基础上进行训练。该模型可以访问搜索引擎并检索最多500个字符的片段，这些片段可以成为响应。

在推理过程中，奖励模型用于对候选人进行排序。候选项要么由模型生成，要么从搜索中获得，然后最好的一个成为响应。

4、Alpaca Stanford University / 2023

上面LLaMA 的指导模型。主要重点是使用GPT-3构建数据集的过程:

目标是获得一组Task-Input-Output三元组，其中Input可以为空。
人类会生成175个带有答案的任务提示，这些提示被输入到GPT-3中，GPT-3会生成新的任务。
生成过程是迭代的，在每个步骤中，都提供了一些来自人类的任务示例和一些来自先前生成的任务示例。
GPT-3将生成的任务分为分类任务或非分类任务，并根据此生成不同的输入和输出。
三元组根据质量和与数据库中现有三元组的不相似度进行过滤。

总共生成了52K个唯一的三元组，并对LLaMA 7B进行了微调。

5、Koala Berkeley University / 2023

这是在指令数据上对LLaMA进行微调，但与上面的Alpaca不同的是，它不仅在GPT-3等大型模型生成的数据上进行微调。还数据集的组成为:

30k个关于数学、诗歌和对话的说明和回答样本;
52K个Alpaca 数据集的样本;
160K对用户对有用性和危害偏好的模型响应;
20K对带有用户问题和评分的模型回答;
93K个总结，用户对其质量评分;

与GPT-3相比，没有质量的增加。但是在盲测中，用户更喜欢Koala 的回答，而不是Alpaca 的回答。

从文本生成图像的模型

基于文本描述的图像生成器。扩散模型与transformers 相结合在这一领域占据主导地位，不仅可以生成图像，还可以进行内容操作和分辨率增强。

1、DALL-E OpenAI / 2021

这项工作分两个阶段进行:对图像的标记进行训练，然后学习文本和图像的联合生成模型。

在第一阶段，训练dVAE，其中将图像从256x256x3空间转换为32x32xdim并返回，其中dim是隐藏表示向量的维度。总共有8192个这样的标记向量，这些标记向量将在模型中进一步使用。

使用的主要模型是稀疏transformer 解码器。文本令牌和图像令牌作为输入，模型学习联合分布(Causal LM)，之后可以基于文本生成图像令牌。dVAE基于这些相同的令牌生成一个映像。文本标记的损失权重是1/8，图像标记的权重损失是7/8。

对于文本标记，有常规嵌入和位置嵌入，对于图像标记，有常规的、按列定位的和按行定位的嵌入。文本标记序列的最大长度为256，标记化为BPE (16K词汇表)。

2、GLIDE OpenAI / 2021

一种在像素级操作并由文本控制的扩散模型(DM)。它基于U-Net架构，具有卷积、注意和残差连接。使用不同的方法来控制生成。使用CLIP获得的图像向量和文本向量的标量积

3、Latent Diffusion [Stable Diffusion] CompVis [Stability AI] / 2021 [2022]

在像素空间中工作的扩散模型，主要包含2个模型：

一种用于从潜在空间降维和生成的VAE自编码器
内部表征的DM

自编码器以类似gan的方式进行训练，在其结果上使用鉴别器，并将额外的正则化表示与标准正态分布的接近程度。

结果在潜在空间中进入DM解码:如果条件是一个向量，则在步骤的输入处与潜在向量连接，如果是一个向量序列，则用于不同U-Net层的交叉注意。对于文本提示使用CLIP向量。

这个通用的模型可以被训练用于不同的任务:文本到图像，着色，绘画，超分辨率。

4、Imagen Google / 2022

Imagen背后的主要思想是增加文本编码器的大小比增加DM的大小可以给生成模型带来更多的好处。所以CLIP被替换为T5-XXL。

从图像生成文本的模型

本节中的模型通常被称为多模态模型，因为它们在生成文本的同时能够分析不同性质的数据。生成的文本可以是自然语言，也可以是一组命令，例如机器人的命令。

1、CoCa Google / 2022

一个单独的图像编码器(ViT或CNN) +一个共享解码器，其中前半部分处理文本，后半部分与图像编码器的输出共同处理文本。

288x288的图像被切成18x18的块，编码器将其转换为向量+基于所有这些向量的共享注意力池向量。

解码器的前半部分的输出是文本向量和序列末尾的CLS标记向量，使用sentencepece (64K词汇表)进行标记化。文本和图像矢量通过交叉注意在解码器的后半部分合并。

两个损失的权重分别:

图像的注意力池向量与图像描述对的文本的CLS标记向量之间的相似性。
整个解码器输出的自回归损失(以图像为条件)。

在微调过程中，图像编码器可以被冻结，只有注意力池可以被微调。

2、PaLM-E Google / 2023

图像由ViT编码，输出向量以及文本令牌和命令被输入PaLM, PaLM生成输出文本。

PaLM-E用于所有任务，包括 VQA、对象检测和机器人操作。

3、GPT-4 OpenAI / 2023

这是一个具有少量已知细节的封闭模型。据推测，它有一个具有稀疏注意力和多模态输入的解码器。它使用自回归训练和微调RLHF，序列长度从8K到32K。

它已经在人类考试中进行了零样本和少样本的测试，并达到了类似人类的水平。它可以立即和逐步解决基于图像的问题(包括数学问题)，理解和解释图像，并可以分析和生成代码。还适用于不同的语言，包括小语种。

总结

当前各种大型模型蜂拥而至，模型的基数一直在增长，但是简单的层的增加和数据集的增长被各种更好的技术替代，这些技术允许质量改进(使用外部数据和工具，改进网络结构和新的微调技术)。但是越来越多的工作表明训练数据的质量比数量更重要：正确选择和形成数据集可以减少训练时间并提高结果质量。

OpenAI现在正在走向闭源，他们已经尝试过不释放GPT-2的权重但没有成功。但是GPT4是黑盒，近几个月来改进和优化开源模型的微调成本和推理速度的趋势在很大程度上降低了大型私有模型作为产品的价值，开源模型在质量上也正迅速赶上巨头，这又可以弯道超车了。

最后开源模型的总结如下：

在编码器模型块中，XLM、RoBERTa 和 LaBSE 模型被认为是可靠的多语言解决方案；
在开放的生成模型中，最有趣的是 LLaMA 和来自 EleutherAI 的模型（都有它们所有的微调版本）、Dolly-2、BLOOM（同样有指令微调选项）；
代码方面，SantaCoder的模型还不错，但是总体来说质量也明显落后于ChatGPT/GPT-4；
Transformer-XL 和 Sparse Transformer 实现了其他模型中使用的技术，可以仔细研究。

使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
A Survey of Large Language Models大模型综述论文章节总结 WhyteHighmore 论文语言模型人工智能自然语言处理论文笔记
ASurveyofLLM人大译ASurveyofLargeLanguageModels这篇论文全面回顾了大型语言模型(LLM)的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕LLM的四个主要方面展开：1引言自从1950年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能(AI
使用Pinecone实现自查询检索器的实现步骤 vaidfl python
##技术背景介绍Pinecone是一款功能强大的向量数据库，适用于处理复杂的检索需求。在本文中，我们将演示如何结合Pinecone向量存储使用SelfQueryRetriever实现自查询功能。为了更方便的了解原理，我们将以电影总结数据集为例进行展示。##核心原理解析自查询检索器(SelfQueryRetriever)的核心思想是通过提供文档的元数据和内容描述，结合语言模型生成查询条件来完成数据检
AI：对比ChatGPT这类聊天机器人，人形机器人对人类有哪些不一样的影响？ InnoLink_1024 AGI 人工智能机器学习 chatgpt 人工智能机器人
人形机器人与像ChatGPT这样的聊天机器人相比，虽然都属于人工智能技术的应用，但由于其具备的物理形态和与环境的互动能力，它们对人类的影响会有很大的不同。下面从多个角度进行对比，阐述它们各自对人类的不同影响：1.物理交互与虚拟交互人形机器人：具有物理形态，能够在物理世界中与人类进行直接交互。例如，搬运物品、进行日常家务、提供身体上的帮助（如扶持老人、帮助走路等），以及进行非语言的沟通（如手势、面部
A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第9部分——应用王金-太想进步了语言模型人工智能自然语言处理
应用尽管预训练为大型语言模型（LLMs）赋予了强大的基础能力，但在部署于专业领域时，LLMs仍经常遇到持续的限制，包括上下文长度受限、容易产生幻觉（hallucination）、推理能力欠佳和固有的偏见。在现实世界的应用中，这些不足显得尤为重要，因为在这些场景中，精确性、可靠性和伦理一致性是至关重要的。这些问题引发了一些根本性的探讨：(1)如何系统地提高LLM的表现以满足特定领域的需求？(2)在实
DeepSeek从入门到精通「清华团队」 YuKeeHgg DeepSeek 人工智能 ai
由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开，帮助用户从入门到精通DeepSeek的使用。「文末附下载方式」第一部分：DeepSeek基础概念1.1DeepSeek简介定义：专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。核心产品：开源
人工智能的未来：从基础到前沿的探索与展望小二爱编程· 人工智能 ai AI编程 AI写作 AI作画
1.人工智能简介内容概述：人工智能（AI）是指模拟和执行人类智能任务的技术。随着计算能力和数据量的增加，AI在各个领域取得了显著进展，从自动化的基本任务到解决复杂的实际问题，人工智能正渗透到我们生活的各个方面。2.人工智能的种类与发展内容概述：AI的种类可以按智能的复杂度分为三大类：弱人工智能（NarrowAI）：目前大多数应用都属于弱AI，如语音助手、自动驾驶等。它们专注于特定任务，并且无法扩展
知识蒸馏：从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新) AI仙人掌人工智能 AI 人工智能深度学习语言模型机器学习
知识蒸馏通过迁移教师模型（复杂）的知识到学生模型（轻量），实现模型压缩与性能平衡。核心在于利用教师模型的软标签（概率分布）替代独热编码标签，学生模型不仅学习到教师模型输出数据的类别信息，还能够捕捉到类别之间的相似性和关系，从而提升其泛化能力核心概念知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。在实际应用中，无论是大规模语言模型（LLMs）还是其他类型的神经网络模型，都会通过softmax
KV 缓存简介 dev.null AI 缓存
以下是关于KV缓存（Key-ValueCache）的简介，涵盖其定义、原理、作用及优化意义：1.什么是KV缓存？KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。其本质是：在生成序列时，缓存历史token的Key和Value矩阵，避免重复计算，从而显著减少计算量。2.为什么需要KV缓存？传统自注意力计算的问题在生成第t
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
Transformer精选问答 EmbodiedTech 大模型人工智能 transformer 深度学习人工智能
Transformer精选问答1Transformer各自模块作用Encoder模块经典的Transformer架构中的Encoder模块包含6个EncoderBlock.每个EncoderBlock包含两个子模块,分别是多头自注意力层,和前馈全连接层.多头自注意力层采用的是一种ScaledDot-ProductAttention的计算方式,实验结果表明,Multi-head可以在更细致的层面上提
迁移学习入门 EmbodiedTech 人工智能大模型迁移学习人工智能机器学习
迁移学习1迁移学习的概念预训练模型定义:简单来说别人训练好的模型。一般预训练模型具备复杂的网络模型结构；一般是在大量的语料下训练完成的预训练语言模型的类别现在我们接触到的预训练语言模型，基本上都是基于transformer这个模型迭代而来的因此划分模型类别的时候，以transformer架构来划分：Encoder-Only:只有编码器部分的模型，代表：BERTDecoder-Only:只要解码器部
SciER：首个大规模科学文档中的实体和关系抽取数据集数据集
2024-10-28，为科学文档中的实体和关系抽取领域带来了突破，提供了一个包含106篇完整科学出版物、超过24,000个实体和12,000个关系的大规模数据集，这对于构建科学知识图谱和促进科学信息抽取技术的发展具有重要意义。数据集地址：SciER|科学信息提取数据集|人工智能数据集一、研究背景：在科学文档中，实体（如数据集、方法、任务）和它们之间的关系对于理解科学发现和推动研究进展至关重要。然而
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
复旦：LLM不同层位置编码缩放大模型任我行大模型-结构原理人工智能自然语言处理语言模型论文笔记
标题：Layer-SpecificScalingofPositionalEncodingsforSuperiorLong-ContextModeling来源：arXiv,2503.04355摘要尽管大型语言模型（LLM）在处理长上下文输入方面取得了重大进展，但它们仍然存在“中间丢失”问题，即上下文中间的关键信息往往不足或丢失。我们广泛的实验表明，这个问题可能源于旋转位置嵌入（RoPE）的快速长期衰
元戎启行最新战略RoadAGI：所有移动智能体都将被AI驱动量子位
2025年3月18日（北京时间），元戎启行作为国内人工智能企业代表，出席由NVIDIA主办的GTC大会。会上，公司CEO周光发表了技术主题演讲，展示了公司的最新战略布局RoadAGI，并发布道路通用人工智能平台——AISpark（以下简称”Spark平台”）。RoadAGI是元戎启行实现物理世界通用人工智能的关键一步，旨在让包括智能驾驶汽车在内的移动智能体，都具有在道路上自主行驶、与物理世界深度交
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
【财经信息差】2024年12月27日最新财经资讯一览每日财经热点一网打尽代码简单说 AI观财经:财经信息差 AI观财经财经信息差今日财经资讯财经热点今日资讯
大家好，欢迎来到财经信息差！每天，我们将带你直击全球财经动态，精选最新的市场变化、政策动向与产业趋势，让你在最短的时间内，轻松掌握最关键的财经资讯。随着人工智能技术的迅猛发展，我们将用AI的视角为你解析财经热点、企业动向及全球经济变化，让复杂的信息变得简单易懂，帮助你做出更明智的投资决策。财经领域股票市场美股三大指数集体低开，大型科技股多数下跌，纳斯达克金龙指数跌1.07%。小鹏汽车跌3.32%，
探索AI知识库的无限潜力：定义、应用与未来展望知识库知识库管理知识库软件
一、AI知识库的定义AI知识库，作为人工智能技术与传统知识库概念的融合，是指利用人工智能算法和技术构建、管理和维护的信息存储系统。它不仅包含了大量的结构化、半结构化和非结构化数据，还具备智能检索、推理分析、自我学习和优化等高级功能。AI知识库通过模拟人类的认知过程，实现了对知识的有效组织和高效利用，为各种应用场景提供了强大的支持。二、AI知识库的应用1.客户服务与支持在电子商务领域，AI知识库的应
低代码平台未来发展趋势有哪些？低代码
低代码平台的未来发展趋势呈现出多维度的创新与深化，以下结合JNPF快速开发平台的特性，为您分析其未来的发展方向：1.智能化与AI深度融合低代码平台将与人工智能技术深度融合，实现开发流程的智能化升级。例如，JNPF平台有望通过自然语言处理技术，让开发者仅需用自然语言描述需求，平台即可自动生成初步的应用架构和代码逻辑。此外，AI技术还将用于智能推荐、代码自动生成、流程自动化等功能，进一步提升开发效率。
探索“AI知识库”的未来：重塑信息获取与教育的新篇章知识库知识库管理
在数字化时代，信息的爆炸性增长既为人类带来了前所未有的知识盛宴，也带来了信息筛选与理解的巨大挑战。在此背景下，“AI知识库”作为人工智能技术与知识管理深度融合的产物，正逐步成为解决这一难题的关键。本文旨在探讨“AI知识库”的核心价值、技术进展、应用领域以及对未来教育与社会信息获取方式的深远影响，并在此基础上展望其发展前景。一、AI知识库的定义与核心价值定义：AI知识库，简而言之，是利用人工智能技术
人工智能之数学基础:基变换和坐标变换的区别每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能机器学习算法基变换坐标变换线性变换
本文重点基变换和坐标变换是线性代数中的两个重要概念，它们描述了向量在不同基底或坐标系下的表示和转换关系。矩阵矩阵不仅可以作为线性变换的描述，而且可以作为一组基地描述。而作为变换的矩阵，不但可以把线性空间中的一个点给变换到另一个点去，而且也能够把线性空间中的一个坐标系（基）表换到另一个坐标系（基）去，这就是基变换和坐标变换。定义与本质基变换：定义：基变换是指向量在不同基底下表示的关系的数学描述。它涉
OpenManus 代码分析有个人神神叨叨人工智能 ai
项目分析：OpenManus这是github地址OpenManus是一个基于LLM（大型语言模型）的智能代理系统，它采用了模块化的设计，支持工具调用、规划和执行等功能。下面我将通过时序图和流程图来详细分析整个系统的工作流程。系统架构OpenManus采用了分层架构设计，主要包括以下几个核心组件：Agent层：实现了不同类型的智能代理，包括基础代理（BaseAgent）、ReAct代理（ReActA
深度测评:2025年这五款AI直播工具风卷来袭，首款堪称直播界变革者! V__17671155793 智能电视
深度测评:2025年这五款AI直播工具风卷来袭，首款堪称直播界变革者!随着人工智能（AI）技术的飞速发展，直播行业正经历着前所未有的变革。2025年，被誉为“AI直播元年”，这一年见证了众多创新AI直播工具的涌现，它们不仅提升了直播的智能化水平，更在效率、互动性和观赏性上实现了质的飞跃。以下，我们将盘点2025年经典实用的十款AI直播工具，尤其聚焦于第一款，带您领略AI如何重塑直播行业。一、智享A
【SoC基础】第2节：CPU简介望闻问嵌 #SoC 单片机嵌入式硬件
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载注明出处文章目录CPU结构设计CPU生产厂商CPU工作原理CPU的组成CPU的类型CPU内核与CPU的关系CPU内核种类参考CPU结构设计结构类型结构特点优点
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
大型语言模型：让Python更聪明的秘密武器 qq_39605374 语言模型 python 数据库 Python
Python是一种广泛使用的编程语言，而大型语言模型则为Python开发者提供了一个强大的工具。大型语言模型可以理解人类语言，并生成具有逻辑和连贯性的文本。它能够回答用户的问题、提供解决方案，并帮助开发者提高他们的编程技能。让我们来探索一下如何使用大型语言模型作为Python编程的秘密武器。大型语言模型可以通过使用Python编写的API进行访问。下面是一个简单的示例，演示了如何使用Python与
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
【SoC基础】单片机之RCC模块望闻问嵌 #SoC 单片机
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载注明出处RCC模块简介RCC（ResetandClockControl）即复位和时钟控制模块，其基本功能总结如下：时钟源管理多源选择：支持多种时钟源，包含内部
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

Transformers 2023年度回顾 ：从BERT到GPT4