Encoder-decoder

大模型学习（Datawhale_Happy-LLM）笔记4: 预训练语言模型

大模型学习（Datawhale_Happy-LLM）笔记4:预训练语言模型一、概述本章按Encoder-Only、Encoder-Decoder、Decoder-Only的顺序来依次介绍Transformer

lxltom·2025-06-25 11:09

资深Java工程师的面试题目（八）AI大模型

刘一说·2025-06-18 18:31

【AI大模型】15、从GPT-1到GPT-3：大语言模型核心技术演进与能力涌现全解析

与Encoder-Decoder架构不同，GPT-1仅使用解码器部分，每个解码器层包含：多头自注意力模块：8个头，每个头维度64，

·2025-06-16 14:04

还有哪些其他的基于transformer架构模型？

我们将按架构类型（Decoder-Only、Encoder-Only、Encoder-Decoder）分类介绍这些模型，并简要说明它们的用途和特点。1.Decoder-Only语言模型De

墨染辉·2025-06-09 17:34

Transformer学习资料

Transformer学习资源视频教程：B站中文视频：Transformer详解中文教程：GitHub项目：learn-nlp-with-transformers技术解析：图解Transformer（Encoder-Decoder

司南锤·2025-06-03 23:56

T5和GPT哪个更强大

一图速览：T5vsGPT对比总结维度T5（Text-to-TextTransferTransformer）GPT（GenerativePretrainedTransformer）模型类型编码器-解码器（Encoder-Decoder

Ash Butterfield·2025-06-03 20:00

Python----循环神经网络（Transformer ----Encoder-Decoder）

一、自然语言任务分类1.1、N对1在N对1的任务中，系统接收多个输入元素（N个），但只产生一个输出。这种类型的任务通常涉及整合或总结多个输入点的信息。典型的例子包括：文本摘要：从多个句子或段落中提取关键信息，生成一个摘要。情感分析：分析一段文本（可能包含多个句子），确定其整体情感倾向，如正面、负面或中立（或者商品的评分评价）。语言模型：在给定一系列词（如一个句子）的情况下，预测下一个最可能的词。1

蹦蹦跳跳真可爱589·2025-05-31 12:25

大模型算法工程师经典面试题————为什么现在的主流大模型都是 decoder-only 架构？

相比encoder-decoder架构，只使用d

大模型_·2025-05-30 16:29

为什么大模型都是decoder-only架构？

今天和大家聊聊，为什么大模型都是decoder-only架构目前主要的架构有3种：Bert为代表的encoder-only架构，ChatGLM为代表的encoder-decoder，以及GPT为代表的decoder-onlyencoder-only

AGI大模型老王·2025-05-13 07:32

[machine learning] Transformer - Attention (一)

模型架构上，又通常使用encoder-decoder的结构。以机器翻译为例，当输入文本序列一个一个进入encoder时，encoder

进阶的小蜉蝣·2025-05-06 10:22

LLM进阶——Transformer

文章目录一、前置知识1、（Encoder-Decoder）结构2、注意力机制二、Transformer结构1、介绍2、输入层1）BytePairEncoding2）位置编码——positionalEncoding3

轩不丢·2025-04-26 02:04

深度探索：机器学习中的编码器-解码器模型（Encoder-Decoder）原理及应用

目录1.引言与背景2.核心原理与算法基础3.算法原理4.算法实现5.优缺点分析优点：缺点：6.案例应用7.对比与其他算法8.结论与展望1.引言与背景在机器学习的广阔领域中，编码器-解码器（Encoder-Decoder

生瓜蛋子·2025-04-12 06:34

【自然语言处理】Encoder-Decoder架构

1.Encoder-Decoder架构Encoder-Decoder架构最早由Sutskever等人在2014年的论文《SequencetoSequenceLearningwithNeuralNetworks

藓类少女·2025-04-06 15:33

Encoder-Decoder 编码器-解码器架构（Seq2Seq Model）

Encoder-DecoderEncoder编码器使用长度可变的序列作为输入，将其转换为固定的隐状态Decoder解码器基于输入通过编码器得到的编码信息和当前输出能看到的(已经生成)的词元来预测下一个词元在编码器中使用作为序列开始的词元，在训练过程中使用TeacherForce策略进行训练即基于正确的输入进行训练Encoder编码器最终的隐状态用于初始化解码器的隐状态(Seq2Seq做法)，在其他

SpaceSunflower·2025-04-06 15:32

常见的encoder decoder架构有哪些

答案常见的Encoder-Decoder架构包括以下几种：T5(Text-to-TextTransferTransformer)：将所有自然语言处理任务转化为文本到文本的形式，适用于多种任务，如翻译、摘要和问答

强化学习曾小健·2025-04-06 14:02

【PyTorch 实战2：UNet 分割模型】10min揭秘 UNet 分割网络如何工作以及pytorch代码实现（详细代码实现）

作为FCN的一种变体，U-Net凭借其Encoder-Decoder的精巧结构，不仅在医学图像分析中大放异彩，更在卫星图像分割、工业瑕疵检测等多个领域展现出强大的应用能力。

xiaoh_7·2025-02-25 22:37

Decoder-Only、Encoder-Only、Encoder-Decoder 区别

Decoder-Only、Encoder-Only和Encoder-Decoder是三种常见的神经网络架构，主要用于自然语言处理（NLP）任务。它们在结构和应用上有显著的区别。

会喘气的粽子丶·2025-02-18 18:44

Transformer

Transformer首次由论文《AttentionIsAllYouNeed》提出，在该论文中Transformer用于encoder-decoder架构。

AI专题精讲·2025-02-15 18:18

Encoder-only decoder-only encoder-decoder大模型的区别

1.Encoder-Only架构-定义：仅包含编码器部分，主要用于处理输入数据而不生成输出。-适用任务：文本分类、情感分析、命名实体识别等。-优点：能够更好地理解输入文本的语义和上下文信息，适合需要特征提取的任务。-缺点：无法直接生成文本输出。-代表模型：BERT、RoBERTa、ALBERT等。2.Decoder-Only架构-定义：仅包含解码器部分，通常用于序列生成任务。-适用任务：文本生成、

阿牛牛阿·2025-02-01 23:40

【AI知识点】三种不同架构的大语言模型（LLMs）的区别

】【AI战略思考】在自然语言处理（NLP）中，预训练语言模型（LLMs,LargeLanguageModels）通常基于不同的架构，如仅编码器的模型（Encoder-only）、编码器-解码器的模型（Encoder-Decoder

AI完全体·2025-02-01 23:09

Transformer+目标检测，这一篇入门就够了

VisionTransformerforObjectDetection本文作者：Encoder-Decoder简介：Encoder-Decoder的缺陷：Attention机制：Self-Attention

BIT可达鸭·2024-09-07 21:19

【笔记】Encoder-Decoder模型

Encoder-DecoderFrameworkEncoder-DecoderEncoderDecoderDecoderwithAttention参考Encoder-DecoderEncoder输入:X=(x1,x2,...,xTx)X=(x_1,x_2,...,x_{T_x})X=(x1,x2,...,xTx)输出:上下文向量(contextvector)ccc步骤：ht=f(xt,ht−1)c

808130260·2024-09-05 19:42

大模型时代，图像描述生成（image caption）怎么走？

主流结构：Transformer为了实现图像描述的任务，常见的方法是采用编码器-解码器（encoder-decoder）的

Only_one_road·2024-02-09 21:17

为什么现在的LLM都是Decoder only的架构

而Encoder-Decoder架构之所以能够在某些场景下表现更好，大概只是因为它多了一倍参数。所以，在同等参数量、同等推理成本下，Decoder-only架构就是最优选择了。为什么现

u013250861·2024-02-03 12:55

LLM都是Decoder only的架构原因解读

稍微总结下：从模型实用层面来说：Decoder-only架构计算高效：相对于Encoder-Decoder架构，Decoder-only架构不需要编码器先编码整个输入序列，所以训练推理速度更快。

u013250861·2024-02-03 12:55

经典的语义分割(semantic segmentation)网络模型（综合篇）

.基础的语义分割架构project_summaryConvolutionalencoder-decoderarchitectureofpopularSegNetmodel.主流的语义分割网络大都是基于Encoder-Decoder

花花少年·2024-01-29 13:23

预训练语言模型transformer

预训练语言模型的学习方法有三类：自编码（auto-encode,AE)、自回归（autoregressive,AR），Encoder-Decoder结构。

Icevivina·2024-01-28 11:48

大语言模型系列-T5

Decoderonly）、BERT（Encoderonly），但是这两个模型针对不同下游不同的NLP任务时还需要进行一定的修改（如添加一些线性层），Google经过庞大的预训练，最终提出了一个通用框架T5模型（Encoder-Decoder

学海一叶·2024-01-25 07:27

51-12 多模态论文串讲—BLIP 论文精读

视觉语言预训练VLP模型最近在各种多模态下游任务上获得了巨大的成功，目前还有两个主要局限性:(1)模型角度:大多数方法要么采用encoder模型，要么采用encoder-decoder模型。

深圳季连AIgraphX·2024-01-24 18:19

python Seq2Seq模型源码实战，超详细Encoder-Decoder模型解析实战；早期机器翻译模型源码demo

1.Seq2Seq（Encoder-Decoder）模型简介Seq2Seq（Encoder-Decoder）模型是一种常用于序列到序列（sequence-to-sequence）任务的深度学习模型。

医学小达人·2024-01-24 11:55

学习笔记之机器学习之预测雾霾

文章目录Encoder-DecoderSeq2Seq(序列到序列）Encoder-Decoder基础的Encoder-Decoder是存在很多弊端的，最大的问题就是信息丢失。

JNU freshman·2024-01-23 03:12

ChatGLM vs ChatGPT

绿色：Encoder-Decoder，尽头智谱ChatGLM。蓝色：Decoder-only，尽头OpenAIGPT4。

南宫凝忆·2024-01-21 06:17

Transformer模型

前置知识：Attention机制结构Transformer主要包括四部分，其中2,3两部分是Transformer的重点，Transformer是一个基于Encoder-Decoder框架的模型原理输入自然语言序列到编码器

惊雲浅谈天·2024-01-17 03:54

Self-Attention

前置知识：RNN，Attention机制在一般任务的Encoder-Decoder框架中，输入Source和输出Target内容是不一样的，比如对于英-中机器翻译来说，Source是英文句子，Target

惊雲浅谈天·2024-01-17 03:23

LLM主流框架：Causal Decoder、Prefix Decoder和Encoder-Decoder

本文将介绍如下内容：transformer中的mask机制CausalDecoderPrefixDecoderEncoderDecoder总结一、transformer中的mask机制在Transformer模型中，mask机制是一种用于在self-attention中的技术，用以控制不同token之间的注意力交互。具体来说，Transformer中使用两种类型的mask：paddingmask和

TFATS·2024-01-15 17:53

Transformer 是拥抱数据不确定性的艺术

Encoder-Decoder架构、Multi-head注意力机制、Dropout和残差网络等都是Bayesian神经网络的具体实现；基于Transformer各种模型变种及实践也都是基于Bayesian

孙庚辛·2024-01-13 00:38

【读文献】Attention is all your need - Transformer

基于RNN/CNN的Encoder-Decoder或者RNN带Attention的Encoder-Decoder不能并行计算或者并行计算的复杂度会随着输入输出距离的增加而大幅度增加，以及RN

无名草鸟·2024-01-09 20:05

论文阅读 Attention is all u need - transformer

文章目录1摘要1.1核心2模型架构2.1概览2.2理解encoder-decoder架构2.2.1对比seq2seq，RNN2.2.2我的理解3.Sublayer3.1多头注意力multi-headself-attention3.1.1

highoooo·2024-01-09 20:00

2024.1.7周报

目录摘要ABSTRACT一、文献阅读1、题目2、摘要3、模型架构4、文献解读一、Introduction二、创新点三、实验过程四、结论二、深度学习知识一、从Encoder-Decoder框架中理解为什么要有

Nyctophiliaa·2024-01-08 14:03

学习周报2.26

文章目录前言文献阅读摘要方法结果深度学习Encoder-Decoder（编码-解码）信息丢失的问题Attention机制总结前言Thisweek,Ireadanarticleaboutdailystreamflowprediction.Thisstudyshowstheresultsofanin-depthcomparisonbetweentwodifferentdailystreamflowpr

hehehe2022·2024-01-08 06:36

第三十八周周报：文献阅读 +BILSTM+GRU+Seq2seq

LSTM（长短期记忆网络）耦合模型研究实验数据集评估指标研究目的洪水深度预测实验结果LSTM变体BidirectionalLSTM（双向LSTM）GRU（门循环控制单元）Seq2seq模型编码器-解码器（encoder-decoder

m0_66015895·2024-01-08 06:01

机器学习-基于attention机制来实现对Image Caption图像描述实验

机器学习-基于attention机制来实现对ImageCaption图像描述实验实验目的基于attention机制来实现对ImageCaption图像描述实验内容1.了解一下RNN的Encoder-Decoder

septnancye·2024-01-03 08:28

Attention机制

前置知识：RNN，LSTM/GRU提出背景Attention模型是基于Encoder-Decoder框架提出的。Encoder-Decoder框架，也就是编码-解码框架，主要被用来处理序列-序列问题。

惊雲浅谈天·2024-01-02 06:44

不用再找了，这是大模型最全的面试题库

prefixDecoder和causalDecoder和Encoder-Decoder区别是什么？大模型LLM的训练目标是什么？涌现能力是啥原因？为何现在的大模型大部分是Decoderonly结构？

机器学习社区·2023-12-31 00:34

Scaling Down, LiTting Up: Efficient Zero-Shot Listwise Reranking with Seq2seq Encoder-Decoder Models

Q:这篇论文试图解决什么问题？A:这篇论文介绍了两种基于T5模型的零样本列表重排方法，旨在提高列表重排的效率。作者提出了两个研究问题：1)序列到序列的编码器-解码器模型是否可以适应列表重排？2)是否可以将更大模型的重排效果提炼到更小的序列到序列编码器-解码器重排模型中？为了回答这些问题，作者提出了两种方法：LiT5-Distill和LiT5-Score。LiT5-Distill通过蒸馏从更大的Ra

步子哥·2023-12-28 16:13

Encoder-Decoder综述理解(推荐)

文章目录一、Encoder-Decoder（编码-解码）介绍几点说明信息丢失的问题应用二、Seq2Seq（序列到序列）介绍Seq2Seq与Encoder-Decoder三、代码实现任务描述数据集设计模型模型的实现过程数据预处理代码如下

爱科研的徐博士·2023-12-25 23:42

大语言模型的三种主要架构 Decoder-Only、Encoder-Only、Encoder-Decoder

如下图：https://arxiv.org/pdf/2304.13712.pdf基于Transformer模型以非灰色显示：decoder-only模型在蓝色分支，encoder-only模型在粉色分支，encoder-decoder

Charles_yy·2023-12-23 06:35

常见注意力机制原理介绍与对比

1.引言自从2014年Seq2Seq提出以来，神经机器翻译取得了很多的进展，但是大部分模型都是基于encoder-decoder的结构，这就要求encoder对于输入序列的编码能力要足够强，才能确保得到的输入序列的上下文向量能够尽可能地保留输入序列的信息

林ch·2023-12-21 01:03

Encoder-Decoder和Auto-Encoder的简介

目录#一、Encoder-Decoder1.Encoder2.Decoder3.Encoder-Decoder几点说明存在的问题Auto-Encoder简介Auto-Encoder代码实现（以MNIST手写数据集为例）#一、Encoder-Decoder1.EncoderEncoder也就是编码器，作用是将输入序列转化成一个固定维度的向量，这个向量就可以看成输入序列的语义，利用语义可以做一些下游的

碧蓝的天空丶·2023-12-18 08:08

GRU，LSTM，encoder-decoder架构，seq2seq的相关概念

门控记忆单元（GRU）GRU模型有专门的机制来确定应该何时更新隐状态，以及应该何时重置隐状态。这些机制是可学习的。门控循环单元具有以下两个显著特征：重置门有助于捕获序列中的短期依赖关系；更新门有助于捕获序列中的长期依赖关系。计算门控循环单元模型中的隐状态GRU中的四个计算公式(符号⊙是Hadamard积，按元素乘积)：Rt=σ(XtWxr+Ht−1Whr+br)R_t=σ(X_tW_{xr}+H_

hadiii·2023-12-16 08:04

推荐频道