Encoder-Decoder

happy-llm 第二章 Transformer架构

注意力机制的变种实现1.3.1自注意力（Self-Attention）1.3.2掩码自注意力（MaskedSelf-Attention）1.3.3多头注意力（Multi-HeadAttention）二、Encoder-Decoder

weixin_38374194·2025-07-06 09:55

LLM面试题14

Transformer本身是一个典型的encoder-decoder模型，Encoder端和Decoder端均有6个Block,Encoder端的Block包括两个模块，多头self-attention

三月七꧁ ꧂·2025-07-05 16:00

大模型学习（Datawhale_Happy-LLM）笔记7: Encoder-Decoder PLM

大模型学习（Datawhale_Happy-LLM）笔记7:Encoder-DecoderPLM1.Encoder-Decoder架构概述1.1架构基础Encoder-DecoderPLM是基于原始Transformer架构的完整实现，它同时保留了编码器（Encoder）和解码器（Decoder）两个核心组件。这种设计使得模型能够兼具文本理解和生成的双重能力，特别适合处理序列到序列（Seq2Seq

lxltom·2025-07-02 23:31

[AI笔记]-LLM中的3种架构:Encoder-Only、Decoder-Only、Encoder-Decoder

一、概述架构描述特点案例Encoder-Only仅包含编码器部分这类模型主要专注输入数据中提取特征或上下文信息，通常不需要生成新内容、只需要理解输入的任务，如：分类(文本分类、情感分析等)、信息抽取、序列标注等。在这种架构中，所有的注意力机制和网络层都集中在编码输入数据上，其输出通常是关于输入的复杂语义表示。谷歌的BERT、智谱AI发布的第四代基座大语言模型GLM4Decoder-Only也被称为

Micheal超·2025-07-02 23:29

大模型学习（Datawhale_Happy-LLM）笔记4: 预训练语言模型

大模型学习（Datawhale_Happy-LLM）笔记4:预训练语言模型一、概述本章按Encoder-Only、Encoder-Decoder、Decoder-Only的顺序来依次介绍Transformer

lxltom·2025-06-25 11:09

资深Java工程师的面试题目（八）AI大模型

刘一说·2025-06-18 18:31

【AI大模型】15、从GPT-1到GPT-3：大语言模型核心技术演进与能力涌现全解析

与Encoder-Decoder架构不同，GPT-1仅使用解码器部分，每个解码器层包含：多头自注意力模块：8个头，每个头维度64，

·2025-06-16 14:04

还有哪些其他的基于transformer架构模型？

我们将按架构类型（Decoder-Only、Encoder-Only、Encoder-Decoder）分类介绍这些模型，并简要说明它们的用途和特点。1.Decoder-Only语言模型De

墨染辉·2025-06-09 17:34

Transformer学习资料

Transformer学习资源视频教程：B站中文视频：Transformer详解中文教程：GitHub项目：learn-nlp-with-transformers技术解析：图解Transformer（Encoder-Decoder

司南锤·2025-06-03 23:56

T5和GPT哪个更强大

一图速览：T5vsGPT对比总结维度T5（Text-to-TextTransferTransformer）GPT（GenerativePretrainedTransformer）模型类型编码器-解码器（Encoder-Decoder

Ash Butterfield·2025-06-03 20:00

Python----循环神经网络（Transformer ----Encoder-Decoder）

一、自然语言任务分类1.1、N对1在N对1的任务中，系统接收多个输入元素（N个），但只产生一个输出。这种类型的任务通常涉及整合或总结多个输入点的信息。典型的例子包括：文本摘要：从多个句子或段落中提取关键信息，生成一个摘要。情感分析：分析一段文本（可能包含多个句子），确定其整体情感倾向，如正面、负面或中立（或者商品的评分评价）。语言模型：在给定一系列词（如一个句子）的情况下，预测下一个最可能的词。1

蹦蹦跳跳真可爱589·2025-05-31 12:25

大模型算法工程师经典面试题————为什么现在的主流大模型都是 decoder-only 架构？

相比encoder-decoder架构，只使用d

大模型_·2025-05-30 16:29

为什么大模型都是decoder-only架构？

今天和大家聊聊，为什么大模型都是decoder-only架构目前主要的架构有3种：Bert为代表的encoder-only架构，ChatGLM为代表的encoder-decoder，以及GPT为代表的decoder-onlyencoder-only

AGI大模型老王·2025-05-13 07:32

[machine learning] Transformer - Attention (一)

模型架构上，又通常使用encoder-decoder的结构。以机器翻译为例，当输入文本序列一个一个进入encoder时，encoder

进阶的小蜉蝣·2025-05-06 10:22

LLM进阶——Transformer

文章目录一、前置知识1、（Encoder-Decoder）结构2、注意力机制二、Transformer结构1、介绍2、输入层1）BytePairEncoding2）位置编码——positionalEncoding3

轩不丢·2025-04-26 02:04

深度探索：机器学习中的编码器-解码器模型（Encoder-Decoder）原理及应用

目录1.引言与背景2.核心原理与算法基础3.算法原理4.算法实现5.优缺点分析优点：缺点：6.案例应用7.对比与其他算法8.结论与展望1.引言与背景在机器学习的广阔领域中，编码器-解码器（Encoder-Decoder

生瓜蛋子·2025-04-12 06:34

【自然语言处理】Encoder-Decoder架构

1.Encoder-Decoder架构Encoder-Decoder架构最早由Sutskever等人在2014年的论文《SequencetoSequenceLearningwithNeuralNetworks

藓类少女·2025-04-06 15:33

Encoder-Decoder 编码器-解码器架构（Seq2Seq Model）

Encoder-DecoderEncoder编码器使用长度可变的序列作为输入，将其转换为固定的隐状态Decoder解码器基于输入通过编码器得到的编码信息和当前输出能看到的(已经生成)的词元来预测下一个词元在编码器中使用作为序列开始的词元，在训练过程中使用TeacherForce策略进行训练即基于正确的输入进行训练Encoder编码器最终的隐状态用于初始化解码器的隐状态(Seq2Seq做法)，在其他

SpaceSunflower·2025-04-06 15:32

常见的encoder decoder架构有哪些

答案常见的Encoder-Decoder架构包括以下几种：T5(Text-to-TextTransferTransformer)：将所有自然语言处理任务转化为文本到文本的形式，适用于多种任务，如翻译、摘要和问答

强化学习曾小健·2025-04-06 14:02

【PyTorch 实战2：UNet 分割模型】10min揭秘 UNet 分割网络如何工作以及pytorch代码实现（详细代码实现）

作为FCN的一种变体，U-Net凭借其Encoder-Decoder的精巧结构，不仅在医学图像分析中大放异彩，更在卫星图像分割、工业瑕疵检测等多个领域展现出强大的应用能力。

xiaoh_7·2025-02-25 22:37

Decoder-Only、Encoder-Only、Encoder-Decoder 区别

Decoder-Only、Encoder-Only和Encoder-Decoder是三种常见的神经网络架构，主要用于自然语言处理（NLP）任务。它们在结构和应用上有显著的区别。

会喘气的粽子丶·2025-02-18 18:44

Transformer

Transformer首次由论文《AttentionIsAllYouNeed》提出，在该论文中Transformer用于encoder-decoder架构。

AI专题精讲·2025-02-15 18:18

Encoder-only decoder-only encoder-decoder大模型的区别

1.Encoder-Only架构-定义：仅包含编码器部分，主要用于处理输入数据而不生成输出。-适用任务：文本分类、情感分析、命名实体识别等。-优点：能够更好地理解输入文本的语义和上下文信息，适合需要特征提取的任务。-缺点：无法直接生成文本输出。-代表模型：BERT、RoBERTa、ALBERT等。2.Decoder-Only架构-定义：仅包含解码器部分，通常用于序列生成任务。-适用任务：文本生成、

阿牛牛阿·2025-02-01 23:40

【AI知识点】三种不同架构的大语言模型（LLMs）的区别

】【AI战略思考】在自然语言处理（NLP）中，预训练语言模型（LLMs,LargeLanguageModels）通常基于不同的架构，如仅编码器的模型（Encoder-only）、编码器-解码器的模型（Encoder-Decoder

AI完全体·2025-02-01 23:09

Transformer+目标检测，这一篇入门就够了

VisionTransformerforObjectDetection本文作者：Encoder-Decoder简介：Encoder-Decoder的缺陷：Attention机制：Self-Attention

BIT可达鸭·2024-09-07 21:19

【笔记】Encoder-Decoder模型

Encoder-DecoderFrameworkEncoder-DecoderEncoderDecoderDecoderwithAttention参考Encoder-DecoderEncoder输入:X=(x1,x2,...,xTx)X=(x_1,x_2,...,x_{T_x})X=(x1,x2,...,xTx)输出:上下文向量(contextvector)ccc步骤：ht=f(xt,ht−1)c

808130260·2024-09-05 19:42

大模型时代，图像描述生成（image caption）怎么走？

主流结构：Transformer为了实现图像描述的任务，常见的方法是采用编码器-解码器（encoder-decoder）的

Only_one_road·2024-02-09 21:17

为什么现在的LLM都是Decoder only的架构

而Encoder-Decoder架构之所以能够在某些场景下表现更好，大概只是因为它多了一倍参数。所以，在同等参数量、同等推理成本下，Decoder-only架构就是最优选择了。为什么现

u013250861·2024-02-03 12:55

LLM都是Decoder only的架构原因解读

稍微总结下：从模型实用层面来说：Decoder-only架构计算高效：相对于Encoder-Decoder架构，Decoder-only架构不需要编码器先编码整个输入序列，所以训练推理速度更快。

u013250861·2024-02-03 12:55

经典的语义分割(semantic segmentation)网络模型（综合篇）

.基础的语义分割架构project_summaryConvolutionalencoder-decoderarchitectureofpopularSegNetmodel.主流的语义分割网络大都是基于Encoder-Decoder

花花少年·2024-01-29 13:23

预训练语言模型transformer

预训练语言模型的学习方法有三类：自编码（auto-encode,AE)、自回归（autoregressive,AR），Encoder-Decoder结构。

Icevivina·2024-01-28 11:48

大语言模型系列-T5

Decoderonly）、BERT（Encoderonly），但是这两个模型针对不同下游不同的NLP任务时还需要进行一定的修改（如添加一些线性层），Google经过庞大的预训练，最终提出了一个通用框架T5模型（Encoder-Decoder

学海一叶·2024-01-25 07:27

51-12 多模态论文串讲—BLIP 论文精读

视觉语言预训练VLP模型最近在各种多模态下游任务上获得了巨大的成功，目前还有两个主要局限性:(1)模型角度:大多数方法要么采用encoder模型，要么采用encoder-decoder模型。

深圳季连AIgraphX·2024-01-24 18:19

python Seq2Seq模型源码实战，超详细Encoder-Decoder模型解析实战；早期机器翻译模型源码demo

1.Seq2Seq（Encoder-Decoder）模型简介Seq2Seq（Encoder-Decoder）模型是一种常用于序列到序列（sequence-to-sequence）任务的深度学习模型。

医学小达人·2024-01-24 11:55

学习笔记之机器学习之预测雾霾

文章目录Encoder-DecoderSeq2Seq(序列到序列）Encoder-Decoder基础的Encoder-Decoder是存在很多弊端的，最大的问题就是信息丢失。

JNU freshman·2024-01-23 03:12

ChatGLM vs ChatGPT

绿色：Encoder-Decoder，尽头智谱ChatGLM。蓝色：Decoder-only，尽头OpenAIGPT4。

南宫凝忆·2024-01-21 06:17

Transformer模型

前置知识：Attention机制结构Transformer主要包括四部分，其中2,3两部分是Transformer的重点，Transformer是一个基于Encoder-Decoder框架的模型原理输入自然语言序列到编码器

惊雲浅谈天·2024-01-17 03:54

Self-Attention

前置知识：RNN，Attention机制在一般任务的Encoder-Decoder框架中，输入Source和输出Target内容是不一样的，比如对于英-中机器翻译来说，Source是英文句子，Target

惊雲浅谈天·2024-01-17 03:23

LLM主流框架：Causal Decoder、Prefix Decoder和Encoder-Decoder

本文将介绍如下内容：transformer中的mask机制CausalDecoderPrefixDecoderEncoderDecoder总结一、transformer中的mask机制在Transformer模型中，mask机制是一种用于在self-attention中的技术，用以控制不同token之间的注意力交互。具体来说，Transformer中使用两种类型的mask：paddingmask和

TFATS·2024-01-15 17:53

Transformer 是拥抱数据不确定性的艺术

Encoder-Decoder架构、Multi-head注意力机制、Dropout和残差网络等都是Bayesian神经网络的具体实现；基于Transformer各种模型变种及实践也都是基于Bayesian

孙庚辛·2024-01-13 00:38

【读文献】Attention is all your need - Transformer

基于RNN/CNN的Encoder-Decoder或者RNN带Attention的Encoder-Decoder不能并行计算或者并行计算的复杂度会随着输入输出距离的增加而大幅度增加，以及RN

无名草鸟·2024-01-09 20:05

论文阅读 Attention is all u need - transformer

文章目录1摘要1.1核心2模型架构2.1概览2.2理解encoder-decoder架构2.2.1对比seq2seq，RNN2.2.2我的理解3.Sublayer3.1多头注意力multi-headself-attention3.1.1

highoooo·2024-01-09 20:00

2024.1.7周报

目录摘要ABSTRACT一、文献阅读1、题目2、摘要3、模型架构4、文献解读一、Introduction二、创新点三、实验过程四、结论二、深度学习知识一、从Encoder-Decoder框架中理解为什么要有

Nyctophiliaa·2024-01-08 14:03

学习周报2.26

文章目录前言文献阅读摘要方法结果深度学习Encoder-Decoder（编码-解码）信息丢失的问题Attention机制总结前言Thisweek,Ireadanarticleaboutdailystreamflowprediction.Thisstudyshowstheresultsofanin-depthcomparisonbetweentwodifferentdailystreamflowpr

hehehe2022·2024-01-08 06:36

第三十八周周报：文献阅读 +BILSTM+GRU+Seq2seq

LSTM（长短期记忆网络）耦合模型研究实验数据集评估指标研究目的洪水深度预测实验结果LSTM变体BidirectionalLSTM（双向LSTM）GRU（门循环控制单元）Seq2seq模型编码器-解码器（encoder-decoder

m0_66015895·2024-01-08 06:01

机器学习-基于attention机制来实现对Image Caption图像描述实验

机器学习-基于attention机制来实现对ImageCaption图像描述实验实验目的基于attention机制来实现对ImageCaption图像描述实验内容1.了解一下RNN的Encoder-Decoder

septnancye·2024-01-03 08:28

Attention机制

前置知识：RNN，LSTM/GRU提出背景Attention模型是基于Encoder-Decoder框架提出的。Encoder-Decoder框架，也就是编码-解码框架，主要被用来处理序列-序列问题。

惊雲浅谈天·2024-01-02 06:44

不用再找了，这是大模型最全的面试题库

prefixDecoder和causalDecoder和Encoder-Decoder区别是什么？大模型LLM的训练目标是什么？涌现能力是啥原因？为何现在的大模型大部分是Decoderonly结构？

机器学习社区·2023-12-31 00:34

Scaling Down, LiTting Up: Efficient Zero-Shot Listwise Reranking with Seq2seq Encoder-Decoder Models

Q:这篇论文试图解决什么问题？A:这篇论文介绍了两种基于T5模型的零样本列表重排方法，旨在提高列表重排的效率。作者提出了两个研究问题：1)序列到序列的编码器-解码器模型是否可以适应列表重排？2)是否可以将更大模型的重排效果提炼到更小的序列到序列编码器-解码器重排模型中？为了回答这些问题，作者提出了两种方法：LiT5-Distill和LiT5-Score。LiT5-Distill通过蒸馏从更大的Ra

步子哥·2023-12-28 16:13

Encoder-Decoder综述理解(推荐)

文章目录一、Encoder-Decoder（编码-解码）介绍几点说明信息丢失的问题应用二、Seq2Seq（序列到序列）介绍Seq2Seq与Encoder-Decoder三、代码实现任务描述数据集设计模型模型的实现过程数据预处理代码如下

爱科研的徐博士·2023-12-25 23:42

推荐频道