TRANSFORMER 第13页

下一代视觉Transformer：CNN+Transformer=Better

2024深度学习发论文&模型涨点之——CNN+TransformerCNN擅长提取图像的局部特征，而Transformer则以其自注意力机制在捕捉全局信息和长距离依赖方面表现出色。

Ai多利·2025-04-19 03:08

Tokenformer: 下一代Transformer架构

1.导言Transformer架构已经成为当今大模型的基石，不管是NLP还是CV领域，目前的SOTA模型基本都是基于Transformer架构的，比如NLP中目前的各种知名大模型，或者CV中的Vit等模型本次介绍的论文标题为

码农Q！·2025-04-19 03:38

深入浅出 Self-Attention：原理 + 例子 + PyTorch 实现

Transformer的核心机制就是Self-Attention，它赋予模型强大的“理解上下文”能力。

murphymeng2001·2025-04-19 02:26

Transformer 架构 - 解码器 (Transformer Architecture - Decoder)

一、解码器整体结构：多层堆叠设计Transformer解码器由N个相同结构的解码器层堆叠而成（通常N=6），每层包含三个核心子模块（图1）1512：带掩码的多头自注意力层（MaskedMulti-HeadSelf-Attention

LIUDAN'S WORLD·2025-04-18 22:33

4月18日复盘

随着算力的提升，深度学习可以处理图像，文本，音频，视频等各种内容，主要应用领域有：图像处理：分类、目标检测、图像分割（语义分割）自然语言处理：LLM、NLP、Transformer语音识别：对话

四万二千·2025-04-18 19:13

AI测试入门：什么是大型语言模型（LLM）？

1.2大语言模型的历史发展二、大语言模型的工作原理2.1Transformer架构2.1.1自注意力机制2.2预训练与微调2.3.1预训练2.3.2微调三、大语言模型的应用场景3.1文本生成3.2机器翻译

blues_C·2025-04-18 17:34

深入浅出 Multi-Head Attention：原理 + 例子 + PyTorch 实现

本文带你一步步理解Transformer中最核心的模块：多头注意力机制（Multi-HeadAttention）。从原理到实现，配图+举例+PyTorch代码，一次性说清楚！

murphymeng2001·2025-04-18 15:45

大模型面经之bert和gpt区别

一、模型基础与架构BERT：全称：BidirectionalEncoderRepresentationsfromTransformers。

cv2016_DL·2025-04-18 11:49

论文笔记《TAG-DTA:Binding-region-guidedstrategytopredictdrug-target affinity using transformers》

TAG-DTA:结合区域引导策略，使用transformer预测药物-靶标亲和力对目标特异性化合物选择性的适当评估在药物发现环境中至关重要，促进药物-靶标相互作用(DTI)的识别和潜在线索的发现。

I_dyllic·2025-04-18 08:04

【Attention】KV Cache

定义：KVCache即Key-ValueCache，是用于加速Transformer模型推理长序列过程的一种技术。

麦格芬230·2025-04-18 01:47

[特殊字符] 深入剖析 AI 大模型的位置编码原理：从理论到实践 [特殊字符]

一、引言在自然语言处理（NLP）的星辰大海中，Transformer架构犹如一艘超级战舰，而位置编码就是它的导航系统！本文将带你深入探索这个让AI理解"顺序"奥秘的黑科技~你知道吗？

AI大模型顾潇·2025-04-17 18:00

TPAMI 2025 | 探索 Transformer 中受频率启发的优化方法用于高效单图像超分辨率

论文信息题目：ExploringFrequency-InspiredOptimizationinTransformerforEfficientSingleImageSuper-Resolution探索Transformer

小白学视觉·2025-04-17 16:47

ViewPager Animations: Customizing Swipes in Android

我们将探讨使用PageTransformer接口来自定义页面转换动画，并通过代码示例展示如何实现淡入淡出效果和利用ObjectAnimator进行复杂的动画设计。

黄冈新学爸·2025-04-17 04:55

大语言模型（LLM）的训练和推理

一、大语言模型简介大语言模型（如GPT、BERT、LLaMA、Grok等）是基于深度神经网络（主要是Transformer架构）的模型，通过在大规模文本数据上训练，学习语言的统计规律、语义和上下文关系。

爱看烟花的码农·2025-04-17 01:12

【大模型应用开发动手做AI Agent】基于大模型的Agent技术框架

2.2Agent2.3提示工程2.4思维链2.5检索增强生成3.核心算法原理具体操作步骤3.1任务理解3.2知识检索3.3思维链构建3.4答案生成3.5结果优化4.数学模型和公式详细讲解举例说明4.1Transformer

AI天才研究院·2025-04-16 16:40

NLP 现代教程：Transformer的训练与应用全景解读

NLP现代教程：Transformer的训练与应用全景解读一、Transformer的使用方式（TrainingandUse）如何使用Transformer模型？

pen-ai·2025-04-16 12:14

BERT - Bert模型框架复现

本节将实现一个基于Transformer架构的BERT模型。

风筝超冷·2025-04-16 12:13

GPT-2源码实现及GPT-3、GPT-3.5、GPT-4及GPT-5内幕解析(三)

GPT-2源码实现及GPT-3、GPT-3.5、GPT-4及GPT-5内幕解析(三)5.3GPT-3内幕机制可视化解析GPT-3是一个基于Transformer的语言模型，通过不同的层次提取语言不同层面的特性

段智华·2025-04-16 00:26

【NLP笔记】预训练+微调范式之OpenAI Transformer、ELMo、ULM-FiT、Bert..

文章目录OpenAITransformerELMoULM-FiTBert基础结构Embedding预训练&微调【原文链接】：BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding

`AllureLove·2025-04-15 18:16

bert-base-chinese模型使用教程

向量编码和向量相似度展示importtorchfromtransformersimportBertTokenizer,BertModelimportnumpyasnpmodel_name="C:/Users

raoxiaoya·2025-04-15 18:16

一起学Hugging Face Transformers（10）- 使用Transformers 库的 Trainer API 进行模型微调

HuggingFaceTransformers库提供了强大的TrainerAPI，使得模

做个天秤座的程序猿·2025-04-15 18:15

BERT - 直接调用transformers.BertModel, BertTokenizerAPI不进行任何微调

本节代码将使用transformers库加载预训练的BERT模型和分词器（Tokenizer），并处理文本输入。

风筝超冷·2025-04-15 17:13

centos-LLM-生物信息-BioGPT-使用1

/github.com/microsoft/BioGPTBioGPT：用于生物医学文本生成和挖掘的生成式预训练转换器|生物信息学简报|牛津学术—BioGPT:generativepre-trainedtransformerforbiomedicaltextgenerationandmining

淀粉肠狂热粉·2025-04-15 17:09

大模型训练、多模态数据处理与融合

一、大模型训练随着硬件和算法的进步，如GPT（GenerativePre-trainedTransformer）系列模型和BERT（BidirectionalE

百度_开发者中心·2025-04-15 15:29

多模态大模型：技术原理与实战多模态大模型对比

多模态大模型、自然语言处理、计算机视觉、音频处理、多模态融合、Transformer、BERT、GPT、DALL-E、CLIP1.背景介绍近年来，人工智能领域取得了令人瞩目的进展，其中多模态大模型(MultimodalLargeLanguageModels

AGI大模型与大数据研究院·2025-04-15 15:54

Python中的Transformer算法详解

目录Python中的Transformer算法详解引言一、Transformer的基本原理1.1什么是Transformer？

闲人编程·2025-04-15 08:44

Python Transformer 库及使用方法

Python中的Transformer库及使用方法一、库的概述HuggingFaceTransformers是自然语言处理（NLP）领域最流行的开源库之一，支持基于Transformer架构的预训练模型

学亮编程手记·2025-04-15 08:40

AI产品经理必须知道的技术之七【注意力机制】

01—什么是注意力机制深度学习以及大语言模型的发展，很大程度上，得益于Transformer架构的出现。现在绝大多数的大语言模型，都是基于Transformer训练的。Trans

weixin_47233946·2025-04-15 07:05

nlp培训重点-5

importjsonimportreimportosimporttorchimportnumpyasnpfromtorch.utils.dataimportDataset,DataLoaderfromtransformersimportBertTokenizer

heine162·2025-04-14 23:44

论文精度：双分支图Transformer网络：视频驱动的3D人体网格重建新突破

论文地址：https://arxiv.org/pdf/2412.01179目录一、背景与问题定义1.13D人体网格重建的意义1.2现有方法的困境二、核心创新：DGTR网络架构2.1整体框架设计2.2全局运动感知分支（GMA）2.3局部细节优化分支（LDR）2.3.1局部信息聚合2.3.2调制图卷积网络三、性能优势解析3.1实验数据对比3.2关键优势点四、应用场景展望4.1典型应用方向4.2实际部署

清风AI·2025-04-14 23:14

Transformer 介绍

Transformer完整介绍Transformer是现代人工智能生成内容（AIGC）领域，尤其是自然语言处理（NLP）和计算机视觉（CV）中的核心模型架构。

爱看烟花的码农·2025-04-14 17:27

“AI+你的专业”有哪些热点研究方向（研究生2025版）

关键技术‌：Transformer架构、提示工程、AIGC内容安全检测。AI可解释

小研学术·2025-04-14 15:45

2.3 Transformer架构革命：从自注意力到万亿参数大模型的演进之路

Transformer架构革命：从自注意力到万亿参数大模型的演进之路一、Transformer核心突破：彻底颠覆序列建模范式1.1传统序列模型的致命瓶颈#RNN/LSTM的串行计算缺陷示例hidden_state

少林码僧·2025-04-14 11:25

Transformer架构的推理瓶颈与突破

详细分析：核心观点：Transformer架构虽然强大，但其全局注意力机制在推理阶段导致极高的内存和计算成本，尤其是KV缓存机制虽然减少了计算成本，却大幅增加了内存需求，成为模型运行的主要瓶颈。

2501_90976089·2025-04-14 11:18

【ELGC-Net】用于遥感变化检测的高效局部-全局上下文聚合（IEEE TGRS收录）

摘要现有的CNN和基于Transformer的框架往往难以准确的分割语义变化区域。

及时行樂樂樂·2025-04-14 08:33

【5090d】配置运行和微调大模型所需基础环境【一】

RuntimeError:Failedtoimporttransformers.integrations.bitsandbytesbecauseofthefollowingerror(lookuptoseeitstraceback

Monee..·2025-04-13 21:53

P-tuning、Prompt-tuning和Prefix-tuning区别是什么？

PrefixTuning是在每层Transformer结构的输入前添加一组可训练的Token。这样，模型在处理输入序列时，每一层的输入都会包含这些额外的Token，从而适配下游任务。

Jacob_AI·2025-04-13 13:05

Med-Former：全新的Transformer医学图像分类架构

然而，现有的基于Transformer的图像分类方法在应用于医学图像时面临诸多挑战，尤其是在特征提取能力和关键信息传递效率方面。

小白学视觉·2025-04-13 13:32

【论文阅读笔记】Attention Is All You Need

论文小结这是17年的老论文了，Transformer的出处，刚发布时的应用场景是文字翻译。BLUE是机器翻译任务中常用的一个衡量标准。

时光机ﾟ·2025-04-13 13:02

告别性能焦虑：Mamba架构如何超越Transformer处理长文本

引言：告别长文本处理的“性能焦虑”在自然语言处理领域，Transformer模型一直是处理序列数据的首选。然而，当面对长文本时，Transformer的计算复杂度和内存消耗会急剧增加，成为性能瓶颈。

海棠AI实验室·2025-04-13 12:25

新书速览|深入探索Mamba模型架构与应用

《深入探索Mamba模型架构与应用》本书内容Mamba是一种新型的深度学习架构，在保持对序列长度近似线性扩展性的同时，提供了与Transformers相当的建模能力。

全栈开发圈·2025-04-13 11:22

【人工智能之大模型】为什么Transformer块使用LayerNorm而不是BatchNorm？

【人工智能之大模型】为什么Transformer块使用LayerNorm而不是BatchNorm？【人工智能之大模型】为什么Transformer块使用LayerNorm而不是BatchNorm？

985小水博一枚呀·2025-04-13 10:14

【深度学习】CNN的研发背景及其与其他模型的对比分析

它与其他模型（如DNN、RNN、Transformer）有何异同？本文将系统梳理CNN的研发背景，并对比分析其与其他模型的关联，帮助读者深入理解CNN的核心思想及应用场景。

学废了wuwu·2025-04-13 10:13

(GNN) Graphormer：Transformers在图表示中的表现真的很差吗？

摘要Transformer架构已经成为许多领域的主流选择，例如自然语言处理和计算机视觉。然而，与主流的GNN变体相比，它在图级预测的热门排行榜上尚未取得竞争力的表现。

无声之钟·2025-04-13 10:11

CNN+Transformer实现遥感影像建筑物分割

文章目录一、局部细节与全局上下文的协同建模1.CNN的局部感知优势空间局部性：平移等变性：层次化特征提取：2.Transformer的全局关联优势长距离依赖建模：动态权重分配：尺度不变性：二、多尺度特征融合能力

hanfeng5268·2025-04-13 05:34

层归一化详解及在 Stable Diffusion 中的应用分析

一、常见的归一化技术名称归一化维度应用场景简要说明LayerNorm对每个样本的所有特征进行归一化NLP、Transformer与batch无关，适合变长序列建模BatchNorm对batch内同一通

AIGC_增益·2025-04-13 01:10

多模态大模型：技术原理与实战微调实战

多模态大模型、微调、自然语言处理、计算机视觉、音频处理、Transformer、BERT、GPT、CLIP、DALL-E1.背景介绍近年来，人工智能领域取得了令人瞩目的进展，其中多模态大模型(MultimodalLargeLanguageModels

AGI大模型与大数据研究院·2025-04-13 00:02

Transformer大模型实战教师学生架构

1.背景介绍Transformer是一种基于自注意力机制的神经网络模型，由Google在2017年提出，用于自然语言处理任务，如机器翻译、文本摘要等。

AI天才研究院·2025-04-12 23:30

使用Python从零实现一个端到端多模态 Transformer大模型

今天咱们要来一场超级酷炫的多模态Transformer冒险之旅！想象一下，让一个模型既能看懂图片，又能理解文字，然后还能生成有趣的回答。听起来是不是很像超级英雄的超能力？别急，咱们这就来实现它！

AI仙人掌·2025-04-12 21:47

关于深度学习局部视野与全局视野的一些思考

关于深度学习局部视野与全局视野的一些思考最近，我在学习一个基于Transformer的网络模型时，注意到了一些局部特征和全局特征的概念。

movigo7_dou·2025-04-12 20:13

推荐频道

TRANSFORMER