Transformer 第13页

Transformer 介绍

Transformer完整介绍Transformer是现代人工智能生成内容（AIGC）领域，尤其是自然语言处理（NLP）和计算机视觉（CV）中的核心模型架构。

爱看烟花的码农·2025-04-14 17:27

“AI+你的专业”有哪些热点研究方向（研究生2025版）

关键技术‌：Transformer架构、提示工程、AIGC内容安全检测。AI可解释

小研学术·2025-04-14 15:45

2.3 Transformer架构革命：从自注意力到万亿参数大模型的演进之路

Transformer架构革命：从自注意力到万亿参数大模型的演进之路一、Transformer核心突破：彻底颠覆序列建模范式1.1传统序列模型的致命瓶颈#RNN/LSTM的串行计算缺陷示例hidden_state

少林码僧·2025-04-14 11:25

Transformer架构的推理瓶颈与突破

详细分析：核心观点：Transformer架构虽然强大，但其全局注意力机制在推理阶段导致极高的内存和计算成本，尤其是KV缓存机制虽然减少了计算成本，却大幅增加了内存需求，成为模型运行的主要瓶颈。

2501_90976089·2025-04-14 11:18

【ELGC-Net】用于遥感变化检测的高效局部-全局上下文聚合（IEEE TGRS收录）

摘要现有的CNN和基于Transformer的框架往往难以准确的分割语义变化区域。

及时行樂樂樂·2025-04-14 08:33

【5090d】配置运行和微调大模型所需基础环境【一】

RuntimeError:Failedtoimporttransformers.integrations.bitsandbytesbecauseofthefollowingerror(lookuptoseeitstraceback

Monee..·2025-04-13 21:53

P-tuning、Prompt-tuning和Prefix-tuning区别是什么？

PrefixTuning是在每层Transformer结构的输入前添加一组可训练的Token。这样，模型在处理输入序列时，每一层的输入都会包含这些额外的Token，从而适配下游任务。

Jacob_AI·2025-04-13 13:05

Med-Former：全新的Transformer医学图像分类架构

然而，现有的基于Transformer的图像分类方法在应用于医学图像时面临诸多挑战，尤其是在特征提取能力和关键信息传递效率方面。

小白学视觉·2025-04-13 13:32

【论文阅读笔记】Attention Is All You Need

论文小结这是17年的老论文了，Transformer的出处，刚发布时的应用场景是文字翻译。BLUE是机器翻译任务中常用的一个衡量标准。

时光机ﾟ·2025-04-13 13:02

告别性能焦虑：Mamba架构如何超越Transformer处理长文本

引言：告别长文本处理的“性能焦虑”在自然语言处理领域，Transformer模型一直是处理序列数据的首选。然而，当面对长文本时，Transformer的计算复杂度和内存消耗会急剧增加，成为性能瓶颈。

海棠AI实验室·2025-04-13 12:25

新书速览|深入探索Mamba模型架构与应用

《深入探索Mamba模型架构与应用》本书内容Mamba是一种新型的深度学习架构，在保持对序列长度近似线性扩展性的同时，提供了与Transformers相当的建模能力。

全栈开发圈·2025-04-13 11:22

【人工智能之大模型】为什么Transformer块使用LayerNorm而不是BatchNorm？

【人工智能之大模型】为什么Transformer块使用LayerNorm而不是BatchNorm？【人工智能之大模型】为什么Transformer块使用LayerNorm而不是BatchNorm？

985小水博一枚呀·2025-04-13 10:14

【深度学习】CNN的研发背景及其与其他模型的对比分析

它与其他模型（如DNN、RNN、Transformer）有何异同？本文将系统梳理CNN的研发背景，并对比分析其与其他模型的关联，帮助读者深入理解CNN的核心思想及应用场景。

学废了wuwu·2025-04-13 10:13

(GNN) Graphormer：Transformers在图表示中的表现真的很差吗？

摘要Transformer架构已经成为许多领域的主流选择，例如自然语言处理和计算机视觉。然而，与主流的GNN变体相比，它在图级预测的热门排行榜上尚未取得竞争力的表现。

无声之钟·2025-04-13 10:11

CNN+Transformer实现遥感影像建筑物分割

文章目录一、局部细节与全局上下文的协同建模1.CNN的局部感知优势空间局部性：平移等变性：层次化特征提取：2.Transformer的全局关联优势长距离依赖建模：动态权重分配：尺度不变性：二、多尺度特征融合能力

hanfeng5268·2025-04-13 05:34

层归一化详解及在 Stable Diffusion 中的应用分析

一、常见的归一化技术名称归一化维度应用场景简要说明LayerNorm对每个样本的所有特征进行归一化NLP、Transformer与batch无关，适合变长序列建模BatchNorm对batch内同一通

AIGC_增益·2025-04-13 01:10

多模态大模型：技术原理与实战微调实战

多模态大模型、微调、自然语言处理、计算机视觉、音频处理、Transformer、BERT、GPT、CLIP、DALL-E1.背景介绍近年来，人工智能领域取得了令人瞩目的进展，其中多模态大模型(MultimodalLargeLanguageModels

AGI大模型与大数据研究院·2025-04-13 00:02

Transformer大模型实战教师学生架构

1.背景介绍Transformer是一种基于自注意力机制的神经网络模型，由Google在2017年提出，用于自然语言处理任务，如机器翻译、文本摘要等。

AI天才研究院·2025-04-12 23:30

使用Python从零实现一个端到端多模态 Transformer大模型

今天咱们要来一场超级酷炫的多模态Transformer冒险之旅！想象一下，让一个模型既能看懂图片，又能理解文字，然后还能生成有趣的回答。听起来是不是很像超级英雄的超能力？别急，咱们这就来实现它！

AI仙人掌·2025-04-12 21:47

关于深度学习局部视野与全局视野的一些思考

关于深度学习局部视野与全局视野的一些思考最近，我在学习一个基于Transformer的网络模型时，注意到了一些局部特征和全局特征的概念。

movigo7_dou·2025-04-12 20:13

搜广推校招面经六十六

Y1nhl·2025-04-12 14:31

Transformer模型在自然语言处理中的实战应用

基于BERT的文本分类实战：从原理到部署一、Transformer与BERT核心原理Transformer模型通过自注意力机制（Self-Attention）突破了RNN的顺序计算限制，BERT（BidirectionalEncoderRepresentationsfromTransformers

Evaporator Core·2025-04-12 11:47

DeepSeek 框架的主要核心架构、关键技术、模型训练

基于Transformer架构：Transfor

meisongqing·2025-04-12 07:42

如何基于BERT模型微调出一个医疗问答的模型

BERT（BidirectionalEncoderRepresentationsfromTransformers）是一种由Google开发的预训练语言模型，利用Transformer架构进行双向编码。

2401_89793006·2025-04-12 05:58

原生多模态大模型时代：统一感知的智能跃迁

1.模态编码统一（ModalityTokenization）2.统一骨干（Backbone）：Transformer进化体3.目标函数协同（Multi-taskPretrainingObjectives

gs80140·2025-04-11 23:24

【人工智能】Transformers之Pipeline（一）：音频分类（audio-classification）

目录一、引言二、音频分类（audio-classification）2.1概述2.2技术原理2.2.1Wav2vec2.0模型2.2.1HuBERT模型2.3pipeline参数2.3.1pipeline对象实例化参数2.3.2pipeline对象使用参数2.4pipeline实战2.4.1指令识别（默认模型）2.4.2情感识别2.5模型排名三、总结一、引言pipeline（管道）是hugging

LDG_AGI·2025-04-11 21:42

多语种语音识别新突破：使用Transformers微调Whisper模型，实现精准识别！

前言本文提供了一个使用HuggingFaceTransformers在任意多语种语音识别(ASR)数据集上微调Whisper的分步指南。

大模型入门学习·2025-04-11 21:39

大模型时代的归一化技术：解密Transformer架构中Pre-Norm与RMSNorm的黄金组合

大模型时代的归一化技术：解密Transformer架构中Pre-Norm与RMSNorm的黄金组合引言自2017年"AttentionIsAllYouNeed"论文横空出世，Transformer架构便以其卓越的性能重塑了自然语言处理乃至更广泛的

流云雲·2025-04-11 18:18

Transformer、BERT以及GPT系列联系

①Transformer使用自注意力机制进行编码和解码，能够处理长序列数据；②BERT使用掩码语言模型和下一句预测任务进行训练，能够在不同的自然语言处理任务中取得良好的效果；③GPT大模型是一种基于自回归模型的语言模型

小裴（碎碎念版）·2025-04-11 14:18

复现：SonarNet: Hybrid CNN-Transformer-HOG Framework and Multifeature Fusion Mechanism for Forward-Look

J.He,J.Chen,H.XuandY.Yu,“SonarNet:HybridCNN-Transformer-HOGFrameworkandMultifeatureFusionMechanismforForward-LookingSonarImageSegmentation

hanfeng5268·2025-04-11 09:21

人工智能大模型原理与应用实战：大规模模型在自动摘要中的应用

人工智能大模型原理与应用实战：大规模模型在自动摘要中的应用关键词：人工智能，大模型，自动摘要，Transformer，预训练，微调，自然语言处理1.背景介绍随着互联网和信息技术的飞速发展，我们每天都面临着海量信息的冲击

AI天才研究院·2025-04-11 07:05

人工智能：GPT技术应用与未来展望

GPT（GenerativePre-trainedTransformer）作为自然语言处理领域的代表性技术，近年来在各行业的实际应用中展现出广泛潜力。

meisongqing·2025-04-11 07:34

【ChatGPT核心原理实战】手动求解 Transformer：分步数学示例 | Solving Transformer by Hand: A Step-by-Step Math Example

目录手动求解Transformer：分步数学示例UnderstandingTransformers:AStep-by-StepMathExample—Part1了解Transformer：分步数学示例—

AI天才研究院·2025-04-11 02:04

从编码器和词嵌入开始：Transformer架构详解（上）-ChatGPT4o作答+王木头学科学阅读理解

Transformer架构是由Vaswani等人在2017年提出的，旨在解决序列到序列问题（如机器翻译）。

部分分式·2025-04-11 01:31

大模型架构演进：从Transformer到Mixture of Experts（MoE）

1.Transformer架构基础1.1Transformer架构原理Transformer架构是大模型发展的重要基石，其核心原理基于自注意力机制（Self-AttentionMechanism）。

学习ing1·2025-04-10 23:13

Hugging Face核心组件介绍

HuggingFace账户2.2.安装HuggingFace库3.模型探索与下载3.1.在模型库中搜索模型4.HuggingFaceAPI使用4.1.匿名访问API4.2.使用InferenceAPI5.使用Transformers

EOPG·2025-04-10 18:14

4.1论文阅读

二：TransformerswithoutNormalization论文这是大佬出的文章，所以当然要认

咕噜咕噜开心加油·2025-04-10 17:37

huggingface(三)

本片文章思路参考B站视频【翻遍整个B站，这绝对是2025讲的最好的HuggingFace教程，带你3小时吃透huggingface与Transformers，少走99%的弯路！】

、水水水水水·2025-04-10 16:33

基于pytorch的Swin Transformer用于cifar10分类

在上篇文章基于pytorch的VisionTransformer用于cifar10分类中我们了解VIT在视觉分类中的应用，在本篇文章中将介绍另一种transformer模型-SwinTransformer

厚衣服_3·2025-04-10 14:50

多模态大模型：技术原理与实战 GPT4多模态大模型核心技术介绍

多模态大模型：技术原理与实战GPT-4多模态大模型核心技术介绍1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习革命1.2大语言模型的崛起1.2.1Transformer

AI大模型应用之禅·2025-04-10 12:06

大模型位置编码：RoPE的优化方案

写在前面在Transformer架构中，位置编码（PositionalEncoding,PE）是让模型理解Token顺序的关键技术。

kakaZhui·2025-04-10 06:23

具身智能零碎知识点（一）：深入解析Transformer位置编码

深入解析Transformer位置编码Transformer位置编码完全解析：从公式到计算的终极指南一、位置编码的必要性演示二、位置编码公式深度拆解原始公式参数说明（以d_model=4为例）三、完整计算过程演示步骤

墨绿色的摆渡人·2025-04-10 04:16

语音识别whisper

Whisper的架构是一个简单的端到端方法，采用了编码器-解码器的Transformer模型，将输入的音频转换为对应的文本序列，并根据特殊的标记来指定不同的任务2。要使用Whisper模型，

caridle·2025-04-09 22:59

白话文讲解大模型必修基础知识 | Transformer架构（小白也能看懂）

前言Transformer架构自2017年被提出以来，已经成为自然语言处理（NLP）领域的核心模型之一。

大模型面试·2025-04-09 18:34

Windows Anaconda使用Sentence-BERT获取句子向量

1、安装Anaconda：Anaconda是一个流行的Python数据科学平台，它包含了许多科学计算和数据分析的库，包括transformers和sentence_transformers。

DavidSoCool·2025-04-09 14:07

理解Transformer的整体架构与关键技术（非常详细），零基础入门到精通，看这一篇就够了

前言从2022年底ChatGPT发布以来，人工智能迅速在全社会火爆，ChatGPT背后的一个重要的技术进步就是Transformer架构，这个架构是当下大模型的核心技术支撑，所以要理解当下大模型技术及其未来的发展

agi大模型·2025-04-09 09:08

Transformer 架构详解

Transformer架构是由AshishVaswani和他的同事们在2017年的论文《AttentionisAllYouNeed》中首次提出的。

培根芝士·2025-04-09 09:06

【大模型学习】第十七章预训练技术综述

目录一、预训练技术的起源与演进1.1人工智能的范式转变1.2预训练的技术演进史二、预训练的本质：像人类一样学习2.1生活中的预训练启示2.2技术定义与核心价值三、预训练的技术解剖3.1核心架构：Transformer

好多渔鱼好多·2025-04-09 08:00

DeepSeek与ChatGPT：AI语言模型的全面技术解析与对比（万字深度版）

其技术路径以Transformer架构为基础，通过堆叠参数规模（如GPT-4参数量达万亿级）与强化学习对齐人类反馈（RLHF），逐

猫猫姐·2025-04-09 07:50

【NLP 面经 6】

当上帝赐予你荒野时，就意味着，他要你成为高飞的鹰——25.4.3一、机器翻译任务，Transformer结构模型改进在自然语言处理的机器翻译任务中，你采用基于Transformer架构的模型。

L_cl·2025-04-09 05:42

推荐频道

Transformer