Transformer？第7页

人工智能与大模型技术：从理论到实践的黄金指南

一、破解技术迷雾：大模型的核心原理与演进逻辑1.Transformer架构的数学之美2017年Google提出的Transformer模型，通过自注意力机制（Self-Attention）实现了序列建模的突破

NIHILISM DAMN·2025-06-02 12:40

DeepSeek 赋能智能客服：多轮对话策略的破局与升级

目录一、引言二、智能客服多轮对话策略现状剖析2.1多轮对话关键技术2.2现存问题与挑战三、DeepSeek技术深度解析3.1DeepSeek核心架构3.1.1Transformer架构3.1.2混合专家架构

奔跑吧邓邓子·2025-06-02 12:38

DeepSeek 赋能车路协同：智能交通的破局与重构

目录一、引言二、智能交通车路协同系统概述2.1系统定义与原理2.2系统构成2.3发展现状与挑战三、DeepSeek技术剖析3.1DeepSeek简介3.2核心技术原理3.2.1Transformer架构

奔跑吧邓邓子·2025-06-02 12:38

ImportError: /usr/local/app/.local/lib/python3.10/site-packages/flash_attn_2_cuda.cpython-310-x86_64

情况描述环境：linuxtransformers4.39.0tokenizers0.15.2torch2.1.2+cu121flash-attn2.3.3在使用vllm运行xverse/XVERSE-13B

Cyril_KI·2025-06-02 11:03

自然语言处理之文本摘要：Transformer与文本摘要评价指标

自然语言处理之文本摘要：Transformer与文本摘要评价指标自然语言处理与文本摘要简介自然语言处理的基本概念自然语言处理（NaturalLanguageProcessing，NLP）是人工智能领域的一个重要分支

zhubeibei168·2025-06-02 08:41

基于Transformer和多模态融合的智能代码补全系统研究与实践

本文深入研究基于Transformer架构的代码补全模型，提出一种融合代码语义特征与代码视觉化特征的多模态智能代码补全系统。

广州正荣·2025-06-02 00:16

MultiPatchFormer改进|爆改模型|涨点|使用TiDE中的MLP结构替换半自动回归的线性层（附代码+修改教程）

一、本文介绍MultiPatchFormer是一种的基于Transformer的模型，用于多元时间序列预测使用多尺度时间嵌入来捕捉不同尺度的时间相关性，包括一个通道编码器来建模输入序列之间的关系并捕捉交互作用

ThePPP_FTS·2025-06-01 23:12

【Block总结】TAB，令牌聚合块|融合组内自注意力（IASA）和组间交叉注意力（IRCA）|即插即用

该网络旨在解决基于Transformer的方法在高空间分辨率下的计算复杂度问题。CATANet通过高效的内容感知令牌聚合模块（CATA）来捕捉长距离依赖关系，同时保持高推理速度。

AI浩·2025-06-01 18:04

【AI算法工程师面试指北】Transformer与CNN有什么异同点？

Transformer和CNN（卷积神经网络）是深度学习中两种重要的架构，分别在自然语言处理（NLP）和计算机视觉（CV）领域取得了突破性成果。它们既有相似之处，也有显著差异。

小米玄戒Andrew·2025-06-01 15:10

爆肝优化！FlashAttention-2性能飙升实战：从原理解析到PyTorch 2.2深度优化（附代码与Benchmark）

一、引言：Transformer时代的注意力性能革命1.1传统注意力机制的性能瓶颈在大模型训练中，标准Transformer注意力面临三大痛点：内存爆炸：序列长度L=4096时，注意力内存占用达O(L²

游戏人生的NPC·2025-06-01 13:26

transformer 输入三视图线段输出长宽高笔记

importtorchimporttorch.nnasnnimporttorch.nn.functionalasFclassPositionalEncoding(nn.Module): def__init__(self,d_model,max_len=5000): super(PositionalEncoding,self).__init__() pe=torch.zeros(max

njsgcs·2025-06-01 13:52

中美大模型技术路径差异解析：产品经理视角下的核心逻辑与产业启示

美国企业更注重基础算法突破与通用能力建设，如OpenAI通过Transformer架构的持续迭代，将模型参数量推升至万亿级别（如GPT-4Turbo的1.8万亿参数）。

charles666666·2025-06-01 10:05

python打卡DAY23

知识回顾:转化器和估计器的概念管道工程ColumnTransformer和Pipeline类作业：整理下全部逻辑的先后顺序，看看能不能制作出适合所有机器学习的通用pipeline基础概念pipeline

纨妙·2025-06-01 09:58

BERT分类器和朴素贝叶斯分类器比较

一、核心原理对比维度预训练模型（如BERT）朴素贝叶斯分类器模型类型深度学习模型，基于Transformer架构，通过大规模无监督预训练学习语言表示。

非小号·2025-06-01 07:13

ResNet系列和ViT系列预训练模型权重文件下载

主要包含两种架构系列和不同规模配置：ResNet系列(RN)基础版本：RN50（ResNet-50）扩展版本：RN50x4、RN50x16、RN50x64（宽度扩展）层级结构：传统卷积神经网络，含残差连接VisionTransformer

水静川流·2025-06-01 06:34

【实战分享】TensorRT+LLM：大模型推理性能优化初探

github:https://github.com/NVIDIA/TensorRT-LLM/tree/main1.介绍TensorRT-LLM可以视为TensorRT和FastTransformer的结合体

fengbeely·2025-06-01 06:02

大模型核心技术及架构解析

以下是其核心技术和架构的全面分析：一、核心技术组成1.基础架构技术技术说明代表应用Transformer自注意力机制基础架构GPT,BERTMoE架构混合专家模型GoogleSwitchTransformer

阿湯哥·2025-06-01 05:28

Qwen2学习笔记1：Qwen2模型原理

fromtransformersimportQwen2Tokenizer#加载Qwen2的tokeniz

guoyukun1·2025-06-01 02:11

【代码解析】用PyTorch实现混合专家（MoE）语言模型

最近，DeepSeek-V2作为一个强大的开源MoE语言模型，以其创新的Transformer架构实现了经济高效的训练和推理，引起了社区的极大兴趣。

Kaydeon·2025-06-01 01:05

大语言模型中的注意力机制详解

注意力机制（AttentionMechanism）是Transformer架构的核心组成部分，它允许模型在处理信息时动态地关注输入序列中最相关的部分。

要努力啊啊啊·2025-05-31 23:18

Sentence Transformers 教程！

SentenceTransformers专注于句子和文本嵌入，支持超过100种语言。

小森( ﹡ˆoˆ﹡ )·2025-05-31 21:59

SentenceTransformer简单使用

SentenceTransformer简单使用1SentenceTransformer介绍SentenceTransformer主要用于对句子、文本和图像进行嵌入。

MasonYyp·2025-05-31 21:58

sentence_transformers安装

目录安装：测试引用：报新错：sentence_transformers安装：pipinstallsentence_transformers测试引用：python-c"fromsentence_transformersimportSentenceTransformer

AI算法网奇·2025-05-31 20:26

目标检测算法之RT-DETR

BackgroundModelArchitectureEfficientHybridEncoderUncertainty-minimalQuerySelection总结BackgroundReal-timeDetectionTransformer

碌碌无为的小张·2025-05-31 19:20

RT-DETR部分源码解析

classRTDETR(Model):"""InterfaceforBaidu'sRT-DETRmodel.ThisVisionTransformer-basedobjectdetectorprovidesreal-timeperformancewithhighaccuracy.Itsupportsefficienthybridencoding

明天吃香菜·2025-05-31 19:50

仍有用武之地：LSTM强于Transformer的场景

Transformer的优势主要在于自注意力机制，可以捕捉长距离依赖，并行计算能力强，训练速度快。

xsddys·2025-05-31 19:47

互联网大厂经典面试题：手撕Transformer

Transformer作为现在大模型的基本架构，在学术界以及工业界都有很广泛的应用，因此成为了一个重要考点，本文着重介绍如何快速理解transformer以及通过python“手撕”实现（以演示为主，不能直接运行

LBXY·2025-05-31 19:17

Wenet代码分析：混合CTC-Attention的端到端语音识别模型`ASRModel`

Wenet代码分析：混合CTC-Attention的端到端语音识别模型ASRModel代码文件位置：wenet/transformer/asr_model.py导入必要的库fromtypingimportDict

@李思成·2025-05-31 19:16

transformer(2)：手撕Transformer！！从每一模块原理讲解到代码实现

参考资料transformer(1)：transformer模型架构解读一、位置编码位置编码（PositionalEncoding）是Transformer模型中的一个重要组成部分，用于在序列数据中引入位置信息

BILLY BILLY·2025-05-31 18:15

Transformer目标检测 | DETR论文解读

0.前言DETR是首个将Transformer应用到2D目标检测任务中的算法，由Facebook于2020年在论文《End-to-EndObjectDetectionwithTransformers》中提出

DeepDriving·2025-05-31 17:04

目标检测：Deformable DETR: Deformable Transformers for End-to-End Object Detection【方法解读】

可以查看B站视频（讲的很详细，对照下文内容进行视频观看，效果更佳）：（1）DeformableDETR|1、Abstract算法概述（2）DeformableDETR|2、backbone、MultiHeadAttention公式讲解（3）DeformableDETR｜3、DeformableAttention、MSDeformAttention、流程讲解摘要DETR最近被提出以消除许多手工设计的

沉浸式AI·2025-05-31 17:34

论文阅读：Deformable DETR: Deformable Transformers for End-to-End Object Detection

论文阅读：DeformableDETR:DeformableTransformersforEnd-to-EndObjectDetectionDeformableDETR:基于稀疏空间采样的注意力机制，让

fishfuck·2025-05-31 17:01

Python----循环神经网络（Transformer ----Encoder-Decoder）

一、自然语言任务分类1.1、N对1在N对1的任务中，系统接收多个输入元素（N个），但只产生一个输出。这种类型的任务通常涉及整合或总结多个输入点的信息。典型的例子包括：文本摘要：从多个句子或段落中提取关键信息，生成一个摘要。情感分析：分析一段文本（可能包含多个句子），确定其整体情感倾向，如正面、负面或中立（或者商品的评分评价）。语言模型：在给定一系列词（如一个句子）的情况下，预测下一个最可能的词。1

蹦蹦跳跳真可爱589·2025-05-31 12:25

Vision Transformer实战：如何将Transformer应用于图像分类

引言：当Transformer遇见图像传统图像分类任务由CNN主导，但Transformer凭借其全局建模能力，在ImageNet等基准任务中刷新了记录。

学术猿之吻·2025-05-31 09:38

《Transformer如何进行图像分类：从新手到入门》

引言如果你对人工智能（AI）或深度学习（DeepLearning）感兴趣，可能听说过“Transformer”这个词。

机器学习司猫白·2025-05-31 09:05

Transformer 架构在目标检测中的应用：YOLO 系列模型解析

目录Transformer架构在目标检测中的应用：YOLO系列模型解析一、YOLO模型概述二、YOLO模型的核心架构（一）主干网络（二）颈部结构（三）头部结构三、YOLO模型的工作原理（一）输入图像预处理

水花花花花花·2025-05-31 08:04

AI时代新词-大模型（Large Language Model）

二、大模型的工作原理大模型通常基于一种称为“Transformer”的架构，这种架构能够处理长文本序

明似水·2025-05-31 07:54

BERT模型原理与Fine-tuning实战指南

Fine-tuning实战指南系统化学习人工智能网站（收藏）：https://www.captainbed.cn/flu文章目录BERT模型原理与Fine-tuning实战指南摘要引言1.BERT核心原理解析1.1Transformer

layneyao·2025-05-31 06:44

一文读懂Vision Transformer图像分类原理与实现

然而，Transformer的出现为图像分类带来了新的思路。本文将详细探讨Transformer架构在图像分类中的微调，即VisionTransformer（ViT）的工作原理、重要细节以及具体实现。

t0_54program·2025-05-31 01:40

亚远景-AI 快速入门与ML-SPICE标准引入课程

课程内容：模块1：AI战略与基础1.AI驱动的商业价值机器学习在汽车/制造行业的核心应用场景企业AI转型的3大关键成功要素2.ML机器学习基础核心概念：监督学习/无监督学习/强化学习模型架构概览：CNN、Transformer

亚远景aspice·2025-05-30 02:47

【SCI论文写作】机器学习与时间序列脑电图(EEG)数据的机器学习预测模型：实现与优化

数据集简介(示例与建议)输入模型的数据形态深度学习模型架构：洞察EEG时间序列的利器模型选型概述循环神经网络(RNN)及其变体(LSTM/GRU)详解RNN基础长短期记忆网络(LSTM)门控循环单元(GRU)Transformer

LIUDAN'S WORLD·2025-05-29 21:37

小波变换+Transformer：融合创新驱动多领域进步

2024发论文&模型涨点之——小波变换+Transformer小波变换（WaveletTransform,WT）和Transformer是两种强大的工具，它们在各自的领域内有着广泛的应用。

YunTM·2025-05-29 06:53

顶会新热门：小波变换×Transformer，效率翻倍的AI图像去噪神奇组合

2024深度学习发论文&模型涨点之——小波变换+Transformer小波变换与Transformer的结合主要探讨如何利用小波变换的多尺度特性来增强Transformer在处理信号和图像数据时的表现。

YunTM·2025-05-29 06:52

【图像去噪】论文精读：SUNet: Swin Transformer UNet for Image Denoising

关于更新、去噪概述、文章目录、资料汇总、问题汇总（更新中）文章目录前言AbstractI.INTRODUCTIONII.RELATEDWORKA.ImageRestorationB.UNetC.SwinTransformerIII.PR

十小大·2025-05-29 04:36

字节跳动BAGEL-7B-MoT模型开源：多模态AI技术的新范式与行业涟漪

BAGEL-7B-MoT的核心创新在于混合Transformer专

未来智慧谷·2025-05-29 02:22

Transformers 库 Tokenizer 高级用法解析：从文本预处理到模型输入的一站式解决方案

Transformers库提供的TokenizerAPI集成了分词、ID转换、填充、截断及框架张量适配等核心功能，能够高效生成符合模型输入要求的数据结构。

佑瞻·2025-05-28 19:09

ChatGPT与认知科学：人机协同的未来图景

1.2Transformer架构：不止是“变形金刚”，更是语言处理的“瑞士军刀”1.3注意力机制：“火眼金睛”，一眼锁定关键信息1.4大规模预训练：让机器“读万卷书”，奠

深度学习客·2025-05-27 23:11

神经网络加上注意力机制，精度反而下降，为什么会这样呢？注意力机制的本质是什么？如何正确使用注意力机制？注意力机制 | 深度学习

无论是在自然语言处理领域产生Transformer架构，还是在图像识别、语音识别和推荐系统等多个方向取得显著成效，注意力机制的价值似乎毋庸置疑。

concisedistinct·2025-05-27 17:55

clipSeg 图像分割，简单了解一下

请帮我介绍一下：clipSeg这个库1.起源，作者，名气，star2.clipSeg与huggingface和transformers是什么关系3.clipSeg与clip有什么区别，4.作用，效果5.

waterHBO·2025-05-27 14:12

Transformer 架构在自然语言处理和计算机视觉等领域的应用和发展前景

Transformer架构在自然语言处理和计算机视觉等领域的应用一、自然语言处理领域的应用机器翻译原理：将源语言句子作为输入，Transformer编码器把句子转换为高维特征表示，解码器再根据这些表示生成目标语言句子

搬砖的阿wei·2025-05-27 12:55

推荐频道

Transformer？