Transformer 第2页

单目标追踪——【Transformer】Transformer Tracking

目录文章侧重点网络结构上下文增强模块交叉特征增强TransT网络结构可视化结果分析n=1n=2n=3n=4Transformer这个香饽饽怎么能不用来迁移到目标追踪里呢。本篇文章分析TransT。

zz的大穗禾·2025-02-23 04:21

多模态论文笔记——DiT（Diffusion Transformer）

本文详细介绍Transformer架构图像生成方面的应用，将Diffusion和Transformer结合起来的模型：DiT。目前DiT已经成为了AIGC时代的新宠儿，视频和图像生成不可缺少的一部分。

好评笔记·2025-02-23 04:19

Transformer解析——（五）代码解析及拓展

本系列已完结，全部文章地址为：Transformer解析——（一）概述-CSDN博客Transformer解析——（二）Attention注意力机制-CSDN博客Transformer解析——（三）Encoder-CSDN

cufewxy2018·2025-02-23 04:19

DeepSeek新作-Native Sparse Attention

标准注意力机制的挑战：传统的注意力机制（如Transformer中的全注意力机制）在处理长文本时面临巨大的计算成本。这是因为全注意力机制需要计算每个词与其他所有词之间的关系

数据分析能量站·2025-02-22 21:21

十月学习笔记

transformer的架构：基于encoder-only或decoder-only架构Transformer模型由编码器（enco

木子不多余·2025-02-22 15:28

大模型量化概述

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。

AI领航者·2025-02-22 04:02

用deepseek学大模型08-用deepseek解读deepseek

DeepSeekR1是一种先进的深度学习模型架构，结合了Transformer、稀疏注意力机制和动态路由等核心技术。

wyg_031113·2025-02-22 01:26

Transformer Decoder 详解

TransformerDecoder详解1.模型结构图解TransformerDecoder由N个相同的层堆叠而成，每个层包含以下组件（与Encoder不同，Decoder包含两种注意力机制）：Input

idealmu·2025-02-22 00:51

【深度学习大模型实例教程：Transformer架构、多模态模型与自监督学习】

深度学习大模型实例教程：Transformer架构、多模态模型与自监督学习1.深度学习基础概述1.1深度学习的核心概念1.2常见深度学习模型1.3大模型的挑战与解决方案2.数据准备2.1数据处理示例：CIFAR

生活De°咸鱼·2025-02-21 22:34

深度学习模型的全面解析：技术进展、应用场景与未来趋势

这些模型可以根据其结构和应用场景被分为不同的类别，包括但不限于卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）、生成对抗网络（GAN）和Transformer模型等。

阿尔法星球·2025-02-21 22:03

Vision Transformer图像分类实现

VisionTransformer(ViT)是一种基于Transformer架构的图像分类模型。

reset2021·2025-02-21 16:13

跨越感官鸿沟：AGI多模态融合技术解析

文章目录引言：当AGI开始拥有"五感"一、多模态认知的理论基础1.1人类感官系统的启示1.2多模态表示学习的数学框架二、多模态融合的核心技术2.1跨模态对齐架构Transformer-based模型2.2

.猫的树·2025-02-21 13:48

利用深度学习进行汇率预测：LSTM与Transformer模型的应用实践

第一部分：数据收集与准备1.1数据集介绍1.2数据准备第二部分：使用LSTM模型进行汇率预测2.1数据序列化2.2LSTM模型构建2.3模型训练与评估2.4结果可视化第三部分：使用Transformer

人工智能_SYBH·2025-02-21 06:53

如何将模型长度扩展到100万：Llama 3的NTK-aware插值技术解析小学生都懂的

好的，以下是对Llama3如何通过NTK-aware插值调整位置编码以扩展上下文长度到100万的详细原理解释：1.RoPE（旋转位置编码）的原理RoPE是一种用于Transformer模型的位置编码方法

从零开始学习人工智能·2025-02-21 00:41

【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3

简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。

仙人掌_lz·2025-02-20 21:21

GPT (Generative Pre-trained Transformer)

GPT(GenerativePre-trainedTransformer)是由OpenAI提出的一个基于Transformer架构的自回归语言模型。

彬彬侠·2025-02-20 19:07

Vision Transformer（ViT）：用 Transformer 颠覆图像识别

VisionTransformer（ViT）：用Transformer颠覆图像识别在计算机视觉领域，卷积神经网络（CNN）长期以来一直是图像识别任务的主流架构。

金外飞176·2025-02-20 19:36

基于Transformer的YOLOv8检测头架构改进：提升目标检测精度的全新突破（YOLOv8）

专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录基于Transformer的YOLOv8检测头架构改进：提升目标检测精度的全新突破什么是

步入烟尘·2025-02-20 19:34

transformer模型构建

2.6模型构建学习目标掌握编码器-解码器结构的实现过程.掌握Transformer模型的构建过程.通过上面的小节,我们已经完成了所有组成部分的实现,接下来就来实现完整的编码器-解码器结构.Transformer

AI耽误的大厨·2025-02-20 16:03

Transformer 模型架构

Transformer是一种模型架构（ModelArchitecture），而不是一个软件框架（Framework）。它的定位更接近于一种设计蓝图，类似于建筑中的结构设计方案。

2401_89793006·2025-02-20 15:24

Mamba超绝创新！搭上异常检测准确率99%+！一区秒了！

以往的异常检测方法，以基于CNN、Transformer为主。但CNN在处理长距离依赖性方面存在困难，Transformer虽然表现出色，但由于其自注意力机制，计算复杂度较高。

人工智能学起来·2025-02-20 13:10

DeepSeek与ChatGPT：AI语言模型的全面对决

以下从六大维度展开全面对比，为不同需求场景提供选择参考：一、核心技术对比维度DeepSeekChatGPT架构设计混合专家系统（MoE）+自研深度优化架构Transformer架构（GPT-3.5/4系列

金枝玉叶9·2025-02-20 12:01

《DeepSeek-R1 vs ChatGPT-4：AI大模型“王座争夺战”的终极拆解报告》

一、核心技术架构：差异化路线对决对比维度DeepSeek-R1ChatGPT-4模型架构多模态混合专家模型（MoE+Transformer）纯Dec

Athena-H·2025-02-20 10:08

AI编剧系统深度解析：从算法架构到影视工业化应用实战

核心架构分为：知识图谱层：整合影视剧本数据库（IMSDb）、维基百科等结构化数据NLP处理层：基于Transformer的

Coderabo·2025-02-20 09:29

DeepSeek使用中的问题及解决方案（部分）

严格按照官方文档的版本要求安装依赖，例如：condacreate-ndeepseekpython=3.9condaactivatedeepseekpipinstalltorch==2.0.1transformers

WeiLai1112·2025-02-20 07:17

LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers

（证明了）decoder-onlytransformer如果NoPE同时具备绝对APE和RPE的能力3.暂存器（cot）对于长度泛化和任务相关，同时关注短期和

Zhouqi_Hua·2025-02-20 07:15

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

本文是LLM系列文章，针对《LeaveNoContextBehind:EfficientInfiniteContextTransformerswithInfini-attention》的翻译。

UnknownBody·2025-02-20 05:00

KTransformers如何通过内核级优化、多GPU并行策略和稀疏注意力等技术显著加速大语言模型的推理速度？

KTransformers通过内核级优化、多GPU并行策略和稀疏注意力等技术显著加速大语言模型的推理速度，具体体现在以下几个方面：内核级优化：KTransformers采用了高效的内核级优化技术，包括对

魔王阿卡纳兹·2025-02-20 04:53

【深度学习pytorch-93】Transformer 相比 RNN 的优势

Transformer相比RNN的优势Transformer和RNN（循环神经网络）都是自然语言处理（NLP）领域的重要架构，但它们的工作原理和应用方式有很大不同。

华东算法王·2025-02-20 02:04

——深度解析Google的Transformer架构

本文将从五个方面【技术问题、技术手段、技术效果、代码实现逻辑和工程落地建议】解读以下专利。US201816021971A，ATTENTION-BASEDSEQUENCETRANSDUCTIONNEURALNETWORKS一、技术问题：为什么需要自注意力机制？在传统的序列转换任务（如机器翻译、语音识别等）中，循环神经网络（RNN）和卷积神经网络（CNN）是常用的模型架构。然而，这些模型存在以下问题：

CodePatentMaster·2025-02-19 21:53

ColD Fusion，分布式多任务微调的协同 “密码”

ColDFusion，分布式多任务微调的协同“密码”发布时间：2025-02-19近日热文：1.全网最全的神经网络数学原理（代码和公式）直观解释2.大模型进化史：从Transformer到DeepSeek-R1

·2025-02-19 20:46

DeepSeek技术跟踪和本地部署实践

我也紧跟技术潮流，跟踪学习了并部署了一下DeepSeek，应该说DeepSeek是中国人在AI领域一次技术创新，甚至超越，给各大AI公司提供了一条全新的赛道，其推出的强化学习等技术提醒大家AI不单单是Transformer

一望无际的大草原·2025-02-19 16:46

【深度学习】计算机视觉（CV）-目标检测-DETR（DEtection TRansformer）—— 基于 Transformer 的端到端目标检测

DETR（DEtectionTRansformer）是FacebookAI（FAIR）于2020年提出的端到端目标检测算法，它基于Transformer架构，消除了FasterR-CNN、YOLO等方法中的候选框

IT古董·2025-02-19 16:12

遥感影像目标检测：从CNN（Faster-RCNN）到Transformer（DETR）

我国高分辨率对地观测系统重大专项已全面启动，高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成，将成为保障国家安全的基础性和战略性资源。未来10年全球每天获取的观测数据将超过10PB，遥感大数据时代已然来临。一：深度卷积网络知识1.深度学习在遥感图像识别中的范式和问题2.深度学习的历史发展历程3.机器学习，深度学习等任务的基本处理流程4.卷积神经网络的基本原理5

岁月如歌，青春不败·2025-02-19 15:05

（1-2）DeepSeek概述：DeepSeek的架构概览

1.2DeepSeek的架构概览DeepSeek模型是基于经典的Transformer模型架构的，并进行了深度优化。

码农三叔·2025-02-19 15:59

RadioTransformer：用于视觉注意力引导疾病分类的级联全局焦点Transformer

RadioTransformer通过学习放射科医生的视觉搜索模式，在级联的全局焦点Transfo

托比-马奎尔·2025-02-19 14:24

医学顶会 MICCAI‘24 | COVID19 至肺炎：使用 CNN Transformer 位置感知特征编码网络对多区域肺部严重程度进行分类

本文内容只为星球内部成员学习和学术交流，请勿用作他用论文信息题目：COVID19toPneumonia:MultiRegionLungSeverityClassificationusingCNNTransformerPosition-AwareFeatureEncodingNetworkCOVID19

小白学视觉·2025-02-19 14:24

《大模型应用开发极简入门》随记

Transformer架构架构

hoypte·2025-02-19 08:34

Python库 - transformers

transformers库是由HuggingFace开发的一个非常流行的Python库，用于自然语言处理（NLP）任务。

司南锤·2025-02-19 03:28

【NLP-04】tranformers库保姆级使用教程---以BERT模型为例

安装要安装一个非常轻量级的Transformers库，您可以执行以下步骤：1、打开终端或命令提示符。

云天徽上·2025-02-19 03:28

Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战

1.Transformer简介Transformer模型被提出的主要动机是解决序列处理任务的长距离依赖问题。

医学小达人·2025-02-19 03:24

LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy

Arxiv日期：2022.9.29机构：GoogleDeepMind/Stanford关键词transformer架构原理乔姆斯基体系长度泛化核心结论1.虽然Transformer理论上具有图灵完备性，

Zhouqi_Hua·2025-02-19 02:47

采用分布式部署deepseek

软件依赖：安装必要的库和工具，如PyTorch、Transformers等。特别地，对于分布式训练，还需要安装torch.distributed或者类似的库支持，例如Horo

慧香一格·2025-02-19 02:14

DeepSeek大模型的发展的十问十答

DeepSeek大模型是由杭州深度求索人工智能基础技术研究有限公司开发的一款基于Transformer架构的大型语言模型，具体介绍如下：1.架构基础Transformer架构：DeepSeek大模型基于

科技互联人生·2025-02-19 00:25

Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

本文是LLM系列文章，针对《BeyondScalingLaws:UnderstandingTransformerPerformancewithAssociativeMemory》的翻译。

UnknownBody·2025-02-18 23:48

DeepSeek的无限可能：探索前沿AI技术在多领域的应用

第一章技术底座：重构AI核心范式1.1MoE架构的颠覆性创新传统Transformer模型面临参数爆炸与能耗困境，Deep

编码追梦人·2025-02-18 20:10

DeepSeek模型实战：从理论到应用的深度探索

二、DeepSeek模型技术剖析（一）架构基础DeepSeek模型基于Transformer架构构

CodeJourney.·2025-02-18 19:06

Decoder-Only、Encoder-Only、Encoder-Decoder 区别

代表模型：GPT（GenerativePre-trainedTransformer）特点：自回归生成：模型通过

会喘气的粽子丶·2025-02-18 18:44

新书速览|细说PyTorch深度学习：理论、算法、模型与编程实现

4技术先进：视觉transformer模型详解，紧跟大模型核心技术。5易于上手：Pytorch详解并使用Pyt

全栈开发圈·2025-02-18 15:44

【YOLOv11改进- 主干网络】YOLOv11+CSWinTransformer: 交叉窗口注意力Transformer助力YOLOv11有效涨点；

本文给大家带来的改进内容是在YOLOv11中更换主干网络为CSWinTransformer，助力YOLOv11有效涨点，通过创新性地开发了十字形窗口自注意力机制。

算法conv_er·2025-02-18 15:43

推荐频道

Transformer