TRANSFORMER

AIGC视觉生成革命：文生图、图生图与视频生成垂直模型发展全景报告（2025）

这一进程的核心驱动力在于架构创新、数据优化与场景深耕的三重突破：扩散模型与Transformer的融合催生了更高保真度的图像生成；十亿级多模态数据训练解决了复杂语义理解难题；而面向影视、电商

Liudef06小白·2025-07-08 01:50

Python 训练营打卡 Day 46

transformer中的叫做自注意力机制，他是一种自己学习自己的机制，他可以自动学习到图片中的主体，并忽略背景。

2401_86382089·2025-07-07 23:03

Spatie Laravel-Data 数据转换器深度解析

laravel-dataPowerfuldataobjectsforLaravel项目地址:https://gitcode.com/gh_mirrors/la/laravel-data什么是数据转换器在SpatieLaravel-Data项目中，数据转换器(Transformers

倪俪珍Phineas·2025-07-07 19:10

探索 Qwen3-0.6B：轻量级大模型的技术突破与应用潜力

一、Qwen3-0.6B核心技术架构Qwen3-0.6B基于Transformer架构进行优化，采用了一系列先进的技术手段，在保证模型

·2025-07-07 15:42

Transformer模型压缩：结构化剪枝与混合精度量化研究

Transformer模型压缩：结构化剪枝与混合精度量化研究摘要本文针对Transformer模型在实际部署中面临的计算资源消耗大、内存占用高和推理延迟等问题，提出了一种结合结构化剪枝与混合精度量化的综合压缩方案

pk_xz123456·2025-07-07 14:34

李宏毅2025《机器学习》第四讲-Transformer架构的演进

Transformer架构的演进与替代方案：从RNN到Mamba的技术思辨Transformer作为当前AI领域的标准架构，其设计并非凭空而来，也并非没有缺点。

·2025-07-07 09:28

Longformer: The Long-Document Transformer（2020-4-10）

模型介绍目前基于Transformer的预训练模型在各项NLP任务纷纷取得更好的效果，这些成功的部分原因在于Self-Attention机制，它运行模型能够快速便捷地从整个文本序列中捕获重要信息。

不负韶华ღ·2025-07-07 08:21

机器学习19-Transformer和AlexNet思考

Transformer和AlexNet思考关于Transformer和AlexNet发展的一些思考1-核心知识点Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？

坐吃山猪·2025-07-07 05:01

文末含资料链接！YOLOv11性能飞跃：深度融合iRMB注意力机制，实战教程助你突破检测极限！

文章目录1.介绍：揭秘iRMB——轻量化与高性能的完美融合1.1摘要：洞察iRMB的设计哲学与卓越表现1.2简单描述：深入剖析iRMB的构造与工作原理核心灵感：CNN与Transformer的珠联璧合iRMB

博导ai君·2025-07-07 02:46

Teacher Forcing--------一种用于序列生成任务的训练技巧

好的，我们来详细介绍一下TeacherForcing，这是一种在训练序列生成模型（如循环神经网络RNN、长短期记忆网络LSTM、门控循环单元GRU、以及后来的Transformer）时常用的重要技术。

AI扶我青云志·2025-07-07 01:11

Python 库包 sentence-transformers

sentence-transformers是一个非常流行的Python库，专门用于将文本（句子、段落、文档）转换为高质量的语义向量（嵌入）。

音程·2025-07-07 00:35

【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践

DeepFaye·2025-07-06 23:26

【图像超分】论文复现：密集残差链接Transformer！DRCT的Pytorch源码复现，跑通超分源码，获得指标、模型复杂度、结果可视化，核心模块拆解与源码对应，注释详细！

请先看【专栏介绍文章】：【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等）完整代码和训练好的模型权重文件下载链接见本文底部，订阅专栏免费获取！本文亮点：跑通DRCT源码，获得与论文一致的PSNR/SSIM、Params、超分可视化结果，修正论文中FLOPs的计

十小大·2025-07-06 22:18

Transformer已死？2025年十大替代架构实战评测

点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限

·2025-07-06 17:30

多模态大模型：技术原理与实战看清GPT的进化史和创新点

人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer

AI天才研究院·2025-07-06 17:58

聚焦的伟力：注意力机制与Transformer的创世纪

当LSTM和GRU凭借其精密的门控系统，成功驯服了时间的长河，让神经网络能够跨越数十甚至数百步记住关键信息，并在机器翻译、文本生成等领域大放异彩时，一个看似微小却影响深远的瓶颈逐渐浮出水面，尤其是在序列到序列（Seq2Seq）框架中。在标准的Seq2Seq模型（如用于神经机器翻译）里，编码器（通常是一个RNN如LSTM）需要将整个输入序列（如一个英语句子）的信息压缩成一个固定长度的上下文向量（Co

田园Coder·2025-07-06 17:28

《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》

点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer

HeartException·2025-07-06 17:57

YOLO融合synergisticNet中的模块

入门到入土使用教程YOLOv11改进汇总贴：YOLOv11及自研模型更新汇总《HyperSINet:ASynergeticInteractionNetworkCombinedWithConvolutionandTransformerforHyperspectralImageClassification

今天炼丹了吗·2025-07-06 15:18

Happy-LLM 第二章 Transformer

Transform架构图片来自[Happy-llm](happy-llm/docs/chapter2/第二章Transformer架构.mdatmain·datawhalechina/happy-llm

HalukiSan·2025-07-06 10:58

happy-llm 第二章 Transformer架构

文章目录一、注意力机制核心解析1.1注意力机制的本质与核心变量1.2注意力机制的数学推导1.3注意力机制的变种实现1.3.1自注意力（Self-Attention）1.3.2掩码自注意力（MaskedSelf-Attention）1.3.3多头注意力（Multi-HeadAttention）二、Encoder-Decoder架构详解2.1Seq2Seq任务与架构设计2.2核心组件解析2.2.1前馈

weixin_38374194·2025-07-06 09:55

Nystromformer：一种基于 Nyström 方法的自注意力近似算法

1.摘要Transformer已经成为广泛自然语言处理任务中的强大工具。

AI专题精讲·2025-07-06 09:24

【极光优化算法+分解对比】VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测Matlab代码

✅作者简介：热爱数据处理、建模、算法设计的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍光伏发电作为一种清洁能源，其功率预测对于电网稳定运行和电力系统调度至关重要。然而，光伏功率具有高度的非线性和波动性，传统的预测方法难以准确捕捉其动态特性。近年来，深度学习技术在时间序列预测领域取得了显著进展，为提高光伏功率预测精度提供了新的途径

matlab科研助手·2025-07-06 06:05

ConvNeXT：面向 2020 年代的卷积神经网络

摘要视觉识别的“咆哮二十年代”始于VisionTransformer（ViT）的引入，ViT很快取代了ConvNet，成为图像分类任务中的最新最强模型。

·2025-07-06 01:32

目标检测新纪元：DETR到Mamba实战解析

【实战分享】目标检测的“后DEⱯ”时代：DETR/DINO/RT-DETR及新型骨干网络探索（含示例代码）目标检测从YOLO、FasterR-CNN到Transformer结构的DETR，再到DINO、

加油吧zkf·2025-07-06 00:59

计算机视觉中的Transformer：ViT模型详解与代码实现

计算机视觉中的Transformer：ViT模型详解与代码实现关键词：计算机视觉、Transformer、ViT、自注意力机制、图像分块摘要：传统卷积神经网络（CNN）统治计算机视觉领域多年，但2020

AI大模型应用工坊·2025-07-05 22:16

LLM面试题14

算法岗面试题介绍下Transformer模型。

三月七꧁ ꧂·2025-07-05 16:00

RT‑DETR 系列发展时间顺序

RT‑DETR系列发展时间顺序RT‑DETR系列是由百度提出的一系列基于Transformer的实时端到端目标检测器，以下列出了从提出到演化的主要milestone：时间线概览版本时间主要改进/特点DETR2020

要努力啊啊啊·2025-07-05 16:29

MOBILEVIT: 轻量级、通用且适用于移动设备的视觉Transformer

为了学习全局表示，基于自注意力的视觉Transformer（ViT）被采用。与CNN不同，ViT是重量级的。

AI专题精讲·2025-07-05 12:01

【LLM论文阅读】

LLM论文阅读论文重点论文链接RopeRoFormer:EnhancedTransformerwithRotaryPositionEmbeddingRoPE论文阅读YarnUnderstandingYaRN

一只齐刘海的猫·2025-07-05 11:23

Deepoc光电研发垂直大模型的技术实现突破与核心模块

一、模型架构与算法创新领域专用混合架构设计多模态Transformer扩展：在标准Transformer架构基础上，引入光子器件特性感知模块（如非线性光学参数编码器），支持光路拓扑结构与电磁场分布的联合建模

Deepoch·2025-07-05 10:43

目标检测在国防和政府的应用实例

目标检测技术概述目标检测是计算机视觉的核心任务，通过算法对图像/视频中的物体进行识别与定位，当前主流技术包括：经典算法：YOLO系列（实时性强）、FasterR-CNN（精度高）、SSD（平衡速度与精度）技术升级：结合深度学习（CNN、Transformer

MzKyle·2025-07-05 03:34

BERT（Bidirectional Encoder Representations from Transformers）

BERT（BidirectionalEncoderRepresentationsfromTransformers）是由Google于2018年提出的一种基于Transformer架构的预训练语言模型，属于大型语言模型

jerwey·2025-07-04 20:47

大语言模型（LLM）按架构分类

大语言模型（LLM）按架构分类的深度解析1.仅编码器架构（Encoder-Only）原理双向注意力机制：通过Transformer编码器同时捕捉上下文所有位置的依赖关系#伪代码示例：BERT的MLM任务

jerwey·2025-07-04 20:46

深入了解Transformer模型及其优缺点

目录前言1Transformer结构特点1.1注意力机制（Self-Attention）1.2编码器-解码器架构1.3位置编码和基于注意力的损失函数2Transformer模型优缺点分析2.1Transformer

·2025-07-04 18:38

Day44

预训练概念：在大规模数据上训练模型学习通用知识，再迁移到下游任务微调2.常见模型：图像有AlexNet、ResNet、ViT；NLP有BERT、GPT3.图像模型发展：从手工特征到深度学习，从CNN到Transformer

·2025-07-04 12:19

Qwen3 Embedding 结构-加载-训练看透模型设计哲学

1Qwen3-Embedding模型结构拆解说明：目录包含了运行一个基于Transformer的句向量模型所需的所有组件文件类别核心文件作用核心模型model.safetensors,config.jsonmodel.safetensors

·2025-07-04 04:25

Llama改进之——RoPE旋转位置编码

引言旋转位置编码(RotaryPositionEmbedding,RoPE)将绝对相对位置依赖纳入自注意力机制中，以增强Transformer架构的性能。

愤怒的可乐·2025-07-04 01:37

Llama改进之——分组查询注意力

Transformer中的多头注意力在解码阶段来说是一个性能瓶颈。多查询注意力2通过共享单个key和value头，同时不减少query头来提升性能。

愤怒的可乐·2025-07-04 01:37

Llama改进之——均方根层归一化RMSNorm

LayerNorm层归一化(LayerNorm)对Transformer等模型来说非常重要，它可以帮助稳定训练并提升模型收敛性。LayerNorm针对一个样本所有特征计算

愤怒的可乐·2025-07-04 01:36

强人工智能是否会诞生于现在的AI之中

然而，作为一名人工智能领域的算法工程师，我反而越来越确信：现有的技术路径——以Transformer为核心的深度神经网络，可能已经达到了它的能力上限。

一花·一叶·2025-07-04 01:06

从零实现Llama3：深入解析Transformer架构与实现细节

从零实现Llama3：深入解析Transformer架构与实现细节llama3-from-scratchllama3一次实现一个矩阵乘法。

祁婉菲Flora·2025-07-04 00:05

解密GPT工作原理：Transformer架构详解与自注意力机制剖析

解密GPT工作原理：Transformer架构详解与自注意力机制剖析关键词：GPT、Transformer、自注意力机制、神经网络、语言模型、深度学习、人工智能摘要：本文将深入浅出地解析GPT模型的核心架构

AI智能应用·2025-07-03 23:25

讯飞星火深度推理模型X1，为教育医疗带来革新

技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面

·2025-07-03 21:42

Hamiltonian Transformer理论：融合哈密顿力学与Transformer架构的新范式

HamiltonianTransformer理论是一种将经典哈密顿力学原理与现代Transformer架构相结合的新型神经网络范式。

墨顿·2025-07-03 20:37

结合LangGraph、DeepSeek-R1和Qdrant 的混合 RAG 技术实践

然而，单一的稠密向量检索（如基于Transformer的嵌入模型）在处理关键词匹配和多义词歧义时存在局限性，而稀疏向量检索（如BM25）虽擅长精确关键词匹配，却缺乏语义理

大模型之路·2025-07-03 17:45

解释LLM怎么预测下一个词语的

解释LLM怎么预测下一个词语的通过上文词的向量进行映射在Transformer架构的大语言模型（如GPT系列、BERT等）中，词语会先被转化为词向量。

ZhangJiQun&MXP·2025-07-03 14:23

【人工智能】 AI的进化之路：大模型如何重塑技术格局

从早期神经网络到现代大模型的突破，文章分析了关键技术进步，如Transformer架构、预训练机制和分布式计算。结合数学公式和代码示例，详细阐述了大模型的训练原理、优化方法及实际应用场景。文

蒙娜丽宁·2025-07-03 12:32

ReBEL模型的本地部署与运行，用于三元组抽取任务（事件抽取、知识抽取）

建议与CUDA11.7配合）pipinstalltorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu117#安装Transformers

·2025-07-03 09:46

大模型-FlashAttention 算法分析

随着Transformer变得越来越大、越来越深，但它在长序列上仍然处理的很慢、且耗费内存。（自注意力时间和显存复杂度与序列长度成二次方），现有近似注意力方法，

清风lsq·2025-07-03 05:46

大模型学习（Datawhale_Happy-LLM）笔记7: Encoder-Decoder PLM

大模型学习（Datawhale_Happy-LLM）笔记7:Encoder-DecoderPLM1.Encoder-Decoder架构概述1.1架构基础Encoder-DecoderPLM是基于原始Transformer

lxltom·2025-07-02 23:31

推荐频道