transformer注意力

Vidu 5.0 视频生成模型深度解析

Vidu5.0视频生成模型深度解析（2025年3月）一、核心技术架构多模态动态建模基于DiT（DiffusionTransformer）架构：结合3D时空注意力机制，实现动态场景的精准建模。

Liudef06·2025-03-26 05:16

开源图生视频模型技术全景解析

一、核心架构与技术演进（一）模型基础框架多模态融合架构腾讯混元模型采用统一的全注意力机制，集成3D变分自编码器（VAE）实现图像到视频的时空特征编码。

Liudef06·2025-03-26 05:45

H100赋能生成式AI算力革新

其核心突破在于第四代TensorCore与Transformer引擎的协同设计，通过动态稀疏计算与混合精度支持，将大规模矩阵运算效率提升至新高度。

智能计算研究中心·2025-03-26 04:13

MATLAB 2024b深度学习工具箱新特性全面解析与DeepSeek大模型集成开发：卷积神经网络、迁移学习算法、时间卷积网络、生成式对抗网络、自编码器、目标检测YOLO模型、语义分割、注意力机制等

随着人工智能技术的飞速发展，其与多学科的交叉融合以及在工程实践领域的纵深拓展已成为时代潮流。在这一背景下，MATLAB2024b深度学习工具箱应运而生，凭借架构创新与功能强化，为科研工作者提供了一套全栈式的科研创新与行业应用解决方案，具有重要的时代意义。本教程紧密围绕该版本工具链的三大革新方向展开，致力于助力科研工作者在深度学习领域取得突破性进展。首先，构建了覆盖经典模型与前沿架构的体系化教程，从

WangYan2022·2025-03-26 03:06

在光速的边缘：MiniMax-01的算法实现与细节解析

本文将深入探讨MiniMax-01系列模型的核心算法实现，尤其是其高效的“闪电注意力”（LightningAttention）机制及其与专家混合（MixtureofExperts,MoE）架构的结合。

步子哥·2025-03-26 02:23

快速了解Transformer与循环神经网络（LSTM/RNN）的区别

Transformer与循环神经网络（LSTM/RNN）的区别关键差异总结：并行性：Transformer的全局并行计算大幅提升训练效率，而RNN/LSTM受限于序列顺序。

Panesle·2025-03-25 23:30

具身系列——NLP工程师切入机器人和具身智能方向

Mujoco、webots）基于当前具身智能行业发展趋势和岗位需求，以下是为NLP工程师设计的转型路径与策略，结合最新招聘信息和技术趋势：一、技能迁移与知识重构（3-6个月）核心能力复用深度学习基础：迁移Transformer

music&movie·2025-03-25 21:47

PyTorch 深度学习实战（8）：Transformer 与机器翻译（基于本地中英文文本文件）

本文将介绍Transformer模型的基本原理，并使用PyTorch和HuggingFace的transformers库实现一个简单的机器翻译模型。我们将基于本地的中英文文本文件进行实战演练。

进取星辰·2025-03-25 18:58

大模型算法岗面试题(含答案)

Transformer体系：由Google提出的Transformer模型及其变体，如BERT、GPT等。

X.Cristiano·2025-03-25 17:49

书籍-《机器学习：从经典方法到深度网络、Transformer和扩散模型（第三版）》

书籍：MachineLearning:FromtheClassicstoDeepNetworks,Transformers,andDiffusionModels，3rdEdition作者：SergiosTheodoridis

·2025-03-25 13:51

腾讯混元 T1 正式发布：混合架构重塑推理模型范式，解码速度提升 2 倍

在AI模型性能竞赛持续升温的背景下，腾讯于3月21日正式推出自研深度思考模型混元T1正式版，以行业首创的Hybrid-Mamba-Transformer融合架构，重新定义了大模型的推理效率与应用边界。

未来智慧谷·2025-03-25 13:48

ai-by-hand-excel: 用 Excel 手搓各种 AI 算法和模型

发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI通过Excel的形式实现并演示人工智能与深度学习的核心算法和概念，让初学者可以动手操作并理解AI的运行原理，包括矩阵乘法、MLP、RNN、Transformer

小众AI·2025-03-25 09:14

AI生成Json结构化数据的几种方案

由于AI的注意力机制，AI可以在一次生成中根据上下文补全层级关系。

Dashesand·2025-03-25 04:14

保姆级大模型学习路线！清华博士耗时半年整理的14个核心阶段，文科生也能跟着冲！（附论文笔记+项目源码+训练技巧）

2023行业调查报告显示：92%学习者停滞在微调阶段，核心痛点集中在：论文看不懂：Transformer源码像天书环境配不好：CUDA版本冲突天天报错算力不够用：

大模型入门教程·2025-03-25 01:17

基于Hugging Face的Transformer实战

HuggingFace生态提供：30,000+预训练模型（BERT、GPT、T5等）统一的TransformerAPI接口快速实现下游任务迁移企业级部署工具（Optimum、InferenceEndpoints

小诸葛IT课堂·2025-03-24 23:03

ResNet改进(11)：添加 Squeeze-and-Excitation模块和替换Mish激活函数

1.SE模块和Mish激活函数SE模块是一种通道注意力机制，旨在增强网络对重要特征通道的关注，从而提升模型的表达能力。它通过显式地建模通道之间的依赖关系，动态调整每个通道的特征响应。

点我头像干啥·2025-03-24 15:58

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型

m0_74825656·2025-03-24 11:01

目标检测领域总结：从传统方法到 Transformer 时代的革新

目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。

DoYangTan·2025-03-24 08:57

Deepseek和豆包在技术创新方面有哪些相同点与不同点？

Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。

alankuo·2025-03-24 06:16

神经网络中层与层之间的关联

BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer

iisugar·2025-03-24 06:40

图神经网络实战——分层自注意力网络

图神经网络实战——分层自注意力网络0.前言1.分层自注意力网络1.1模型架构1.2节点级注意力1.3语义级注意力1.4预测模块2.构建分层自注意力网络相关链接0.前言在异构图数据集上，异构图注意力网络的测试准确率为

盼小辉丶·2025-03-24 05:32

《AI医疗系统开发实战录》第6期——智能导诊系统实战

技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod

骆驼_代码狂魔·2025-03-24 02:30

NLP高频面试题（十）——目前常见的几种大模型架构是啥样的

深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。

Chaos_Wang_·2025-03-23 22:30

Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod

Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer

dkgee·2025-03-23 18:22

客服机器人怎么才能精准的回答用户问题？

意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对

玩人工智能的辣条哥·2025-03-23 09:13

Python预训练模型实现俄语音频转文字

importtorchimportlibrosafromtransformersimport

啥都鼓捣的小yao·2025-03-23 05:03

【人工智能之大模型】阐述生成式语言模型的工作机理...（二）

（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！

985小水博一枚呀·2025-03-23 02:09

使用PyTorch搭建Transformer神经网络:入门篇

1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。

DASA13·2025-03-23 00:21

深入探讨盘古大模型的高精度多尺度能力

它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能

Hardess-god·2025-03-22 22:40

CBNetV2: A Composite Backbone Network Architecture for Object Detection论文阅读

ACompositeBackboneNetworkArchitectureforObjectDetection论文阅读介绍方法CBNetV2融合方式对Assistant的监督实验与SOTA的比较在主流backbone架构上的通用性与更宽更深的网络比较与可变形卷积的兼容在主流检测器上的模型适用性在SwinTransformer

Laughing-q·2025-03-22 22:38

Springboot使用itext及documents4j操作pdf（word转pdf、pdf加水印（文字或图片，可指定位置）、pdf加密（打开密码，编辑密码））

pom.xml引入com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3com.itextpdfitextpdf5.5.11com.itextpdfitext-asian5.2.0

爱编程的小飞哥·2025-03-22 21:35

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化

一个处女座的程序猿·2025-03-22 14:43

Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战

内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本)：torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets

LuckyAnJo·2025-03-22 08:47

搜广推校招面经五十四

Y1nhl·2025-03-22 08:45

【面经&八股】搜广推方向：面试记录（十三）

一定要熟~3.八股之类的问题极大似然估计和贝叶斯估计，区别与联系建议参考这个链接transformer为什么要使用多头关键点在于集成，使语义更加完善圆上随机去三个点，三个

秋冬无暖阳°·2025-03-22 08:44

一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战

本文深入解析主流模型部署框架（Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed），结合其技术原理、优缺点及适用场景，并提供DeepSeekR1

人肉推土机·2025-03-22 05:12

DeepSeek-R1核心技术深度解密：动态专家网络与多维注意力融合的智能架构实现全解析

DeepSeek-R1智能架构核心技术揭秘：从动态路由到分布式训练的完整实现指南一、DeepSeek-R1架构设计原理1.1动态专家混合系统DeepSeek-R1采用改进型MoE（MixtureofExperts）架构，核心公式表达为：y=∑i=1nG(x

Coderabo·2025-03-22 04:41

DeepSeek-R1大模型微调技术深度解析：架构、方法与应用全解析

Transformer框架增强基于改进型Transformer架构，结合多头注意力机制（MLA）与动态权重分配技术，优化了长程依

大势下的牛马·2025-03-22 00:58

3090显卡Ktransformer本地部署deepseek R1:70B

runtimeerrordon'tmatch更新cudaERROR:Failedtobuildinstallablewheelsforsomepyproject.tomlbasedprojects(ktransformers

SIATdog·2025-03-21 20:59

【深度学习】DeepSeek模型介绍与部署

为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。

Nerous_·2025-03-21 19:15

【nnUnetv2】Code复现

作者提出一种nnUNet（no-new-Net）框架，基于原始的UNet（很小的修改），不去采用哪些新的结构，如相残差连接、dense连接、注意力机制等花里胡哨的东西。

是Winky啊·2025-03-21 18:35

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。

Mark White·2025-03-21 17:01

机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？

机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的

yuanpan·2025-03-21 15:15

《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》

在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer

·2025-03-21 12:07

Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！）

HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G

y江江江江·2025-03-21 10:31

YOLOv12优化：图像去噪 | AAAI2025 Transformer |一种基于Transformer的盲点网络（TBSN）架构，结合空间和通道自注意力层来增强网络能力

提出了一种基于Transformer的盲点网络（TBSN）架构，通过分析和重新设计Transformer运算符以满足盲点要求。

AI小怪兽·2025-03-21 10:56

【人工智能】注意力机制深入理解

文章目录**一、注意力机制的核心思想****二、传统序列模型的局限性****三、Transformer与自注意力机制****1.自注意力机制的数学公式****四、注意力机制的关键改进****1.稀疏注意力

问道飞鱼·2025-03-21 08:09

Transformer与图神经网络的融合与应用

Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。

AI天才研究院·2025-03-21 07:58

深度学习的颠覆性发展：从卷积神经网络到Transformer

1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh

AI天才研究院·2025-03-21 07:57

DeepLabv3+改进18:在主干网络中添加REP_BLOCK

本专栏重磅推出：✅独家改进策略：融合注意力机制、轻量化设计与多尺度优化✅即插即用模块：ASPP+升级、解码器PS:订阅专栏提供完整代码论文简介我们提出了一种通用的卷积神经网络（ConvNet）构建模块，

AICurator·2025-03-21 03:01

推荐频道