扩散Transformer 第5页

transformer概述

Transformer架构的提出，不仅在自然语言处理（NLP）领域掀起了革命，也在多个深度学习任务中获得了广泛应用。

沉墨的夜·2025-02-17 22:13

Python中LLM的稀疏Transformer架构：Longformer与BigBird

文章目录1.Transformer架构的挑战2.稀疏Transformer架构的提出2.1Longformer2.1.1局部注意力2.1.2全局注意力2.1.3实现2.2BigBird2.2.1随机注意力

二进制独立开发·2025-02-17 22:36

【数值模型后处理系列】通风系数计算及垂直层插值

一、通风系数1.1通风系数简介通风系数（VentilationCoefficient，VC）可以用来表征扩散条件，其计算公式如下（参考USIyerandPErnestRaj的文章）：其中mixingdepth

⁣北潇·2025-02-17 15:05

【深度学习基础】什么是注意力机制

文章目录一、注意力机制的核心地位：从补充到主导二、技术突破：从Transformer到多模态融合三、跨领域应用：从NLP到通用人工智能四、未来挑战与趋势结语参考链接注意力机制：深度学习的核心革命与未来基石在深度学习的发展历程中

我的青春不太冷·2025-02-17 14:26

＜Attention Is All You Need＞：全网首次提出Transformer模型论文中英文对照学习

论文摘要英文Thedominantsequencetransductionmodelsarebasedoncomplexrecurrentorconvolutionalneuralnetworksthatincludeanencoderandadecoder.Thebestperformingmodelsalsoconnecttheencoderanddecoderthroughanattenti

kingking44·2025-02-17 12:08

基于DeepSeek-R1的高效推理优化实战：从API封装到动态批处理

一、环境准备与模型加载优化1.1硬件感知的模型加载通过device_map自动分配计算资源，避免显存溢出fromtransformersimport

竹木有心·2025-02-17 11:29

第TR5周：Transformer实战：文本分类

文章目录1.准备环境1.1环境安装1.2加载数据2.数据预处理2.1构建词典2.2生成数据批次和迭代器2.3构建数据集3.模型构建3.1定义位置编码函数3.2定义Transformer模型3.3初始化模型

计算机真好丸·2025-02-17 07:56

hunyuan-DiT模型部署指南

一、介绍Hunyuan-DiT是由腾讯混元推出的扩散模型，支持中文和英文双语输入，其他开源模型相比，Hunyuan-DiT在中文到图像生成方面树立了新的水平。

算家云·2025-02-17 05:12

LightGBM+NRBO-Transformer-BiLSTM多变量回归预测 Matlab代码

LightGBM+NRBO-Transformer-BiLSTM多变量回归预测Matlab代码一、引言1.1、研究背景与意义在现代数据科学领域，多变量回归预测问题一直是一个研究热点。

前程算法屋·2025-02-17 01:09

KTransformers：告别天价显卡！国产框架让单卡24G显存跑DeepSeek-R1 671B大模型：推理速度飙升28倍

❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！微信公众号｜搜一搜：蚝油菜花“还在为千亿模型租天价显卡？清华团队用CPU/GPU协同计算，让4090跑起671B参数全量模型！”大家好，我是蚝油菜花。如果你也经历过——看着API调用账单瑟瑟发抖，微调一次模型吃掉半月算力预算️盯着OOM报错抓狂，为了

蚝油菜花·2025-02-17 00:32

根据deepseek模型微调训练自动驾驶模型及数据集的思路

Step1:环境准备#安装依赖库pipinstalltorchtransformersdatasetsnumpypandasStep2:数据准备假设数据集格式为JSON，包含输入文本（传感器/场景描述）

ywfwyht·2025-02-16 19:28

预测股票走势的ai模型

1.关键功能✅AI选股（基于财务数据+技术指标）✅股票走势预测（LSTM/Transformer）✅智能筛选高增长潜力股✅可视化分析2.关键技术数据来源：YahooFinance/AlphaVantage

roxxo·2025-02-16 17:10

2025年大模型与Transformer架构：技术前沿与未来趋势报告

在人工智能的宏大版图中，Transformer架构无疑是一颗璀璨的明星。它的出现，彻底改变了自然语言处理、计算机视觉等诸多领域的发展轨迹。

和老莫一起学AI·2025-02-16 12:37

深度解析DeepSeek大模型的技术架构与创新点

一、基础架构概览DeepSeek的核心架构建立在Transformer的基础上，但进行了多项创新优化。我第一次接触DeepSeek时，就被它在模型结构上的精巧设计所吸引。1.

·2025-02-16 11:43

使用ThreeJS实现的宇宙大爆炸3D粒子特效思路，原理和关键代码解析

这个效果不仅模拟了粒子的爆炸、扩散，还模拟了宇宙早期的温度变化和光学现象。实现的效果：ThreeJS实现粒子特效2，技术实现2.1，初始化

软件工程师文艺·2025-02-16 10:48

deepseek+python,离线api，持续对话

功能：通过start开启新对话，stop结束对话，exit退出程序，并且可持续对话代码fromtransformersimportAutoModelForCausalLM,AutoTokenizer,BitsAndBytesConfigimporttorch

守着黎明看日出·2025-02-16 05:43

清华大学KVCache.AI团队联合趋境科技联合的KTransformers开源项目为什么那么厉害

KTransformers是一个由清华大学KVAV.AI团队开发的开源项目，旨在优化大语言模型（LLM）的推理性能，特别是在有限显存资源下运行大型模型。

魔王阿卡纳兹·2025-02-16 03:52

Transformer

1.TransformerTransformer是一种新的、基于attention机制来实现的特征提取器，可用于代替CNN和RNN来提取序列的特征。

AI专题精讲·2025-02-15 18:18

【专题】2024年8月数字化、数智化行业报告合集汇总PDF分享（附原数据表）

p=37649在2024年的时代浪潮中，数字化的影响力如涟漪般在各个领域层层扩散。

拓端研究室·2025-02-15 18:48

Stable Diffusion之最全详解图解

它是一种基于扩散过程的图像生成模型，结合了物理

破碎的天堂鸟·2025-02-15 18:17

Transformer以及BERT阅读参考博文

Transformer以及BERT阅读参考博文Transformer学习：已有博主的讲解特别好了：李沐：Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili知乎：Transformer

mumukehao·2025-02-15 17:41

ZCC6507: A Superior Isolated Power Solution Outperforming SN6507

engineersareconstantlyseekingmoreefficient,flexible,andcost-effectivesolutions.TheZCC6507,ahigh-performancepush-pulltransformerdriver

zhichengwei·2025-02-15 17:10

23. AI-大语言模型

文章目录前言一、LLM1.简介2.工作原理和结构3.应用场景4.最新研究进展5.比较二、Transformer架构1.简介2.基本原理和结构3.应用场景4.最新进展三、开源1.开源概念2.开源模式3.模型权重四

真上帝的左手·2025-02-15 12:34

Cesium高级开发教程之三十五：预警扩散圆

1.应用场景与需求背景在地理信息系统（GIS）和相关可视化应用中，预警扩散圆常被用于表示一些具有扩散性的事件或危险区域，比如：自然灾害预警：地震引发的震动波扩散、洪水的蔓延范围、火山喷发的影响区域等。

Thomaz529·2025-02-15 07:26

目标检测代码示例（基于Python和OpenCV）

随着技术的发展，目标检测算法不断演进，从传统的基于手工特征的方法到现代的深度学习方法，再到基于Transformer的架构，目标检测技术已经取得了显著的进步。

matlab_python22·2025-02-15 05:08

用java实现word（docx）转换为pdf格式文档（简单版）

导入依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3代码/

xiaoxiaobaozhu·2025-02-15 04:52

Bengio新作Aaren：探索Transformer性能与RNN效率的融合

论文链接：https://arxiv.org/pdf/2405.13956一、摘要总结：本文提出了一种新的注意力机制，名为Aaren，它将注意力视为一种特殊的递归神经网络（RNN），能够高效地计算其多对一RNN输出。Aaren不仅能够并行训练，而且能够在推理时高效地更新新令牌，仅需要常数内存。实验表明，Aaren在四个流行的序列问题设置（强化学习、事件预测、时间序列分类和时间序列预测）的38个数据

AI记忆·2025-02-15 03:17

发文新思路！双通道CNN的惊人突破，准确率接近100%！

沃恩智慧·2025-02-15 03:45

海思Hi3516CV610 -----芯片说明

关键特性●4K@20，6M@30分辨率●双目实时接入，支撑枪球一体机等双目机型●1T算力NPU，Transformer特性加速，大模型端侧部署●SVAC3.0编码标准，压缩率提升20%●智能编码2.0，

菩提树下的凡夫·2025-02-14 21:25

IS-IS 泛洪机制 | LSP 处理流程

路由器产生一个LSP后，会从所有运行了IS-IS的接口进行扩散。区域中的其他路由器从一个接口接收到LSP

斐夷所非·2025-02-14 19:14

DexVLA：通用机器人控制中具有插件式扩散专家的视觉语言模型

25年2月来自美的集团和华东师范的论文“DexVLA:Vision-LanguageModelwithPlug-InDiffusionExpertforGeneralRobotControl”。让机器人能够在不同的环境中执行不同的任务是机器人学习的核心挑战。虽然视觉-语言-动作(VLA)模型已显示出可泛化机器人技能的前景，但要充分发挥其潜力，需要解决动作表示和有效训练方面的限制。当前的VLA模型通

硅谷秋水·2025-02-14 13:03

上下文扩展技术-详细解释Longformer和BigBird的主要创新；详细说明bert原理，并说一说他的上下文限制是怎么来的

答案LongformerLongformer是为有效处理长文本序列而设计的Transformer模型，它通过结合滑动窗口注意力机制和扩张注意力模式来捕捉局部和远距离的上下文信息，并通过全局注意力来捕捉整个文档的广泛背景和联系

AI生成曾小健·2025-02-14 12:22

视觉中的transformer：ViT

《》摘要transformer已经是NLP的标准。

ch隔壁老张·2025-02-14 06:12

ViT和Transformer

AttentionIsAllYouNeedVit在图像领域直接使用transformer，如果将2d图像直接转为一维向量，会面临参数两过大的问题。

Landon9·2025-02-14 06:37

详细说说VIT架构和Transformer架构的异同

GPT-4oVisionTransformer(ViT)和Transformer架构之间的关系非常紧密，因为ViT是直接将Transformer应用到视觉任务中的一种方法。

AI生成曾小健·2025-02-14 05:02

从VGG到Transformer：深度神经网络层级演进对模型性能的深度解析与技术实践指南

一、技术原理（数学公式+示意图）1.层深与模型容量关系数学表达：根据UniversalApproximationTheorem，深度网络可表达复杂函数：f(x)=fL(fL−1(⋯f1(x)))f(x)=f_L(f_{L-1}(\cdotsf_1(x)))f(x)=fL(fL−1(⋯f1(x)))层数L增加时，函数空间指数级扩大梯度传播挑战：链式法则导致梯度消失/爆炸∂L∂W(1)=∏k=2L∂f

燃灯工作室·2025-02-14 05:57

计算机视觉核心任务

代表模型：ResNet、EfficientNet、ViT（VisionTransformer）。2.目标检测（ObjectDetection）识别图像中目标的位置（边界框）及类别。应用场景：自动驾

飞瀑·2025-02-14 04:53

【Transformer】小白入门指南

目录1、简介2、Transformer解决问题技术概览核心组成自注意力机制（Self-AttentionMechanism）多头注意力机制（Multi-HeadAttention）前馈神经网络（Feed-ForwardNeuralNetwork

静静喜欢大白·2025-02-14 04:18

一杯咖啡的时间学习大模型（LLM）：LLaMA解读之旋转编码RoPE（含代码实现）

相较于标准Transformer架构，LLaMA主要在以下几个方面进行了关键改进：位置编码升级：采用旋转位置编码（RotaryPositionEmbedding,RoPE）归一化革新：对每个

Bug_makerACE·2025-02-14 02:52

DDPM（Denoising Diffusion Probabilistic Models）的公式推导

1.前向扩散过程前向过程通过\(T\)步逐渐向数据\(x_0\)添加高斯噪声，最终得到纯噪声\(x_T\)。

AndrewHZ·2025-02-14 00:12

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

GPT（2018）：划时代的起点：GPT（GenerativePre-trainedTransformer）首次将Transformer架构与无监督预训练结合，开启了大规模语言模型的新时代。

Ash Butterfield·2025-02-14 00:08

【AI论文】OmniHuman-1: 重新思考一阶段条件式人体动画模型的扩展升级

在本文中，我们提出了OmniHuman，一个基于扩散变换器的框架，该框架通过将运动相关条件融入训练阶段来扩展数据规模。为此，我们为这些混合条件引入了两种训练原则，以及相应的模型架构和推理策略。

东临碣石82·2025-02-13 23:06

大型语言模型的核心机制解析

摘要大型语言模型的核心机制依赖于Transformer架构，该架构通过嵌入层将输入数据转换为向量形式，并结合位置编码以保留序列中单词的顺序信息。

耶耶Norsea·2025-02-13 23:05

《Stable Diffusion绘画完全指南：从入门到精通的Prompt设计艺术》第一章

Prompt设计基础1.1什么是StableDiffusion：生成原理与核心优势一、颠覆性生成逻辑：从噪声到艺术的魔法逆向降噪原理传统AI绘画：直接生成完整像素StableDiffusion：通过潜扩散模型

Allen-Steven·2025-02-13 22:54

Pytorch实现一个简单DeepSeek中的MLA多头潜在注意力架构

这可能与传统的Transformer中的滑动窗口或局部注意力类似。接下来，我需要考虑如何将局部注意力与多头机制结合。每个注意力头可能有不同的局部窗口，或者共享相

DukeYong·2025-02-13 19:38

Spring Boot全局异常处理终极指南：从青铜到王者的实战演进

未处理的异常会导致：服务雪崩：单点异常扩散到整个系统（✖️）信息泄露：暴露敏感堆栈信息（）体验灾难：前端收到不可读的错误格式（）排查困难：缺乏关键错误上下文（）通过全局异常处理器，我们可以实现：✅统一错误响应格式

没什么技术·2025-02-13 19:36

具身智能训练新思路！将生成视频用于训练机器人

将生成视频用于训练具身智能（EmbodiedAI）确实是近年来备受关注的前沿方向，这一思路通过结合生成式AI（如扩散模型、神经辐射场等）与机器人学习，为解决真实世界数据稀缺、训练成本高等问题提供了新可能

天机️灵韵·2025-02-13 18:02

值得收藏！十大中国流行的AI大模型企业及平台汇总

1.百度-文心一言百度在大模型开发上持续采用创新算法和结构，如Transformer，以优化模型性能和学习

deepseek大模型·2025-02-13 16:50

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。

·2025-02-13 16:39

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

GPT（GenerativePre-trainedTransformer）1️⃣什么是GPT？

IT古董·2025-02-13 16:15

推荐频道

扩散Transformer