扩散Transformer 第2页

如何计算一个7B的模型训练需要的参数量以及训练时需要的计算资源

计算理论过程见：transformer中多头注意力机制的参数量是多少？1.模型参数量的计算7B参数模型的总参数量是70亿（7billion）。

yxx122345·2025-03-18 20:59

李开复：AI 2.0 时代的机遇

人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，应用场景，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理等领域取得了突破性进展。

AGI大模型与大数据研究院·2025-03-18 15:52

llama.cpp 和 LLM（大语言模型）

llama.cpp和LLM（大语言模型）的介绍，以及两者的关联与区别：1.LLM（LargeLanguageModel，大语言模型）定义：LLM是基于深度学习技术（如Transformer架构）构建的超大参数量的自然语言处理模型

这个懒人·2025-03-18 14:12

DIFFERENTIAL TRANSFORMER

本文是LLM系列文章，针对《DIFFERENTIALTRANSFORMER》的翻译。

UnknownBody·2025-03-17 21:44

AI如何创作音乐及其案例

如Transformer架构，其注意力机制可捕捉跨小节的旋律关联性，能生成具有长期依赖性的音乐序列。生成对抗网络（GAN）：包含生成器和判别器，生成器负责生成音乐样本，判别器判断生成的音乐是否真实。

alankuo·2025-03-17 21:44

【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结

文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法

roman_日积跬步-终至千里·2025-03-17 19:59

基于ViT+milvus的以图搜图服务

ViT(VisionTransformer)模型使用huggingface的ViT模型权重。https://huggingface.co/tttarun/visio

国防科技苏东坡·2025-03-17 18:56

ChatGPT智能聊天机器人实现

以下是一个从零实现类ChatGPT智能聊天机器人的完整开发指南，包含技术选型、核心代码逻辑和推荐学习资源：—云端平台整理一、技术架构与工具核心模型基座模型：HuggingFaceTransformers

云端源想·2025-03-17 14:57

HarmonyOS NEXT开发实战：Navigation页面跳转对象传递案例

实现过程中使用了第三方插件class-transformer，传递对象经过该插件的plainToClass方法转换后可以直接调用对象的方法，效果图预览使用说明从首页进入本页面时，会传递一个类对象UserBookingInfo

一晃有一秋·2025-03-17 12:10

Transformer 架构深度剖析

一、Transformer架构核心设计1.1整体架构Transformer由编码器（Encoder）和解码器（Decoder）堆叠而成，每个层包含：多头自注意力（Multi-HeadSelf-Attention

时光旅人01号·2025-03-17 10:58

从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）

文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1

码事漫谈·2025-03-17 09:48

Vision Transformer (ViT) 详细描述及 PyTorch 代码全解析

VisionTransformer(ViT)是一种将Transformer架构应用于图像分类任务的模型。

AIGC_ZY·2025-03-17 02:23

YOLOv8改进添加swin transformer

最近在做实验，需要改进YOLOv8，去网上找了很多教程都是充钱才能看的，NND这对一个一餐只能吃两个菜的大学生来说是多么的痛苦，所以自己去找代码手动改了一下，成功实现YOLOv8改进添加swintransformer

兜里没有一毛钱·2025-03-17 00:10

《零代码调用最强开源模型DeepSeek-Lite：15分钟实战案例解析》

##二、三步极速接入指南```python#实战代码片段（基于HuggingFace平台）fromtransformersimportAuto

煜bart·2025-03-16 23:01

一周热点：微软攻克语音输入、文本输出难题-Phi-4-multimodal

模型架构该模型采用多模态Transformer架构，通过LoRA（

数据分析能量站·2025-03-16 22:57

【JCR一区级】被囊群算法TSA-Transformer-GRU负荷数据回归预测【含Matlab源码 6309期】

Matlab武动乾坤博客之家

Matlab武动乾坤·2025-03-16 11:36

【杨乐昆何凯明AI论文】没有归一化的Transformer模型

本研究表明，通过使用一种极其简单的技术，没有归一化的Transformer模型可以达到相同或更好的性能。

东临碣石82·2025-03-16 11:02

基于 KTransformers的DeepSeek-R1 本地部署方案，成本骤降32倍！

本文将深入探讨DeepSeek-R1部署中的挑战，并介绍一款创新框架KTransformers，它能够显著降低大规模模型部署的成本并提高推理效率，从而帮助更多中小企业有效部署此类高级AI模型。

爱科技Ai·2025-03-16 07:38

手撕multi-head self attention 代码

在深度学习和自然语言处理领域，多头自注意力（Multi-HeadSelf-Attention）机制是Transformer模型中的核心组件之一。

心若成风、·2025-03-16 07:07

大模型火爆 2025：LLaMA、Qwen、DeepSeek 核心原理+就业秘籍，快速入门 AI 工程师

核心原理：Transformer架构：想象一个工厂流水线，LL

weixin_40941102·2025-03-16 03:38

【AI】Transformer布道：让AI学会“左顾右盼”的超级大脑！（扫盲帖）

在LLM爆火的时代，如果还不了解Transformer就太落伍了，下面我第一次尝试用一种更日常、更口语化的方式，把Transformer这个模型讲个大概。

碣石潇湘无限路·2025-03-16 03:37

仅仅使用pytorch来手撕transformer架构(3)：编码器模块和编码器类的实现和向前传播

仅仅使用pytorch来手撕transformer架构(2)：编码器模块和编码器类的实现和向前传播往期文章：仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的

KangkangLoveNLP·2025-03-16 01:53

鸿蒙特效教程03-水波纹动画效果实现教程

最终效果预览我们将实现以下功能：点击屏幕任意位置，在点击处生成一个水波纹触摸并滑动屏幕，波纹会实时跟随手指位置生成波纹从小到大扩散，同时逐渐消失波纹颜色随机变化，增加视觉多样性一、创建基础布局首先，我们需要创建一个基础页面布局

苏杰豪·2025-03-15 22:02

Transformer动画讲解 - 工作原理

Transformer模型在多模态数据处理中扮演着重要角色，其能够高效、准确地处理包含不同类型（如图像、文本、音频、视频等）的多模态数据。

ghx3110·2025-03-15 19:16

Transformer架构在生成式AI中的应用解析

文章目录1.Transformer架构概述1.1Transformer的核心思想1.2Transformer架构的优势2.Transformer在文本生成中的应用2.1GPT系列：基于Transformer

二进制独立开发·2025-03-15 19:11

1llama源码学习·model.py[3]ROPE旋转位置编码(1)原理

零：(导学)Transformer位置编码（1）为什么需要位置编码位置编码描述序列中实体的位置信息，为每个位置分配唯一的表示。

小杜不吃糖·2025-03-15 18:07

图像拼接-UDIS详细推导和精读Unsupervised Deep Image Stitching: ReconstructingStitched Features to Images

无监督粗对齐1.基于消融的策略主要是为了找到重叠区，去除无效区2.拼接域的TransformerLayer无监督图像重建1.低分辨率变形单应性变换仅能表示同一深度的空间变换，在实际的图像拼接任务中，由于输入图像的多样性和复杂性

cccc来财·2025-03-15 17:26

【Transformer-Hugging Face手册 07/10】微调预训练模型

微调预训练模型-目录一、说明二、在本机PyTorch中微调预训练模型。2.1加载数据2.2训练2.2.1使用PyTorchTrainer进行训练2.3训练超参数2.4评价2.5训练类三、使用Keras训练TensorFlow模型3.1为Keras加载数据3.2将数据加载为tf.data.Dataset3.3数据加载器3.4优化器和学习率调度器3.5训练循环3.6评价四、结论一、说明使用预训练模

无水先生·2025-03-15 13:54

UNet 改进：添加Transformer注意力机制增强捕捉长距离依赖关系的能力

目录1.Transformer注意力机制2.Unet改进3.代码1.Transformer注意力机制TransformerBlock是Transformer模型架构的基本组件，广泛应用于机器翻译、文本摘要和情感分析等自然语言处理任务

听风吹等浪起·2025-03-15 08:41

CCF CSP 第30次（2023.05）（2_矩阵运算_C++）（暴力破解）(矩阵相乘)

输出格式：样例输入样例输出：样例解释：子任务：提示：解题思路：思路一（暴力破解）：代码实现代码实现：部分代码解读时间限制：5.0s空间限制：512.0MB题目背景：Softmax(Q×KT/√d)×V是Transformer

Dream it possible！·2025-03-15 05:41

基于Transformer的医学文本分类：从BERT到BioBERT

随着自然语言处理（NLP）技术的快速发展，Transformer模型在文本分类、情感分析、机器翻译等任务中取得了显著成果。

Evaporator Core·2025-03-14 23:17

从零到一：Transformer模型的原理与实战之旅

目录从零到一：Transformer模型的原理与实战之旅1.Transformer原理简介1.1什么是Transformer？

樽酒ﻬق·2025-03-14 21:06

【AI论文】TPDiff：时序金字塔视频扩散模型

摘要：视频扩散模型的发展揭示了一个重大挑战：巨大的计算需求。为了缓解这一挑战，我们注意到扩散的反向过程具有内在的熵减少特性。鉴于视频模态中的帧间冗余，在高熵阶段保持全帧率是不必要的。

东临碣石82·2025-03-14 14:31

普通人如何利用GPT赚钱之开发虚拟助手

普通人如何利用GPT赚钱之开发虚拟助手随着人工智能技术的迅猛发展，GPT（GenerativePre-trainedTransformer）作为一种强大的语言模型，正在改变我们的生活和工作方式。

贫苦游商·2025-03-14 12:53

【大模型学习】第十五章 Transformer技术看这一篇就足够了

目录一、引言二、Transformer起源背景1.从"健忘症"到"过目不忘"的进化之路三、一个简单的例子让你理解什么是Transformer四、技术要点与底层原理1.自注意力机制（Self-Attention

好多渔鱼好多·2025-03-14 12:46

【扩散模型Diffusion Model系列】1-一篇文章带你快速入门扩散模型Diffusion Model，个人入门学习路线+优质学习博客资料

文章目录零、写在前面一、扩散理论缘起DDPM再见，马尔科夫！高视角DDIMLevelup！更高视角SDE、ScoreMatching、ODE走直线！

Leafing_·2025-03-14 12:14

《信息系统安全》课后习题答案（陈萍）

恢复二、选择题1、D2、C3、B4、A5、D6、A7、C8、B9、A10、B第二章一、填空题1、《保密系统的信息理论》，DES，RSA2、相同、存在确定的转换关系3、单向、机密性、不可否认性4、混淆、扩散

1ce0range·2025-03-14 12:44

ComfyUI之“注入间隔”（Injection Interval）对生成过程进行控制

在ComfyUI的图像生成流程里，尤其是使用扩散模型生成图像时，整个过程会被拆分成多个步骤逐步迭代，每一步都会对图像进行一些细微的调整和更新。

AI-AIGC-7744423·2025-03-14 11:43

深度学习 bert与Transformer的区别联系

BERT（BidirectionalEncoderRepresentationsfromTransformers）和Transformer都是现代自然语言处理（NLP）中的重要概念，但它们代表不同的层面

Humingway·2025-03-14 03:14

从零开始大模型开发与微调：编码器的实现

从零开始大模型开发与微调：编码器的实现作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：自然语言处理，大模型，Transformer架构，编码器模块

AI天才研究院·2025-03-14 00:57

QwQ-32B企业级本地部署：结合XInference与Open-WebUI使用

QwQ-32B是阿里巴巴Qwen团队推出的一款推理模型，拥有320亿参数，基于Transformer架构，采用大规模强化学习方法训练而成。

大势下的牛马·2025-03-14 00:56

第81期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

·2025-03-13 20:59

基于多模态大模型的不完整多组学数据特征选择策略

结合多模态大模型（如自监督学习、图神经网络、Transformer等）可以有效解决这一问题。以

m0_65156252·2025-03-13 18:17

通信行业语言大模型技术和应用研究

作为一种人工智能技术驱动的语言大模型，ChatGPT使用了Transformer

人工智能-猫猫·2025-03-13 18:16

[Base]DIFFERENTIAL TRANSFORMER

1.BaseInfoTitleDIFFERENTIALTRANSFORMERAdresshttps://arxiv.org/pdf/2410.05258Journal/Time202410Author微软研究院和清华大学提出

Xy-unu·2025-03-13 18:09

差分注意力，负注意力的引入

文章目录DifferentialTransformer差分注意力，负注意力的引入相关链接介绍初始化函数多头差分注意力DifferentialTransformer差分注意力，负注意力的引入相关链接ai-algorithms

syugyou·2025-03-13 17:09

Transformer大模型实战对比ALBERT与BERT

文章标题在当今人工智能领域的迅速发展中，Transformer大模型无疑成为了自然语言处理（NLP）领域的璀璨明星。

AI天才研究院·2025-03-13 17:06

Diffusion Transformer与Differential Transformer：技术创新与应用前景

引言Transformer架构已成为自然语言处理（NLP）和计算机视觉（CV）领域的主流技术。

AI大模型learner·2025-03-13 17:33

差分革命：清华微软携手，用物理智慧重塑Transformer“慧眼”

然而，随着诺贝尔物理学奖的光芒照耀到“机器学习之父”GeoffreyHinton的肩头，另一场跨界融合也在悄然进行——微软与清华大学的科研团队携手，将物理学的智慧融入AI，推出DifferentialTransformer

YINWA AI·2025-03-13 16:27

Vision Transformer (ViT)：将Transformer带入计算机视觉的革命性尝试（代码实现）

VisionTransformer(ViT)：将Transformer带入计算机视觉的革命性尝试作为一名深度学习研究者，如果你对自然语言处理（NLP）领域的Transformer架构了如指掌，那么你一定不会对它在序列建模中的强大能力感到陌生

阿正的梦工坊·2025-03-13 15:50

推荐频道

扩散Transformer