Transformer】第4页

AI学习专题（一）LLM技术路线

（贝叶斯定理、极大似然估计）最优化方法（梯度下降、拉格朗日乘子法）编程&框架Python（NumPy、Pandas、Matplotlib）PyTorch&TensorFlow基础HuggingFaceTransformers

王钧石的技术博客·2025-02-10 01:39

AI大模型：一文搞懂大模型文件存储格式新宠GGUF

本文大介绍大模型文件存储格式新宠GGUF，目前HuggingfaceTransformers已经支持了GGUF格式，同时，像谷歌的Gemma、阿里的Qwen等模型默认已经提供了GGUF格式

Llama-Turbo·2025-02-10 01:37

多头注意力机制的创新优化：MLA架构解析

摘要MLA（Multi-headLatentAttention）架构是对Transformer模型中多头注意力（MHA）结构的创新优化，旨在提高推理阶段的效率并降低资源消耗。

耶耶Norsea·2025-02-09 23:22

动态词表采样：一种控制模型词表大小的新方法

背景介绍随着深度学习技术的发展，尤其是Transformer架构的成功应用，预训练语言模型如BERT、GPT等取得了

东方佑·2025-02-09 18:50

T5模型-基于Transformer架构的通用文本到文本转换模型

T5（Text-to-TextTransferTransformer）是由Google于2019年提出的一种基于Transformer架构的通用文本到文本转换模型。

Jiang_Immortals·2025-02-09 16:09

混合专家模型 (MoE) 最全详细图解

随着Mixtral8x7B(announcement,modelcard)的推出，一种称为混合专家模型(MixedExpertModels，简称MoEs)的Transformer模型在开源人工智能社区引起了广泛关注

DFCED·2025-02-09 10:23

个性化音乐生成：生成式AI在音乐推荐与创作中的应用

文章目录引言生成式AI与个性化音乐生成1.变分自编码器（VAE）2.生成对抗网络（GAN）3.Transformer模型4.扩散模型（DiffusionModels）技术实现1.音乐特征提取2.基于VAE

二进制独立开发·2025-02-09 00:34

Vision Transformer学习笔记（2020 ICLR）

摘要(Abstract)：简述了ViT（VisionTransformer）模型的设计和实验结果，展示了其在大规模图像数据集上进行训练时的优越性能。

刘若里·2025-02-08 21:15

动手学图神经网络（12）：MovieLens上的链接回归

环境设置使用pip安装pyg-lib、pytorch_geometric、sentence_transformers、fuzzywuzzy、captum等。

段智华·2025-02-08 11:07

深度学习的文本生成：从seq2seq到GPT2和GPT3

文章目录1.背景介绍1.1序列到序列（seq2seq）模型1.1.1编码器1.1.2解码器1.1.3训练1.2Transformer模型1.2.1自注意力机制1.2.2位置编码1.2.3多头注意力1.2.4

AI天才研究院·2025-02-08 11:33

ACC-UNet网络学习笔记（2023 MICCAI ）

同样，医学图像领域也发生了一样的变化，最具影响力的网络结构——U-Net已和Transformer相结合而被重新设计。

刘若里·2025-02-08 10:58

完整的671B R1塞进本地，详尽教程来了！

李锡涵（XihanLi）作者简介：伦敦大学学院（UCL）计算机系博士研究生，谷歌开发者专家，主要研究方向为学习优化，在NeurIPS、ICLR、AAMAS、CIKM等会议发表过学术论文，CircuitTransformer

·2025-02-08 10:08

AI学习指南HuggingFace篇-项目实战：情感分析系统

HuggingFace的Transformers库提供了强大的工具，使得情感分析变得简单高效。

俞兆鹏·2025-02-08 10:25

【Block总结】DFFN，门控机制选择性保留低频和高频信息

论文信息标题:EfficientFrequencyDomain-basedTransformersforHigh-QualityImageDeblurring论文链接:LingshunKong,JiangxinDong

AI浩·2025-02-08 08:36

【AI原理解析】— Gemini模型

模型基础与架构模型架构模型尺寸3.多模态处理能力输入处理数据处理训练过程4.技术细节与优化预训练上下文长度注意机制5.安全性与编程能力安全性评估编程能力6.模型发布与应用发布时间应用方向7.性能评估8.数学基础8.1Transformer

coolkidlan·2025-02-08 06:49

DeepSeek为什么采用与主流大模型不一样的MoE架构？一文搞懂什么是MoE模型

但像Qwen、LLama模型，用的却是Dense架构，也就是传统的Transformer架构。这两种架构有个很明显的区别。

大模型_学习路线·2025-02-08 04:39

Flash Attention介绍

FlashAttention是一种优化Transformer模型中注意力机制的技术，旨在提高计算效率并减少内存使用。

TAICHIFEI·2025-02-08 03:38

AI商业化：如何包装技术并找到客户需求？

一、引言在过去几年里，从GPT、Transformer到DeepSeek，以及分布式训练和微调技术的发展，为AI技术带来了质的飞跃。然而，光有先进的技术并不足以实现商业成功。如何将这些技术包装成易于

hjy1821·2025-02-07 17:34

深度搜索MoE：利用大规模预训练模型提升信息检索效能

利用大规模预训练模型提升信息检索效能DeepSeek-MoE项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-MoE项目简介DeepSeek-MoE是一个基于Transformer

杭律沛Meris·2025-02-07 15:20

SRMT：一种融合共享记忆与稀疏注意力的多智能体强化学习框架

自反射记忆Transformer(SRMT)作为一种新型记忆增强型transformer架构，专注于提升基于AI的决策能力和多智能体协同效果。

·2025-02-07 13:28

DeepSeek 多模态大模型Janus-Pro本地部署教程

该框架通过将视觉编码解耦到不同的处理路径（同时仍使用单一统一的Transformer架构

·2025-02-07 13:20

大模型参数量及其单位的概念

BERT（BidirectionalEncoderRepresentationsfromTransformers）模型有几种不同的版本，它们的参数量不同。

这个人有丶懒·2025-02-07 03:57

使用一个大语言模型对另一个大语言模型进行“调教”

以下是基于搜索结果整理的详细步骤和方法：1.准备工作安装必要的库•Transformers：用于加载和训练模型。•Datasets：用于处理数据集。

大霸王龙·2025-02-07 03:25

deepseek再爆大招，janus pro炸裂出场

januspro多模态大模型炸裂出场，transformer架构，没有走diffusion路线，再次颠覆行业认知，继续追着OpenAI打。家里有高配电脑的可以玩起来了，网上自己搜索吧。

caoz·2025-02-06 12:15

大模型的底层逻辑及Transformer架构

其中，Transformer架构是目前主流的大模型架构，它通过自注意力机制和前馈神经网络来处理输入数据。这种架构能够高效地处理序列数据，如文本。3.自

搏博·2025-02-06 02:04

（14-6-03）基于Latent Diffusion Transformer的文生视频系统：实现模型（03）图像生成模型

它结合了Transformer架构和扩散模型的优势。

码农三叔·2025-02-05 22:30

Transformers解决RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

在使用Transformers启动梯度检查点时，即：model.gradient_checkpointing_enable()时，会报错RuntimeError:element0oftensorsdoesnotrequiregradanddoesnothaveagrad_fn

怎么这么多名字都被占了·2025-02-05 18:06

中国AI再放异彩！MiniMax01开源震撼全球

它突破了传统的Transformer架构，这可是AI领域的核心技术之一。对于咱们普通人来说，

盼达思文体科创·2025-02-05 15:15

DeepSeek-R1全面超越OpenAI o1：开源大模型训练范式革新

OpenAI早期专注于强化学习（RL），但在Transformer结构问世后，迅速调整方向，借助Google的开源研究开发出强大的LLM。然而，尽

·2025-02-05 02:16

unocss 添加支持使用本地 svg 预设图标，并支持更改大小

importpresetWeappfrom'unocss-preset-weapp'import{extractorAttributify,transformerClass}from'un

TangAcrab·2025-02-04 21:34

揭秘DeepSeek R1大模型：它如何像人类一样“思考”？

DeepSeek官网：https://www.deepseek.com1.DeepSeekR1的“大脑结构”：Transformer进化版所有大模型的

大模型扬叔·2025-02-04 20:00

AI大模型学习的七个阶段，学完你就是大模型大师！

Transformer架构解析。预训练、SFT、RLHF。第三阶段：编程基础与工具使用目标：掌握大

AGI大模型老王·2025-02-04 19:48

站在Developer角度看DeepSeek：技术架构解析与开发实战指南

一、DeepSeek技术全景图：从实验室到生产环境1.1模型架构演进：重新定义Transformer可能性DeepSeek的分层动态稀疏Transformer架构在以下层面实现突破：硬件感知设计：根据GPU

嵌入式Jerry·2025-02-04 15:20

Transformer预测模型及其Python和MATLAB实现

2017年，Vaswani等人提出的Transformer模型在《AttentionisAllYouNeed》一文中引起

追蜻蜓追累了·2025-02-04 03:10

MOE模型入门

实现：将transformer模型中的每个前馈网络(FFN)层替换为MoE层，其中MoE层由两个核心部分组成:一个路由器（或者叫门控网络）和若干数量的专家。代表类型谷歌MOE，

云帆@·2025-02-04 01:29

DeepSeek的出现对全球GPT产业产生的冲击

特别是以GPT（GenerativePre-trainedTransformer）系列模型为代表的大规模预训练语言模型，已经在全球范围内引发了广泛关注和应用。

不要em0啦·2025-02-03 23:07

机器学习—大语言模型：推动AI新时代的引擎

2.Transformer架构3.模型训练二、大语言模型的应用场景1.文本生成2.问答系统3.编码助手4.多语言翻译三、大语言模型的最新进展1.GPT-42.开源模型四、构建和部署一个简单的大语言模型1

云边有个稻草人·2025-02-03 19:38

周报 | 25.1.27-25.2.2文章汇总

-CSDN博客arXiv每日学术速递|强强联合：CNN与Transformer融合创新提升模型性能！！-CSDN博客AI生成未来|字节提出VideoWo

双木的木·2025-02-03 12:11

Megatron：深度学习中的高性能模型架构

Megatron：深度学习中的高性能模型架构Megatron是由NVIDIA推出的深度学习大规模预训练模型框架，主要针对大规模Transformer架构模型的高效训练与推理。

gs80140·2025-02-03 08:06

AIGC的底层框架和技术模块

以下是对AIGC底层框架和技术模块的详细解析：底层框架AIGC的底层框架主要基于深度学习的语言模型，特别是Transformer模型及其变种，如GPT（GenerativePre-trainedTransformer

五岔路口·2025-02-03 07:27

Stable Diffusion 3 与 OpenAI 的 DALL-E 3 谁才是AI绘画的扛把子?

以下从多个角度详细比较这两种模型：1.开发背景与架构StableDiffusion3是由StabilityAI开发的开源模型，基于扩散Transformer架构和流匹配（FlowMatching）技术，

kcarly·2025-02-03 06:23

『大模型笔记』视觉语言模型解释

2.开源视觉语言模型概览3.如何找到合适的视觉语言模型MMMUMMBench4.技术细节5.使用变压器(transformers)运用视觉语言模型6.使用TRL微调视觉语言模型二.参考文章一.视觉语言模型解析视觉语言模型是一类能够同时从图像和文本中学习

AI大模型前沿研究·2025-02-03 05:40

AI模型升级版0.02

我们将使用HuggingFace的transformers库和torch库来实现这个目标。

pps-key·2025-02-03 02:51

DeepSeek-R1,DeepSeek-V3,DeepSeek-VL,DeepSeek-V2,DeepSeek-R1-Zero各个模型区别

目录1.各个模型架构2.训练方式3.模型参数与规模4.应用场景5.性能表现6.发布时间7.价格1.各个模型架构DeepSeek-R1：未明确有特殊架构说明，但属于推理模型，可能在Transformer架构基础上针对推理做了优化

fpga和matlab·2025-02-03 01:12

DeepSeek 使用的核心技术预测

1.大规模预训练模型架构Transformer变种与优化：基于Transformer架构进行改进，可能引入稀疏注意力机制（如Longform

eso1983·2025-02-02 18:22

DiffuEraser: 一种基于扩散模型的视频修复技术

视频修复算法结合了基于流的像素传播与基于Transformer的生成方法，利用光流信息和相邻帧的信息来恢复纹理和对象，同时通过视觉Transformer完成被遮挡区域的修复。

扫地僧985·2025-02-02 15:01

transformer之Attention机制及代码实现

目录异同点总结代码实现Self-AttentionCross-AttentionGatedSelf-AttentionGeneralizedQueryAttentionPagedAttentionSelf-Attention：一种Attention机制，用于处理单个输入序列中的依赖关系。Cross-Attention：一种Attention机制，用于处理两个或多个输入序列之间的依赖关系。Gated

AIVoyager·2025-02-02 15:30

【深度学习】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows，论文

必读文章：https://blog.csdn.net/qq_37541097/article/details/121119988SwinTransformer:HierarchicalVisionTransformerusingShiftedWindows

XD742971636·2025-02-02 14:54

【llm对话系统】大模型 Llama 源码分析之 Flash Attention

1.写在前面近年来，基于Transformer架构的大型语言模型(LLM)在自然语言处理(NLP)领域取得了巨大的成功。

kakaZhui·2025-02-02 13:43

JCR一区级 | Matlab实现蜣螂算法DBO-Transformer-LSTM多变量回归预测

本文提出了一种基于蜣螂算法(DungBeetleOptimizer,DBO)、DBO-Transformer和LSTM的多变量水质回归预测模型，旨在提高水质参数

Matlab机器学习之心·2025-02-02 13:13

推荐频道

Transformer】