TRANSFORMER 第2页

论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control

架构受到Transfusion的启发：通过单一Transformer处理多目标任务

寻丶幽风·2025-03-13 01:33

Adobe Firefly 技术浅析（二）：Transformer生成模型

AdobeFirefly的图像生成技术不仅依赖于生成式对抗网络（GAN），还引入了基于Transformer的生成模型。

爱研究的小牛·2025-03-12 20:32

基于hf的trl框架的deepseek-r1-zero实现与训练

导入模块和promt格式"""Reference:"""importreimporttorchfromdatasetsimportload_dataset,DatasetfromtransformersimportAutoTokenizer

喂喂喂喂位·2025-03-12 20:00

如何增强机器学习基础，提升大模型面试通过概率

我的好朋友没有通过面试所以我给我的好朋友准备了这一篇学习路线随着大模型（如Transformer、GPT-4、LLaMA等）在自然语言处理（NLP）、计算机视觉（CV）和多模态任务中的广泛应用，AI行业的招聘竞争愈发激烈

weixin_40941102·2025-03-12 19:55

Transformer 的原理是什么？

环境：Transformer问题描述：Transformer的原理是什么？通俗易懂一点。

玩人工智能的辣条哥·2025-03-12 11:08

扩散 Transformer 策略：用于通才视觉-语言-动作学习的规模化扩散 Transformer

25年2月来自上海AI实验室、浙大、香港中文大学、北大、商汤科技、清华和中科院香港科学创新研究院的论文“DiffusionTransformerPolicy:ScalingDiffusionTransformerforGeneralistVision-Language-ActionLearning

三谷秋水·2025-03-12 10:27

LLM大模型技术实战4：热门开源LLMs对比和选型

1.1主要特点架构特点LLM主要基于Transformer架构，Transformer通过自注意力机制（Self-Attention）

大模型学习教程·2025-03-12 08:44

大模型面试--大模型（LLMs）基础面

目前主流的开源大模型体系有以下几种：1.Transformer系列Transformer模型是深度学习中的一类重要模型，尤其在自然语言处理（NLP）领域。

TAICHIFEI·2025-03-12 08:13

【每日论文】Forgetting Transformer: Softmax Attention with a Forget Gate

虽然Transformer没有显式的循环形式，但我们展示了一种通过以数据依赖的方式降低未归一化注意力分数的自然方法，将遗忘门融入Transformer。我们称这种注意力机制为“遗忘注意力”，并

WHATEVER_LEO·2025-03-12 08:12

【AI深度学习网络】Transformer时代，RNN（循环神经网络）为何仍是时序建模的“秘密武器”？

引言：什么是循环神经网络（RNN）？循环神经网络（RecurrentNeuralNetwork,RNN）是一种专门处理序列数据（如文本、语音、时间序列）的深度学习模型。与传统神经网络不同，RNN具有“记忆”能力，能够通过内部状态（隐藏状态）保留历史信息，从而捕捉序列中的时间依赖关系。在自然语言处理、语音识别、时间序列预测等领域，数据本质上是序列化的——即当前数据点与前后数据点存在依赖关系。传统的前

arbboter·2025-03-12 02:18

第6篇：Transformer架构详解（下）：多头注意力机制与位置编码

Transformer模型自提出以来，已经在自然语言处理（NLP）领域取得了巨大的成功。其核心创新包括多头注意力机制和位置编码，这些技术使得Transformer能够高效处理长序列数据。

Gemini技术窝·2025-03-12 00:00

仅仅使用pytorch来手撕transformer架构(4)：解码器和解码器模块类的实现和向前传播

仅仅使用pytorch来手撕transformer架构(4)：解码器和解码器模块类的实现和向前传播仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的

KangkangLoveNLP·2025-03-11 17:07

基于transformer实现机器翻译(日译中)

使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer

小白_laughter·2025-03-11 15:46

【Hugging Face】transformers 库中 model 的常用方法和属性

HuggingFacetransformers库中model的常用方法和属性在transformers库中，model代表预训练的Transformer模型，可用于文本分类、问答、文本生成等任务。

彬彬侠·2025-03-11 11:53

【Hugging Face】transformers 库中 model.generate() 方法：自回归模型的文本生成方法

HuggingFacemodel.generate方法model.generate是transformers库中的文本生成（TextGeneration）方法，适用于自回归模型（如GPT-2、T5、BART

彬彬侠·2025-03-11 11:52

BERT（Bidirectional Encoder Representations from Transformers）的序列分类模型，简单学习记录

一、代码#本地离线模型使用fromtransformersimportAutoModelForCausalLM,AutoTokenizer,pipeline,BertForSequenceClassification

努力努力再努力呐·2025-03-11 11:16

【大模型开发】大模型背后的基础组件与生态概览

本文将介绍其中几大核心组件和框架，包括HuggingFaceTransformers、DeepSpeed、Megatron-LM，以及其他相关工具和方法，展示它们在训练效率

云博士的AI课堂·2025-03-11 08:56

大语言模型原理基础与前沿挑战与机遇

它们通过深度学习技术，特别是基于变换器（Transformer）架构的模型，能够在自然语言处理（NLP）任务中表现出色。大语言模型的出现不仅推动了学术研究的发展，也在实际应用中展现了巨大的潜力。

AI大模型应用之禅·2025-03-11 02:07

Google力作 | Infini-attention无限长序列处理Transformer

NLP分享汇·2025-03-10 23:46

在Ubuntu系统下部署大语言模型

前言在Ubuntu系统下部署大语言模型，可以使用HuggingFace的Transformers库来加载和使用预训练的模型。

脱泥不tony·2025-03-10 22:39

周报 | 25.3.3-25.3.9文章汇总

从Transformer（2017）到DeepSeek-R1（2025）--建议收藏！

双木的木·2025-03-10 21:04

文本向量化-词嵌入方法系列1：静态词嵌入(Word2Vec+GloVe)

静态词嵌入有Word2Vec，Sen2Vec，Doc2Vec，以及GloVe模型；而动态词嵌入有ELMO，Transformer，GPT，Bert和XLNet等等。

学习ml的小菜鸡·2025-03-10 19:15

Training-Free Transformer Architecture Search WithZero-Cost Proxy Guided Evolution（预览版本）

摘要Transformers已表现出卓越的性能，然而，其架构设计是一个耗时的过程，需要专业知识和反复试验。

境心镜·2025-03-10 18:05

Vision Transformer 分类水果图片集 Python 代码（可训练自己数据集）

代码链接:https://github.com/Illusionna/ComputerVision/tree/main/EfficientTransformerArepositoryforViT.ContributetoIllusionna

Illusionna.·2025-03-10 14:37

大语言模型引擎全解析：Transformers、vLLM、Llama.cpp等，最佳选择全攻略！

本文将带你深入了解Transformers、vLLM、Llama.cpp、SGLang、MLX和Ollama这些引擎，帮助你找到最适合的工具，释放大语言模型的全部潜力！作为技术人员，不仅

大模型入门教程·2025-03-10 12:29

论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。

寻丶幽风·2025-03-10 09:09

RoPE——Transformer 的旋转位置编码

在自然语言处理领域，Transformer是现代深度学习模型的基础，而位置编码（PositionEmbedding）则是Transformer处理序列数据的关键模块之一。

机智的小神仙儿·2025-03-10 09:34

构建一个完整的视觉Transformer（ViT）图像分类模型 VIT （vision transformer）图像分类

构建一个完整的视觉Transformer（ViT）图像分类模型VIT（visiontransformer）图像分类根据提供的截图内容，我们可以看到一个名为VitNet的视觉Transformer（VisionTransformer

Jackie_AI·2025-03-10 04:29

【Transformer优化】Transformer的局限在哪？

自2017年Transformer横空出世以来，它几乎重写了自然语言处理的规则。但当我们在享受其惊人的并行计算能力和表征能力时，是否真正理解了它的局限性？

T-I-M·2025-03-10 04:26

AIGC实战——Transformer模型

AIGC实战——Transformer模型0.前言1.T52.GPT-3和GPT-43.ChatGPT小结系列链接0.前言我们在GPT(GenerativePre-trainedTransformer)

盼小辉丶·2025-03-10 01:31

2022IJCAI速读：SparseTT，使用稀疏Transformers进行视觉跟踪

原文标题：SparseTT:VisualTrackingwithSparseTransformers中文标题：SparseTT：使用稀疏Transformers进行视觉跟踪代码地址：GitHub-fzh0917

夜深人静打代码·2025-03-10 00:53

Transformer 工作原理图文详解和实践：在生成式对话系统中的核心技术剖析

v=wjZofJX0v4M&t=33sTransformer在生成式对话系统中的核心技术剖析作者：禅与计算机程序设计艺术文章目录Transformer在生成式对话系统中的核心技术剖析1.背景介绍2.核心概念与联系

AI天才研究院·2025-03-09 18:03

搜广推校招面经三十八

二、Transformer中对梯度消失或者梯度爆炸的处理在Transformer模型中，梯度消失和梯度爆炸是深度学习中常见的问题，尤其是在处理长序列数据时。

Y1nhl·2025-03-09 12:45

2025最新Transformer模型及深度学习前沿技术应用

第一章、注意力（Attention）机制1、注意力机制的背景和动机（为什么需要注意力机制？注意力机制的起源和发展里程碑）。2、注意力机制的基本原理（什么是注意力机制？注意力机制的数学表达与基本公式、用机器翻译任务带你了解Attention机制、如何计算注意力权重？）3、注意力机制的主要类型：键值对注意力机制（Key-ValueAttention）、自注意力（Self-Attention）与多头注意

weixin_贾·2025-03-09 06:35

深度解析SSD2351核心板：硬核视频处理+工业级可靠性设计

芯片技术细节：视频处理能力：IVE引擎支持高斯滤波、膨胀/腐蚀等图像预处理；IPU支持人脸识别、运动检测及Transformer网络推理；显示接口支持MIPIDSI2560x1600@60fps，适配工业

明远智睿嵌入式方案商·2025-03-09 05:16

PyTorch深度学习框架60天进阶学习计划第14天：循环神经网络进阶

今天，我们将深入探讨循环神经网络的进阶内容，包括BiLSTM的工作机制、注意力机制的数学原理，以及Transformer编码层的实现。

凡人的AI工具箱·2025-03-09 00:03

1.6 从 GPT-1 到 GPT-3.5：一路的风云变幻

从GPT-1到GPT-3.5：一路的风云变幻人工智能的进步一直是科技领域的一个重要话题，而在自然语言处理（NLP）领域，GPT（GenerativePre-trainedTransformer）系列模型的发布

少林码僧·2025-03-08 23:03

使用 DeepSeek 训练属于自己写小说的模型

我们将基于DeepSeek的API和工具，结合HuggingFace的Transformers库，完成模型的训练和部署。

xinxiyinhe·2025-03-08 23:02

Qwen1.5-7B-实现RAG应用详细步骤

Transformers：HuggingFace提供的库，支持加载和运行预训练模型。FAISS：用于向量检索的高效库。GPTQ支持库：如auto-gptq或gptqmodel。

大数据追光猿·2025-03-08 23:01

论文阅读：Recipe for a General, Powerful, Scalable Graph Transformer

RecipeforaGeneral,Powerful,ScalableGraphTransformer论文和代码地址1介绍与贡献2GPS模型2.1模型框架图2.2PE和SE2.3GPSlayer:一种MPNN

不会&编程·2025-03-08 16:53

自然语言处理（NLP）领域大语言模型学习目录大全

GPT系列GPT-1（GenerativePre-trainedTransformer1）模型GPT-1（GenerativePre-trainedTransformer1）是OpenAI在2018年6

彬彬侠·2025-03-08 13:45

深入浅出的理解deepseek类大模型（附运行代码）

深入理解之运行代码：fromtransformers.models.qwen2importQwen2Config,Qwen2Modelimporttorchdefrun_qwen2():#根据模型需求配置参数

AI人工智能时代·2025-03-08 08:47

深度解构：DeepSeek大模型架构与前沿应用的未来探秘

1.DeepSeek大模型的架构设计DeepSeek大模型采用的是基于Transformer

威哥说编程·2025-03-08 05:15

新型模型架构（参数化状态空间模型、状态空间模型变种）

文章目录参数化状态空间模型状态空间模型变种 Transformer模型自问世以来，在自然语言处理、计算机视觉等多个领域得到了广泛应用，并展现出卓越的数据表示与建模能力。

三月七꧁ ꧂·2025-03-08 00:28

人工智能基础知识

首先分为两大类：一：机器视觉cv1.特征比较明显2.经典模型：cnn，resnet，deepface，yolov（1-12），vi-transformer。缺点：不能解决收听问题。

yzx991013·2025-03-07 16:24

Bert学习笔记

一、Bert架构BERT使用了双向的TransformerGPT使用从左到右的单向信息ELMo把单独训练的从左到右及从右到左的LSTM模型进行合并二、Bert预训练任务2.1遮蔽语言模型MLM任务：随机屏蔽

缓释多巴胺。·2025-03-07 09:05

YOLOv12改进之A2(区域注意力)

已有研究成果包括：Transformer架构：引入了自注意力机制，有效捕捉输入序列中的长距离依赖关系。CBAM模块：提出了通道和空间注意力的结合，显著提升了图像分类和目标检测的性能。

清风AI·2025-03-07 00:39

目前市场上的人工智能大模型有哪些？

Google的Transformer系列：BERT（Bidirection

国货崛起·2025-03-06 19:48

自动驾驶---LSTM模型用于轨迹预测

1前言在下面几篇博客中，笔者简单介绍过Transformer，Transformer的内部结构虽然比较清晰，但对于入门者来说还是复杂了一些。《人工智能---什么是Transformer?》

智能汽车人·2025-03-06 18:14

大模型入门

Transformer架构的持续演进体现在位置编码改进（如RoPE旋转位置编码）、注意力机制优化（FlashAttention算法提升30%训练速度）以及层级结构创新（深度

24k小善·2025-03-06 17:05

推荐频道

TRANSFORMER