Transformer】第2页

周报 | 25.3.3-25.3.9文章汇总

从Transformer（2017）到DeepSeek-R1（2025）--建议收藏！

双木的木·2025-03-10 21:04

文本向量化-词嵌入方法系列1：静态词嵌入(Word2Vec+GloVe)

静态词嵌入有Word2Vec，Sen2Vec，Doc2Vec，以及GloVe模型；而动态词嵌入有ELMO，Transformer，GPT，Bert和XLNet等等。

学习ml的小菜鸡·2025-03-10 19:15

Training-Free Transformer Architecture Search WithZero-Cost Proxy Guided Evolution（预览版本）

摘要Transformers已表现出卓越的性能，然而，其架构设计是一个耗时的过程，需要专业知识和反复试验。

境心镜·2025-03-10 18:05

Vision Transformer 分类水果图片集 Python 代码（可训练自己数据集）

代码链接:https://github.com/Illusionna/ComputerVision/tree/main/EfficientTransformerArepositoryforViT.ContributetoIllusionna

Illusionna.·2025-03-10 14:37

大语言模型引擎全解析：Transformers、vLLM、Llama.cpp等，最佳选择全攻略！

本文将带你深入了解Transformers、vLLM、Llama.cpp、SGLang、MLX和Ollama这些引擎，帮助你找到最适合的工具，释放大语言模型的全部潜力！作为技术人员，不仅

大模型入门教程·2025-03-10 12:29

论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。

寻丶幽风·2025-03-10 09:09

RoPE——Transformer 的旋转位置编码

在自然语言处理领域，Transformer是现代深度学习模型的基础，而位置编码（PositionEmbedding）则是Transformer处理序列数据的关键模块之一。

机智的小神仙儿·2025-03-10 09:34

构建一个完整的视觉Transformer（ViT）图像分类模型 VIT （vision transformer）图像分类

构建一个完整的视觉Transformer（ViT）图像分类模型VIT（visiontransformer）图像分类根据提供的截图内容，我们可以看到一个名为VitNet的视觉Transformer（VisionTransformer

Jackie_AI·2025-03-10 04:29

【Transformer优化】Transformer的局限在哪？

自2017年Transformer横空出世以来，它几乎重写了自然语言处理的规则。但当我们在享受其惊人的并行计算能力和表征能力时，是否真正理解了它的局限性？

T-I-M·2025-03-10 04:26

AIGC实战——Transformer模型

AIGC实战——Transformer模型0.前言1.T52.GPT-3和GPT-43.ChatGPT小结系列链接0.前言我们在GPT(GenerativePre-trainedTransformer)

盼小辉丶·2025-03-10 01:31

2022IJCAI速读：SparseTT，使用稀疏Transformers进行视觉跟踪

原文标题：SparseTT:VisualTrackingwithSparseTransformers中文标题：SparseTT：使用稀疏Transformers进行视觉跟踪代码地址：GitHub-fzh0917

夜深人静打代码·2025-03-10 00:53

Transformer 工作原理图文详解和实践：在生成式对话系统中的核心技术剖析

v=wjZofJX0v4M&t=33sTransformer在生成式对话系统中的核心技术剖析作者：禅与计算机程序设计艺术文章目录Transformer在生成式对话系统中的核心技术剖析1.背景介绍2.核心概念与联系

AI天才研究院·2025-03-09 18:03

搜广推校招面经三十八

二、Transformer中对梯度消失或者梯度爆炸的处理在Transformer模型中，梯度消失和梯度爆炸是深度学习中常见的问题，尤其是在处理长序列数据时。

Y1nhl·2025-03-09 12:45

2025最新Transformer模型及深度学习前沿技术应用

第一章、注意力（Attention）机制1、注意力机制的背景和动机（为什么需要注意力机制？注意力机制的起源和发展里程碑）。2、注意力机制的基本原理（什么是注意力机制？注意力机制的数学表达与基本公式、用机器翻译任务带你了解Attention机制、如何计算注意力权重？）3、注意力机制的主要类型：键值对注意力机制（Key-ValueAttention）、自注意力（Self-Attention）与多头注意

weixin_贾·2025-03-09 06:35

深度解析SSD2351核心板：硬核视频处理+工业级可靠性设计

芯片技术细节：视频处理能力：IVE引擎支持高斯滤波、膨胀/腐蚀等图像预处理；IPU支持人脸识别、运动检测及Transformer网络推理；显示接口支持MIPIDSI2560x1600@60fps，适配工业

明远智睿嵌入式方案商·2025-03-09 05:16

PyTorch深度学习框架60天进阶学习计划第14天：循环神经网络进阶

今天，我们将深入探讨循环神经网络的进阶内容，包括BiLSTM的工作机制、注意力机制的数学原理，以及Transformer编码层的实现。

凡人的AI工具箱·2025-03-09 00:03

1.6 从 GPT-1 到 GPT-3.5：一路的风云变幻

从GPT-1到GPT-3.5：一路的风云变幻人工智能的进步一直是科技领域的一个重要话题，而在自然语言处理（NLP）领域，GPT（GenerativePre-trainedTransformer）系列模型的发布

少林码僧·2025-03-08 23:03

使用 DeepSeek 训练属于自己写小说的模型

我们将基于DeepSeek的API和工具，结合HuggingFace的Transformers库，完成模型的训练和部署。

xinxiyinhe·2025-03-08 23:02

Qwen1.5-7B-实现RAG应用详细步骤

Transformers：HuggingFace提供的库，支持加载和运行预训练模型。FAISS：用于向量检索的高效库。GPTQ支持库：如auto-gptq或gptqmodel。

大数据追光猿·2025-03-08 23:01

论文阅读：Recipe for a General, Powerful, Scalable Graph Transformer

RecipeforaGeneral,Powerful,ScalableGraphTransformer论文和代码地址1介绍与贡献2GPS模型2.1模型框架图2.2PE和SE2.3GPSlayer:一种MPNN

不会&编程·2025-03-08 16:53

自然语言处理（NLP）领域大语言模型学习目录大全

GPT系列GPT-1（GenerativePre-trainedTransformer1）模型GPT-1（GenerativePre-trainedTransformer1）是OpenAI在2018年6

彬彬侠·2025-03-08 13:45

深入浅出的理解deepseek类大模型（附运行代码）

深入理解之运行代码：fromtransformers.models.qwen2importQwen2Config,Qwen2Modelimporttorchdefrun_qwen2():#根据模型需求配置参数

AI人工智能时代·2025-03-08 08:47

深度解构：DeepSeek大模型架构与前沿应用的未来探秘

1.DeepSeek大模型的架构设计DeepSeek大模型采用的是基于Transformer

威哥说编程·2025-03-08 05:15

新型模型架构（参数化状态空间模型、状态空间模型变种）

文章目录参数化状态空间模型状态空间模型变种 Transformer模型自问世以来，在自然语言处理、计算机视觉等多个领域得到了广泛应用，并展现出卓越的数据表示与建模能力。

三月七꧁ ꧂·2025-03-08 00:28

人工智能基础知识

首先分为两大类：一：机器视觉cv1.特征比较明显2.经典模型：cnn，resnet，deepface，yolov（1-12），vi-transformer。缺点：不能解决收听问题。

yzx991013·2025-03-07 16:24

Bert学习笔记

一、Bert架构BERT使用了双向的TransformerGPT使用从左到右的单向信息ELMo把单独训练的从左到右及从右到左的LSTM模型进行合并二、Bert预训练任务2.1遮蔽语言模型MLM任务：随机屏蔽

缓释多巴胺。·2025-03-07 09:05

YOLOv12改进之A2(区域注意力)

已有研究成果包括：Transformer架构：引入了自注意力机制，有效捕捉输入序列中的长距离依赖关系。CBAM模块：提出了通道和空间注意力的结合，显著提升了图像分类和目标检测的性能。

清风AI·2025-03-07 00:39

目前市场上的人工智能大模型有哪些？

Google的Transformer系列：BERT（Bidirection

国货崛起·2025-03-06 19:48

自动驾驶---LSTM模型用于轨迹预测

1前言在下面几篇博客中，笔者简单介绍过Transformer，Transformer的内部结构虽然比较清晰，但对于入门者来说还是复杂了一些。《人工智能---什么是Transformer?》

智能汽车人·2025-03-06 18:14

大模型入门

Transformer架构的持续演进体现在位置编码改进（如RoPE旋转位置编码）、注意力机制优化（FlashAttention算法提升30%训练速度）以及层级结构创新（深度

24k小善·2025-03-06 17:05

AI语言模型的技术之争：DeepSeek与ChatGPT的架构与训练揭秘

-CSDN博客目录第一章：DeepSeek与ChatGPT的基础概述1.1DeepSeek简介1.2ChatGPT简介第二章：模型架构对比2.1Transformer架构：核心相似性2.2模型规模与参数第三章

m0_74825466·2025-03-06 06:29

完整代码详解：Python实现基于文本内容的用户隐私泄露风险评估

1.安装所需的库首先，确保你已经安装了以下Python库：pipinstalltransformersscikit-learnnumpypa

mosquito_lover1·2025-03-06 03:04

Transformer 代码剖析15 - Transformer模型代码（pytorch实现）

一、模型架构全景解析1.1类定义与继承关系classTransformer(nn.Module):该实现继承PyTorch的nn.Module基类，采用面向对象设计模式。

lczdyx·2025-03-06 01:51

详解DeepSeek模型底层原理及和ChatGPT区别点

一、DeepSeek大模型原理架构基础DeepSeek基于Transformer架构，Transformer架构主要由编码器和解码器组成，在自然语言处理任务中，通常使用的是Transformer的解码器部分

瞬间动力·2025-03-06 01:16

2万字长文，九篇论文读懂大语言模型的前世今生

如果感兴趣的话，感谢关注，点赞转发在看收藏，五键四连，谢谢~更多LLM架构文章：LLM架构专栏近日热文：1.全网最全的神经网络数学原理（代码和公式）直观解释2.大模型进化史：从Transformer到DeepSeek-R1

·2025-03-06 00:32

Transformer架构简略：DeepSeek 的底层基石

2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer架构，彻底改变了自然语言处理（NLP）领域的格局。

windwant·2025-03-05 14:16

QKV 注意力机制在Transformer架构中的作用，和卷积在卷积神经网络中的地位，有哪些相似之处？

QKV注意力机制在Transformer架构中的作用，和卷积在卷积神经网络中的地位，有哪些相似之处？

安意诚Matrix·2025-03-05 08:56

深入理解 Transformer：用途、原理和示例

深入理解Transformer：用途、原理和示例一、Transformer是什么Transformer是一种基于注意力机制（AttentionMechanism）的深度学习架构，在2017年的论文“AttentionIsAllYouNeed

范吉民(DY Young)·2025-03-05 01:55

DeepSeek到TinyLSTM的知识蒸馏

一、架构设计与适配模型结构对比：DeepSeek（教师模型）：基于Transformer，多头自注意力机制，层数≥12，隐藏层维度≥768TinyLSTM（学生模型）：单层双向LSTM，隐藏单元128，

猴的哥儿·2025-03-04 21:29

Deepseek的底层架构思维构成

专业解释一、核心架构组件：注意力机制与专家模型的革新1.多头潜在注意力机制（MLA）功能与作用：MLA是DeepSeek对传统Transformer注意力机制的创新改进。

堕落年代·2025-03-04 19:09

计算机视觉｜ConvNeXt：CNN 的复兴，Transformer 的新对手

然而，随着VisionTransformer（ViT）的出现，计算机视觉领域的格局发生了重大变化。ViT通过自注意力机制，打破了传统卷积神经网络的局部感知局限，能够捕捉长距离依赖关系，在图

紫雾凌寒·2025-03-04 16:20

BERT 和 Milvus 构建智能问答系统的全面技术解析，涵盖从原理到实践的完整流程

下面Python代码示例和优化策略：一、技术栈协作原理BERT的语义编码能力BERT作为预训练语言模型，通过双向Transformer结构将文本转换为高维向量（如768维），捕捉上下文语义信息。

·2025-03-04 14:28

BERT 模型和 Milvus 向量数据库分步骤讲解如何实现「文本相似度搜索」

1️⃣环境准备安装必要的库：pipinstallpymilvustransformerstorch2️⃣流程图解BERT模型↓将文本转为向量Milvus数据库（存储所有向量）↓输入问题文本Milvus搜索相似向量

·2025-03-04 10:23

【深度学习】Hopfield网络：模拟联想记忆

Transformer优化，什么是稀疏注意力？Transformer模型自2017年被提出以来，已经成为自然语言处理（NLP）领域的核心架构，并在计算机视觉、语音处理等其他领域也取得了显著的成功。

T-I-M·2025-03-03 22:32

创新引领的人工智能模型系列：MiniMax-01 系列震撼登场

MiniMax-01MiniMax-01MiniMax-01系列模型首次大规模实现线性注意力机制，传统Transformer架构不再是唯一的选择。这个模型的参数量高达4560亿，其中单次激活459亿。

·2025-03-03 17:52

transformers.deepspeed

报错：nomodulenamedtransformers.deepspeed原因：版本更新后，已取消transformers.deepspeed新版本中更改为transformers.integrations.deepspeed

icesord·2025-03-03 02:56

【AI大模型】Transformers大模型库（九）：大模型微调之计算微调参数占比

目录一、引言二、计算微调参数占比2.1概述2.2模型参数结构一览2.3微调参数占比计算三、总结一、引言这里的Transformers指的是huggingface开发的大模型库，为huggingface上数以万计的预训练大模型提供预测

LDG_AGI·2025-03-03 01:45

大模型微调入门（Transformers + Pytorch）

目标输入：你是谁？输出：我们预训练的名字。训练为了性能好下载小参数模型，普通机器都能运行。下载模型#方式1：使用魔搭社区SDK下载#down_deepseek.pyfrommodelscopeimportsnapshot_downloadmodel_dir=snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B')#方式2：gitl

昵称不能为null·2025-03-03 00:06

大语言模型技术专栏（三）：Attention机制——从RNN到Transformer的惊世一跃！

文章目录概要一、Attention机制：让AI学会「划重点」二、Attention机制的核心原理三、Self-Attention：Transformer的核心四、代码实战：用PyTorch实现Attention

北海yy·2025-03-02 22:53

Transformer 代码剖析7 - 词元嵌入(TokenEmbedding) （pytorch实现）

一、类定义与继承关系剖析1.1代码结构图示神经网络基础模块词嵌入基类自定义词元嵌入构造函数定义基类初始化词汇量参数维度参数填充标识参数1.2代码实现精讲"""@author:Hyunwoong@when:2019-10-22@homepage:https://github.com/gusdnd852"""fromtorchimportnnclassTokenEmbedding(nn.Embeddi

lczdyx·2025-03-02 22:50

推荐频道

Transformer】