TRansformer 第3页

深度解析SSD2351核心板：硬核视频处理+工业级可靠性设计

芯片技术细节：视频处理能力：IVE引擎支持高斯滤波、膨胀/腐蚀等图像预处理；IPU支持人脸识别、运动检测及Transformer网络推理；显示接口支持MIPIDSI2560x1600@60fps，适配工业

明远智睿嵌入式方案商·2025-03-09 05:16

PyTorch深度学习框架60天进阶学习计划第14天：循环神经网络进阶

今天，我们将深入探讨循环神经网络的进阶内容，包括BiLSTM的工作机制、注意力机制的数学原理，以及Transformer编码层的实现。

凡人的AI工具箱·2025-03-09 00:03

1.6 从 GPT-1 到 GPT-3.5：一路的风云变幻

从GPT-1到GPT-3.5：一路的风云变幻人工智能的进步一直是科技领域的一个重要话题，而在自然语言处理（NLP）领域，GPT（GenerativePre-trainedTransformer）系列模型的发布

少林码僧·2025-03-08 23:03

使用 DeepSeek 训练属于自己写小说的模型

我们将基于DeepSeek的API和工具，结合HuggingFace的Transformers库，完成模型的训练和部署。

xinxiyinhe·2025-03-08 23:02

Qwen1.5-7B-实现RAG应用详细步骤

Transformers：HuggingFace提供的库，支持加载和运行预训练模型。FAISS：用于向量检索的高效库。GPTQ支持库：如auto-gptq或gptqmodel。

大数据追光猿·2025-03-08 23:01

论文阅读：Recipe for a General, Powerful, Scalable Graph Transformer

RecipeforaGeneral,Powerful,ScalableGraphTransformer论文和代码地址1介绍与贡献2GPS模型2.1模型框架图2.2PE和SE2.3GPSlayer:一种MPNN

不会&编程·2025-03-08 16:53

自然语言处理（NLP）领域大语言模型学习目录大全

GPT系列GPT-1（GenerativePre-trainedTransformer1）模型GPT-1（GenerativePre-trainedTransformer1）是OpenAI在2018年6

彬彬侠·2025-03-08 13:45

深入浅出的理解deepseek类大模型（附运行代码）

深入理解之运行代码：fromtransformers.models.qwen2importQwen2Config,Qwen2Modelimporttorchdefrun_qwen2():#根据模型需求配置参数

AI人工智能时代·2025-03-08 08:47

深度解构：DeepSeek大模型架构与前沿应用的未来探秘

1.DeepSeek大模型的架构设计DeepSeek大模型采用的是基于Transformer

威哥说编程·2025-03-08 05:15

新型模型架构（参数化状态空间模型、状态空间模型变种）

文章目录参数化状态空间模型状态空间模型变种 Transformer模型自问世以来，在自然语言处理、计算机视觉等多个领域得到了广泛应用，并展现出卓越的数据表示与建模能力。

三月七꧁ ꧂·2025-03-08 00:28

人工智能基础知识

首先分为两大类：一：机器视觉cv1.特征比较明显2.经典模型：cnn，resnet，deepface，yolov（1-12），vi-transformer。缺点：不能解决收听问题。

yzx991013·2025-03-07 16:24

Bert学习笔记

一、Bert架构BERT使用了双向的TransformerGPT使用从左到右的单向信息ELMo把单独训练的从左到右及从右到左的LSTM模型进行合并二、Bert预训练任务2.1遮蔽语言模型MLM任务：随机屏蔽

缓释多巴胺。·2025-03-07 09:05

YOLOv12改进之A2(区域注意力)

已有研究成果包括：Transformer架构：引入了自注意力机制，有效捕捉输入序列中的长距离依赖关系。CBAM模块：提出了通道和空间注意力的结合，显著提升了图像分类和目标检测的性能。

清风AI·2025-03-07 00:39

目前市场上的人工智能大模型有哪些？

Google的Transformer系列：BERT（Bidirection

国货崛起·2025-03-06 19:48

自动驾驶---LSTM模型用于轨迹预测

1前言在下面几篇博客中，笔者简单介绍过Transformer，Transformer的内部结构虽然比较清晰，但对于入门者来说还是复杂了一些。《人工智能---什么是Transformer?》

智能汽车人·2025-03-06 18:14

大模型入门

Transformer架构的持续演进体现在位置编码改进（如RoPE旋转位置编码）、注意力机制优化（FlashAttention算法提升30%训练速度）以及层级结构创新（深度

24k小善·2025-03-06 17:05

AI语言模型的技术之争：DeepSeek与ChatGPT的架构与训练揭秘

-CSDN博客目录第一章：DeepSeek与ChatGPT的基础概述1.1DeepSeek简介1.2ChatGPT简介第二章：模型架构对比2.1Transformer架构：核心相似性2.2模型规模与参数第三章

m0_74825466·2025-03-06 06:29

完整代码详解：Python实现基于文本内容的用户隐私泄露风险评估

1.安装所需的库首先，确保你已经安装了以下Python库：pipinstalltransformersscikit-learnnumpypa

mosquito_lover1·2025-03-06 03:04

Transformer 代码剖析15 - Transformer模型代码（pytorch实现）

一、模型架构全景解析1.1类定义与继承关系classTransformer(nn.Module):该实现继承PyTorch的nn.Module基类，采用面向对象设计模式。

lczdyx·2025-03-06 01:51

详解DeepSeek模型底层原理及和ChatGPT区别点

一、DeepSeek大模型原理架构基础DeepSeek基于Transformer架构，Transformer架构主要由编码器和解码器组成，在自然语言处理任务中，通常使用的是Transformer的解码器部分

瞬间动力·2025-03-06 01:16

2万字长文，九篇论文读懂大语言模型的前世今生

如果感兴趣的话，感谢关注，点赞转发在看收藏，五键四连，谢谢~更多LLM架构文章：LLM架构专栏近日热文：1.全网最全的神经网络数学原理（代码和公式）直观解释2.大模型进化史：从Transformer到DeepSeek-R1

·2025-03-06 00:32

Transformer架构简略：DeepSeek 的底层基石

2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer架构，彻底改变了自然语言处理（NLP）领域的格局。

windwant·2025-03-05 14:16

QKV 注意力机制在Transformer架构中的作用，和卷积在卷积神经网络中的地位，有哪些相似之处？

QKV注意力机制在Transformer架构中的作用，和卷积在卷积神经网络中的地位，有哪些相似之处？

安意诚Matrix·2025-03-05 08:56

深入理解 Transformer：用途、原理和示例

深入理解Transformer：用途、原理和示例一、Transformer是什么Transformer是一种基于注意力机制（AttentionMechanism）的深度学习架构，在2017年的论文“AttentionIsAllYouNeed

范吉民(DY Young)·2025-03-05 01:55

DeepSeek到TinyLSTM的知识蒸馏

一、架构设计与适配模型结构对比：DeepSeek（教师模型）：基于Transformer，多头自注意力机制，层数≥12，隐藏层维度≥768TinyLSTM（学生模型）：单层双向LSTM，隐藏单元128，

猴的哥儿·2025-03-04 21:29

Deepseek的底层架构思维构成

专业解释一、核心架构组件：注意力机制与专家模型的革新1.多头潜在注意力机制（MLA）功能与作用：MLA是DeepSeek对传统Transformer注意力机制的创新改进。

堕落年代·2025-03-04 19:09

计算机视觉｜ConvNeXt：CNN 的复兴，Transformer 的新对手

然而，随着VisionTransformer（ViT）的出现，计算机视觉领域的格局发生了重大变化。ViT通过自注意力机制，打破了传统卷积神经网络的局部感知局限，能够捕捉长距离依赖关系，在图

紫雾凌寒·2025-03-04 16:20

BERT 和 Milvus 构建智能问答系统的全面技术解析，涵盖从原理到实践的完整流程

下面Python代码示例和优化策略：一、技术栈协作原理BERT的语义编码能力BERT作为预训练语言模型，通过双向Transformer结构将文本转换为高维向量（如768维），捕捉上下文语义信息。

·2025-03-04 14:28

BERT 模型和 Milvus 向量数据库分步骤讲解如何实现「文本相似度搜索」

1️⃣环境准备安装必要的库：pipinstallpymilvustransformerstorch2️⃣流程图解BERT模型↓将文本转为向量Milvus数据库（存储所有向量）↓输入问题文本Milvus搜索相似向量

·2025-03-04 10:23

【深度学习】Hopfield网络：模拟联想记忆

Transformer优化，什么是稀疏注意力？Transformer模型自2017年被提出以来，已经成为自然语言处理（NLP）领域的核心架构，并在计算机视觉、语音处理等其他领域也取得了显著的成功。

T-I-M·2025-03-03 22:32

创新引领的人工智能模型系列：MiniMax-01 系列震撼登场

MiniMax-01MiniMax-01MiniMax-01系列模型首次大规模实现线性注意力机制，传统Transformer架构不再是唯一的选择。这个模型的参数量高达4560亿，其中单次激活459亿。

·2025-03-03 17:52

transformers.deepspeed

报错：nomodulenamedtransformers.deepspeed原因：版本更新后，已取消transformers.deepspeed新版本中更改为transformers.integrations.deepspeed

icesord·2025-03-03 02:56

【AI大模型】Transformers大模型库（九）：大模型微调之计算微调参数占比

目录一、引言二、计算微调参数占比2.1概述2.2模型参数结构一览2.3微调参数占比计算三、总结一、引言这里的Transformers指的是huggingface开发的大模型库，为huggingface上数以万计的预训练大模型提供预测

LDG_AGI·2025-03-03 01:45

大模型微调入门（Transformers + Pytorch）

目标输入：你是谁？输出：我们预训练的名字。训练为了性能好下载小参数模型，普通机器都能运行。下载模型#方式1：使用魔搭社区SDK下载#down_deepseek.pyfrommodelscopeimportsnapshot_downloadmodel_dir=snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B')#方式2：gitl

昵称不能为null·2025-03-03 00:06

大语言模型技术专栏（三）：Attention机制——从RNN到Transformer的惊世一跃！

文章目录概要一、Attention机制：让AI学会「划重点」二、Attention机制的核心原理三、Self-Attention：Transformer的核心四、代码实战：用PyTorch实现Attention

北海yy·2025-03-02 22:53

Transformer 代码剖析7 - 词元嵌入(TokenEmbedding) （pytorch实现）

一、类定义与继承关系剖析1.1代码结构图示神经网络基础模块词嵌入基类自定义词元嵌入构造函数定义基类初始化词汇量参数维度参数填充标识参数1.2代码实现精讲"""@author:Hyunwoong@when:2019-10-22@homepage:https://github.com/gusdnd852"""fromtorchimportnnclassTokenEmbedding(nn.Embeddi

lczdyx·2025-03-02 22:50

Transformer模型详解

导读Transformer在许多的人工智能领域，如自然语言处理(NaturalLanguageProcessing,NLP)、计算机视觉(ComputerVision,CV)和语音处理(SpeechProcessing

Yuki-^_^·2025-03-02 21:46

Transformer架构深度研究报告（二、分层原理）

一、Transformer不同层作用剖析1.1低层作用在Transformer架构中，低层（1-3层）主要承担着局部语法建模的关键任务，其对语言基础结构的理解和处理为后续高层语义分析奠定了坚实基础。

jiaojieran·2025-03-02 20:36

1.7 Kaggle大白话：Eedi竞赛Transformer框架解决方案07-调用AI模型输出结果

目录0.本栏目竞赛汇总表1.本文主旨2.调用AI模型输出结果架构3.模型准备3.1代码实现3.2大白话模型准备4.数据处理4.1代码实现4.2大白话数据处理5.特征提取5.1代码实现5.2大白话特征提取6.相似度匹配6.1代码实现6.2大白话相似度匹配7.系列总结7.1章节回顾7.2竞赛排名7.3其他优秀项目（皆为竞赛金牌）0.本栏目竞赛汇总表Kaggle竞赛汇总1.本文主旨大白话：上一篇文章中，

AI量金术师·2025-03-02 19:59

深度学习五大模型：CNN、Transformer、BERT、RNN、GAN解析

今天探讨它们各自适用的场景，让您知道在何种情况下选择何种模型；同时分析它们的优势与局限，助您全面评估这些模型的性能。一、卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分

大模型_学习路线·2025-03-02 16:04

Llama 2架构深度解析：Meta开源的70B参数大模型设计哲学

7B/13B/70B参数规模下保持线性计算复杂度扩展性强化：通过改进注意力机制支持4k上下文长度安全性内嵌：在预训练阶段融入5%安全语料，降低有害输出概率（较前代下降34%）二、核心模块创新1.改进型Transformer

AI时代已来！·2025-03-02 14:46

【Pytorch】基于LSTM-KAN、BiLSTM-KAN、GRU-KAN、TCN-KAN、Transformer-KAN(各种KAN修改一行代码搞定)的共享单车租赁预测研究(数据可换)Python

目录⛳️赠与读者1概述一、研究背景与意义二、TCN与KAN简介三、基于TCN-KAN的共享单车租赁预测模型四、研究挑战与展望基于LSTM-KAN、BiLSTM-KAN、GRU-KAN、TCN-KAN、Transformer-KAN

冒泡芳·2025-03-02 13:08

Transformer 代码剖析9 - 解码器模块Decoder （pytorch实现）

一、模块架构全景图1.1核心功能定位Transformer解码器是序列生成任务的核心组件，负责根据编码器输出和已生成序列预测下一个目标符号。

lczdyx·2025-03-02 13:05

Transformer预测 | 基于TCN-Transformer的股票价格预测（Pytorch）

文章目录预测效果文章概述程序设计参考资料预测效果文章概述Transformer预测|基于TCN-Transformer的股票价格预测（Python）Transformer模型本质上都是预训练语言模型，大都采用自监督学习

机器学习之心·2025-03-02 13:35

如何用AI写程序

一、AI写程序之工具选择（一）主流AI编程工具介绍如今市面上有诸多AI编程工具可供选择，以下为大家介绍几种常见且实用的工具：ChatGPT：由OpenAI开发的一款基于Transformer架构的预训练模型

Honmaple·2025-03-02 11:46

实体识别处理--在给定的文本中识别特定类型的实体

代码结构和模块分析1.导入必要的库importtorchfromtorchimportnnfromtransformersimportBertTokenizer,BertModelfro

风清扬【coder】·2025-03-01 21:04

【大模型】大模型分类

计算机视觉（CV）模型如ResNet、EfficientNet、VisionTransformer(ViT)等，用于图

IT古董·2025-03-01 16:29

全方位解析：大语言模型评测方法的综合指南

自2017年Transformer模型提出以来，自然语言处理研究逐步转向基于该框架的预训练模型，如BERT、GPT、BART和T5等。这些预训练模型与下游任务适配后，持续刷新最优结果。

大模型玩家·2025-03-01 08:28

Transformer 代码剖析1 - 数据处理（pytorch实现）

引言Transformer架构自《AttentionIsAllYouNeed》论文发表以来，在自然语言处理领域引起了巨大的变革。

lczdyx·2025-03-01 06:18

BERT模型深入理解——自然语言处理的里程碑

1BERT的诞生背景2018年谷歌团队发布了BERT（BidirectionalEncoderRepresentationsfromTransformers）模型，在自然语言处理领域引领了技术性的革命。

cufewxy2018·2025-03-01 06:47

推荐频道

TRansformer