Transformer？第8页

深度解析 Hugging Face Transformers 模型加载：从基础到优化的全流程实战

在使用HuggingFaceTransformers开发AI应用时，我们常常会遇到模型加载慢、内存占用高的问题。如何高效加载预训练模型？怎样在有限硬件资源下运行大型模型？

佑瞻·2025-05-27 11:22

人工智能与大模型技术：从理论到实践的黄金指南

一、破解技术迷雾：大模型的核心原理与演进逻辑1.Transformer架构的数学之美2017年Google提出的Transformer模型，通过自注意力机制（Self-Attention）实现了序列建模的突破

张家铭02·2025-05-27 09:08

MMAction2重要的几个配置参数

embed_dims（全称embeddingdimensions）是指每个patch（块）或特征的通道数/维度，是Transformer或SwinTransformer等模型中最核心的特征表示维度。

被放养的研究生·2025-05-27 07:28

机器学习--Transformer 2

紧接上篇介绍一下Transformer的解码器一、解码器1.自回归解码器以语音识别为例，输入一段声音，输出一串文字。如上图所示，把一段声音（“机器学习”）输入给编码器，输出会变成一排向量。

ちゆきー·2025-05-27 06:50

机器学习--Transformer 1

Transformer是一个基于自注意力的序列到序列模型，与基于循环神经网络的序列到序列模型不同，其可以能够并行计算。

ちゆきー·2025-05-27 06:49

一文彻底搞懂大语言模型：GPT与LlaMA的架构设计对比

目录一、Transformer：大模型的核心底座1.1Transformer架构全景图二、GPT系列：Decoder-Only的进化之路2.1GPT发展里程碑2.2GPT-2架构详解三、LlaMA：开源模型的架构创新

Sonal_Lynn·2025-05-27 01:20

YOLOv10改进 | Conv篇 | YOLOv10添加Mamba模块（Mamba-Yolov10为目标检测、医学图像分割等任务带来新的发展和进步）

YOLOv8v10创新改进高效涨点+持续改进300多篇（订阅的小伙伴，终身免费享有后续YOLOv11或是其他版本的改进专栏）目录一、Mamba模块介绍VSSmamba模块结构mamba模块动机CNN主要局限性：Transformer

Ai缝合怪YOLO涨点改进·2025-05-27 00:45

自然语言处理学习路线

待更）特征工程之向量化（word——>vector）：（待更）特征工程之特征选择：（待更）序列网络在NLP领域的应用（RNN、GRU、LSTM）：（待更）预训练模型（ELMO、Bert、T5、GPT、Transformer

熬夜造bug·2025-05-26 23:13

NLP学习路线（自用）

学习路线总览阶段1（基础）-计算机科学&机器学习基础阶段2（核心）-传统NLP技术&深度学习NLP阶段3（进阶）-Transformer&预训练模型（

�猫薄荷武士�·2025-05-26 23:42

“Transformer挑战者”-Mamba之最全详解图解

--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文

DFCED·2025-05-26 19:23

MLA：Transformer的智能变形金刚——解密多头潜在注意力的进化密码

第一章MLA的进化之路：从MHA到智能变形1.1变形金刚的诞生背景当LLM模型规模突破万亿参数量级时，传统Transformer的注意力机制开始显现"成长的烦恼"：训练阶段计算密集、推理阶段内存吃紧。

TGITCIC·2025-05-26 18:15

用有趣方式给小学生讲解LHM原理

一、LHM的“大脑”：多模态Transformer架构想象一下，LHM有两个超级厉害的“小助手”，一个小助手擅长看3D积木搭成的形状（3D几何特征），另一个小

从零开始学习人工智能·2025-05-26 13:19

Transformer大模型实战针对下游任务进行微调

Transformer,微调,下游任务,自然语言处理,预训练模型,迁移学习,计算机视觉1.背景介绍近年来，深度学习在人工智能领域取得了突破性进展，其中Transformer模型凭借其强大的序列建模能力，

AI大模型应用之禅·2025-05-26 04:21

HunyuanDiT训练

HunyuanDiT/README.mdatmain·Tencent/HunyuanDiT·GitHubHunyuan-DiT:APowerfulMulti-ResolutionDiffusionTransformerwithFine-GrainedChineseUnderstanding-HunyuanDiT

Kun Li·2025-05-26 03:13

人工智能前沿技术：Transformer架构与BERT模型

前言近年来，自然语言处理（NLP）领域取得了飞速的发展，其中Transformer架构和BERT模型无疑是推动这一进步的关键力量。

人工智能教程·2025-05-25 22:07

能玩的Transformer可视化解释工具！

原文链接：https://mp.weixin.qq.com/s/ljesZw_6eTOJlbcjMcM8Cw都2024年，还有人不了解Transformer工作原理吗？快来试一试这个交互式工具吧。

双木的木·2025-05-25 20:52

普通人如何应用AI大模型之实战基础教程001：什么是大模型

关键词：大模型、超级记忆库、推理引擎、多模态感知、Transformer架构概要：本文介绍了大模型的核心概念及其与传统AI的区别，强调其通过海量数据训练形成的“超级记忆库”和“推理引擎”，能够基于上下文生成新内容

理工男大辉郎·2025-05-25 14:48

1.基于PyTorch实现的UNet模型代码进行数据集测试2.Transformer和CNN混合模型，用于图像分割任务3.基于Swin Transformer图像分割模型架构

1.基于PyTorch实现的UNet模型代码进行数据集测试2.Transformer和CNN混合模型，用于图像分割任务3.基于SwinTransformer图像分割模型架构文章目录1.UNet模型定义2

OICQQ67658008·2025-05-25 10:50

【读代码】BAGEL：统一多模态理解与生成的模型

MMBench等9大评测基准中超越Qwen2.5-VL等主流模型文本生成图像：生成质量媲美SD3等专业生成模型智能图像编辑：支持自由格式编辑、多视角合成等复杂场景1.2技术亮点MoE架构：采用混合专家架构的Transformer

kakaZhui·2025-05-25 04:13

PTA天梯赛PythonL2-2 含茶量

ChatGPT（全名：ChatGenerativePre-trainedTransformer）近期成为网络讨论的热点话题之一。

胡同Alley·2025-05-24 22:03

【深度学习常用算法】八、深度解析Transformer架构：从理论到PyTorch实现

摘要：本文深入探讨Transformer架构的核心设计原理、工程实现与应用场景。

AI_DL_CODE·2025-05-24 19:14

Python打卡训练营学习记录Day23

GridSearchCVfromsklearn.preprocessingimportStandardScaler,OneHotEncoderfromsklearn.composeimportColumnTransformerfromsk

FanfanPyt·2025-05-24 13:39

【程序员AI入门：应用】11.从零构建智能问答引擎：LangChain + RAG 实战优化指南

一、技术选型与核心组件解析1.1黄金技术栈选型组件推荐方案核心优势资源需求文本嵌入模型sentence-transformers/all-MiniLM-L6-v2轻量级（128MB）、支持多语言语义编码

无心水·2025-05-24 08:27

[原理理解] 超分使用到的RAM模型和LLAVA模型

它基于VisionTransformer（ViT）架构，尤其代码里用的是

qianx77·2025-05-24 06:14

LLM推理加速技术如何迁移到传统 Transformer 模型（ASR）

写在前面Transformer模型，自其诞生以来，便以其强大的并行处理能力和对长距离依赖的卓越捕捉，彻底改变了自然语言处理乃至整个人工智能领域的格局。

kakaZhui·2025-05-24 05:04

大模型输出长度的2000字魔咒：技术限制与产品经理的破局之道

一、技术限制的三大核心矛盾上下文窗口与计算资源的博弈Transformer架构的自注意力机制决定了模型对长文本的处理能力。以GPT-3

charles666666·2025-05-23 18:20

Python打卡训练营day23——2025.05.12

pipelineimportnumpyasnpimportpandasaspdfromsklearn.pipelineimportPipeline,make_pipelinefromsklearn.composeimportColumnTransformerfromsklearn.imputeimportSimpleImpute

莱茵菜苗·2025-05-23 17:14

深度学习---高层框架keras

它是一个高层神经网络API，用Python语言编写，强调易用性、模块化和可扩展性，允许开发者通过简单的代码快速实现各种深度学习模型（如CNN、RNN、Transformer等），尤其适合新手入门和快速验证算法原型

MzKyle·2025-05-23 12:11

（中转及国内）其他Embedding嵌入模型的配置与使用

配置步骤安装必要包安装langchain-huggingfaceLangChain团队基于huggingface封装的第三方社区包安装sentence-transformers用于生成和使用预训练的文本嵌入基于

yibuapi_com·2025-05-23 11:34

2024年最值得关注的5个AIGC视频生成工具

文章将详细解析这些工具背后的深度学习架构，包括生成对抗网络(GAN)、扩散模型(DiffusionModel)和Transformer等技术，并通过代

AI学长带你学AI·2025-05-23 11:30

MIST：用于组织病理学亚型预测的多实例选择性Transformer|文献速递--基于深度学习的医学影像病灶分割

Title题目MIST:Multi-instanceselectivetransformerforhistopathologicalsubtypepredictionMIST：用于组织病理学亚型预测的多实例选择性

有Li·2025-05-23 04:43

Transformer与LLM

\subsection{Transformer与LLM}\paragraph{引言}在人工智能（AI）领域，自然语言处理（NLP）近年来取得了突破性进展，很大程度上得益于Transformer模型的出现

qq_58768836·2025-05-22 17:11

AI产品经理转型大模型：零基础入门至高薪进阶，附2025最新学习路线图！非常详细收藏这篇就够！

但许多传统AI产品经理陷入困境：“懂算法却不会设计大模型产品，懂需求却看不懂Transformer架构”。本文将从转型必要性、核心能力重塑、7阶段学习路线、避坑策略四大维度，为你拆

AGI大模型学习·2025-05-22 17:38

强化学习：第三方库【TRL - Transformer Reinforcement Learning】

OverviewTRLisacutting-edgelibrarydesignedforpost-trainingfoundationmodelsusingadvancedtechniqueslikeSupervisedFine-Tuning(SFT),ProximalPolicyOptimization(PPO),andDirectPreferenceOptimization(DPO).Buil

u013250861·2025-05-22 14:21

BitsAndBytesConfig参数描述

使用HuggingFaceTransformers库中BitsAndBytesConfig进行动态量化时需要配置的核心参数：一、核心量化参数配置load_in_4bit作用：启用4比特动态量化模式，将模型权重压缩为

为啥全要学·2025-05-22 13:44

微调后的模型保存与加载

在HuggingFaceTransformers库中，微调后的模型保存与加载方式因微调方法（如常规微调或参数高效微调）而异。

为啥全要学·2025-05-22 12:11

使用Pytorch从零实现Transformer模型

在深度学习的广阔宇宙中，Transformer架构无疑是一颗耀眼的明星。它凭借其强大的并行计算能力和出色的序列建模能力，在自然语言处理、计算机视觉等众多领域取得了卓越的成就。

机器学习算法·2025-05-22 03:07

【三文本分类与情感分析】【 3.3深度学习方法：CNN、RNN、Transformer】

今天咱们来聊聊文本分类和情感分析领域的"三剑客"——CNN、RNN、Transformer。这三个家伙在深度学习界可是响当当的人物，比娱乐圈的顶流还火！

再见孙悟空_·2025-05-22 01:50

CNN、RNN、Transformer对于长距离依赖的捕捉能力分析

卷积网络CNN主要依靠深度来捕捉长距离依赖。但这个过程太间接了，因为信息在网络中实际传播了太多层。究竟哪些信息被保留，哪些被丢弃了，弄不清楚。从实践经验来看，卷积网络捕捉长依赖的能力非常弱。这也是为什么在大多数需要长依赖关系建模的场景中，CNN用的并不多的原因。RNN后一个词的计算需要用到前一个词的输出结果，所以理论上任何两个词的依赖RNN都能捕捉到。以信息流的方法来看，图中绿色箭头表明信息的流动

非自律懒癌患者·2025-05-22 01:49

大语言模型（LLM）本身是无状态的,怎么固化记忆

一、模型内部记忆增强：让LLM“记住”对话历史1.扩展上下文窗口（模型架构优化）技术原理：通过改进Transformer架构，增加模型可处理的上下文长度，直接将历史对话包含在输入

ZhangJiQun&MXP·2025-05-21 17:28

大模型产品经理藏书阁：十本必读经典，从技术到商业的全面指南【PDF版合集】！

他们需要既理解Transformer架构的技术逻辑，又能洞察用户需求与市场趋势。

大模型入门教程·2025-05-21 17:25

【论文速读】MOD，《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models》

Transformer模型在前向传播中对每个token均匀分配计算资源，这在处理不同的语言建模问题时并不高效，因为并非所有token和序列都需要相同的计算量来进行准确预测。

bylander·2025-05-21 09:37

BERT 作为Transformer的Encoder 为什么采用可学习的位置编码

摘要BERT在位置编码上与原始Transformer论文中的sin/cos公式不同，选择了可学习（learned）的位置嵌入方案。

橙子小哥的代码世界·2025-05-21 08:59

【NLP】37. NLP中的众包

众包的智慧：当“无数人”帮你训练AI当我们谈论构建大语言模型时，脑海中浮现的往往是服务器、GPU和Transformer，而很少想到成千上万的普通人也在默默贡献力量。

pen-ai·2025-05-21 03:27

TensorFlow在自然语言处理(NLP)中的实战应用

TensorFlow在自然语言处理(NLP)中的实战应用关键词：TensorFlow、自然语言处理、实战应用、深度学习、循环神经网络、Transformer、文本分类摘要：本文系统解析TensorFlow

AI天才研究院·2025-05-21 03:55

【RAG实战】语言模型基础

接下来主要介绍一些基础的语言模型，如Transformer、自动编码器、自回归模型等。2.1TransformerTransformer模型是深度学习，尤

sysu_lluozh·2025-05-20 23:28

提高绳牵引并联连续体机器人运动学建模精度的基于Transformer的分段学习方法

合肥工业大学王正雨老师团队针对绳牵引并联连续体机器人的运动学建模提出一种基于Transformer网络的分段学习方法，该方法较传统建模性能卓越、精度更高。

MocapLeader·2025-05-20 18:02

基于 BERT 的中文情感倾向分析库 Cemotion 2.0 发布

Cemotion2.0模型使用BERT(BidirectionalEncoderRepresentationsfromTransformers)训练得到，会为中文文本返回0～1之间的情感倾向置信度(情感极性

Cyberbolt-2020·2025-05-20 14:08

YOLO12改进-模块-引入Convolutional Modulation模块捕捉更丰富的局部 - 全局空间关系，提升目标边界定位精度。

在视觉识别领域，卷积神经网络（ConvNets）擅长捕捉局部空间特征，但在建模全局上下文依赖方面存在不足；VisionTransformers（ViTs）通过自注意力机制能有效建模全局关系，却面临高分辨率图像下计算成本呈二次增长的问题

一勺汤·2025-05-20 01:13

手把手带你走出新手村：Ubuntu 22.04 + Transformer 搭建攻略

写在前面：现目前关于transformer的教程，网上的大多数教程要么只有环境的安装（也不知道什么时候安装哈哈哈），要么是只给出代码（可能还存在一些问题，并且根本不知道怎么样才能跑起来，常常会发出一个疑问

Sunine_686·2025-05-19 14:29

推荐频道

Transformer？