TRANSFORMER 第16页

学习率调度器工具函数（get_scheduler）补充讲解

学习率调度器工具函数（get_scheduler）get_scheduler是HuggingFaceTransformers深度学习框架中用于创建学习率调度器（LearningRateScheduler

Code_Geo·2025-03-30 23:59

Python 深度学习实战：聊天机器人

Python深度学习实战：聊天机器人关键词：Python、深度学习、聊天机器人、Seq2Seq、注意力机制、Transformer1.背景介绍近年来，随着人工智能技术的飞速发展，聊天机器人（Chatbot

AI天才研究院·2025-03-30 23:59

高性能部署实战：vLLM 安装配置 × tokens/s 提升 × 并发测试（适配国产模型）

相比传统的transformers推理方式，vLLM在性能方面有显著提升，尤其适合构建高并发、多请求的部署场景：vLLM的核心

AI筑梦师·2025-03-30 21:44

一种高效轻量化的自注意力解码器架构：原理与优势解析

在自然语言处理和序列建模任务中，Transformer架构因其强大的并行计算能力和长序列建模能力而广受欢迎。

东方佑·2025-03-30 13:45

大语言模型应用指南：什么是大语言模型

文章标题《大语言模型应用指南：什么是大语言模型》关键词（1）大语言模型（2）深度学习（3）自然语言处理（4）序列模型（5）Transformer（6）神经网络（7）预训练语言模型摘要本文将深入探讨大语言模型

AI天才研究院·2025-03-30 09:14

手把手教你用PyTorch从零训练自己的大模型（非常详细）零基础入门到精通，收藏这一篇就够了

这些LLM背后的核心是Transformer架构。本文介绍如何一步步使用PyTorch从零开始构建和训练一个大型语言模型（LLM）。

heaven522·2025-03-29 23:41

【大模型篇】万字长文从OpenAI到DeepSeek：大模型发展趋势及原理解读

目录引言：大模型的革命性浪潮核心技术节点：从Transformer到生成式AI2.1Transformer架构的范式革命2.2生成式AI的底层逻辑2.3神经网络层级设计架构演进：OpenAI的技术突破3.1GPT

大F的智能小课·2025-03-29 20:56

【大模型】视觉语言模型：Qwen2.5-VL的使用

官方github地址：https://github.com/QwenLM/Qwen2.5-VL目录Qwen家族的最新成员：Qwen2.5-VL主要增强功能模型架构更新快速开始使用Transformers

Jackilina_Stone·2025-03-29 12:59

Transformer劲敌变队友？腾讯、英伟达都在用的Mamba-Transformer混合架构要火！

Transformer“单打独斗”的时代要结束了？Mamba-Transformer强势来袭！

that's boy·2025-03-29 09:06

YOLOv12即插即用--DeformableAttention2D

1.模块介绍传统Transformer注意力机制关注全局特征，计算量大，导致推理速度较慢。

辛勤的程序猿·2025-03-29 07:21

大语言模型在生成文章摘要、新闻标题领域的应用

例如，基于Transformer的模型（如BERT、GPT）通过注意力机制捕捉长距离依赖关系，显著提升了摘

knightissocool·2025-03-29 03:21

Spark2 之 Expression/Functions

ExpressionConvertersrc/main/scala/org/apache/gluten/expression/ExpressionConverter.scalaTopNTransformersrc

zhixingheyi_tian·2025-03-29 01:41

LLM模型入门

都是基于transformer架构通过配置不同策略和算法以及关键的prompt实现不同效果的语言模型的。为什么叫large，是模型调用学习了很多参数，比如GPT-4o就存

長安一片月·2025-03-28 23:53

AI问答：transformer 架构 / 模型 / 自注意力机制实现序列数据的并行处理 / AI的底层

Transformer架构是一种基于自注意力机制的深度学习模型，最初由谷歌团队在2017年提出，用于解决自然语言处理中的序列转导问题，尤其是机器翻译任务。

快雪时晴-初晴融雪·2025-03-28 20:33

未来AI视觉艺术，会替代人类设计师吗？

确保你已经安装了torch、diffusers和transformers等库。

非知名人士·2025-03-28 17:42

transformers中学习率warmup策略具体如何设置

在使用get_linear_schedule_with_warmup（如HuggingFaceTransformers库中的学习率调度器）时，参数的合理设置需要结合数据量（datasetsize）、批次大小

糖葫芦君·2025-03-28 15:30

【拥抱AI】对比embedding模型gte-Qwen2-7B-instruct和bge-m3:latest(三)

为了更全面地评估gte-Qwen2-7B-instruct和bge-m3:latest的性能，我们可以从以下几个方面进行详细比较：1.模型架构和规模gte-Qwen2-7B-instruct架构：基于Transformer

奔跑草-·2025-03-28 14:22

视觉Transformer架构的前沿优化技术与高效部署

引言近年来，Transformer架构在自然语言处理（NLP）领域取得了巨大成功，逐渐成为深度学习的主流模型之一。

点我头像干啥·2025-03-28 11:00

工单分类总结

BERT-base模型是一个预训练的Transformer模型，包含12个Transformer块、12个自注意头和隐藏大小为768。

Trank-Lw·2025-03-28 05:41

Stable Diffusion进行图像生成

使用StableDiffusion进行图像生成通常涉及以下步骤：安装依赖库：首先，你需要安装必要的Python库，如PyTorch、torchvision、diffusers和transformers等

月月猿java·2025-03-28 04:35

【transformer理论+实战（三）】必要的 Pytorch 知识

【Transformer理论+实战（三）】必要的Pytorch知识【Transformer理论+实战（二）】Lora本地微调实战--deepseek-r1蒸馏模型【Transformer理论+实战（一）

造夢先森·2025-03-28 02:23

大模型压缩技术主要是为了在保持模型性能的前提下，减少模型的参数量和计算复杂度，以适应更低的计算资源、更小的内存占用和更快的推理速度。以下是当前主流的模型压缩技术，包括但不限于

示例：剪掉Transformer中不重要的注意力头剪掉CNN中对特征提取贡献小的通道2.量化（Quantization）量化是指将模型的

Jeremg·2025-03-28 01:13

基于Python的自然语言处理系列（60）：使用 LangChain 构建 Multi-Vector Retriever 进行文档检索

pipinstalllangchainchromadbtorchtransformers2.加载文档并进行预处理我们先使用TextLoader读取多个文

会飞的Anthony·2025-03-27 22:27

DeepSeek详解：探索下一代语言模型

文章目录前言一、什么是DeepSeek二、DeepSeek核心技术2.1Transformer架构2.1.1自注意力机制(Self-AttentionMechanism)(a)核心思想(b)计算过程(c

小小面试官·2025-03-27 19:33

《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》

在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer

程序猿阿伟·2025-03-27 04:06

Unsloth 库和Hugging Face Transformers 库对比使用

在深度学习模型的微调过程中，保存模型及其权重是关键步骤。不同的库或框架提供了各自的方法来完成这一任务。Unsloth库：Unsloth是一个专注于加速大语言模型（LLM）微调的开源工具。它通过优化计算步骤和GPU内核，显著提升训练速度并减少内存使用。在Unsloth中，save_pretrained_merged方法用于将微调后的LoRA（Low-RankAdaptation）适配器权重与原始模型

背太阳的牧羊人·2025-03-26 21:17

【深度学习】Self-Attention机制详解：Transformer的核心引擎

Self-Attention机制详解：Transformer的核心引擎文章目录Self-Attention机制详解：Transformer的核心引擎引言Self-Attention的基本概念为什么需要Self-Attention

烟锁池塘柳0·2025-03-26 19:05

AI 大模型的技术架构与应用解析

这些模型基于Transformer架构，依托超大规模的参数、海量数据和强大的计算资源，使得机器对文本的理解、推理和生成能力达到了前所未有的水平。

慌ZHANG·2025-03-26 09:52

YOLOv11改进 | 注意力篇 | YOLOv11引入24年ECCV的自调制特征聚合注意力模块(SMFA)，并构建C2PSA_SMFA

1.SMFA介绍1.1摘要：基于Transformer的图像复原方法由于Transformer的自注意（self-attention，SA）特性能够更好地挖掘非局部信息，从而获得更好的高分辨率图像重建效果

小李学AI·2025-03-26 06:54

Vidu 5.0 视频生成模型深度解析

Vidu5.0视频生成模型深度解析（2025年3月）一、核心技术架构多模态动态建模基于DiT（DiffusionTransformer）架构：结合3D时空注意力机制，实现动态场景的精准建模。

Liudef06·2025-03-26 05:16

H100赋能生成式AI算力革新

其核心突破在于第四代TensorCore与Transformer引擎的协同设计，通过动态稀疏计算与混合精度支持，将大规模矩阵运算效率提升至新高度。

智能计算研究中心·2025-03-26 04:13

快速了解Transformer与循环神经网络（LSTM/RNN）的区别

Transformer与循环神经网络（LSTM/RNN）的区别关键差异总结：并行性：Transformer的全局并行计算大幅提升训练效率，而RNN/LSTM受限于序列顺序。

Panesle·2025-03-25 23:30

具身系列——NLP工程师切入机器人和具身智能方向

Mujoco、webots）基于当前具身智能行业发展趋势和岗位需求，以下是为NLP工程师设计的转型路径与策略，结合最新招聘信息和技术趋势：一、技能迁移与知识重构（3-6个月）核心能力复用深度学习基础：迁移Transformer

music&movie·2025-03-25 21:47

PyTorch 深度学习实战（8）：Transformer 与机器翻译（基于本地中英文文本文件）

本文将介绍Transformer模型的基本原理，并使用PyTorch和HuggingFace的transformers库实现一个简单的机器翻译模型。我们将基于本地的中英文文本文件进行实战演练。

进取星辰·2025-03-25 18:58

大模型算法岗面试题(含答案)

Transformer体系：由Google提出的Transformer模型及其变体，如BERT、GPT等。

X.Cristiano·2025-03-25 17:49

书籍-《机器学习：从经典方法到深度网络、Transformer和扩散模型（第三版）》

书籍：MachineLearning:FromtheClassicstoDeepNetworks,Transformers,andDiffusionModels，3rdEdition作者：SergiosTheodoridis

·2025-03-25 13:51

腾讯混元 T1 正式发布：混合架构重塑推理模型范式，解码速度提升 2 倍

在AI模型性能竞赛持续升温的背景下，腾讯于3月21日正式推出自研深度思考模型混元T1正式版，以行业首创的Hybrid-Mamba-Transformer融合架构，重新定义了大模型的推理效率与应用边界。

未来智慧谷·2025-03-25 13:48

ai-by-hand-excel: 用 Excel 手搓各种 AI 算法和模型

发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI通过Excel的形式实现并演示人工智能与深度学习的核心算法和概念，让初学者可以动手操作并理解AI的运行原理，包括矩阵乘法、MLP、RNN、Transformer

小众AI·2025-03-25 09:14

保姆级大模型学习路线！清华博士耗时半年整理的14个核心阶段，文科生也能跟着冲！（附论文笔记+项目源码+训练技巧）

2023行业调查报告显示：92%学习者停滞在微调阶段，核心痛点集中在：论文看不懂：Transformer源码像天书环境配不好：CUDA版本冲突天天报错算力不够用：

大模型入门教程·2025-03-25 01:17

基于Hugging Face的Transformer实战

HuggingFace生态提供：30,000+预训练模型（BERT、GPT、T5等）统一的TransformerAPI接口快速实现下游任务迁移企业级部署工具（Optimum、InferenceEndpoints

小诸葛IT课堂·2025-03-24 23:03

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型

m0_74825656·2025-03-24 11:01

目标检测领域总结：从传统方法到 Transformer 时代的革新

目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。

DoYangTan·2025-03-24 08:57

Deepseek和豆包在技术创新方面有哪些相同点与不同点？

Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。

alankuo·2025-03-24 06:16

神经网络中层与层之间的关联

BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer

iisugar·2025-03-24 06:40

《AI医疗系统开发实战录》第6期——智能导诊系统实战

技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod

骆驼_代码狂魔·2025-03-24 02:30

NLP高频面试题（十）——目前常见的几种大模型架构是啥样的

深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。

Chaos_Wang_·2025-03-23 22:30

Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod

Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer

dkgee·2025-03-23 18:22

客服机器人怎么才能精准的回答用户问题？

意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对

玩人工智能的辣条哥·2025-03-23 09:13

Python预训练模型实现俄语音频转文字

importtorchimportlibrosafromtransformersimport

啥都鼓捣的小yao·2025-03-23 05:03

【人工智能之大模型】阐述生成式语言模型的工作机理...（二）

（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！

985小水博一枚呀·2025-03-23 02:09

推荐频道

TRANSFORMER