Transformer？

深度学习图像分类数据集—百种病虫害分类

该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。

AI街潜水的八角·2025-07-23 14:12

什么是GPT-4T？

其核心创新在于Transformer架构的优化，使模型能够更高效地处理结构化数据与文本的融合任务。本文将深入探讨GPT-4T的技术原理、应用场景及代码实现。

亿只小灿灿·2025-07-23 12:32

GPT-3 面试题

GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750

·2025-07-23 08:33

【CVPR 2025】低光增强RT-X Net（红外辅助结构引导）--part2代码讲解

【CVPR2025】本文参考论文RT-XNET:RGB-THERMALCROSSATTENTIONNETWORKFORLOW-LIGHTIMAGEENHANCEMENTTransformerDesign

BOB_BOB_BOB_·2025-07-23 05:16

使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现

近年来，基于Transformer的模型在实例分割任务上取得

神经网络15044·2025-07-22 22:27

【速通RAG实战：数据库】6.RAG向量数据库原理

1.向量数据库原理1.向量表示在RAG系统里，文本首先会通过Embedding模型（如OpenAIEmbeddings、SentenceTransformers等）转化为固定维度的向量。

无心水·2025-07-22 20:47

Mamba作者炮轰Transformer，揭秘AI模型致命缺陷 | AI早报

1、OpenAI疯狂挖角反击！Meta华人科学家+马斯克三员大将集体跳槽2、清华&NTU突破性研究：仅需2张图，AI即可重构3D空间认知3、极智嘉港股上市首日破发！清华系机器人公司市值153亿引关注4、星海图融资超1亿美金！美团、今日资本领投，估值暴涨3倍5、华人团队用RL打造AIAgent，种子轮狂揽1200万美元融资6、Skywork-R1V3.0震撼开源：高考数学142分，多学科推理能力直逼

未来世界2099·2025-07-22 10:15

大语言模型应用指南：网页实时浏览

大语言模型应用指南：网页实时浏览作者：禅与计算机程序设计艺术1.背景介绍1.1大语言模型的崛起1.1.1自然语言处理的发展历程1.1.2Transformer模型的突破1.1.3预训练语言模型的优势1.2

AGI大模型与大数据研究院·2025-07-22 04:55

AI 大模型重塑软件开发流程

其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数

万花丛中一抹绿·2025-07-21 22:47

Transformers基础组件—Datasets

目录datasets基本使用加载在线数据集加载数据集合集中的某一项任务按照数据集划分进行加载查看数据集数据集划分数据选取与过滤数据映射保存与加载加载本地数据集直接加载文件作为数据集加载文件夹内全部文件作为数据集通过预先加载的其他格式转换加载数据集通过自定义加载脚本加载数据集DatasetwithDataCollatordatasets基本使用fromdatasetsimport*加载在线数据集da

小蒋的学习笔记·2025-07-21 19:54

进阶向:基于Python的智能客服系统设计与实现

基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。

·2025-07-21 17:11

FunASR Paraformer-zh：高效中文端到端语音识别方案全解

Paraformer采用并行Transformer架构，兼具高精度和低延迟，广泛应用于智能客服、会议转写、语音助手等场景。主要特点

·2025-07-21 16:37

《从零构建大模型》系列（21）：从头实现GPT模型——构建文本生成引擎

本文将带你从零构建类GPT模型：通过实现层归一化、前馈网络和Transformer块等核心组件，打造一个完整的文本生成模型架构，为后续训练奠定基础。

·2025-07-21 16:06

【大语言模型基础】GPT（Generative Pre-training ）生成式无监督预训练模型原理

OpenAIGPT:通过transformerdecoder学习出来一个语言模型，不是固定的，通过任务fine-tuning,用transfomer代替ELMo的LSTM。

·2025-07-21 12:04

现代人工智能综合分类：大模型时代的架构、模态与生态系统

人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer

司南锤·2025-07-21 11:57

DETR革命：目标检测的Transformer时代

《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？

加油吧zkf·2025-07-21 08:08

深度学习模块实践手册（第十一期）

46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题

加油吧zkf·2025-07-21 07:03

大模型格式

大模型格式：Ollama模型格式只能运行已打包成.gguf格式的模型，或通过其Modelfile方式构建ModelScope模型格式大多使用HuggingFaceTransformers格式，如.bin

·2025-07-21 06:20

大模型算法工程师技术路线全解析：从基础到资深的能力跃迁

文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（

Mr.小海·2025-07-21 05:44

Go-Redis × 向量检索实战用 HNSW 在 Redis 中索引与查询文本 Embedding（Hash & JSON 双版本）

方案：利用HuggingFace模型sentence-transformers/all-MiniLM-L6-v2生成384维Float32向量；借助RediSearch的HNSW索引能力，在Hash或JSON

Hello.Reader·2025-07-21 05:42

Spring AI高级RAG功能查询重写和查询翻译

1、创建查询重写转换器//创建查询重写转换器queryTransformer=RewriteQueryTransformer.builder().chatClientBuilder(openAiChatClient.mutate

非ban必选·2025-07-21 05:12

BEV+Transformer

在自动驾驶系统中，BEV（Bird’sEyeView）+Transformer主要应用于感知与环境建图（Perception&SceneUnderstanding）环节，尤其是在多传感器融合、目标检测、

Monkey PilotX·2025-07-20 21:42

Datawhale组队学习打卡-Fun-transformer-Task3Encoder

Encoder如第一篇所说，Encoder是Transformer的第一部分，其主要任务是将输入序列（如文本、词语或字符）编码为一个上下文丰富的表示，Encoder的输出是Decoder的输入的一部分（

宇宙第一小甜欣·2025-07-20 06:05

SBERT、CoSENT和BETR以及transformers的区别和联系

SBERT、CoSENT、BETR和Transformers的区别和联系这几个模型（SBERT、CoSENT、BETR）和框架（Transformers）都是围绕自然语言处理（NLP）的句子嵌入和语义理解任务展开的

panshengnan·2025-07-20 05:30

Transformer：自注意力驱动的神经网络革命引擎

从语言理解到多模态智能的通用架构基石⚙️一、核心定义与历史意义Transformer是由Google团队在2017年论文《AttentionIsAllYouNeed》中提出的深度学习架构，其颠覆性创新在于

大千AI助手·2025-07-20 00:49

[特殊字符] LLM（大型语言模型）：智能时代的语言引擎与通用推理基座

从千亿参数到人类认知的AI革命一、核心定义与核心特征LLM（LargeLanguageModel）是基于海量文本数据训练的深度学习模型，通过神经网络架构（尤其是Transformer）模拟人类语言的复杂规律

大千AI助手·2025-07-20 00:48

LLM系统性学习完全指南（初学者必看系列）

我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini

GA琥珀·2025-07-19 19:11

黄仁勋对话Transformer七子：模型的未来在于数据质量，而非规模

黄仁勋对话Transformer七子：模型的未来在于数据质量，而非规模乌鸦智能说2024-03-2216:14在今年的GTC大会上，英伟达CEO黄仁勋邀请了Transformer的七位作者（NikiParmar

强化学习曾小健·2025-07-19 14:02

LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？

在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention

ZhangJiQun&MXP·2025-07-12 15:44

LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的

importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum

ZhangJiQun&MXP·2025-07-12 14:40

深度学习图像分类数据集—桃子识别分类

该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。

AI街潜水的八角·2025-07-12 12:24

【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5

引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。

我爱一条柴ya·2025-07-12 10:10

Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践

nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。

skywalk8163·2025-07-12 10:39

LLamaFactory 微调Qwen-VL-3B时报错TypeError: argument of type ‘NoneType‘ is not iterable

TypeError:argumentoftype'NoneType'isnotiterable修改方式如下所示：进入\src\llamafactory文件夹，打开cli.py文件在文件头添加如下语句fromtransformersimportmodeling_utilsifnothasattr

闲云野鹤01·2025-07-12 06:12

从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变

从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。

熊猫钓鱼>_>·2025-07-12 06:07

目前主流图像分类模型的详细对比分析

主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer

@comefly·2025-07-11 23:24

【深度学习实战】当前三个最佳图像分类模型的代码详解

下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。

云博士的AI课堂·2025-07-11 22:49

Transformer推理性能优化技术很重要的一个就是K V cache，能否通俗分析，可以结合代码?

原文：Transformer推理性能优化技术很重要的一个就是KVcache，能否通俗分析，可以结合代码?-知乎为什么要研究KVcache？

javastart·2025-07-11 15:28

本地Qwen中医问诊小程序系统开发

bashbrewinstallpython```1.2创建虚拟环境并激活python3-mvenvqwen_envsourceqwen_env/bin/activate1.3安装依赖bashpipinstalltorchtransformersflaskflask-cors2

Kelaru·2025-07-11 14:26

【零基础学AI】第36讲：GPT模型原理

本节课你将学到理解GPT模型的基本原理掌握Transformer解码器的工作机制实现一个简单的文本生成应用开始之前环境要求Python3.8+安装包：pipinstalltransformerstorch

1989·2025-07-11 13:48

华为OD技术面试高频考点（算法篇、AI方向）

一、Transformer核心机制：自注意力(Self-Attention)公式:Attention=softmax(QK^T/√d_k)v运作原理：1.Q/K/V矩阵：输入向量通过线性变换生成Query

·2025-07-11 10:52

Transformer、BERT等模型原理与应用案例

Transformer、BERT等模型原理与应用案例Transformer模型原理Transformer是一种基于注意力机制的深度学习模型架构，由Vaswani等人在2017年的论文"AttentionIsAllYouNeed

程序猿全栈の董（董翔）·2025-07-11 03:10

【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem

论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然

Booksort·2025-07-10 18:12

Gemini vs DeepSeek：Transformer 架构下的技术路线差异与企业级选择

一、引言：从商业价值切入Gemini和DeepSeek都基于Transformer架构，但在技术路线和应用场景上各有侧重。

charles666666·2025-07-10 18:39

VIT视觉

VisionTransformer视觉和语言(Vision-Language)NLPrompt:Noise-LabelPromptLearningforVision-LanguageModelsPaper

妄想成为master·2025-07-10 14:11

vLLM 优化与调优：提升模型性能的关键策略

抢占式调度（Preemption）由于Transformer架构的自回归特性，有时键值缓存（KVcache）空间不足以处理所有批量请求。在这种情况下，vL

强哥之神·2025-07-10 11:51

【AI大模型】Transformer架构位置编码

Transformer架构中的位置编码(PositionalEncoding)是其核心设计之一，用于解决一个关键问题：Self-Attention机制本身对输入元素的顺序是“无感知”的(permutationinvariant

我爱一条柴ya·2025-07-10 09:44

基于大模型的急性出血坏死性胰腺炎预测技术方案

目录一、算法实现伪代码1.数据预处理与特征工程2.大模型训练（以Transformer为例）3.实时预测与动态调整二、模块流程图1.术前预测流程2.术中动态决策流程3.术后护理流程三、系统集成方案1.系统架构图

LCG元·2025-07-10 02:22

计算机视觉：Transformer的轻量化与加速策略

计算机视觉：Transformer的轻量化与加速策略一、前言二、Transformer基础概念回顾2.1Transformer架构概述2.2自注意力机制原理三、Transformer轻量化策略3.1模型结构优化

xcLeigh·2025-07-10 00:44

【Spring AI】09. ETL 管道

DocumentReaderJsonReaderTextReaderPagePdfDocumentReaderParagraphPdfDocumentReaderTikaDocumentReaderDocumentTransformerTextSplitterTokenTextSplitterContentFormatTransfor

·2025-07-09 21:24

推荐频道