❀transformer❀

使用PyTorch搭建Transformer神经网络:入门篇

1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。

DASA13·2025-03-23 00:21

深入探讨盘古大模型的高精度多尺度能力

它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能

Hardess-god·2025-03-22 22:40

CBNetV2: A Composite Backbone Network Architecture for Object Detection论文阅读

ACompositeBackboneNetworkArchitectureforObjectDetection论文阅读介绍方法CBNetV2融合方式对Assistant的监督实验与SOTA的比较在主流backbone架构上的通用性与更宽更深的网络比较与可变形卷积的兼容在主流检测器上的模型适用性在SwinTransformer

Laughing-q·2025-03-22 22:38

Springboot使用itext及documents4j操作pdf（word转pdf、pdf加水印（文字或图片，可指定位置）、pdf加密（打开密码，编辑密码））

pom.xml引入com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3com.itextpdfitextpdf5.5.11com.itextpdfitext-asian5.2.0

爱编程的小飞哥·2025-03-22 21:35

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化

一个处女座的程序猿·2025-03-22 14:43

Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战

内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本)：torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets

LuckyAnJo·2025-03-22 08:47

搜广推校招面经五十四

Y1nhl·2025-03-22 08:45

【面经&八股】搜广推方向：面试记录（十三）

一定要熟~3.八股之类的问题极大似然估计和贝叶斯估计，区别与联系建议参考这个链接transformer为什么要使用多头关键点在于集成，使语义更加完善圆上随机去三个点，三个

秋冬无暖阳°·2025-03-22 08:44

一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战

本文深入解析主流模型部署框架（Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed），结合其技术原理、优缺点及适用场景，并提供DeepSeekR1

人肉推土机·2025-03-22 05:12

DeepSeek-R1大模型微调技术深度解析：架构、方法与应用全解析

Transformer框架增强基于改进型Transformer架构，结合多头注意力机制（MLA）与动态权重分配技术，优化了长程依

大势下的牛马·2025-03-22 00:58

3090显卡Ktransformer本地部署deepseek R1:70B

runtimeerrordon'tmatch更新cudaERROR:Failedtobuildinstallablewheelsforsomepyproject.tomlbasedprojects(ktransformers

SIATdog·2025-03-21 20:59

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。

Mark White·2025-03-21 17:01

机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？

机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的

yuanpan·2025-03-21 15:15

《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》

在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer

·2025-03-21 12:07

Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！）

HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G

y江江江江·2025-03-21 10:31

YOLOv12优化：图像去噪 | AAAI2025 Transformer |一种基于Transformer的盲点网络（TBSN）架构，结合空间和通道自注意力层来增强网络能力

提出了一种基于Transformer的盲点网络（TBSN）架构，通过分析和重新设计Transformer运算符以满足盲点要求。

AI小怪兽·2025-03-21 10:56

【人工智能】注意力机制深入理解

文章目录**一、注意力机制的核心思想****二、传统序列模型的局限性****三、Transformer与自注意力机制****1.自注意力机制的数学公式****四、注意力机制的关键改进****1.稀疏注意力

问道飞鱼·2025-03-21 08:09

Transformer与图神经网络的融合与应用

Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。

AI天才研究院·2025-03-21 07:58

深度学习的颠覆性发展：从卷积神经网络到Transformer

1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh

AI天才研究院·2025-03-21 07:57

开源模型应用落地-qwen模型小试-调用Qwen2-7B-Instruct-进阶篇（十二）

本文将介绍如何使用Transformers库进行模型推理（相较于qwen1系列，使用方式上有较大的调整），现在，我们赶紧跟上脚步，去体验一下新版本模型

开源技术探险家·2025-03-20 19:23

图像处理篇---图像预处理

数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer

Ronin-Lotus·2025-03-20 02:00

Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task

Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候，要用lm_eval模型，而对于像是llama3/Mistrual等比较新的模型，较低的Transformers

neverwin6·2025-03-20 02:58

KV 缓存简介

KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。

dev.null·2025-03-19 17:49

【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型

《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch

打酱油的葫芦娃·2025-03-19 17:17

Transformer精选问答

Transformer精选问答1Transformer各自模块作用Encoder模块经典的Transformer架构中的Encoder模块包含6个EncoderBlock.每个EncoderBlock包含两个子模块

EmbodiedTech·2025-03-19 16:16

迁移学习入门

一般预训练模型具备复杂的网络模型结构；一般是在大量的语料下训练完成的预训练语言模型的类别现在我们接触到的预训练语言模型，基本上都是基于transformer这个模型迭代而来的因此划分模型类别的时候，以transformer

EmbodiedTech·2025-03-19 16:14

使用LoRA微调LLaMA3

我们将使用HuggingFace的Transformers库来完成这个过程。

想胖的壮壮·2025-03-19 16:12

什么是机器视觉3D引导大模型

以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer

视觉人机器视觉·2025-03-19 16:42

【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割

【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer

985小水博一枚呀·2025-03-19 14:58

【Image captioning-RS】论文12 Prior Knowledge-Guided Transformer for Remote Sensing Image Captioning

为克服这些挑战,我们提出了一种基于先验知识的transformer(PKG-Trans

CV视界·2025-03-19 12:41

深度学习五大模型：CNN、Transformer、BERT、RNN、GAN详细解析

卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分类或回归计算。CNN利用卷积操作实现局部连接和权重共享，能够自动学习数据中的空间特征。适用场景：广泛应用于图像处理相关的

·2025-03-19 11:37

未来5年AI人工智能与信息技术领域发展趋势

以Transformer为核心的序列建模技术持续迭代，字节跳动云雀模型通过动态结构优化，在保持语言理解能力的同时将参数量压缩至GPT-4的1/10，推理速度提升3倍。

海宁不掉头发·2025-03-19 11:03

本地运行chatglm3-6b 和 ChatPromptTemplate的结合使用

importgradiofromtransformersimportAutoTokenizer,AutoModelfromlangchain_core.promptsimportChatPromptTemplatefromlangchain_core.output_parsersimportStrOutputParserfromlangchain_community.llmsimportHuggi

hehui0921·2025-03-19 02:40

大模型黑书阅读笔记--第一章

cnn,rnn达到了极限，憋了三十年（这段时间已经有注意力了，并且注意力也加到了cnn，rnn中，但没啥进展）憋来了工业化最先进的transformertransformer的核心概念可以理解为混合词元

53年7月11天·2025-03-19 01:29

NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN

然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。

Chaos_Wang_·2025-03-19 00:24

如何计算一个7B的模型训练需要的参数量以及训练时需要的计算资源

计算理论过程见：transformer中多头注意力机制的参数量是多少？1.模型参数量的计算7B参数模型的总参数量是70亿（7billion）。

yxx122345·2025-03-18 20:59

李开复：AI 2.0 时代的机遇

人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，应用场景，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理等领域取得了突破性进展。

AGI大模型与大数据研究院·2025-03-18 15:52

llama.cpp 和 LLM（大语言模型）

llama.cpp和LLM（大语言模型）的介绍，以及两者的关联与区别：1.LLM（LargeLanguageModel，大语言模型）定义：LLM是基于深度学习技术（如Transformer架构）构建的超大参数量的自然语言处理模型

这个懒人·2025-03-18 14:12

DIFFERENTIAL TRANSFORMER

本文是LLM系列文章，针对《DIFFERENTIALTRANSFORMER》的翻译。

UnknownBody·2025-03-17 21:44

AI如何创作音乐及其案例

如Transformer架构，其注意力机制可捕捉跨小节的旋律关联性，能生成具有长期依赖性的音乐序列。生成对抗网络（GAN）：包含生成器和判别器，生成器负责生成音乐样本，判别器判断生成的音乐是否真实。

alankuo·2025-03-17 21:44

【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结

文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法

roman_日积跬步-终至千里·2025-03-17 19:59

基于ViT+milvus的以图搜图服务

ViT(VisionTransformer)模型使用huggingface的ViT模型权重。https://huggingface.co/tttarun/visio

国防科技苏东坡·2025-03-17 18:56

ChatGPT智能聊天机器人实现

以下是一个从零实现类ChatGPT智能聊天机器人的完整开发指南，包含技术选型、核心代码逻辑和推荐学习资源：—云端平台整理一、技术架构与工具核心模型基座模型：HuggingFaceTransformers

云端源想·2025-03-17 14:57

HarmonyOS NEXT开发实战：Navigation页面跳转对象传递案例

实现过程中使用了第三方插件class-transformer，传递对象经过该插件的plainToClass方法转换后可以直接调用对象的方法，效果图预览使用说明从首页进入本页面时，会传递一个类对象UserBookingInfo

一晃有一秋·2025-03-17 12:10

Transformer 架构深度剖析

一、Transformer架构核心设计1.1整体架构Transformer由编码器（Encoder）和解码器（Decoder）堆叠而成，每个层包含：多头自注意力（Multi-HeadSelf-Attention

时光旅人01号·2025-03-17 10:58

从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）

文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1

码事漫谈·2025-03-17 09:48

Vision Transformer (ViT) 详细描述及 PyTorch 代码全解析

VisionTransformer(ViT)是一种将Transformer架构应用于图像分类任务的模型。

AIGC_ZY·2025-03-17 02:23

YOLOv8改进添加swin transformer

最近在做实验，需要改进YOLOv8，去网上找了很多教程都是充钱才能看的，NND这对一个一餐只能吃两个菜的大学生来说是多么的痛苦，所以自己去找代码手动改了一下，成功实现YOLOv8改进添加swintransformer

兜里没有一毛钱·2025-03-17 00:10

《零代码调用最强开源模型DeepSeek-Lite：15分钟实战案例解析》

##二、三步极速接入指南```python#实战代码片段（基于HuggingFace平台）fromtransformersimportAuto

煜bart·2025-03-16 23:01

一周热点：微软攻克语音输入、文本输出难题-Phi-4-multimodal

模型架构该模型采用多模态Transformer架构，通过LoRA（

数据分析能量站·2025-03-16 22:57

推荐频道