Transformer·

【人工智能】注意力机制深入理解

文章目录**一、注意力机制的核心思想****二、传统序列模型的局限性****三、Transformer与自注意力机制****1.自注意力机制的数学公式****四、注意力机制的关键改进****1.稀疏注意力

问道飞鱼·2025-03-21 08:09

Transformer与图神经网络的融合与应用

Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。

AI天才研究院·2025-03-21 07:58

深度学习的颠覆性发展：从卷积神经网络到Transformer

1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh

AI天才研究院·2025-03-21 07:57

开源模型应用落地-qwen模型小试-调用Qwen2-7B-Instruct-进阶篇（十二）

本文将介绍如何使用Transformers库进行模型推理（相较于qwen1系列，使用方式上有较大的调整），现在，我们赶紧跟上脚步，去体验一下新版本模型

开源技术探险家·2025-03-20 19:23

图像处理篇---图像预处理

数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer

Ronin-Lotus·2025-03-20 02:00

Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task

Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候，要用lm_eval模型，而对于像是llama3/Mistrual等比较新的模型，较低的Transformers

neverwin6·2025-03-20 02:58

KV 缓存简介

KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。

dev.null·2025-03-19 17:49

【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型

《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch

打酱油的葫芦娃·2025-03-19 17:17

Transformer精选问答

Transformer精选问答1Transformer各自模块作用Encoder模块经典的Transformer架构中的Encoder模块包含6个EncoderBlock.每个EncoderBlock包含两个子模块

EmbodiedTech·2025-03-19 16:16

迁移学习入门

一般预训练模型具备复杂的网络模型结构；一般是在大量的语料下训练完成的预训练语言模型的类别现在我们接触到的预训练语言模型，基本上都是基于transformer这个模型迭代而来的因此划分模型类别的时候，以transformer

EmbodiedTech·2025-03-19 16:14

使用LoRA微调LLaMA3

我们将使用HuggingFace的Transformers库来完成这个过程。

想胖的壮壮·2025-03-19 16:12

什么是机器视觉3D引导大模型

以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer

视觉人机器视觉·2025-03-19 16:42

【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割

【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer

985小水博一枚呀·2025-03-19 14:58

【Image captioning-RS】论文12 Prior Knowledge-Guided Transformer for Remote Sensing Image Captioning

为克服这些挑战,我们提出了一种基于先验知识的transformer(PKG-Trans

CV视界·2025-03-19 12:41

深度学习五大模型：CNN、Transformer、BERT、RNN、GAN详细解析

卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分类或回归计算。CNN利用卷积操作实现局部连接和权重共享，能够自动学习数据中的空间特征。适用场景：广泛应用于图像处理相关的

·2025-03-19 11:37

未来5年AI人工智能与信息技术领域发展趋势

以Transformer为核心的序列建模技术持续迭代，字节跳动云雀模型通过动态结构优化，在保持语言理解能力的同时将参数量压缩至GPT-4的1/10，推理速度提升3倍。

海宁不掉头发·2025-03-19 11:03

本地运行chatglm3-6b 和 ChatPromptTemplate的结合使用

importgradiofromtransformersimportAutoTokenizer,AutoModelfromlangchain_core.promptsimportChatPromptTemplatefromlangchain_core.output_parsersimportStrOutputParserfromlangchain_community.llmsimportHuggi

hehui0921·2025-03-19 02:40

大模型黑书阅读笔记--第一章

cnn,rnn达到了极限，憋了三十年（这段时间已经有注意力了，并且注意力也加到了cnn，rnn中，但没啥进展）憋来了工业化最先进的transformertransformer的核心概念可以理解为混合词元

53年7月11天·2025-03-19 01:29

NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN

然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。

Chaos_Wang_·2025-03-19 00:24

如何计算一个7B的模型训练需要的参数量以及训练时需要的计算资源

计算理论过程见：transformer中多头注意力机制的参数量是多少？1.模型参数量的计算7B参数模型的总参数量是70亿（7billion）。

yxx122345·2025-03-18 20:59

李开复：AI 2.0 时代的机遇

人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，应用场景，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理等领域取得了突破性进展。

AGI大模型与大数据研究院·2025-03-18 15:52

llama.cpp 和 LLM（大语言模型）

llama.cpp和LLM（大语言模型）的介绍，以及两者的关联与区别：1.LLM（LargeLanguageModel，大语言模型）定义：LLM是基于深度学习技术（如Transformer架构）构建的超大参数量的自然语言处理模型

这个懒人·2025-03-18 14:12

DIFFERENTIAL TRANSFORMER

本文是LLM系列文章，针对《DIFFERENTIALTRANSFORMER》的翻译。

UnknownBody·2025-03-17 21:44

AI如何创作音乐及其案例

如Transformer架构，其注意力机制可捕捉跨小节的旋律关联性，能生成具有长期依赖性的音乐序列。生成对抗网络（GAN）：包含生成器和判别器，生成器负责生成音乐样本，判别器判断生成的音乐是否真实。

alankuo·2025-03-17 21:44

【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结

文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法

roman_日积跬步-终至千里·2025-03-17 19:59

基于ViT+milvus的以图搜图服务

ViT(VisionTransformer)模型使用huggingface的ViT模型权重。https://huggingface.co/tttarun/visio

国防科技苏东坡·2025-03-17 18:56

ChatGPT智能聊天机器人实现

以下是一个从零实现类ChatGPT智能聊天机器人的完整开发指南，包含技术选型、核心代码逻辑和推荐学习资源：—云端平台整理一、技术架构与工具核心模型基座模型：HuggingFaceTransformers

云端源想·2025-03-17 14:57

HarmonyOS NEXT开发实战：Navigation页面跳转对象传递案例

实现过程中使用了第三方插件class-transformer，传递对象经过该插件的plainToClass方法转换后可以直接调用对象的方法，效果图预览使用说明从首页进入本页面时，会传递一个类对象UserBookingInfo

一晃有一秋·2025-03-17 12:10

Transformer 架构深度剖析

一、Transformer架构核心设计1.1整体架构Transformer由编码器（Encoder）和解码器（Decoder）堆叠而成，每个层包含：多头自注意力（Multi-HeadSelf-Attention

时光旅人01号·2025-03-17 10:58

从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）

文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1

码事漫谈·2025-03-17 09:48

Vision Transformer (ViT) 详细描述及 PyTorch 代码全解析

VisionTransformer(ViT)是一种将Transformer架构应用于图像分类任务的模型。

AIGC_ZY·2025-03-17 02:23

YOLOv8改进添加swin transformer

最近在做实验，需要改进YOLOv8，去网上找了很多教程都是充钱才能看的，NND这对一个一餐只能吃两个菜的大学生来说是多么的痛苦，所以自己去找代码手动改了一下，成功实现YOLOv8改进添加swintransformer

兜里没有一毛钱·2025-03-17 00:10

《零代码调用最强开源模型DeepSeek-Lite：15分钟实战案例解析》

##二、三步极速接入指南```python#实战代码片段（基于HuggingFace平台）fromtransformersimportAuto

煜bart·2025-03-16 23:01

一周热点：微软攻克语音输入、文本输出难题-Phi-4-multimodal

模型架构该模型采用多模态Transformer架构，通过LoRA（

数据分析能量站·2025-03-16 22:57

【JCR一区级】被囊群算法TSA-Transformer-GRU负荷数据回归预测【含Matlab源码 6309期】

Matlab武动乾坤博客之家

Matlab武动乾坤·2025-03-16 11:36

【杨乐昆何凯明AI论文】没有归一化的Transformer模型

本研究表明，通过使用一种极其简单的技术，没有归一化的Transformer模型可以达到相同或更好的性能。

东临碣石82·2025-03-16 11:02

基于 KTransformers的DeepSeek-R1 本地部署方案，成本骤降32倍！

本文将深入探讨DeepSeek-R1部署中的挑战，并介绍一款创新框架KTransformers，它能够显著降低大规模模型部署的成本并提高推理效率，从而帮助更多中小企业有效部署此类高级AI模型。

爱科技Ai·2025-03-16 07:38

手撕multi-head self attention 代码

在深度学习和自然语言处理领域，多头自注意力（Multi-HeadSelf-Attention）机制是Transformer模型中的核心组件之一。

心若成风、·2025-03-16 07:07

大模型火爆 2025：LLaMA、Qwen、DeepSeek 核心原理+就业秘籍，快速入门 AI 工程师

核心原理：Transformer架构：想象一个工厂流水线，LL

weixin_40941102·2025-03-16 03:38

【AI】Transformer布道：让AI学会“左顾右盼”的超级大脑！（扫盲帖）

在LLM爆火的时代，如果还不了解Transformer就太落伍了，下面我第一次尝试用一种更日常、更口语化的方式，把Transformer这个模型讲个大概。

碣石潇湘无限路·2025-03-16 03:37

仅仅使用pytorch来手撕transformer架构(3)：编码器模块和编码器类的实现和向前传播

仅仅使用pytorch来手撕transformer架构(2)：编码器模块和编码器类的实现和向前传播往期文章：仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的

KangkangLoveNLP·2025-03-16 01:53

Transformer动画讲解 - 工作原理

Transformer模型在多模态数据处理中扮演着重要角色，其能够高效、准确地处理包含不同类型（如图像、文本、音频、视频等）的多模态数据。

ghx3110·2025-03-15 19:16

Transformer架构在生成式AI中的应用解析

文章目录1.Transformer架构概述1.1Transformer的核心思想1.2Transformer架构的优势2.Transformer在文本生成中的应用2.1GPT系列：基于Transformer

二进制独立开发·2025-03-15 19:11

1llama源码学习·model.py[3]ROPE旋转位置编码(1)原理

零：(导学)Transformer位置编码（1）为什么需要位置编码位置编码描述序列中实体的位置信息，为每个位置分配唯一的表示。

小杜不吃糖·2025-03-15 18:07

图像拼接-UDIS详细推导和精读Unsupervised Deep Image Stitching: ReconstructingStitched Features to Images

无监督粗对齐1.基于消融的策略主要是为了找到重叠区，去除无效区2.拼接域的TransformerLayer无监督图像重建1.低分辨率变形单应性变换仅能表示同一深度的空间变换，在实际的图像拼接任务中，由于输入图像的多样性和复杂性

cccc来财·2025-03-15 17:26

【Transformer-Hugging Face手册 07/10】微调预训练模型

微调预训练模型-目录一、说明二、在本机PyTorch中微调预训练模型。2.1加载数据2.2训练2.2.1使用PyTorchTrainer进行训练2.3训练超参数2.4评价2.5训练类三、使用Keras训练TensorFlow模型3.1为Keras加载数据3.2将数据加载为tf.data.Dataset3.3数据加载器3.4优化器和学习率调度器3.5训练循环3.6评价四、结论一、说明使用预训练模

无水先生·2025-03-15 13:54

UNet 改进：添加Transformer注意力机制增强捕捉长距离依赖关系的能力

目录1.Transformer注意力机制2.Unet改进3.代码1.Transformer注意力机制TransformerBlock是Transformer模型架构的基本组件，广泛应用于机器翻译、文本摘要和情感分析等自然语言处理任务

听风吹等浪起·2025-03-15 08:41

CCF CSP 第30次（2023.05）（2_矩阵运算_C++）（暴力破解）(矩阵相乘)

输出格式：样例输入样例输出：样例解释：子任务：提示：解题思路：思路一（暴力破解）：代码实现代码实现：部分代码解读时间限制：5.0s空间限制：512.0MB题目背景：Softmax(Q×KT/√d)×V是Transformer

Dream it possible！·2025-03-15 05:41

基于Transformer的医学文本分类：从BERT到BioBERT

随着自然语言处理（NLP）技术的快速发展，Transformer模型在文本分类、情感分析、机器翻译等任务中取得了显著成果。

Evaporator Core·2025-03-14 23:17

从零到一：Transformer模型的原理与实战之旅

目录从零到一：Transformer模型的原理与实战之旅1.Transformer原理简介1.1什么是Transformer？

樽酒ﻬق·2025-03-14 21:06

推荐频道