transformer

大模型-FlashAttention 算法分析

随着Transformer变得越来越大、越来越深，但它在长序列上仍然处理的很慢、且耗费内存。（自注意力时间和显存复杂度与序列长度成二次方），现有近似注意力方法，

清风lsq·2025-07-03 05:46

大模型学习（Datawhale_Happy-LLM）笔记7: Encoder-Decoder PLM

大模型学习（Datawhale_Happy-LLM）笔记7:Encoder-DecoderPLM1.Encoder-Decoder架构概述1.1架构基础Encoder-DecoderPLM是基于原始Transformer

lxltom·2025-07-02 23:31

SOTA是什么意思？

最近看到一篇关于Transformer模型的论文，谷歌推出的BERT模型在11项NLP（naturallanguageprocessing）任务中夺得SOTA结果，引爆了整个NLP界。

有奇妙能力吗·2025-07-02 21:45

AI人工智能领域深度学习的跨模态检索技术

AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。

AI学长带你学AI·2025-07-02 18:20

Dimba: Transformer-Mamba Diffusion Models————3 Methodology

图解图片中的每个模块详解1.文本输入(Text)描述：输入的文本描述了一个具有具体特征的场景。功能：提供关于要生成图像的详细信息。2.T5模型(TexttoFeature)描述：使用T5模型将文本转换为特征向量。功能：提取文本中的语义信息，为后续的图像生成提供条件。3.图像输入(Image)描述：输入图像通过变分自编码器(VAE)编码器处理。功能：将图像转换为潜在表示，用于添加噪声并进行扩散过程。

·2025-07-02 12:05

从零开始理解Transformer模型：架构与应用

引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。

淮橘√·2025-07-02 11:29

『大模型笔记』KV缓存：Transformer中的内存使用！

『大模型笔记』KV缓存：Transformer中的内存使用！文章目录一.KV缓存：Transformer中的内存使用！

AI大模型前沿研究·2025-07-02 05:46

大语言模型（LLM）笔记

LLM（LargeLanguageModel）是基于Transformer架构构建，并在海量文本语料上训练出的具备自然语言理解和生成能力的深度神经网络模型。

笑衬人心。·2025-07-02 03:59

【Transformer论文】通过蒙面多模态聚类预测学习视听语音表示

文献题目：LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间：2022发表期刊：ICLR摘要语音的视频记录包含相关的音频和视觉信息，为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HuBERT)，这是一种用于视听语音的自我监督表示学习框架

Wwwilling·2025-07-01 13:24

告别GPU焦虑：如何在纯CPU服务器上，打造高性能Embedding服务？

一开始，我们图方便，直接从HuggingFace上拉了当时效果最好的BAAI/bge-m3模型，用transformers库一把梭。结果呢？

ezl1fe·2025-07-01 10:02

当前最好的0样本文本转语音是哪个模型？

MegaTTS3（字节跳动&浙江大学）‌‌核心优势‌：仅需‌3-10秒‌参考音频即可精准克隆音色，支持中英混合语音自然切换1112轻量化设计（0.45B参数），实时生成延迟低于400ms11采用‌DiffusionTransformer

skywalk8163·2025-07-01 05:00

DiNA：扩张邻域注意力 Transformer

摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。

AI专题精讲·2025-06-30 13:44

Java使用documents4j将word和excel转pdf

pom.xml添加documents4j依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3&

药岩·2025-06-30 12:37

DeepSeek：AI驱动的效率革命与实战案例解

一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复

weixin_45788582·2025-06-30 10:52

nlp遇到的问题

1.AttributeError:'CodeGenTokenizer'objecthasnoattribute'encoder'pipinstalltransformers==4.33.22.ImportError

·2025-06-30 04:49

【大模型】Transformer架构完全解读：从“盲人摸象“到“通晓万物“的AI进化论

Transformer架构完全解读：从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章：为什么说Transformer是AI界的"蒸汽机革命"？

全栈追梦人·2025-06-29 23:21

【2024 CVPR-Backbone】RepViT: Revisiting Mobile CNN From ViT Perspective

摘要近期，轻量级视觉Transformer（ViT）在资源受限的移动设备上表现出比轻量级卷积神经网络（CNN）更优异的性能和更低的延迟。

无敌悦悦王·2025-06-29 10:45

使用vllm部署 Nanonets-OCR-s

一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35

没刮胡子·2025-06-28 23:20

LLaMA Factory 微调后，迁移模型

方法1：使用HuggingFaceHub（最推荐）fromtransformersimportAutoModelForCausalLM,AutoTokenizer#在源服务器上保存模型到Hubmodel.push_to_hub

激进小猪1002·2025-06-28 18:17

Transformer底层原理解析及基于pytorch的代码实现

1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。

LiRuiJie·2025-06-28 11:24

大模型笔记10：LoRA微调

Transformer中微调哪些参数：LoRA的改进版本

errorwarn·2025-06-28 09:41

大语言模型(LLM)量化基础知识(一)

随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer

-派神-·2025-06-27 23:42

基于Transformer实现机器翻译

目录一、前言1.1什么是Transformer?

yyyyurina.·2025-06-27 20:17

LLM推理入门实践：基于 Hugging Face Transformers 和 vLLM

文章目录1.HuggingFace模型下载2.HuggingFaceTransformers库模型推理3.关于prompt的组成：system、user、assistant4.vLLM模型推理vLLM的多卡推理踩坑

ctrl A_ctrl C_ctrl V·2025-06-27 17:57

用生活例子讲透Transformer，大模型为何强大

想象一下，你现在是个翻译员，手头有一本厚厚的英文书，要把它翻译成中文。这可不是个轻松活儿！以前的翻译方法（老派翻译官：RNNs）过去，我们的电脑（也就是老模型，比如RNNs）是这样翻译的：就像一个超级认真的翻译官，他会逐字逐句地读英文书。他读到一个英文词时，会琢磨这个词之前讲了什么，以及他到现在为止记住了多少内容，然后才决定怎么翻译。这种方法有两个大毛病：太慢，不能分工合作：就像一个翻译官，他必须

九章云极DataCanvas·2025-06-27 15:13

GRU与Transformer结合：新一代序列模型

GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。

AI大模型应用工坊·2025-06-27 11:48

⼤模型（LLMs）基础⾯

⽬前主流的开源LLM（语⾔模型）模型体系包括以下⼏个：1.GPT（GenerativePre-trainedTransformer）系列：由OpenAI发布的⼀系列基于Transformer架构的语⾔模型

cv2016_DL·2025-06-27 01:04

PD分离与EP分离技术

一、Prefill与Decode的底层原理剖析1.1Prefill阶段的数学本质（以Transformer架构为例）计算密集型的核心原因：#自注意力计算伪代码Q=X@W_Q#[batch,seq_len

静谧之心·2025-06-27 00:33

Java如何导出word(根据模板生成),通过word转成pdf,放压缩包

betaorg.apache.poipoi4.1.2org.apache.poipoi-ooxml4.1.2org.apache.poipoi-scratchpad4.1.2com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-wor

R-sz·2025-06-26 20:31

使用Hugging Face的Sentence Transformers进行文本嵌入

概述HuggingFace的SentenceTransformers是一种用于生成文本和图像嵌入的Python框架，提供了最新的技术。

2501_92325368·2025-06-26 11:34

Kaggle金牌方案复现：CGO-Transformer-GRU多模态融合预测实战

1背景分析在2023年Kaggle"GlobalMultimodalDemandForecastingChallenge"竞赛中，CGO-Transformer-GRU方案以领先第二名1.8个百分点的绝对优势夺冠

·2025-06-26 03:04

LSTM、GRU 与 Transformer网络模型参数计算

hidden_size+hidden_size²+hidden_size)4个门控结构GRU3×(embed_dim×hidden_size+hidden_size²+hidden_size)3个门控结构Transformer

suixinm·2025-06-26 00:44

多头注意力机制中全连接函数

在神经网络（特别是Transformer中的多头注意力机制）中，全连接函数（FullyConnectedLayer,FCLayer）通常指的是一个线性变换层，即nn.Linear在PyTorch中的实现

不知更鸟·2025-06-25 23:05

大语言模型全流程开发技术详解：从架构、训练到对齐与量化

github.com/mlabonne/llm-course大语言模型全流程开发技术详解：从架构、训练到对齐与量化大模型实战指南：多模型生态实战与论文解读一、LLM架构（TheLLMarchitecture）不需要对Transformer

艾墨舟启航·2025-06-25 20:46

预训练语言模型

1.1Encoder-onlyPLMEncoder-only架构是Transformer的重要分支，专注于自然语言理解（NLU）任务，核心代表是BERT及其优化模型（RoBERTa、ALBERT）。

lynnzon·2025-06-25 11:10

大模型学习（Datawhale_Happy-LLM）笔记4: 预训练语言模型

大模型学习（Datawhale_Happy-LLM）笔记4:预训练语言模型一、概述本章按Encoder-Only、Encoder-Decoder、Decoder-Only的顺序来依次介绍Transformer

lxltom·2025-06-25 11:09

预训练语言模型之：Encoder-only PLM

1.基础架构：TransformerEncoder所有模型的基石都是TransformerEncoder结构，其核心是自注意力机制：Attention(Q,K,V)=softmax(QKTdk)V\text

抱抱宝·2025-06-25 10:36

CVPR2025

摸鱼的肚子·2025-06-25 10:06

CVPR 2024 图像处理方向总汇（图像去噪、图像增强、图像分割和图像恢复等）

1、ImageProgress(图像处理)去鬼影GeneratingContentforHDRDeghostingfromFrequencyView去阴影HomoFormer:HomogenizedTransformerforImageShadowRemoval

点云SLAM·2025-06-25 10:35

Python 调用大模型：解锁人工智能的无限可能

（四）大模型的发展历史二、Python调用大模型的实现方法（一）使用OpenAIAPI设置API密钥定义提示文本调用OpenAIAPI输出生成的文本加载预训练模型和分词器2.使用HuggingFaceTransformers

CarlowZJ·2025-06-25 10:04

第8章：智能菜谱生成器——语言模型如何解析烹饪秘方

当传统NLP系统将其简单译为"煮浓"，新一代Transformer模型却精准解析出粘度为1500-2000cP的物性指标，并据此生成控温方案。这背后的核心技术便是基于烹饪

白嫖不白嫖·2025-06-25 07:44

LeRobot: 让机械臂接入大模型

这一项目通过整合最先进的机器学习算法和便捷的开发工具链，为开发者提供了一个高效、易用的机器人AI开发平台，堪称机器人领域的“Transformer时刻”。

小众AI·2025-06-25 05:57

一起学习swin-transformer（一）

Transform学习链接从零开始设计Transformer模型（1/2）——剥离RNN，保留Attention-CSDN博客Transformer-PyTorch实战项目——文本分类_transformer

Vertira·2025-06-24 01:14

Transformer 中 QKV 流向全解析（含注意力机制箭头图示）

Transformer中注意力模块分布Transformer结构中含有三种注意力机制，每个机制都会涉及Q、K、V的构建和使用：编码器自注意力（EncoderSelf-Attention）解码器自注意力（

Accelemate·2025-06-23 15:02

基础RAG实现，最佳入门选择（二）

·2025-06-23 14:05

从零到一RedisVL 安装与运行全攻略

·2025-06-23 03:16

Patch Position Embedding (PPE) 在医疗 AI 中的应用编程分析

一、PPE的核心原理与医疗场景适配性位置编码的本质需求在医疗影像（如CT、MRI、病理切片）中，Transformer需要将图像划分为若干Patch并作为序列输入。

Allen_Lyb·2025-06-22 20:55

Transformer-LSTM+SHAP可解释性分析的回归预测Matlab代码

代码示例：%基于Transformer-LSTM+SHAP可解释性分析的回归预测Matlab代码%多输入单输出版本%步骤1：数据预处理function[X_train,y_train,X_test,y_test

默默科研仔·2025-06-22 19:51

llamafactory 微调模型出现TypeError: argument of type ‘NoneType‘ is not iterable

问题介绍本文作者碰到的问题是File“/root/miniconda3/lib/python3.12/site-packages/transformers/modeling_utils.py”,line1969

成都犀牛·2025-06-22 14:19

深度解析 ImportError: cannot import name AdamW from transformers——从报错原理到完美解决方案

在自然语言处理(NLP)领域，HuggingFace的transformers库已成为事实上的标准工具。

Tadas-Gao·2025-06-22 12:35

推荐频道