Transformer？第3页

Day44

预训练概念：在大规模数据上训练模型学习通用知识，再迁移到下游任务微调2.常见模型：图像有AlexNet、ResNet、ViT；NLP有BERT、GPT3.图像模型发展：从手工特征到深度学习，从CNN到Transformer

·2025-07-04 12:19

Qwen3 Embedding 结构-加载-训练看透模型设计哲学

1Qwen3-Embedding模型结构拆解说明：目录包含了运行一个基于Transformer的句向量模型所需的所有组件文件类别核心文件作用核心模型model.safetensors,config.jsonmodel.safetensors

·2025-07-04 04:25

Llama改进之——RoPE旋转位置编码

引言旋转位置编码(RotaryPositionEmbedding,RoPE)将绝对相对位置依赖纳入自注意力机制中，以增强Transformer架构的性能。

愤怒的可乐·2025-07-04 01:37

Llama改进之——分组查询注意力

Transformer中的多头注意力在解码阶段来说是一个性能瓶颈。多查询注意力2通过共享单个key和value头，同时不减少query头来提升性能。

愤怒的可乐·2025-07-04 01:37

Llama改进之——均方根层归一化RMSNorm

LayerNorm层归一化(LayerNorm)对Transformer等模型来说非常重要，它可以帮助稳定训练并提升模型收敛性。LayerNorm针对一个样本所有特征计算

愤怒的可乐·2025-07-04 01:36

强人工智能是否会诞生于现在的AI之中

然而，作为一名人工智能领域的算法工程师，我反而越来越确信：现有的技术路径——以Transformer为核心的深度神经网络，可能已经达到了它的能力上限。

一花·一叶·2025-07-04 01:06

从零实现Llama3：深入解析Transformer架构与实现细节

从零实现Llama3：深入解析Transformer架构与实现细节llama3-from-scratchllama3一次实现一个矩阵乘法。

祁婉菲Flora·2025-07-04 00:05

解密GPT工作原理：Transformer架构详解与自注意力机制剖析

解密GPT工作原理：Transformer架构详解与自注意力机制剖析关键词：GPT、Transformer、自注意力机制、神经网络、语言模型、深度学习、人工智能摘要：本文将深入浅出地解析GPT模型的核心架构

AI智能应用·2025-07-03 23:25

讯飞星火深度推理模型X1，为教育医疗带来革新

技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面

·2025-07-03 21:42

Hamiltonian Transformer理论：融合哈密顿力学与Transformer架构的新范式

HamiltonianTransformer理论是一种将经典哈密顿力学原理与现代Transformer架构相结合的新型神经网络范式。

墨顿·2025-07-03 20:37

结合LangGraph、DeepSeek-R1和Qdrant 的混合 RAG 技术实践

然而，单一的稠密向量检索（如基于Transformer的嵌入模型）在处理关键词匹配和多义词歧义时存在局限性，而稀疏向量检索（如BM25）虽擅长精确关键词匹配，却缺乏语义理

大模型之路·2025-07-03 17:45

解释LLM怎么预测下一个词语的

解释LLM怎么预测下一个词语的通过上文词的向量进行映射在Transformer架构的大语言模型（如GPT系列、BERT等）中，词语会先被转化为词向量。

ZhangJiQun&MXP·2025-07-03 14:23

【人工智能】 AI的进化之路：大模型如何重塑技术格局

从早期神经网络到现代大模型的突破，文章分析了关键技术进步，如Transformer架构、预训练机制和分布式计算。结合数学公式和代码示例，详细阐述了大模型的训练原理、优化方法及实际应用场景。文

蒙娜丽宁·2025-07-03 12:32

ReBEL模型的本地部署与运行，用于三元组抽取任务（事件抽取、知识抽取）

建议与CUDA11.7配合）pipinstalltorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu117#安装Transformers

·2025-07-03 09:46

大模型-FlashAttention 算法分析

随着Transformer变得越来越大、越来越深，但它在长序列上仍然处理的很慢、且耗费内存。（自注意力时间和显存复杂度与序列长度成二次方），现有近似注意力方法，

清风lsq·2025-07-03 05:46

大模型学习（Datawhale_Happy-LLM）笔记7: Encoder-Decoder PLM

大模型学习（Datawhale_Happy-LLM）笔记7:Encoder-DecoderPLM1.Encoder-Decoder架构概述1.1架构基础Encoder-DecoderPLM是基于原始Transformer

lxltom·2025-07-02 23:31

SOTA是什么意思？

最近看到一篇关于Transformer模型的论文，谷歌推出的BERT模型在11项NLP（naturallanguageprocessing）任务中夺得SOTA结果，引爆了整个NLP界。

有奇妙能力吗·2025-07-02 21:45

AI人工智能领域深度学习的跨模态检索技术

AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。

AI学长带你学AI·2025-07-02 18:20

Dimba: Transformer-Mamba Diffusion Models————3 Methodology

图解图片中的每个模块详解1.文本输入(Text)描述：输入的文本描述了一个具有具体特征的场景。功能：提供关于要生成图像的详细信息。2.T5模型(TexttoFeature)描述：使用T5模型将文本转换为特征向量。功能：提取文本中的语义信息，为后续的图像生成提供条件。3.图像输入(Image)描述：输入图像通过变分自编码器(VAE)编码器处理。功能：将图像转换为潜在表示，用于添加噪声并进行扩散过程。

·2025-07-02 12:05

从零开始理解Transformer模型：架构与应用

引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。

淮橘√·2025-07-02 11:29

『大模型笔记』KV缓存：Transformer中的内存使用！

『大模型笔记』KV缓存：Transformer中的内存使用！文章目录一.KV缓存：Transformer中的内存使用！

AI大模型前沿研究·2025-07-02 05:46

大语言模型（LLM）笔记

LLM（LargeLanguageModel）是基于Transformer架构构建，并在海量文本语料上训练出的具备自然语言理解和生成能力的深度神经网络模型。

笑衬人心。·2025-07-02 03:59

【Transformer论文】通过蒙面多模态聚类预测学习视听语音表示

文献题目：LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间：2022发表期刊：ICLR摘要语音的视频记录包含相关的音频和视觉信息，为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HuBERT)，这是一种用于视听语音的自我监督表示学习框架

Wwwilling·2025-07-01 13:24

告别GPU焦虑：如何在纯CPU服务器上，打造高性能Embedding服务？

一开始，我们图方便，直接从HuggingFace上拉了当时效果最好的BAAI/bge-m3模型，用transformers库一把梭。结果呢？

ezl1fe·2025-07-01 10:02

当前最好的0样本文本转语音是哪个模型？

MegaTTS3（字节跳动&浙江大学）‌‌核心优势‌：仅需‌3-10秒‌参考音频即可精准克隆音色，支持中英混合语音自然切换1112轻量化设计（0.45B参数），实时生成延迟低于400ms11采用‌DiffusionTransformer

skywalk8163·2025-07-01 05:00

DiNA：扩张邻域注意力 Transformer

摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。

AI专题精讲·2025-06-30 13:44

Java使用documents4j将word和excel转pdf

pom.xml添加documents4j依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3&

药岩·2025-06-30 12:37

DeepSeek：AI驱动的效率革命与实战案例解

一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复

weixin_45788582·2025-06-30 10:52

nlp遇到的问题

1.AttributeError:'CodeGenTokenizer'objecthasnoattribute'encoder'pipinstalltransformers==4.33.22.ImportError

·2025-06-30 04:49

【大模型】Transformer架构完全解读：从“盲人摸象“到“通晓万物“的AI进化论

Transformer架构完全解读：从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章：为什么说Transformer是AI界的"蒸汽机革命"？

全栈追梦人·2025-06-29 23:21

【2024 CVPR-Backbone】RepViT: Revisiting Mobile CNN From ViT Perspective

摘要近期，轻量级视觉Transformer（ViT）在资源受限的移动设备上表现出比轻量级卷积神经网络（CNN）更优异的性能和更低的延迟。

无敌悦悦王·2025-06-29 10:45

使用vllm部署 Nanonets-OCR-s

一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35

没刮胡子·2025-06-28 23:20

LLaMA Factory 微调后，迁移模型

方法1：使用HuggingFaceHub（最推荐）fromtransformersimportAutoModelForCausalLM,AutoTokenizer#在源服务器上保存模型到Hubmodel.push_to_hub

激进小猪1002·2025-06-28 18:17

Transformer底层原理解析及基于pytorch的代码实现

1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。

LiRuiJie·2025-06-28 11:24

大模型笔记10：LoRA微调

Transformer中微调哪些参数：LoRA的改进版本

errorwarn·2025-06-28 09:41

大语言模型(LLM)量化基础知识(一)

随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer

-派神-·2025-06-27 23:42

基于Transformer实现机器翻译

目录一、前言1.1什么是Transformer?

yyyyurina.·2025-06-27 20:17

LLM推理入门实践：基于 Hugging Face Transformers 和 vLLM

文章目录1.HuggingFace模型下载2.HuggingFaceTransformers库模型推理3.关于prompt的组成：system、user、assistant4.vLLM模型推理vLLM的多卡推理踩坑

ctrl A_ctrl C_ctrl V·2025-06-27 17:57

用生活例子讲透Transformer，大模型为何强大

想象一下，你现在是个翻译员，手头有一本厚厚的英文书，要把它翻译成中文。这可不是个轻松活儿！以前的翻译方法（老派翻译官：RNNs）过去，我们的电脑（也就是老模型，比如RNNs）是这样翻译的：就像一个超级认真的翻译官，他会逐字逐句地读英文书。他读到一个英文词时，会琢磨这个词之前讲了什么，以及他到现在为止记住了多少内容，然后才决定怎么翻译。这种方法有两个大毛病：太慢，不能分工合作：就像一个翻译官，他必须

九章云极DataCanvas·2025-06-27 15:13

GRU与Transformer结合：新一代序列模型

GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。

AI大模型应用工坊·2025-06-27 11:48

⼤模型（LLMs）基础⾯

⽬前主流的开源LLM（语⾔模型）模型体系包括以下⼏个：1.GPT（GenerativePre-trainedTransformer）系列：由OpenAI发布的⼀系列基于Transformer架构的语⾔模型

cv2016_DL·2025-06-27 01:04

PD分离与EP分离技术

一、Prefill与Decode的底层原理剖析1.1Prefill阶段的数学本质（以Transformer架构为例）计算密集型的核心原因：#自注意力计算伪代码Q=X@W_Q#[batch,seq_len

静谧之心·2025-06-27 00:33

Java如何导出word(根据模板生成),通过word转成pdf,放压缩包

betaorg.apache.poipoi4.1.2org.apache.poipoi-ooxml4.1.2org.apache.poipoi-scratchpad4.1.2com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-wor

R-sz·2025-06-26 20:31

使用Hugging Face的Sentence Transformers进行文本嵌入

概述HuggingFace的SentenceTransformers是一种用于生成文本和图像嵌入的Python框架，提供了最新的技术。

2501_92325368·2025-06-26 11:34

Kaggle金牌方案复现：CGO-Transformer-GRU多模态融合预测实战

1背景分析在2023年Kaggle"GlobalMultimodalDemandForecastingChallenge"竞赛中，CGO-Transformer-GRU方案以领先第二名1.8个百分点的绝对优势夺冠

·2025-06-26 03:04

LSTM、GRU 与 Transformer网络模型参数计算

hidden_size+hidden_size²+hidden_size)4个门控结构GRU3×(embed_dim×hidden_size+hidden_size²+hidden_size)3个门控结构Transformer

suixinm·2025-06-26 00:44

多头注意力机制中全连接函数

在神经网络（特别是Transformer中的多头注意力机制）中，全连接函数（FullyConnectedLayer,FCLayer）通常指的是一个线性变换层，即nn.Linear在PyTorch中的实现

不知更鸟·2025-06-25 23:05

大语言模型全流程开发技术详解：从架构、训练到对齐与量化

github.com/mlabonne/llm-course大语言模型全流程开发技术详解：从架构、训练到对齐与量化大模型实战指南：多模型生态实战与论文解读一、LLM架构（TheLLMarchitecture）不需要对Transformer

艾墨舟启航·2025-06-25 20:46

预训练语言模型

1.1Encoder-onlyPLMEncoder-only架构是Transformer的重要分支，专注于自然语言理解（NLU）任务，核心代表是BERT及其优化模型（RoBERTa、ALBERT）。

lynnzon·2025-06-25 11:10

大模型学习（Datawhale_Happy-LLM）笔记4: 预训练语言模型

大模型学习（Datawhale_Happy-LLM）笔记4:预训练语言模型一、概述本章按Encoder-Only、Encoder-Decoder、Decoder-Only的顺序来依次介绍Transformer

lxltom·2025-06-25 11:09

推荐频道

Transformer？