attention 第6页

Deepseek-R1大模型微调实战技术深度解析

架构特性与微调适配性分析1.1核心架构创新对微调的影响Deepseek-R1基于Deepseek-V3-Base架构，通过MoE（Mixture-of-Experts）与MLA（Multi-HeadLatentAttention

大势下的牛马·2025-03-16 00:14

Transformer动画讲解 - 工作原理

Transformer工作原理四部曲：Embedding（向量化）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（模型输出）。

ghx3110·2025-03-15 19:16

LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插

解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插件)→数据预处理(初始化分词器+数据处理器+数据加载器)→模型训练(初始化模型/优化器/学习率调度器/梯度检查点/Flash-Attention

一个处女座的程序猿·2025-03-15 18:38

scaled_dot_product_attention实现逻辑

torch.nn.functional.scaled_dot_product_attention(query,key,value,attn_mask=None,dropout_p=0.0,is_causal

凤梧长宜放眼量·2025-03-15 17:27

模型的秘密武器：利用注意力改善长上下文推理能力

今天，我们就以《AttentionRevealsMoreThanTokens:Training-FreeLong-ContextReasoningwithAttention-guidedRetrieval

步子哥·2025-03-15 16:51

DeepSeek开源：FlashMLA深度解析：Hopper架构上的大模型推理革命

这款专为NVIDIAH800/H100系列优化的MLA（Multi-headLatentAttention）解码内核，通过突破性算法设计与硬件协同优化，在可变长度序列处理场景中实现了3000GB/s内存带宽与

花生糖@·2025-03-15 03:55

【大模型学习】第十五章 Transformer技术看这一篇就足够了

目录一、引言二、Transformer起源背景1.从"健忘症"到"过目不忘"的进化之路三、一个简单的例子让你理解什么是Transformer四、技术要点与底层原理1.自注意力机制（Self-Attention

好多渔鱼好多·2025-03-14 12:46

Self-Attention 中的 Q / K / V

Self-Attention中的Q/K/V没问题！你能继续追问就说明真的在思考了我再用一个更形象、生活化的类比来讲一下Self-Attention中的Q/K/V，你一定能懂。

有人给我介绍对象吗·2025-03-13 22:42

PyTorch深度学习框架60天进阶学习计划 - 第19天：时间序列预测

PyTorch深度学习框架60天进阶学习计划-第19天：时间序列预测目录时间序列预测概述滑动窗口数据构造方法归一化策略对比：MinMaxvsZ-ScoreLSTM基础原理Attention机制与LSTM

凡人的AI工具箱·2025-03-13 22:11

论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects

作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。

游离态GLZ不可能是金融技术宅·2025-03-13 01:07

Adobe Firefly 技术浅析（二）：Transformer生成模型

其核心是自注意力机制（Self-Attention

爱研究的小牛·2025-03-12 20:32

DeepSeek开源第一弹！突破H800性能上限，FlashMLA重磅开源

FlashMLA是一个针对HopperGPU优化的高效MLA（Multi-HeadLatentAttention）解码内核，支持变长序列处理，现在已经投入生产使用。

开源项目精选·2025-03-12 14:54

Transformer 的原理是什么？

解决方案：Transformer是一种基于注意力机制（AttentionMechanism）的深度学习架构，最初由Vaswani等人在2017年的论文《AttentionisAllYouNeed》中提出

玩人工智能的辣条哥·2025-03-12 11:08

在BERT中，如何确定一个标记的重要性

哪些标记通常具有最高的重要性权重调整损失函数或添加额外的监督信号以影响模型对特殊标记的关注度在BERT中，如何确定一个标记的重要性在BERT模型中，确定一个标记的重要性可以通过以下几种方式：注意力权重（AttentionWeights

一只天蝎·2025-03-12 10:55

LLM大模型技术实战4：热门开源LLMs对比和选型

1.1主要特点架构特点LLM主要基于Transformer架构，Transformer通过自注意力机制（Self-Attention）

大模型学习教程·2025-03-12 08:44

【每日论文】Forgetting Transformer: Softmax Attention with a Forget Gate

下载PDF或查看论文，请点击：LlamaFactory-huggingfacedailypaper-每日论文解读|LlamaFactory|LlamaFactory摘要现代循环序列模型的一个关键组件是遗忘门。虽然Transformer没有显式的循环形式，但我们展示了一种通过以数据依赖的方式降低未归一化注意力分数的自然方法，将遗忘门融入Transformer。我们称这种注意力机制为“遗忘注意力”，并

WHATEVER_LEO·2025-03-12 08:12

仅仅使用pytorch来手撕transformer架构(4)：解码器和解码器模块类的实现和向前传播

来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的Transformer介绍仅仅使用pytorch来手撕transformer架构(2)：多头注意力MultiHeadAttention

KangkangLoveNLP·2025-03-11 17:07

Towards Multimodal Large-Language Models for Parent-Child Interaction: A Focus on Joint Attention

摘要共同注意是儿童早期语言发展的关键组成部分，也是亲子互动有效性的重要指标。然而，目前对共同注意的检测和分析研究仍然有限，尤其是在多模态大语言模型（MLLMs）方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频，评估了多模态大语言模型理解共同注意的能力。这些标注识别出了共同注意程度高和低的片段，作为评估模型解释能力的基准。我们的研究结果显示，由于当前的多模态大语言模型对儿童发起的眼神交

UnknownBody·2025-03-11 14:41

基于双向长短期记忆神经网络结合多头注意力机制(BiLSTM-Multihead-Attention)的单变量时序预测

目录1、代码简介2、代码运行结果展示3、代码获取1、代码简介基于双向长短期记忆神经网络结合多头注意力机制(BiLSTM-Multihead-Attention)的单变量时序预测(单输入单输出)1.程序已经调试好

机器学习和优化算法·2025-03-11 03:42

LLM论文笔记 20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning

推理的功能组件尽管不同阶段的推理任务具有不同的推理需求，模型内部的功能组件几乎是相同的（共享而非独享）不同的神经算法实际上是由类似归纳头（inductionheads）等机制组合而成2.注意力机制中的信息流动attentionheads

Zhouqi_Hua·2025-03-11 03:10

Google力作 | Infini-attention无限长序列处理Transformer

NLP分享汇·2025-03-10 23:46

vllm多卡部署Qwen2.5-72B-Instruct-GPTQ-Int4

双卡v10032G部署结果如下，推理时长16s3卡，tensor_parallel_size=3，tensor并行的数量一定要能被attentionheads整除4卡，tensor_parallel_size

Yanc_L·2025-03-10 20:54

【Transformer优化】Transformer的局限在哪？

一、全局注意力的"诅咒"：从**O(n²)**到O(n³)的计算困境自注意力机制的数学表达式：Attention(Q,K,V)=softmax(QK⊤dk)V\text{

T-I-M·2025-03-10 04:26

（ECCV2018）CBAM改进思路

论文链接：https://arxiv.org/abs/1807.06521论文题目：CBAM:ConvolutionalBlockAttentionModule会议：ECCV2018论文方法利用特征的通道间关系生成了一个通道注意图

这张生成的图像能检测吗·2025-03-09 19:12

基于CNN-BIGRU-Attention模型的功率预测（模型详解及代码复现）

整体架构基于CNN-BiGRU-Attention模型的功率预测模型是一种融合了卷积神经网络(CNN)、双向门控循环单元(BiGRU)和注意力机制(Attention)的深度学习架构。

清风AI·2025-03-09 18:59

DeepSeek R1-32B医疗大模型的完整微调实战分析（全码版）

│└─LoRA微调：单卡24GB│├──1.2软件依赖││├─PyTorch2.1.2+CUDA││└─Unsloth/ColossalAI│└──1.3模型加载│├─4bit量化加载│└─FlashAttention2

Allen_LVyingbo·2025-03-09 11:33

2025最新Transformer模型及深度学习前沿技术应用

第一章、注意力（Attention）机制1、注意力机制的背景和动机（为什么需要注意力机制？注意力机制的起源和发展里程碑）。2、注意力机制的基本原理（什么是注意力机制？

weixin_贾·2025-03-09 06:35

ResNet 改进：轻量级的混合本地信道注意机制MLCA

目录1.MLCA注意力机制2.改进位置3.完整代码Tips：融入模块后的网络经过测试，可以直接使用，设置好输入和输出的图片维度即可1.MLCA注意力机制MLCA（MixedLocalChannelAttention

听风吹等浪起·2025-03-08 06:29

(二)使用Pandas进行数据分析 - 查询数据的几种方法

列的数字位置查询df.where方法df.query方法Pandas使用df.loc查询数据的方法使用单个label值查询数据使用值列表批量查询数据使用数值区间进行范围查询使用条件表达式查询调用函数查询Attention

数据人章同学·2025-03-07 17:09

人工智能基础知识

二：自然语言处理nlp（语音识别）处理（文本）方面解决（说和听的问题），RNN，LSTM，attention，transformer（基于规则的翻译，超越普通

yzx991013·2025-03-07 16:24

大模型入门

Transformer架构的持续演进体现在位置编码改进（如RoPE旋转位置编码）、注意力机制优化（FlashAttention算法提升30%训练速度）以及层级结构创新（深度

24k小善·2025-03-06 17:05

Transformer 代码剖析15 - Transformer模型代码（pytorch实现）

TransformerEncoderDecoderMulti-HeadAttentionFeedForwardMaskedMulti-HeadAtten

lczdyx·2025-03-06 01:51

详解DeepSeek模型底层原理及和ChatGPT区别点

它的核心是自注意力机制（Self-Attention），这个机制允许模型在处理输入序列时，关注序列中不同位置的信息。例如，在处理句子“Thecatchasedthemouse”时，自注意力机制

瞬间动力·2025-03-06 01:16

Transformer架构简略：DeepSeek 的底层基石

2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer架构，彻底改变了自然语言处理（NLP）领域的格局。

windwant·2025-03-05 14:16

图像处理中注意力机制的解析与代码详解

1.注意力机制的原理注意力机制（AttentionMechanism）是一种模拟人类视觉系统的机制，它使模型能够聚焦于图像的关键部分，从而提升图像处理任务的性能。

业余小程序猿·2025-03-05 10:08

flash-attn安装失败解决方案

前言我们在使用大语言模型时，很多开源项目通常需要安装flash-attention2，但是使用pip在线安装flash-attention2时会遇到安装失败的情况，这时我们可以通过下载符合本地环境的whl

你在康什么·2025-03-05 09:34

AAAI 2024 | Attentive Eraser：通过自注意力重定向引导释放扩散模型的物体移除潜力

论文信息题目：AttentiveEraser:UnleashingDiffusionModel’sObjectRemovalPotentialviaSelf-AttentionRedirectionGuidanceAttentiveEraser

小白学视觉·2025-03-05 06:14

深入理解 Transformer：用途、原理和示例

深入理解Transformer：用途、原理和示例一、Transformer是什么Transformer是一种基于注意力机制（AttentionMechanism）的深度学习架构，在2017年的论文“AttentionIsAllYouNeed

范吉民(DY Young)·2025-03-05 01:55

AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks

《AttnGAN:Fine-GrainedTexttoImageGenerationwithAttentionalGenerativeAdversarialNetworks》是CVPR2018文本生成图像的文章

EwanRenton·2025-03-04 10:31

神经网络之CNN文本识别

1.参考我的第一篇文章了解CNN概念神经网络之CNN图像识别(torchapi调用)-CSDN博客2.框架目前对NLP的研究分析应用最多的就是RNN系列的框架，比如RNN,GRU,LSTM等等，再加上Attention

邪恶的贝利亚·2025-03-04 05:56

【深度学习】Hopfield网络：模拟联想记忆

为了解决这一问题，研究者们提出了多种优化方法，其中稀疏注意力（SparseAttention）是一种备

T-I-M·2025-03-03 22:32

大语言模型技术专栏（三）：Attention机制——从RNN到Transformer的惊世一跃！

文章目录概要一、Attention机制：让AI学会「划重点」二、Attention机制的核心原理三、Self-Attention：Transformer的核心四、代码实战：用PyTorch实现Attention

北海yy·2025-03-02 22:53

【vLLM 学习】使用 Neuron 安装

目前NeuronSDK不支持分页注意力(PagedAttention)，但Transforme

HyperAI超神经·2025-03-01 14:47

Transformer 代码剖析1 - 数据处理（pytorch实现）

引言Transformer架构自《AttentionIsAllYouNeed》论文发表以来，在自然语言处理领域引起了巨大的变革。

lczdyx·2025-03-01 06:18

DeepSeek技术全景解析：架构创新与行业差异化竞争力

一、DeepSeek技术体系的核心突破架构设计：效率与性能的双重革新Multi-headLatentAttention(MLA)：通过将注意力头维度与隐藏层解耦，实现显存占用降低30%的同时支持4096

二进制coder·2025-03-01 01:40

Transformer 代码剖析4 - 编码器层实现（pytorch实现）

__init__()self.attention=MultiHeadAttention(d_model=d_model,n_hea

lczdyx·2025-02-28 22:46

论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process

网络结构采用MaskedMulti-headAttention关联不同模态，使用DiT的backbone。

寻丶幽风·2025-02-28 21:15

【llm对话系统】大模型源码分析之 LLaMA 模型的 Masked Attention

在大型语言模型（LLM）中，注意力机制（AttentionMechanism）是核心组成部分。

kakaZhui·2025-02-28 20:03

【有啥问啥】深入了解 FlashMLA：Hopper GPU 的高效 MLA 解码内核

为了应对这些挑战，DeepSeek推出了FlashMLA，这是一种专为NVIDIAHopperGPU架构优化的高效MLA(Multi-LayerAttention)解码内核。

有啥问啥·2025-02-28 09:12

每日Attention学习23——KAN-Block

模块出处[SPL25][link][code]KANSeeIntheDark模块名称Kolmogorov-ArnoldNetworkBlock(KAN-Block)模块作用用于vision的KAN结构模块结构模块代码importtorchimporttorch.nnasnnimporttorch.nn.functionalasFimportmathclassSwish(nn.Module):def

xiongxyowo·2025-02-27 23:19

推荐频道

attention