E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
attention
Deepseek-R1大模型微调实战技术深度解析
架构特性与微调适配性分析1.1核心架构创新对微调的影响Deepseek-R1基于Deepseek-V3-Base架构,通过MoE(Mixture-of-Experts)与MLA(Multi-HeadLatent
Attention
大势下的牛马
·
2025-03-16 00:14
搭建本地gpt
Deepseek
大模型评测
微调
Transformer动画讲解 - 工作原理
Transformer工作原理四部曲:Embedding(向量化)、
Attention
(注意力机制)、MLPs(多层感知机)和Unembedding(模型输出)。
ghx3110
·
2025-03-15 19:16
transformer
深度学习
人工智能
LLMs之Colossal-LLaMA-2:源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插
解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插件)→数据预处理(初始化分词器+数据处理器+数据加载器)→模型训练(初始化模型/优化器/学习率调度器/梯度检查点/Flash-
Attention
一个处女座的程序猿
·
2025-03-15 18:38
NLP/LLMs
精选(人工智能)-中级
Colossal-AI
LLaMA-2
大语言模型
自然语言处理
scaled_dot_product_
attention
实现逻辑
torch.nn.functional.scaled_dot_product_
attention
(query,key,value,attn_mask=None,dropout_p=0.0,is_causal
凤梧长宜放眼量
·
2025-03-15 17:27
人工智能
深度学习
计算机视觉
模型的秘密武器:利用注意力改善长上下文推理能力
今天,我们就以《
Attention
RevealsMoreThanTokens:Training-FreeLong-ContextReasoningwith
Attention
-guidedRetrieval
步子哥
·
2025-03-15 16:51
人工智能
自然语言处理
深度学习
语言模型
DeepSeek开源:FlashMLA深度解析:Hopper架构上的大模型推理革命
这款专为NVIDIAH800/H100系列优化的MLA(Multi-headLatent
Attention
)解码内核,通过突破性算法设计与硬件协同优化,在可变长度序列处理场景中实现了3000GB/s内存带宽与
花生糖@
·
2025-03-15 03:55
AIGC学习资料库
AI·未来
DeepSeek
实用集
开源
架构
FlashMLA
DeepSeek
技术
AI
AIGC
【大模型学习】第十五章 Transformer技术 看这一篇就足够了
目录一、引言二、Transformer起源背景1.从"健忘症"到"过目不忘"的进化之路三、一个简单的例子让你理解什么是Transformer四、技术要点与底层原理1.自注意力机制(Self-
Attention
好多渔鱼好多
·
2025-03-14 12:46
AI大模型
transformer
深度学习
AI
人工智能
大模型
Self-
Attention
中的 Q / K / V
Self-
Attention
中的Q/K/V没问题!你能继续追问就说明真的在思考了我再用一个更形象、生活化的类比来讲一下Self-
Attention
中的Q/K/V,你一定能懂。
有人给我介绍对象吗
·
2025-03-13 22:42
文献阅读专栏
深度学习
PyTorch深度学习框架60天进阶学习计划 - 第19天:时间序列预测
PyTorch深度学习框架60天进阶学习计划-第19天:时间序列预测目录时间序列预测概述滑动窗口数据构造方法归一化策略对比:MinMaxvsZ-ScoreLSTM基础原理
Attention
机制与LSTM
凡人的AI工具箱
·
2025-03-13 22:11
深度学习
pytorch
学习
人工智能
AI编程
迁移学习
python
论文阅读笔记:Graph Matching Networks for Learning the Similarity of Graph Structured Objects
作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graph
attention
-basedmatchingmechanism),来计算出一对图之间的相似度评分。
游离态GLZ不可能是金融技术宅
·
2025-03-13 01:07
知识图谱
机器学习
深度学习
人工智能
Adobe Firefly 技术浅析(二):Transformer生成模型
其核心是自注意力机制(Self-
Attention
爱研究的小牛
·
2025-03-12 20:32
AIGC——图像
transformer
深度学习
人工智能
AIGC
机器学习
DeepSeek开源第一弹!突破H800性能上限,FlashMLA重磅开源
FlashMLA是一个针对HopperGPU优化的高效MLA(Multi-HeadLatent
Attention
)解码内核,支持变长序列处理,现在已经投入生产使用。
开源项目精选
·
2025-03-12 14:54
人工智能
Transformer 的原理是什么?
解决方案:Transformer是一种基于注意力机制(
Attention
Mechanism)的深度学习架构,最初由Vaswani等人在2017年的论文《
Attention
isAllYouNeed》中提出
玩人工智能的辣条哥
·
2025-03-12 11:08
人工智能
transformer
深度学习
人工智能
在BERT中,如何确定一个标记的重要性
哪些标记通常具有最高的重要性权重调整损失函数或添加额外的监督信号以影响模型对特殊标记的关注度在BERT中,如何确定一个标记的重要性在BERT模型中,确定一个标记的重要性可以通过以下几种方式:注意力权重(
Attention
Weights
一只天蝎
·
2025-03-12 10:55
大模型
编程语言---Python
bert
人工智能
自然语言处理
LLM大模型技术实战4:热门开源LLMs对比和选型
1.1主要特点架构特点LLM主要基于Transformer架构,Transformer通过自注意力机制(Self-
Attention
)
大模型学习教程
·
2025-03-12 08:44
机器学习
开源
人工智能
职场和发展
【每日论文】Forgetting Transformer: Softmax
Attention
with a Forget Gate
下载PDF或查看论文,请点击:LlamaFactory-huggingfacedailypaper-每日论文解读|LlamaFactory|LlamaFactory摘要现代循环序列模型的一个关键组件是遗忘门。虽然Transformer没有显式的循环形式,但我们展示了一种通过以数据依赖的方式降低未归一化注意力分数的自然方法,将遗忘门融入Transformer。我们称这种注意力机制为“遗忘注意力”,并
WHATEVER_LEO
·
2025-03-12 08:12
每日论文
transformer
深度学习
人工智能
自然语言处理
计算机视觉
语言模型
仅仅使用pytorch来手撕transformer架构(4):解码器和解码器模块类的实现和向前传播
来手撕transformer架构(1):位置编码的类的实现和向前传播最适合小白入门的Transformer介绍仅仅使用pytorch来手撕transformer架构(2):多头注意力MultiHead
Attention
KangkangLoveNLP
·
2025-03-11 17:07
手撕系列
#transformer
pytorch
transformer
人工智能
深度学习
python
机器学习
Towards Multimodal Large-Language Models for Parent-Child Interaction: A Focus on Joint
Attention
摘要共同注意是儿童早期语言发展的关键组成部分,也是亲子互动有效性的重要指标。然而,目前对共同注意的检测和分析研究仍然有限,尤其是在多模态大语言模型(MLLMs)方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频,评估了多模态大语言模型理解共同注意的能力。这些标注识别出了共同注意程度高和低的片段,作为评估模型解释能力的基准。我们的研究结果显示,由于当前的多模态大语言模型对儿童发起的眼神交
UnknownBody
·
2025-03-11 14:41
LLM
Daily
Multimodal
语言模型
人工智能
大数据
基于双向长短期记忆神经网络结合多头注意力机制(BiLSTM-Multihead-
Attention
)的单变量时序预测
目录1、代码简介2、代码运行结果展示3、代码获取1、代码简介基于双向长短期记忆神经网络结合多头注意力机制(BiLSTM-Multihead-
Attention
)的单变量时序预测(单输入单输出)1.程序已经调试好
机器学习和优化算法
·
2025-03-11 03:42
多头注意力机制
深度学习
神经网络
人工智能
机器学习
单变量时序预测
BiLSTM
多头注意力机制
LLM论文笔记 20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning
推理的功能组件尽管不同阶段的推理任务具有不同的推理需求,模型内部的功能组件几乎是相同的(共享而非独享)不同的神经算法实际上是由类似归纳头(inductionheads)等机制组合而成2.注意力机制中的信息流动
attention
heads
Zhouqi_Hua
·
2025-03-11 03:10
大模型论文阅读
人工智能
chatgpt
论文阅读
机器学习
深度学习
语言模型
Google力作 | Infini-
attention
无限长序列处理Transformer
更多文章,请关注微信公众号:NLP分享汇原文链接:Google力作|Infini-
attention
无限长序列处理Transformerhttps://mp.weixin.qq.com/s?
NLP分享汇
·
2025-03-10 23:46
transformer
深度学习
vllm多卡部署Qwen2.5-72B-Instruct-GPTQ-Int4
双卡v10032G部署结果如下,推理时长16s3卡,tensor_parallel_size=3,tensor并行的数量一定要能被
attention
heads整除4卡,tensor_parallel_size
Yanc_L
·
2025-03-10 20:54
人工智能
【Transformer优化】Transformer的局限在哪?
一、全局注意力的"诅咒":从**O(n²)**到O(n³)的计算困境自注意力机制的数学表达式:
Attention
(Q,K,V)=softmax(QK⊤dk)V\text{
T-I-M
·
2025-03-10 04:26
transformer
深度学习
人工智能
(ECCV2018)CBAM改进思路
论文链接:https://arxiv.org/abs/1807.06521论文题目:CBAM:ConvolutionalBlock
Attention
Module会议:ECCV2018论文方法利用特征的通道间关系生成了一个通道注意图
这张生成的图像能检测吗
·
2025-03-09 19:12
即插即用模块+改进思路
深度学习
人工智能
计算机视觉
机器学习
图像处理
神经网络
论文笔记
基于CNN-BIGRU-
Attention
模型的功率预测(模型详解及代码复现)
整体架构基于CNN-BiGRU-
Attention
模型的功率预测模型是一种融合了卷积神经网络(CNN)、双向门控循环单元(BiGRU)和注意力机制(
Attention
)的深度学习架构。
清风AI
·
2025-03-09 18:59
深度学习算法详解及代码复现
深度学习
人工智能
算法
机器学习
计算机视觉
cnn
神经网络
DeepSeek R1-32B医疗大模型的完整微调实战分析(全码版)
│└─LoRA微调:单卡24GB│├──1.2软件依赖││├─PyTorch2.1.2+CUDA││└─Unsloth/ColossalAI│└──1.3模型加载│├─4bit量化加载│└─Flash
Attention
2
Allen_LVyingbo
·
2025-03-09 11:33
医疗高效编程研发
健康医疗
人工智能
python
2025最新Transformer模型及深度学习前沿技术应用
第一章、注意力(
Attention
)机制1、注意力机制的背景和动机(为什么需要注意力机制?注意力机制的起源和发展里程碑)。2、注意力机制的基本原理(什么是注意力机制?
weixin_贾
·
2025-03-09 06:35
Python
MATLAB
python
深度学习
MATLAB编程
深度学习模型
图神经网络
自编码
物理信息神经网络
目标检测
大语言模型
ResNet 改进:轻量级的混合本地信道注意机制MLCA
目录1.MLCA注意力机制2.改进位置3.完整代码Tips:融入模块后的网络经过测试,可以直接使用,设置好输入和输出的图片维度即可1.MLCA注意力机制MLCA(MixedLocalChannel
Attention
听风吹等浪起
·
2025-03-08 06:29
AI
改进系列
深度学习
opencv
计算机视觉
(二)使用Pandas进行数据分析 - 查询数据的几种方法
列的数字位置查询df.where方法df.query方法Pandas使用df.loc查询数据的方法使用单个label值查询数据使用值列表批量查询数据使用数值区间进行范围查询使用条件表达式查询调用函数查询
Attention
数据人章同学
·
2025-03-07 17:09
数据分析
数据挖掘
机器学习
人工智能基础知识
二:自然语言处理nlp(语音识别)处理(文本)方面解决(说和听的问题),RNN,LSTM,
attention
,transformer(基于规则的翻译,超越普通
yzx991013
·
2025-03-07 16:24
人工智能
大模型入门
Transformer架构的持续演进体现在位置编码改进(如RoPE旋转位置编码)、注意力机制优化(Flash
Attention
算法提升30%训练速度)以及层级结构创新(深度
24k小善
·
2025-03-06 17:05
AI编程
AI写作
prompt
Transformer 代码剖析15 - Transformer模型代码 (pytorch实现)
TransformerEncoderDecoderMulti-Head
Attention
FeedForwardMaskedMulti-HeadAtten
lczdyx
·
2025-03-06 01:51
Transformer代码剖析
transformer
pytorch
深度学习
embedding
人工智能
python
详解DeepSeek模型底层原理及和ChatGPT区别点
它的核心是自注意力机制(Self-
Attention
),这个机制允许模型在处理输入序列时,关注序列中不同位置的信息。例如,在处理句子“Thecatchasedthemouse”时,自注意力机制
瞬间动力
·
2025-03-06 01:16
语言模型
机器学习
AI编程
云计算
阿里云
Transformer架构简略:DeepSeek 的底层基石
2017年,一篇名为《
Attention
isAllYouNeed》的论文横空出世,提出了Transformer架构,彻底改变了自然语言处理(NLP)领域的格局。
windwant
·
2025-03-05 14:16
人工智能
人工智能
transformer
架构
图像处理中注意力机制的解析与代码详解
1.注意力机制的原理注意力机制(
Attention
Mechanism)是一种模拟人类视觉系统的机制,它使模型能够聚焦于图像的关键部分,从而提升图像处理任务的性能。
业余小程序猿
·
2025-03-05 10:08
笔记
flash-attn安装失败解决方案
前言我们在使用大语言模型时,很多开源项目通常需要安装flash-
attention
2,但是使用pip在线安装flash-
attention
2时会遇到安装失败的情况,这时我们可以通过下载符合本地环境的whl
你在康什么
·
2025-03-05 09:34
ai
语言模型
AAAI 2024 | Attentive Eraser:通过自注意力重定向引导释放扩散模型的物体移除潜力
论文信息题目:AttentiveEraser:UnleashingDiffusionModel’sObjectRemovalPotentialviaSelf-
Attention
RedirectionGuidanceAttentiveEraser
小白学视觉
·
2025-03-05 06:14
计算机顶会论文解读
人工智能
计算机视觉
AAAI
论文解读
计算机顶会
深入理解 Transformer:用途、原理和示例
深入理解Transformer:用途、原理和示例一、Transformer是什么Transformer是一种基于注意力机制(
Attention
Mechanism)的深度学习架构,在2017年的论文“
Attention
IsAllYouNeed
范吉民(DY Young)
·
2025-03-05 01:55
简单AI学习
transformer
深度学习
人工智能
AttnGAN: Fine-Grained Text to Image Generation with
Attention
al Generative Adversarial Networks
《AttnGAN:Fine-GrainedTexttoImageGenerationwith
Attention
alGenerativeAdversarialNetworks》是CVPR2018文本生成图像的文章
EwanRenton
·
2025-03-04 10:31
DL
paper
AttnGAN
text2img
CVPR
2018
DAMSM
神经网络之CNN文本识别
1.参考我的第一篇文章了解CNN概念神经网络之CNN图像识别(torchapi调用)-CSDN博客2.框架目前对NLP的研究分析应用最多的就是RNN系列的框架,比如RNN,GRU,LSTM等等,再加上
Attention
邪恶的贝利亚
·
2025-03-04 05:56
神经网络
cnn
人工智能
【深度学习】Hopfield网络:模拟联想记忆
为了解决这一问题,研究者们提出了多种优化方法,其中稀疏注意力(Sparse
Attention
)是一种备
T-I-M
·
2025-03-03 22:32
深度学习
人工智能
大语言模型技术专栏(三):
Attention
机制——从RNN到Transformer的惊世一跃!
文章目录概要一、
Attention
机制:让AI学会「划重点」二、
Attention
机制的核心原理三、Self-
Attention
:Transformer的核心四、代码实战:用PyTorch实现
Attention
北海yy
·
2025-03-02 22:53
大语言模型技术专栏
语言模型
rnn
transformer
【vLLM 学习】使用 Neuron 安装
目前NeuronSDK不支持分页注意力(Paged
Attention
),但Transforme
HyperAI超神经
·
2025-03-01 14:47
vLLM
vLLM
开源
人工智能
深度学习
源代码
GPU
机器学习
Transformer 代码剖析1 - 数据处理 (pytorch实现)
引言Transformer架构自《
Attention
IsAllYouNeed》论文发表以来,在自然语言处理领域引起了巨大的变革。
lczdyx
·
2025-03-01 06:18
Transformer代码剖析
人工智能
transformer
深度学习
pytorch
python
DeepSeek技术全景解析:架构创新与行业差异化竞争力
一、DeepSeek技术体系的核心突破架构设计:效率与性能的双重革新Multi-headLatent
Attention
(MLA):通过将注意力头维度与隐藏层解耦,实现显存占用降低30%的同时支持4096
二进制coder
·
2025-03-01 01:40
人工智能
架构
AGI
AI
Transformer 代码剖析4 - 编码器层实现 (pytorch实现)
__init__()self.
attention
=MultiHead
Attention
(d_model=d_model,n_hea
lczdyx
·
2025-02-28 22:46
Transformer代码剖析
transformer
pytorch
深度学习
人工智能
python
论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process
网络结构采用MaskedMulti-head
Attention
关联不同模态,使用DiT的backbone。
寻丶幽风
·
2025-02-28 21:15
论文阅读笔记
论文阅读
笔记
人工智能
【llm对话系统】大模型源码分析之 LLaMA 模型的 Masked
Attention
在大型语言模型(LLM)中,注意力机制(
Attention
Mechanism)是核心组成部分。
kakaZhui
·
2025-02-28 20:03
llama
人工智能
AIGC
chatgpt
python
【有啥问啥】深入了解 FlashMLA:Hopper GPU 的高效 MLA 解码内核
为了应对这些挑战,DeepSeek推出了FlashMLA,这是一种专为NVIDIAHopperGPU架构优化的高效MLA(Multi-Layer
Attention
)解码内核。
有啥问啥
·
2025-02-28 09:12
大模型
行业调研
科普
算法
语言模型
每日
Attention
学习23——KAN-Block
模块出处[SPL25][link][code]KANSeeIntheDark模块名称Kolmogorov-ArnoldNetworkBlock(KAN-Block)模块作用用于vision的KAN结构模块结构模块代码importtorchimporttorch.nnasnnimporttorch.nn.functionalasFimportmathclassSwish(nn.Module):def
xiongxyowo
·
2025-02-27 23:19
划水
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他