-Attention

深度学习-13-小语言模型之SmolLM的使用

文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask

皮皮冰燃·2024-09-15 10:48

vllm在线推理踩坑记

懂点投资的码农·2024-09-14 12:14

大模型框架：vLLM

它利用了全新的注意力算法「PagedAttention」，提供易用、快速、便宜的LLM服务。二、安装vLLM2.1使用GPU进行安装vLLM是一个Py

m0_37559973·2024-09-14 11:41

思考：怎样让自己每天都精力充沛

让自己方向坚定，精力充沛的能量法则：Habit习惯能量的倍增Energy精力，能量的来源Attention注意力，能量的转化Target目标，能量的积累这是读张家瑞老师的《能量法则》最重要的四句话。

廷伟·2024-09-13 22:45

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.25-2024.08.01

文章目录～1.PayingMoreAttentiontoImage:ATraining-FreeMethodforAlleviatingHallucinationinLVLMs2.MTA-CLIP:Language-GuidedSemanticSegmentationwithMask-TextAlignment3

小小帅AIGC·2024-09-12 06:37

大模型LLM面试常见算法题-包括Attention和Transformer常见面试题

大模型：位置编码有哪些？介绍LoRA与QLoRARAG和微调的区别是什么？哪些因素会导致LLM的偏见？什么是思维链（CoT）提示？Tokenizer的实现方法及原理解释一下大模型的涌现能力？解释langchainAgent的概念langchain有哪些替代方案？RLHF完整训练过程是什么？为什么RLHF的效果这么好?RLHF使用的训练数据是什么样的?RAG和微调的区别是什么？有了解过什么是稀疏微调

剑圣土豆·2024-09-10 15:57

Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用

它引入了注意力机制（Self-Attention）

Funhpc_huachen·2024-09-08 17:38

大模型推理框架 RTP-LLM 架构解析

RTP-LLM与当前广泛使用的多种主流模型兼容，使用高性能的CUDAkernel,包括PagedAttention、FlashAttention、FlashDecoding等，支持多模态、LoRA、P-Tuning

阿里技术·2024-09-07 23:32

Transformer+目标检测，这一篇入门就够了

VisionTransformerforObjectDetection本文作者：Encoder-Decoder简介：Encoder-Decoder的缺陷：Attention机制：Self-Attention

BIT可达鸭·2024-09-07 21:19

GLM-4 (1) - 推理+概览

系列文章目录GLM-4(1)-推理+概览GLM-4(2)-RoPEGLM-4(3)-GLMBlockGLM-4(4)-SelfAttentionGLM-4(5)-API&FunctionCallingGLM

戴昊光·2024-09-07 02:38

昇腾Ascend C算子开发学习笔记

FlashAttention类，MOEFFN类NN算子库：NN（Neu

回到唐朝当王爷·2024-09-06 06:21

【笔记】Encoder-Decoder模型

Encoder-DecoderFrameworkEncoder-DecoderEncoderDecoderDecoderwithAttention参考Encoder-DecoderEncoder输入:X

808130260·2024-09-05 19:42

6、关于Medical-Transformer

6、关于Medical-TransformerAxial-Attention原文链接：Axial-attentionMedical-Transformer原文链接：Medical-TransformerMedical-Transformer

安逸sgr·2024-09-05 14:05

Image Super-Resolution with Cross-Scale Non-Local Attention and Exhaustive Self-Exemplars Mining

Cross-ScaleNon-Local(CS-NL)Attention文中最重要的跨尺度非局部模块就是公式(4)，这里内积通过滤波实现，图中的Deconvolution实际上是转置卷积，解卷积和转置卷积是完全不同的概念

phoenix@Capricornus·2024-09-05 08:54

2单元复盘

Part11，从本单元中我学到的最重要的理念精读Weshouldpayattentiontosafety2，我在本片文章／音频／视频中学到的怦然心动的单词textAtextB3，在本片文章／音频／视频中我最喜欢的一句话

黄静怡·2024-09-04 05:25

[论文笔记] LLM模型剪枝

AttentionIsAllYouNeedButYouDon’tNeedAllOfItForInferenceofLargeLanguageModelsLLaMA2在剪枝时，跳过ffn和跳过fulllayer

心心喵·2024-09-03 08:53

图神经网络实战（18）——消息传播神经网络

框架小结系列链接0.前言我们已经学习了多种图神经网络(GraphNeuralNetworks,GNN)变体，包括图卷积网络(GraphConvolutionalNetwork,GCN)、图注意力网络(GraphAttentionNetworks

盼小辉丶·2024-09-02 05:06

Transformer面试真题详解——覆盖99%的Transformer面试问题（建议收藏）

文章目录1.请简述一下Transformer的基本结构和原理2.Transformer为什么使用多头注意力机制3.Transformer计算attention为什么选择点乘而不是加法？

爱睡觉的咋·2024-09-02 05:34

095.Pay close attention to the bottom right corner

095、Paycloseattentiontothebottomrightcorner仔细看右下角Paycloseattentiontotheblackboard!

飞帅记忆·2024-09-01 23:16

【HuggingFace Transformers】BertIntermediate 和 BertPooler源码解析

源码解析2.1BertIntermediate源码解析2.2BertPooler源码解析1.介绍1.1位置与功能(1)BertIntermediate位置：位于BertLayer的注意力层（BertSelfAttention

CS_木成河·2024-09-01 17:25

unet各模块内容的理解（包含注意力机制、残差、以及数据维度的变化）

文章目录attention机制Unet的各个模块的设计①残差块②下块做一次残差，做一次自注意力③上块：这里做了skipconnect，做一次残差，做一次注意力④中块：做两次残差和一次自注意力⑤上采样：通道数不变

云梦之上·2024-09-01 13:57

2019-09-23 A lovable eccentric

Trueeccentricsneverdeliberatelysetouttodrawattentiontothemselves.Theydisregardsocialconventionswithoutbeingconsciousthattheyaredoinganythingextraordinary.Thisinvariablywinsthemtheloveandrespectofother

RoadToGood·2024-08-31 23:58

自己设计一个Transformer模型

Transformer模型在2017年被Google提出，直接基于self-attention结构，不再依赖于RNN、LSTM或者CNN，是一种Seg2Seg模型。

郑不凡·2024-08-31 13:23

MasaCtrl:Tuning-free mutual self-attention control for consistent image synthesis and editing

https://github.com/TencentARC/MasaCtrl/issues/13https://github.com/TencentARC/MasaCtrl/issues/13QuestionaboutMask·Issue#31·TencentARC/MasaCtrl·GitHub

Kun Li·2024-08-30 21:38

「Apollo」直接在docker内部安装miniconda失败

ATTENTION:因为公司原因，该条blog展示的解决方法可能仅适用于本人，作为debug记录背景安装失败的步骤：从conda官网下载了安装conda的sh文件Miniconda3-py37_4.11.0

Liiipseoroinis·2024-08-30 08:45

YOLOv10改进 | 独家创新- 注意力篇 | YOLOv10引入结合EMAttention和ParNetAttention形成全新的EPA注意力机制和C2f_EPA(全网独家创新)

1.EPAAttention介绍EPAAttention注意力机制综合了EMAttention和ParNetAttention的优势，能够更有效地提取图像特征。

小李学AI·2024-08-30 05:54

爆改yolov8|利用BSAM改进YOLOv8，高效涨点

BSAM（BiLevelSpatialAttentionModule）是一个用于提升深度学习模型在空间特征处理中的能力的模块。它主要通过双层注意力机制来增强模型对重要空间信息的关注，从而提升任务性能。

不想敲代码！！！·2024-08-29 22:37

爆改YOLOv8 | yolov8添加GAM注意力机制

1，本文介绍GAM（GlobalAttentionMechanism）旨在改进传统注意力机制的不足，特别是在通道和空间维度上的信息保留问题。它通过顺序的通道-空间注意力机制来解决这些问题。

不想敲代码！！！·2024-08-29 22:36

[从0开始AIGC][LLM]：Pre-Norm or Post-Norm？训练效率还是训练效果？

Pre-NormorPost-NormPre-NormorPost-Norm1.什么是Pre-Norm和Post-Norm2.为什么Pre-Norm比Post-Norm易于训练2.1Transformer：Attentionisallyourneed-PostNorm2.2Pre-Norm

Way_X·2024-08-29 05:42

基于霜冰优化算法(RIME)优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）

本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、技术概述1.霜冰优化算法（RIME）2.卷积神经网络（CNN）3.双向门控循环单元（BiGRU）4.注意力机制（AttentionMechanism

程序辅导帮·2024-08-28 23:57

语音识别技能汇总

语音识别技能汇总常见问题汇总importwarningswarnings.filterwarnings('ignore')基础知识Attention-注意力机制原理：人在说话的时候或者读取文字的时候，是根据某个关键字或者多个关键字来判断某些句子或者说话内容的含义的

语音不识别·2024-08-28 14:25

【LSTM回归预测】遗传算法优化注意力机制的长短时记忆神经网络GA-attention-LSTM数据回归预测【含Matlab源码 3738期】

⛄一、遗传算法优化注意力机制的长短时记忆神经网络GA-attention-LSTM数据回归预测风力发电是一种清洁能源，越来越受到人们的关注和重视。

Matlab领域·2024-08-28 02:46

老友记第六季（第19集）

1.Mumble：含糊的话；咕噜；喃喃自语Monica:DoesRalphmumblewhenyou’renotpayingattention?是不是拉夫每次都是在你没有专注的时候喃喃自语？（瑞

小神2·2024-08-27 23:08

基于灰狼优化算法(GWO)优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）

本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、算法原理与模型构建1.灰狼优化算法(GWO)2.CNN-BiGRU-Attention模型3.GWO优化CNN-BiGRU-Attention模型三

qq_551705769·2024-08-27 14:27

时序预测|基于变分模态分解-时域卷积-双向长短期记忆-注意力机制多变量时间序列预测VMD-TCN-BiLSTM-Attention

时序预测|基于变分模态分解-时域卷积-双向长短期记忆-注意力机制多变量时间序列预测VMD-TCN-BiLSTM-Attention文章目录前言时序预测|基于变分模态分解-时域卷积-双向长短期记忆-注意力机制多变量时间序列预测

机器不会学习CL·2024-08-27 08:13

基于白鲸优化算法(BWO)优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）

本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、算法介绍1.白鲸优化算法（BWO）2.卷积神经网络（CNN）3.双向门控循环单元（BiGRU）4.注意力机制（Attention）三、模型构建与优化

科研_研学社·2024-08-27 06:33

基于鲸鱼优化算法(WOA)优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）

本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、算法介绍1.鲸鱼优化算法(WOA)2.CNN（卷积神经网络）3.BiGRU（双向门控循环单元）4.Attention机制三、模型构建与优化1.模型结构

程序辅导帮·2024-08-27 06:00

基于北方苍鹰算法优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）

欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、研究方法1.模型组成2.研究步骤三、研究成果与应用前景四、结论2运行结果3参考文献4Matlab代码、数据⛳️赠与读者‍做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，

然哥爱编程·2024-08-27 05:58

基于霜冰优化算法(RIME)优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）

本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、技术概述1.霜冰优化算法（RIME）2.卷积神经网络（CNN）3.双向门控循环单元（BiGRU）4.注意力机制（AttentionMechanism

创新优化代码学习·2024-08-27 05:57

2019-01-06

Yes.IhavealwaysregardedphilosophyasthemostdifficultmajortolearnandtheleastthingIwillpayattentionto.Whileifsomeonedislikessomething

飞鸟逐溪·2024-08-26 21:20

深度学习学习经验——变换器（Transformer）

变换器（Transformer）变换器（Transformer）是一种用于处理序列数据的深度学习模型，与循环神经网络（RNN）不同，它不依赖于顺序处理数据，而是依靠一种称为注意力机制（AttentionMechanism

Linductor·2024-08-26 19:44

深度学习--Transformer和BERT区别详解

Transformer的概念、作用、原理及应用概念Transformer是一种基于注意力机制（AttentionMechanism）的神经网络架构，由Vaswani等人在2017年提出。

Ambition_LAO·2024-08-26 08:36

YOLOv10改进 | 独家创新- 注意力篇 | YOLOv10结合全新多尺度动态增强注意力机制DSAttention(全网独家创新)

1.DSAttention介绍DSAttention注意力机制在图像特征提取中具有以下优点：(1).全局信息捕捉能力：DSAttention机制通过使用软注意力机制（SoftmaxAttention）来计算特征图的全局相关性

小李学AI·2024-08-26 07:27

4D卓越团队——课前习书（第三、四章）

图片发自App第三章：4D系统----神奇坐标的诞生A（Attention)4D领导的四个维度：情感与直觉--培养维度、情感与感觉--包容维度、逻辑与直觉--展望维度、逻辑与感觉--指导维度是如何建设高绩效团队

阔涵·2024-08-24 05:22

informer+TCN+通道注意力机制+SSA时间序列模型预测

1.1Informer的关键机制稀疏自注意力机制（ProbSparseAttention）：传统的Transformer使用全局自注意力机制，即对于输入的每个时间步，它都计算与其

成为深度学习高手·2024-08-23 23:12

Transformer总结(二)：架构介绍（从seq2seq谈到Transformer架构）

文章目录一、seq2seq应用介绍二、编码器解码器架构2.1流程介绍2.2原理说明三、Transformer整体结构和处理流程3.1Attention机制在seq2seq中的引入3.2比较RNN与自注意力

胡牧之.·2024-08-23 10:19

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇（1）

,以CLIP-VIT-14为visionencoder的imagecaptioning模型，找了很多文章和库的源码，但是无奈都不怎么看得懂，刚开始打算直接给languagedecoder加上crossattention

FlowerLoveJava·2024-08-23 09:14

Llama开源代码详细解读（2）

FlashAttentionifis_flash_attn_available():#检查flashattention的可用性fromflash_attnimportflash_attn_func,flash_attn_varlen_funcfromflash_attn.bert_paddingimportindex_first_axis

江安的猪猪·2024-08-23 04:45

【flash attention安装】成功解决flash attention安装: undefined symbol: _ZN2at4_ops9_pad_enum4callERKNS_6Tensor

【大模型-flashattention安装】成功解决flashattention安装site-packages/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so

算法驯化师·2024-08-23 04:44

Transformer模型:Postion Embedding实现

下面是一个简单的基于正弦和余弦函数的PositionEmbedding实现的例子，这种方法在原始的Transformer论文"AttentionisAllYouNee

109702008·2024-08-22 10:58

推荐频道

-Attention

深度学习-13-小语言模型之SmolLM的使用

vllm在线推理踩坑记

大模型框架：vLLM

思考：怎样让自己每天都精力充沛

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.25-2024.08.01

大模型LLM面试常见算法题-包括Attention和Transformer常见面试题

Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用

大模型推理框架 RTP-LLM 架构解析

Transformer+目标检测，这一篇入门就够了

GLM-4 (1) - 推理+概览

昇腾Ascend C算子开发学习笔记

【笔记】Encoder-Decoder模型

6、关于Medical-Transformer

Image Super-Resolution with Cross-Scale Non-Local Attention and Exhaustive Self-Exemplars Mining

2单元复盘

[论文笔记] LLM模型剪枝

图神经网络实战（18）——消息传播神经网络

Transformer面试真题详解——覆盖99%的Transformer面试问题（建议收藏）

095.Pay close attention to the bottom right corner

【HuggingFace Transformers】BertIntermediate 和 BertPooler源码解析

unet各模块内容的理解（包含注意力机制、残差、以及数据维度的变化）

2019-09-23 A lovable eccentric

自己设计一个Transformer模型

MasaCtrl:Tuning-free mutual self-attention control for consistent image synthesis and editing

「Apollo」直接在docker内部安装miniconda失败

YOLOv10改进 | 独家创新- 注意力篇 | YOLOv10引入结合EMAttention和ParNetAttention形成全新的EPA注意力机制和C2f_EPA(全网独家创新)

爆改yolov8|利用BSAM改进YOLOv8，高效涨点

爆改YOLOv8 | yolov8添加GAM注意力机制

[从0开始AIGC][LLM]：Pre-Norm or Post-Norm？训练效率还是训练效果？

基于霜冰优化算法(RIME)优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）

语音识别技能汇总

【LSTM回归预测】遗传算法优化注意力机制的长短时记忆神经网络GA-attention-LSTM数据回归预测【含Matlab源码 3738期】

老友记第六季（第19集）

基于灰狼优化算法(GWO)优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）

时序预测|基于变分模态分解-时域卷积-双向长短期记忆-注意力机制多变量时间序列预测VMD-TCN-BiLSTM-Attention

基于白鲸优化算法(BWO)优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）

基于鲸鱼优化算法(WOA)优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）

基于北方苍鹰算法优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）

基于霜冰优化算法(RIME)优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）

2019-01-06

深度学习学习经验——变换器（Transformer）

深度学习--Transformer和BERT区别详解

YOLOv10改进 | 独家创新- 注意力篇 | YOLOv10结合全新多尺度动态增强注意力机制DSAttention(全网独家创新)

4D卓越团队——课前习书（第三、四章）

informer+TCN+通道注意力机制+SSA时间序列模型预测

Transformer总结(二)：架构介绍（从seq2seq谈到Transformer架构）

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇（1）

Llama开源代码详细解读（2）

【flash attention安装】成功解决flash attention安装: undefined symbol: _ZN2at4_ops9_pad_enum4callERKNS_6Tensor

Transformer模型:Postion Embedding实现