qq_35975753

NON-LOCAL-注意力机制

什么是视觉中的注意力机制？

计算机视觉（computer vision）中的注意力机制（attention）的基本思想就是想让系统学会注意力——能够忽略无关信息而关注重点信息。

近几年来，深度学习与视觉注意力机制结合的研究工作，大多数是集中于使用掩码(mask)来形成注意力机制。掩码的原理在于通过另一层新的权重，将图片数据中关键的特征标识出来，通过学习训练，让深度神经网络学到每一张新图片中需要关注的区域，也就形成了注意力。

注意力机制一种是软注意力(soft attention)，另一种则是强注意力(hard attention)。

软注意力的关键点在于，这种注意力更关注区域或者通道，而且软注意力是确定性的注意力，学习完成后直接可以通过网络生成，最关键的地方是软注意力是可微的，这是一个非常重要的地方。可以微分的注意力就可以通过神经网络算出梯度并且前向传播和后向反馈来学习得到注意力的权重。
强注意力与软注意力不同点在于，首先强注意力是更加关注点，也就是图像中的每个点都有可能延伸出注意力，同时强注意力是一个随机的预测过程，更强调动态变化。当然，最关键是强注意力是一个不可微的注意力，训练过程往往是通过增强学习(reinforcement learning)来完成的。

在计算机视觉中，很多领域的相关工作(例如，分类、检测、分割、生成模型、视频处理等)都在使用Soft Attention，这些工作也衍生了很多不同的Soft Attention使用方法。这些方法共同的部分都是利用相关特征学习权重分布，再用学出来的权重施加在特征之上进一步提取相关知识。 不过施加权重的方式略有差别，可以总结如下：

加权可以作用在原图上；
加权可以作用在空间尺度上，给不同空间区域加权；
加权可以作用在Channel尺度上，给不同通道特征加权；
加权可以作用在不同时刻历史特征上，结合循环结构添加权重，例如机器翻译，或者视频相关的工作。

这次的文章我们主要来关注视觉应用中的Self-attention机制及其应用——Non-local网络模块。

1. 视觉应用中的self-attention机制

1.1 Self-attention机制

由于卷积核作用的感受野是局部的，要经过累积很多层之后才能把整个图像不同部分的区域关联起来。所以在会议CVPR2018上Hu J等人提出了SENet，从特征通道层面上统计图像的全局信息（以后会详细介绍，请持续关注公众号）。这里，我们分享另一种特殊形式的Soft Attention —— Self Attention。

Self-Attention是从NLP中借鉴过来的思想，因此仍然保留了Query, Key和Value等名称。下图是self-attention的基本结构，feature maps是由基本的深度卷积网络得到的特征图，如ResNet、Xception等，这些基本的深度卷积网络被称为backbone，通常将最后ResNet的两个下采样层去除使获得的特征图是原输入图像的1/8大小。

Self-attention结构自上而下分为三个分支，分别是query、key和value。计算时通常分为三步：

第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；

第二步一般是使用一个softmax函数对这些权重进行归一化；

第三步将权重和相应的键值value进行加权求和得到最后的attention。

下面我们通过代码讲述self-attention的原理。

class Self_Attn(nn.Module):
    """ Self attention Layer"""
    def __init__(self,in_dim,activation):
        super(Self_Attn,self).__init__()
        self.chanel_in = in_dim
        self.activation = activation
 
        self.query_conv = nn.Conv2d(in_channels = in_dim , out_channels = in_dim//8 , kernel_size= 1)
        self.key_conv = nn.Conv2d(in_channels = in_dim , out_channels = in_dim//8 , kernel_size= 1)
        self.value_conv = nn.Conv2d(in_channels = in_dim , out_channels = in_dim , kernel_size= 1)
        self.gamma = nn.Parameter(torch.zeros(1))
 
        self.softmax  = nn.Softmax(dim=-1)
    def forward(self,x):
        """
            inputs :
                x : input feature maps( B X C X W X H)
            returns :
                out : self attention value + input feature
                attention: B X N X N (N is Width*Height)
        """
        m_batchsize,C,width ,height = x.size()
        proj_query  = self.query_conv(x).view(m_batchsize,-1,width*height).permute(0,2,1) # B X CX(N)
        proj_key =  self.key_conv(x).view(m_batchsize,-1,width*height) # B X C x (*W*H)
        energy =  torch.bmm(proj_query,proj_key) # transpose check
        attention = self.softmax(energy) # BX (N) X (N)
        proj_value = self.value_conv(x).view(m_batchsize,-1,width*height) # B X C X N
 
        out = torch.bmm(proj_value,attention.permute(0,2,1) )
        out = out.view(m_batchsize,C,width,height)
 
        out = self.gamma*out + x
        return out,attention

假设feature maps的大小Batch_size×Channels×Width×Height

在初始化函数中，定义了三个1×1卷积，分别是query_conv ， key_conv 和 value_conv：

在query_conv卷积中，输入为B×C×W×H，输出为B×C/8×W×H；
在key_conv卷积中，输入为B×C×W×H，输出为B×C/8×W×H；
在value_conv卷积中，输入为B×C×W×H，输出为B×C×W×H。

在forward函数中，定义了self-attention的具体步骤。

步骤一：

proj_query  = self.query_conv(x).view(m_batchsize,-1,width*height).permute(0,2,1)

proj_query本质上就是卷积，只不过加入了reshape的操作。首先是对输入的feature map进行query_conv卷积，输出为B×C/8×W×H；view函数是改变了输出的维度，就单张feature map而言，就是将W×H大小拉直，变为1×(W×H)大小；就batchsize大小而言，输出就是B×C/8×(W×H)；permute函数则对第二维和第三维进行倒置，输出为B×(W×H)×C/8。proj_query中的第i行表示第i个像素位置上所有通道的值

proj_key =  self.key_conv(x).view(m_batchsize,-1,width*height)

proj_key与proj_query相似，只是没有最后一步倒置，输出为B×C/8×(W×H)。proj_key中的第j行表示第j个像素位置上所有通道的值。

步骤二：

energy =  torch.bmm(proj_query,proj_key)

这一步是将batch_size中的每一对proj_query和proj_key分别进行矩阵相乘，输出为B×(W×H)×(W×H)。Energy中的第(i,j)是将proj_query中的第i行与proj_key中的第j行点乘得到。这个步骤的意义是energy中第(i,j)位置的元素是指输入特征图第j个元素对第i个元素的影响，从而实现全局上下文任意两个元素的依赖关系。

步骤三：

attention = self.softmax(energy)

这一步是将energe进行softmax归一化，是对行的归一化。归一化后每行的之和为1，对于(i,j)位置即可理解为第j位置对i位置的权重，所有的j对i位置的权重之和为1，此时得到attention_map。

proj_value = self.value_conv(x).view(m_batchsize,-1,width*height)

proj_value和proj_query与proj_key一样，只是输入为B×C×W×H，输出为B×C×(W×H)。从self-attention结构图中可以知道proj_value是与attention_map进行矩阵相乘，即下面两行代码。

out = torch.bmm(proj_value,attention.permute(0,2,1) )
out = out.view(m_batchsize,C,width,height)

在对proj_value与attention_map点乘之前，先对attention进行转置。这是由于attention中每一行的权重之和为1，是原特征图第j个位置对第i个位置的权重，将其转置之后，每一列之和为1；proj_value的每一行与attention中的每一列点乘，将权重施加于proj_value上，输出为B×C×(W×H)。

out = self.gamma*out + x

这一步是对attention之后的out进行加权，x是原始的特征图，将其叠加在原始特征图上。Gamma是经过学习得到的，初始gamma为0，输出即原始特征图，随着学习的深入，在原始特征图上增加了加权的attention，得到特征图中任意两个位置的全局依赖关系。

个人心得：Non-local Neural Networks注意力机制主要实现的是像素位置之间的长距离依赖性，普通的卷积操作只能对局部的感受野有个很好的表达能力，如3*3和5*5的卷积核，它们只能在一个很小的范围内进行处理，对于一张图片没有办法将上下两个点之间的信息进行有效的表达，Non-local Neural Networks注意力机制就是解决卷积核只能处理局部之间信息的交互，没法进行长距离信息的表达，对于一副m*n的feature map，主要实现的是将不同位置的像素，如m1和n1这两个位置（后面有通道数），主要实现的是将两个位置的所有通道的乘积之和。得到H*W中的一个点，该点指的是feature map中第(i,j)位置的元素是指输入特征图第j个元素对第i个元素的影响，H*W中的第i行指的是feature map中输入特征图的每一个元素对第i个元素（位置）的影响，从而实现全局上下文一个元素和所有元素的依赖关系。然后每行会进行一个softmax操作，这一步是将HW*HW进行softmax归一化，是对行的归一化。归一化后每行的之和为1，对于(i,j)位置即可理解为第j位置对i位置的权重，对于所有行的归一化可以理解为在一个channel中feature map中所有的位置（包括i位置）对i位置的权重之和为1，此时得到attention_map，attention_map表示的是在一个channel中不同的j（5*5，表示25个位置）位置对于i位置的权重，最后attention_map会和HW*C进行矩阵运算，来算出在feature map中所有位置对i(该位置)的权重之和，分别concate channe维度。

1.2 Self-attention机制应用：Non-local Neural Networks

论文地址：

在计算机视觉领域，一篇关于Attention研究非常重要的文章《Non-local Neural Networks》在捕捉长距离特征之间依赖关系的基础上提出了一种非局部信息统计的注意力机制——Self Attention。

文章中列出了卷积网络在统计全局信息时出现的三个问题如下：

1、捕获长范围特征依赖需要累积很多层的网络，导致学习效率太低；

2、由于网络需要累计很深，需要小心的设计模块和梯度；

3、当需要在比较远位置之间来回传递消息时，卷积或者时序局部操作很困难。

故作者基于图片滤波领域的非局部均值滤波操作思想，提出了一个泛化、简单、可直接嵌入到当前网络的非局部操作算子，可以捕获时间(一维时序信号)、空间(图片)和时空(视频序列)的长范围依赖。这样设计的好处是：

相比较于不断堆叠卷积和RNN算子，非局部操作直接计算两个位置(可以是时间位置、空间位置和时空位置)之间的关系即可快速捕获长范围依赖，但是会忽略其欧式距离，这种计算方法其实就是求自相关矩阵，只不过是泛化的自相关矩阵；
非局部操作计算效率很高，要达到同等效果，只需要更少的堆叠层；
非局部操作可以保证输入尺度和输出尺度不变，这种设计可以很容易嵌入到目前的网络架构中。

下面我们主要分析一下作者是如何处理长距离信息的。

non-local block

Non-local的通用公式表示：

x是输入信号，CV中使用的一般是feature map
i 代表的是输出位置，如空间、时间或者时空的索引，他的响应应该对j进行枚举然后计算得到的
f 函数式计算i和j的相似度
g 函数计算feature map在j位置的表示
最终的y是通过响应因子C(x) 进行标准化处理以后得到的

可以看出，与Non-local均值计算相似，i 代表的是当前位置的响应，j 代表全局响应，通过加权得到一个非局部的响应值。

文中有谈及多种实现方式，在这里简单介绍一下在DL框架中最好实现的 Matmul 方式(如上图的non-local block)：

首先对输入的 feature map X 进行线性映射（说白了就是 1*1*1 卷积，来压缩通道数），然后得到 θ，φ，g 特征；
通过reshape操作，强行合并上述的三个特征除通道数外的维度，然后对θ和φ进行矩阵点乘操作，得到类似协方差矩阵的东西（这个过程很重要，计算出特征中的自相关性，即得到每帧中每个像素对其他所有帧所有像素的关系）；
然后对自相关特征进行 Softmax 操作，得到0~1的weights，这里就是我们需要的 Self-attention 系数；
最后将 attention系数，对应乘回特征矩阵 g 中，然后再上扩展channel数(1*1卷积)，与原输入 feature map X 做残差运算，获得non-local block的输出。

可能存在的问题——计算量偏大：在高阶语义层引入non local layer, 也可以在具体实现的过程中添加pooling层来进一步减少计算量。

import torch
from torch import nn
from torch.nn import functional as F


class _NonLocalBlockND(nn.Module):
    """
    调用过程
    NONLocalBlock2D(in_channels=32),
    super(NONLocalBlock2D, self).__init__(in_channels,
            inter_channels=inter_channels,
            dimension=2, sub_sample=sub_sample,
            bn_layer=bn_layer)
    """
    def __init__(self,
                 in_channels,
                 inter_channels=None,
                 dimension=3,
                 sub_sample=True,
                 bn_layer=True):
        super(_NonLocalBlockND, self).__init__()

        assert dimension in [1, 2, 3]

        self.dimension = dimension
        self.sub_sample = sub_sample

        self.in_channels = in_channels
        self.inter_channels = inter_channels

        if self.inter_channels is None:
            self.inter_channels = in_channels // 2
            # 进行压缩得到channel个数
            if self.inter_channels == 0:
                self.inter_channels = 1

        if dimension == 3:
            conv_nd = nn.Conv3d
            max_pool_layer = nn.MaxPool3d(kernel_size=(1, 2, 2))
            bn = nn.BatchNorm3d
        elif dimension == 2:
            conv_nd = nn.Conv2d
            max_pool_layer = nn.MaxPool2d(kernel_size=(2, 2))
            bn = nn.BatchNorm2d
        else:
            conv_nd = nn.Conv1d
            max_pool_layer = nn.MaxPool1d(kernel_size=(2))
            bn = nn.BatchNorm1d

        self.g = conv_nd(in_channels=self.in_channels,
                         out_channels=self.inter_channels,
                         kernel_size=1,
                         stride=1,
                         padding=0)

        if bn_layer:
            self.W = nn.Sequential(
                conv_nd(in_channels=self.inter_channels,
                        out_channels=self.in_channels,
                        kernel_size=1,
                        stride=1,
                        padding=0), bn(self.in_channels))
            nn.init.constant_(self.W[1].weight, 0)
            nn.init.constant_(self.W[1].bias, 0)
        else:
            self.W = conv_nd(in_channels=self.inter_channels,
                             out_channels=self.in_channels,
                             kernel_size=1,
                             stride=1,
                             padding=0)
            nn.init.constant_(self.W.weight, 0)
            nn.init.constant_(self.W.bias, 0)

        self.theta = conv_nd(in_channels=self.in_channels,
                             out_channels=self.inter_channels,
                             kernel_size=1,
                             stride=1,
                             padding=0)
        self.phi = conv_nd(in_channels=self.in_channels,
                           out_channels=self.inter_channels,
                           kernel_size=1,
                           stride=1,
                           padding=0)

        if sub_sample:
            self.g = nn.Sequential(self.g, max_pool_layer)
            self.phi = nn.Sequential(self.phi, max_pool_layer)

    def forward(self, x):
        '''
        :param x: (b, c,  h, w)
        :return:
        '''

        batch_size = x.size(0)

        g_x = self.g(x).view(batch_size, self.inter_channels, -1)#[bs, c, w*h]
        g_x = g_x.permute(0, 2, 1)

        theta_x = self.theta(x).view(batch_size, self.inter_channels, -1)
        theta_x = theta_x.permute(0, 2, 1)

        phi_x = self.phi(x).view(batch_size, self.inter_channels, -1)
        
        f = torch.matmul(theta_x, phi_x)

        print(f.shape)

        f_div_C = F.softmax(f, dim=-1)

        y = torch.matmul(f_div_C, g_x)
        y = y.permute(0, 2, 1).contiguous()
        y = y.view(batch_size, self.inter_channels, *x.size()[2:])
        W_y = self.W(y)
        z = W_y + x
        return z

Non local NN从传统方法Non local means中获得灵感，然后接着在神经网络中应用了这个思想，直接融合了全局的信息，而不仅仅是通过堆叠多个卷积层获得较为全局的信息。这样可以为后边的层带来更为丰富的语义信息。

论文中也通过消融实验，完全证明了该模块在视频分类，目标检测，实例分割、关键点检测等领域的有效性，但是其中并没有给出其带来的参数量上的变化，或者计算速度的变化。但是可以猜得到，参数量的增加还是有一定的，如果对速度有要求的实验可能要进行速度和精度上的权衡，不能盲目添加non local block。神经网络中还有一个常见的操作也是利用的全局信息，那就是Linear层，全连接层将feature map上每一个点的信息都进行了融合，Linear可以看做一种特殊的Non local操作。

Non-local Neural Networks模块依然存在以下的不足：

(1) 只涉及到了位置注意力模块，而没有涉及常用的通道注意力机制

(2) 可以看出如果特征图较大，那么两个(batch,hxw,512)矩阵乘是非常耗内存和计算量的，也就是说当输入特征图很大存在效率底下问题，虽然有其他办法解决例如缩放尺度，但是这样会损失信息，不是最佳处理办法。

改进思路

轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
计算机视觉中，如何理解自适应和注意力机制的关系？ Wils0nEdwards 计算机视觉人工智能
自适应和注意力机制之间的关系密切相关，注意力机制本质上是一种自适应的计算方法，它能够根据输入数据的不同特点，自主选择和聚焦于输入的某些部分或特征。以下是两者之间的具体关系和如何理解它们：1.注意力机制的自适应特性注意力机制的核心功能是为不同输入元素（如特征、位置、通道等）分配不同的权重。这些权重是通过学习动态生成的，表示模型对不同输入元素的关注程度。由于这些权重是根据具体的输入数据动态计算的，因此
《自然语言处理 Transformer 模型详解》黑色叉腰丶大魔王自然语言处理 transformer 人工智能
一、引言在自然语言处理领域，Transformer模型的出现是一个重大的突破。它摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）架构，完全基于注意力机制，在机器翻译、文本生成、问答系统等众多任务中取得了卓越的性能。本文将深入讲解Transformer模型的原理、结构和应用。二、Transformer模型的背景在Transformer出现之前，RNN及其变体（如LSTM和GRU）是自然语言
验证resneXt，densenet，mobilenet和SENet的特色结构 dfj77477 人工智能 python
简介图像分类对网络结构的要求，一个是精度，另一个是速度。这两个需求推动了网络结构的发展。resneXt：分组卷积，降低了网络参数个数。densenet：密集的跳连接。mobilenet：标准卷积分解成深度卷积和逐点卷积，即深度分离卷积。SENet：注意力机制。简单起见，使用了[1]的代码，注释掉layer4，作为基本框架resnet14。然后改变局部结构，验证分类效果。实验结果GPU：gtx107
微积分在神经架构搜索中的应用光剑书架上的书深度强化学习原理与实战元学习原理与实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
微积分在神经架构搜索中的应用1.背景介绍随着深度学习技术的飞速发展,神经网络模型的复杂度也在不断提高,从最初的简单全连接网络,到如今的卷积神经网络、循环神经网络、注意力机制等各种复杂的神经网络架构。这些先进的神经网络架构大大提高了深度学习模型的性能,但同时也给神经网络的设计和调优带来了巨大的挑战。手工设计神经网络架构通常需要大量的专业知识和经验积累,过程繁琐复杂,难以推广。为了解决这一问题,神经架
CVPR 2021 | 即插即用！ CA：新注意力机制，助力分类/检测/分割涨点！ Akita·wang 文献解析paper python 机器学习人工智能深度学习计算机视觉
摘要最近关于移动网络设计的研究已经证明了通道注意(例如，挤压和激发注意)对于提升模型性能的显著效果，但是它们通常忽略位置信息，而位置信息对于生成空间选择性注意图是重要的。本文提出了一种新的移动网络注意机制，将位置信息嵌入到信道注意中，我们称之为“协同注意”。与通过2D全局汇集将特征张量转换为单个特征向量的通道注意力不同，坐标注意力将通道注意力分解为两个1D特征编码过程，这两个过程分别沿两个空间方向
Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用 Funhpc_huachen transformer bert gpt 语言模型深度学习
作为AI智能大模型的专家训练师，我将从主流模型框架的角度来分析其核心技术特点及其在不同实际行业中的应用。我们重点讨论以下几个主流模型框架：Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用。1.Transformer框架Transformer是一种基础的深度学习模型架构，由Google于2017年提出。它引入了注意力机制（Self-Attention）
Transformer模型在文本摘要任务中的应用与性能分析 liuxin33445566 transformer 深度学习人工智能
Transformer模型自从由Vaswani等人在2017年提出以来，已经在自然语言处理（NLP）的多个领域取得了显著的成果，尤其是在文本摘要任务中。文本摘要是将长文本转换成更短的、包含关键信息的文本的过程。本文将探讨Transformer模型在文本摘要任务中的应用，并分析其性能表现。1.Transformer模型简介Transformer模型是一种基于自注意力机制的神经网络架构，它摆脱了传统的
爆改YOLOv8|利用yolov10的PSA注意力机制改进yolov8-高效涨点不想敲代码！！！爆改yolov8 即插即用 YOLO yolov8 目标检测 python 人工智能
1，本文介绍PSA是一种改进的自注意力机制，旨在提升模型的效率和准确性。传统的自注意力机制需要计算所有位置对之间的注意力，这会导致计算复杂度高和训练时间长。PSA通过引入极化因子来减少需要计算的注意力对的数量，从而降低计算负担。极化因子是一个向量，通过与每个位置的向量点积，确定哪些位置需要计算注意力。这种方法可以在保持模型准确度的前提下，显著减少计算量，从而提升自注意力机制的效率。关于PSA的详细
You Only Cache Once: Decoder-Decoder Architectures for Language Models YiHanXii 语言模型人工智能自然语言处理
这篇论文介绍了一种名为YOCO（YouOnlyCacheOnce）的新型解码器-解码器架构，专为大型语言模型设计，以提高推理效率和性能。以下是其核心内容的总结：YOCO架构关键特点：双重解码器结构：YOCO由自解码器和交叉解码器两部分组成，自解码器生成全局键值（KV）缓存，交叉解码器通过交叉注意力机制重用这些缓存。单次缓存：与标准Transformer相比，YOCO只缓存一次KV对，显著减少了GP
深度学习算法——Transformer fw菜菜数学建模深度学习 transformer 人工智能数学建模 python pytorch
参考教材：动手学pytorch一、模型介绍Transformer模型完全基于注意力机制，没有任何卷积层或循环神经网络层。尽管Transformer最初是应用于在文本数据上的序列到序列学习，但现在已经推广到各种现代的深度学习中，例如语言、视觉、语音和强化学习领域。Transformer作为编码器－解码器架构的一个实例，其整体架构图在下图中展示。正如所见到的，Trans‐former是由编码器和解码器
计算机视觉之 GSoP 注意力模块 Midsummer-逐梦计算机视觉（CV）深度学习机器学习人工智能
计算机视觉之GSoP注意力模块一、简介GSopBlock是一个自定义的神经网络模块，主要用于实现GSoP（GlobalSecond-orderPooling）注意力机制。GSoP注意力机制通过计算输入特征的协方差矩阵，捕捉全局二阶统计信息，从而增强模型的表达能力。原论文：《GlobalSecond-orderPoolingConvolutionalNetworks(arxiv.org)》二、语法和
大语言模型诞生、探索和爆发阶段花开盛夏^.^ 人工智能语言模型人工智能自然语言处理
大语言模型的发展可以分为几个阶段，每个阶段都有其特点和发展重点。以下是大致的时间线以及各个阶段的特点：一、大语言模型诞生阶段这一阶段大约从2017年末到2019年初，期间出现了几个关键的技术突破，这些技术奠定了现代大语言模型的基础。2017年：Google发表了Transformer架构，这是一种基于自注意力机制的神经网络架构，它彻底改变了自然语言处理（NLP）领域，使得大规模并行化处理成为可能，
Transformer面试真题详解——覆盖99%的Transformer面试问题（建议收藏）爱睡觉的咋 LLM transformer 深度学习人工智能
文章目录1.请简述一下Transformer的基本结构和原理2.Transformer为什么使用多头注意力机制3.Transformer计算attention为什么选择点乘而不是加法？两个计算复杂度和效果上有什么区别？4.为什么在softmax之后要对attention进行scaled（为什么除以d_k的平方根）5.在计算attentionscore时，如何对padding做mask操作6.简单介
【论文笔记】Training language models to follow instructions with human feedback B部分 Ctrl+Alt+L 大模型论文整理论文笔记论文阅读语言模型人工智能自然语言处理
TraininglanguagemodelstofollowinstructionswithhumanfeedbackB部分回顾一下第一代GPT-1：设计思路是“海量无标记文本进行无监督预训练+少量有标签文本有监督微调”范式；模型架构是基于Transformer的叠加解码器（掩码自注意力机制、残差、Layernorm）；下游各种具体任务的适应是通过在模型架构的输出后增加线性权重WyW_{y}Wy实
unet各模块内容的理解（包含注意力机制、残差、以及数据维度的变化）云梦之上 #扩散模型系统性学习人工智能神经网络 pytorch
文章目录attention机制Unet的各个模块的设计①残差块②下块做一次残差，做一次自注意力③上块：这里做了skipconnect，做一次残差，做一次注意力④中块：做两次残差和一次自注意力⑤上采样：通道数不变，长宽翻两倍⑥下采样：通道数不变，长宽缩小到原来的一半整个unet模块unet模块的示意图参考的unet代码unet代码attention机制参考内容:超详细图解Self-Attention
总结：大模型技术栈---算法与原理 lichunericli LLM零碎知识人工智能自然语言处理算法
原文地址：大模型技术栈-算法与原理1.tokenizer方法word-levelchar-levelsubword-levelBPEWordPieceUniLMSentencePieceByteBPE2.positionencoding绝对位置编码ROPEAliBi相对位置编码Transformer-XLT5/TUPEDeBERTa3.注意力机制Mamba,H3,Hyena,RetNet,RWKV
YOLOv9独家改进：一种高效移动应用的卷积加性自注意Vision Transformer AI小怪兽 YOLOv9魔术师 YOLO transformer 深度学习开发语言人工智能 python
本文独家改进：轻量化改进之高效移动应用的卷积加性自注意VisionTransformer，构建了一个新颖且高效实现方式——卷积加性相似度函数，并提出了一种名为卷积加性标记混合器（CATM）的简化方法来降低计算开销《YOLOv9魔术师专栏》将从以下各个方向进行创新：【原创自研模块】【多组合点优化】【注意力机制】【卷积魔改】【block&多尺度融合结合】【损失&IOU优化】【上下采样优化】【SPPEL
Unet改进10：在不同位置添加CPCA||通道先验卷积注意力机制 AICurator Unet改进专栏深度学习神经网络 unet 语义分割
本文内容：在不同位置添加CPCA注意力机制目录论文简介1.步骤一2.步骤二3.步骤三4.步骤四论文简介低对比度和显著的器官形状变化等特征经常出现在医学图像中。现有注意机制的自适应能力普遍不足，限制了医学影像分割性能的提高。本文提出了一种有效的通道先验卷积注意(CPCA)方法，该方法支持通道和空间维度上注意权重的动态分布。通过采用多尺度深度卷积模块，有效地提取空间关系，同时保留先验通道。CPCA具有
YOLOv8改进 | 注意力篇 | YOLOv8引入SimAM注意力机制小李学AI YOLOv8有效涨点专栏 YOLO 深度学习计算机视觉目标检测人工智能机器学习神经网络
1.SimAM介绍1.1摘要：在本文中，我们提出了一个概念上简单但非常有效的卷积神经网络（ConvNets）注意力模块。与现有的通道和空间注意力模块相比，我们的模块为层中的特征图推断3D注意力权重，而不向原始网络添加参数。具体来说，我们基于一些著名的神经科学理论，提出优化能量函数来找到每个神经元的重要性。我们进一步推导了能量函数的快速封闭式解决方案，并表明该解决方案可以用不到十行代码来实现。该模块
YOLOv10改进 | 独家创新- 注意力篇 | YOLOv10引入结合EMAttention和ParNetAttention形成全新的EPA注意力机制和C2f_EPA(全网独家创新) 小李学AI YOLOv10有效涨点专栏 YOLO 深度学习计算机视觉人工智能目标检测机器学习神经网络
1.EPAAttention介绍EPAAttention注意力机制综合了EMAttention和ParNetAttention的优势，能够更有效地提取图像特征。(1).综合性与多样性EPAAttention结合了两种不同的注意力机制，充分利用了EMAttention的分组归一化和特征增强能力，以及ParNetAttention的空间注意力和全局特征提取能力。通过这种多样化的组合，EPAAttent
大模型训练和推理李明朔 AIGC 深度学习人工智能
文章目录一、NLP基础1.Tokenizer2.positionencoding3.注意力机制与transformer架构二、大模型训练1.SFT训练2.RLHF训练3.分布式并行训练技术（1）模型并行（2）数据并行4.MoE技术4.PEFT训练5.上下文扩展技术三、大模型推理1.模型压缩（1）剪枝（2）量化2.显存优化技术3.调度优化技术4.请求优化技术5.采样和解码加速6.模型并行策略7.其他
爆改yolov8|利用BSAM改进YOLOv8，高效涨点不想敲代码！！！爆改yolov8 即插即用 YOLO yolov8 目标检测人工智能深度学习
1，本文介绍BSAM基于CBAM进行改进，经实测在多个数据集上都有涨点。BSAM（BiLevelSpatialAttentionModule）是一个用于提升深度学习模型在空间特征处理中的能力的模块。它主要通过双层注意力机制来增强模型对重要空间信息的关注，从而提升任务性能。核心特点：双层空间注意力：BSAM结合了两个层次的注意力机制——全局和局部。全局注意力捕捉图像或特征图的整体信息，而局部注意力则
爆改YOLOv8 | yolov8添加MSDA注意力机制不想敲代码！！！爆改yolov8 即插即用 YOLO 深度学习人工智能 yolov8 目标检测
1，本文介绍MSDA（多尺度扩张注意力）模块通过自注意力机制在不同尺度上有效地捕捉特征的稀疏性。它首先通过线性投影生成特征图(X)的查询、键和值。然后，将特征图的通道划分为(n)个头部，在每个头部中使用不同的扩张率进行多尺度的自注意力操作。具体来说，MSDA按以下步骤操作：对每个头部(i)进行自注意力处理，并将所有头部的输出连接在一起，之后通过线性层进行特征融合。通过为不同头部设置不同的扩张率，M
爆改YOLOv8 | yolov8添加GAM注意力机制不想敲代码！！！爆改yolov8 即插即用 YOLO yolov8 目标检测人工智能计算机视觉
1，本文介绍GAM（GlobalAttentionMechanism）旨在改进传统注意力机制的不足，特别是在通道和空间维度上的信息保留问题。它通过顺序的通道-空间注意力机制来解决这些问题。以下是GAM的关键设计和实现细节：通道注意力子模块：3D排列：使用3D排列来在三个维度上保留信息，这种方法有助于捕捉更多维度的特征。两层MLP：通过一个两层的多层感知机（MLP）增强跨维度的通道-空间依赖性，提升
基于霜冰优化算法(RIME)优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）程序辅导帮算法 cnn matlab
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、技术概述1.霜冰优化算法（RIME）2.卷积神经网络（CNN）3.双向门控循环单元（BiGRU）4.注意力机制（AttentionMechanism）三、研究内容与方法四、预期成果与贡献五、结论与展望2运行结果3参考文献4Mat
语音识别技能汇总语音不识别语音识别语音识别人工智能 linux python
语音识别技能汇总常见问题汇总importwarningswarnings.filterwarnings('ignore')基础知识Attention-注意力机制原理：人在说话的时候或者读取文字的时候，是根据某个关键字或者多个关键字来判断某些句子或者说话内容的含义的。即通过对上下文的内容增加不同的权重，可以实现这样对局部内容关注更多。常用语音识别工具相关包的安装pipinstallpygameSpe
Python深度学习：构建下一代智能系统 2401_83402415 python python 深度学习开发语言 Transformer模型目标检测算法 Attention
近年来，伴随着以卷积神经网络（CNN）为代表的深度学习的快速发展，人工智能迈入了第三次发展浪潮，AI技术在各个领域中的应用越来越广泛。为了帮助广大学员更加深入地学习人工智能领域最近3-5年的新理论与新技术，本文讲解注意力机制、Transformer模型（BERT、GPT-1/2/3/3.5/4、DETR、ViT、SwinTransformer等）、生成式模型（变分自编码器VAE、生成式对抗网络GA
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep

NON-LOCAL-注意力机制

1. 视觉应用中的self-attention机制

1.1 Self-attention机制

1.2 Self-attention机制应用：Non-local Neural Networks

你可能感兴趣的:(NON-LOCAL-注意力机制)