羞儿

【读点论文】Attention Mechanisms in Computer Vision: A Survey，西湖大学携手多个学术组织共同完成对注意力的宏观理解和微观处理，很全很实用吧

Attention Mechanisms in Computer Vision: A Survey

Abstract

人类可以在复杂的场景中自然有效地找到显著区域。在这种观察的激励下，注意机制被引入到计算机视觉中，目的是模仿人类视觉系统的这一方面。这种注意机制可以看作是一个基于输入图像特征的动态权值调整过程。注意机制在许多视觉任务中取得了巨大的成功，包括图像分类、目标检测、语义分割、视频理解、图像生成、3D视觉、多模态任务和自监督学习。
本文综述了计算机视觉中的各种注意机制，并对其进行了分类，如通道注意、空间注意、时间注意和分支注意;相关的存储库 MenghaoGuo/Awesome-Vision-Attentions: Summary of related papers on visual attention. Related code will be released based on Jittor gradually. (github.com) 专门用于收集相关的工作。最后提出了今后注意机制研究的方向。
清华大学计图团队和南开大学程明明教授团队、卡迪夫大学Ralph R. Martin教授合作，如今注意力机制已经成功的运用在了许多的视觉任务当中，包括图像分类、目标检测、语义分割、视频理解、图像生成、3D视觉、多模态任务、自监督学习等。在这篇综述中，对计算机视觉中许多不同的注意力机制进行了总结，像通道注意力、空间注意力、时间注意力和分支注意力及他们的组合。
论文地址：[2111.07624] Attention Mechanisms in Computer Vision: A Survey (arxiv.org)；Attention mechanisms in computer vision: A survey | SpringerLink

INTRODUCTION

将注意力转移到图像中最重要的区域而忽略无关部分的方法称为注意力机制;人类的视觉系统利用其中的一个[A model of saliency-based visual attention for rapid scene analysis]，[Eye movements in natural behavior]，[The dynamic representation of scenes]，[Control of goal-directed and stimulus-driven attention in the brain]来辅助高效、有效地分析和理解复杂场景。
这反过来又激发了研究人员将注意力机制引入计算机视觉系统以提高其性能。在视觉系统中，注意机制可以看作是一个动态选择过程，它是根据输入的重要性自适应地对特征进行加权来实现的。注意机制在许多视觉任务中都发挥了作用，例如图像分类[SENet]、[CBAM]、目标检测[Deformable convolutional networks]、[Detr]、语义分割人脸识别、人物再识别、动作识别、少样本学习、医学图像处理、图像生成、姿态估计、超分辨率、3D视觉和多模态任务。
在过去的十年中，注意机制在计算机视觉中发挥着越来越重要的作用;下图简要总结了深度学习时代计算机视觉中基于注意力的模型的发展历史。
- 简要总结了计算机视觉中注意力的主要发展，大致分为四个阶段。阶段1采用rnn构建注意力，代表性的方法是RAM。阶段 2明确预测重要区域，代表性方法为STN。阶段3隐式完成了注意过程，SENet是一种代表性的方法。阶段4采用自我关注方法。
进展可以大致分为四个阶段。第一阶段从RAM开始，这是将深度神经网络与注意机制相结合的开创性工作。它通过策略梯度循环预测重要区域，并以端到端的方式更新整个网络。后来，各种作品也采用了类似的视觉关注策略。在这一阶段，循环神经网络(RNNs)是注意机制的必要工具。
在第二阶段开始时，Jaderberg等提出了STN，该STN引入了一个子网络来预测用于选择输入中重要区域的仿射变换。明确预discriminatory输入特征是第二阶段的主要特征;DCNs为代表作品。
第三阶段始于SENet，他提出了一种新的通道注意力网络，该网络可以隐式自适应地预测潜在的关键特征。CBAM和ECANet是这一阶段的代表作品。
最后一个阶段是自我关注时代。自注意最早于[Transformer]提出，并迅速在自然语言处理领域取得了巨大进展。Wang等率先将自注意引入计算机视觉，提出了一种新的非局部网络，在视频理解和目标检测方面取得了巨大成功。紧随其后的是EMANet、CCNet、HamNet和Stand-Alone网络等一系列工作，提高了速度、结果质量和泛化能力。
近年来，各种纯深度自注意网络(视觉变形)相继出现，显示出基于注意的模型的巨大潜力。很明显，基于注意力的模型有可能取代卷积神经网络，成为计算机视觉中更强大、更通用的架构。
本文的目的是对当前计算机视觉中的注意方法进行总结和分类。本文的方法如下图所示，
- 注意机制可以根据数据域进行分类。其中包括通道注意、空间注意、时间注意和分支注意四个基本类别，以及通道与空间注意和空间与时间注意相结合的两个混合类别。∅表示这样的组合(尚)不存在。
并在下图中进一步解释:它是基于数据域的。一些方法考虑重要数据何时发生，或其他方法考虑重要数据在何处发生等问题，并相应地尝试在数据中找到关键时间或关键位置。
- 通道注意、空间注意和时间注意可以看作是在不同的域上运作的。C表示信道域，H和W表示空间域，T表示时域。分支注意力与这些是互补的。
本文将现有的注意方法分为六类，其中包括四个基本类别:通道注意(注意什么)、空间注意(注意哪里)、时间注意(注意什么时候)和分支通道(注意什么)，以及两个混合组合类别:通道与空间注意和空间与时间注意。这些思想与相关工作在下表中进一步简要总结。
- 简要总结应注意的类别和重点相关工作。
本文的主要贡献有:
- 系统回顾了视觉注意方法，包括注意机制的统一描述、视觉注意机制的发展以及目前的研究现状。
- 根据他们的数据域对注意力方法进行分类，将视觉注意力方法独立于他们的特定应用联系起来。并对未来视觉注意研究的建议。
本文的关键符号。说明了其他次要符号的使用情况。

OTHER SURVEYS

在本节中，本文简要地将本文与现有的各种调查进行比较，这些调查已经回顾了注意力方法和视觉transformer。Chaudhari等人[An attentive survey of attention models]对深度神经网络中的注意力模型进行了调查，重点关注其在自然语言处理中的应用，而我们的工作则集中在计算机视觉上。三个更具体的调查[Transformers in computational visual media: A survey]，[A survey on visual transformer]，[Transformers in vision: A survey]总结了视觉transformer的发展，而本文的论文更广泛地回顾了视觉中的注意机制，而不仅仅是自注意机制。Wang等人[Survey on the attention based rnn model and its applications in computer vision]对计算机视觉中的注意力模型进行了调查，但只考虑了基于rnn的注意力模型，这只是我们调查的一部分。此外，与以往的调查不同，提供了一个分类，根据其数据域而不是根据其应用领域对各种注意力方法进行分组。这样做可以让我们专注于自己的注意力方法，而不是把它们当作其他任务的补充。

ATTENTION METHODS IN COMPUTER VISION

在本节中，本文首先总结出基于人类视觉系统识别过程的注意机制的一般形式。然后我们回顾上文图中给出的不同类别的注意力模型，每个类别都有一个小节。在每一篇文章中，我们都列出了该类别的代表性作品。本文还对注意策略这一范畴进行了较为深入的介绍，从动机、表述和功能三个方面对其发展进行了评述。

General form

当本文在日常生活中看到一个场景时，本文会把注意力集中在有区别的区域，并快速处理这些区域。上述过程可表述为:
- $A tt e n t i o n (x) = f (g (x), x), (1)$
- 这里g(x)可以表示产生注意，这对应于注意到鉴别区域的过程。F (g(x)， x)表示根据注意g(x)处理输入x，这与处理关键区域和获取信息是一致的。
根据上述定义，本文发现几乎所有现有的注意机制都可以写入上述公式。这里我们以自我注意和(squeeze-and-excitation, SE)注意为例。自注意，g(x)和f(g(x)， x)可以写成、
- $Q,K,V=Linear(x),(2)\\ g(x)=Softmax(QK),(3)\\ f(g(x),x)=g(x)V,(4)$
对于SE, g(x)和f(g(x)， x)可以写成
- $g(x)=sigmoid(MLP(MLP(x))),(6)\\ f(g(x),x)=g(x)x,(7)$

Channel Attention

在深度神经网络中，不同特征映射中的不同通道通常代表不同的对象。通道关注自适应地重新校准每个通道的权重，可以看作是一个对象选择过程，从而确定要关注什么。Hu等首先提出了信道注意的概念，并为此提出了SENet。如下图所示，本文将很快讨论，三种工作流继续以不同的方式改善频道注意力。
- 视觉注意的发展背景。
在本节中，首先总结了具有代表性的通道注意力工作。然后分别讨论了各种渠道关注方法及其发展历程。
- 按类别和发布日期排序的代表性通道注意力机制。他们的主要目的是强调重要的通道和获取全局信息。应用领域包括:Cls =分类，Det =检测，SSeg =语义分割，ISeg =实例分割，ST =风格转移，Action =动作识别。g(x)和f(g(x)， x)是由Eq. 1描述的注意过程。范围是指注意范围图。S或H的意思是“软注意力”或“硬注意力”。(1)强调重要渠道;(2)获取全局信息。

SENet

SENet开创了频道注意力。SENet的核心是一个压缩和激励(SE)块，用于收集全局信息，捕获通道相关关系并提高表示能力。
SE模块分为两个部分，挤压模块和激励模块。挤压模块通过全局平均池化收集全局空间信息。激励模块通过使用全连接层和非线性层(ReLU和sigmoid)捕获通道之间的关系并输出注意力向量。然后，通过在注意向量中乘以相应的元素来缩放输入特征的每个通道。综上，以X为输入，Y为输出的挤压激励块Fse(参数为θ)可表示为:
- $s=F_{se}(X,\theta)=\delta(W_2\delta(W_1GAP(X))),(8)\\ Y=sX,(9)$
- SE块在抑制噪声的同时起到强调重要信道的作用。由于SE块对计算资源的要求较低，因此可以在每个残差单元之后添加SE块。然而，SE块也有缺点。在squeeze模块中，全局平均池太简单，无法捕获复杂的全局信息。在激励模块中，全连接层增加了模型的复杂性。如上图所示，后来的研究试图改善挤压模块的输出(如gsp - net)，通过改进激励模块(如ECANet)来降低模型的复杂性，或者同时改进挤压模块和激励模块(如SRM)。

GSoP-Net

SE块仅通过使用全局平均池(即一阶统计数据)来捕获全局信息，这限制了它的建模能力，特别是捕获高阶统计数据的能力。为了解决这个问题，Gao等人提出在收集全局信息的同时，通过使用全局二阶池(GSoP)块来建模高阶统计数据，从而改进挤压模块。
像SE模块一样，GSoP模块也有一个挤压模块和一个激励模块。在挤压模块中，GSoP块首先使用1x1卷积将通道数从c减少到 $c^{'} (c^{'} < c)$ ，然后计算不同通道的 $c^{'} \times c^{'}$ 协方差矩阵以获得它们的相关性。接下来，对协方差矩阵执行逐行归一化。归一化协方差矩阵中的每个(i, j)明确地将通道 i 与通道 j 联系起来。
在激励模块中，GSoP块执行逐行卷积以保持结构信息并输出向量。然后应用全连通层和sigmoid函数得到c维注意力向量。最后，它将输入特征乘以注意力向量，就像在SE块中一样。一个GSoP块可表述为:
- $s=F_{gsop}(X,\theta)=\delta(WRC(Cov(Conv(X)))),(10)\\ Y=sX,(11)$
- 这里，Conv(·)减少了通道的数量，Cov(·)计算协方差矩阵，RC(·)表示逐行卷积。
通过使用二阶池，GSoP块提高了在SE块上收集全局信息的能力。然而，这是以额外的计算为代价的。因此，通常在几个残差块之后添加单个GSoP块。

SRM

在风格迁移成功的激励下，Lee等人提出了轻量级的基于风格的再校准模块(SRM)。SRM结合了风格转移和注意机制。它的主要贡献是风格池，它利用输入特征的均值和标准差来提高其捕获全局信息的能力。它还采用轻量级的通道全连接(CFC)层来代替原始的全连接层，以减少计算需求。
给定一个输入特征映射 $X∈\R^{C×H×W}$ , SRM首先使用结合了全局平均池化和全局标准差池化的风格池化(SP(·))来收集全局信息。然后使用通道完全连接(CFC(·))层(即每个通道完全连接)，批归一化BN和sigmoid函数σ来提供注意力向量。最后，与SE块一样，输入特征乘以注意力向量。总体而言，SRM可以写成:
- $s=F_{srm}(X,\theta)=\delta(BN(CFC(SP(X)))),(12)\\ Y=sX,(13)$
- SRM块改进了挤压和激励模块，但可以像SE块一样添加到每个残差单元之后。

GCT

由于 excitation 模块中全连接层的计算量和参数数量，在每个卷积层之后使用SE块是不切实际的。此外，使用完全连接的层来建模通道关系是一个隐含的过程。为了克服上述问题，Yang等人提出了门控通道变换(GCT)，在显式建模通道相关关系的同时有效地收集信息。
与以前的方法不同，GCT首先通过计算每个通道的 $l_2$ 范数来收集全局信息。接下来，应用一个可学习向量α来缩放特征。然后采用一种竞争机制，通过信道归一化实现信道间的交互。与其他常见的归一化方法一样，使用可学习的尺度参数γ和偏置β来重新缩放归一化。然而，与以往的方法不同，GCT采用tanh激活来控制注意力向量。最后，它不仅增加了注意力向量的输入，还增加了恒等连接。GCT可以写成:
- $s=F_{GCT}(X,\theta)=tanh(\gamma CN(\alpha Norm(X))+\beta),(14)\\ Y=sX+X,(15)$
- 其中α， β， γ为可训练参数。Norm(·)表示各通道l2范数。CN是信道归一化。GCT块比SE块具有更少的参数，并且由于它是轻量级的，可以在CNN的每个卷积层之后添加。

ECANet

为了避免较高的模型复杂性，SENet减少了通道的数量。然而，这种策略不能直接建立权重向量和输入之间的对应关系，从而降低了结果的质量。为了克服这一缺点，Wang等人提出了高效通道注意(ECA)块，该块使用一维卷积来确定通道之间的相互作用，而不是降维。
ECA模块具有与SE模块相似的配方，包括用于聚合全局空间信息的挤压模块和用于跨通道交互建模的有效激励模块。ECA块只考虑每个通道与其k近邻之间的直接交互，而不是间接对应，以控制模型的复杂性。总的来说，the formulation of an ECA block is:
- $s=F_{eca}(X,\theta)=\delta(Conv1D(GAP(X))),(16)\\ Y=sX,(17)$
- 其中，Conv1D(·) 表示形状为k的核在通道域中的一维卷积，用于模拟局部跨通道相互作用。参数k决定交互的覆盖范围，在ECA中，内核大小k是通过通道维数C自适应确定的，而不是通过手动调优，使用交叉验证:
- $k=\varPsi(C)=|\frac{log_2(C)}{\gamma}+\frac{b}{\gamma}|_{odd},(18)$
- 其中γ和b是超参数。|x|odd表示x最接近的奇函数。
与SENet相比，ECANet具有改进的激励模块，并提供了一个高效的有效块，可以很容易地集成到各种cnn中。

FcaNet

仅在squeeze模块中使用全局平均池限制了表示能力。为了获得更强大的表示能力，Qin等从压缩的角度对捕获的全局信息进行了重新思考，并在频域上分析了全局平均池化。他们证明了全局平均池化是离散余弦变换(DCT)的一种特殊情况，并利用这一观察结果提出了一种新的多光谱通道关注。
给定一个输入特征映射 $X∈\R^{C×H×W}$ ，多光谱通道关注首先将X分成多个部分 $x^i∈\R^{C'×H×W}$ 。然后对每个部分xi应用二维DCT。请注意，二维DCT可以使用预处理结果来减少计算。处理完每个部分后，所有的结果被连接成一个向量。最后，使用完全连接的层，ReLU激活和s形来获得SE块中的注意力向量。这可以表示为:
- $s=F_{fca}(X,\theta)==\delta(W_2\delta(W_1[(DCT(Group(X)))])),(19)\\ Y=sX,(20)$
- 其中Group(·)表示将输入分成多组，DCT(·)表示二维离散余弦变换。这项基于信息压缩和离散余弦变换的工作在分类任务上取得了很好的效果。

EncNet

受SENet的启发，Zhang等提出了包含语义编码损失(SE-loss)的上下文编码模块(CEM)，对场景上下文与对象类别概率之间的关系进行建模，从而利用全局场景上下文信息进行语义分割。给定一个输入特征映射 $X∈\R^{C×H×W}$ , CEM首先学习K个聚类中心 $D = \{d_1，…， d_K\}$ 和一组平滑因子 $S = \{s_1，…， s_K\}$ 在训练阶段。接下来，它使用软分配权重将输入中的局部描述符与相应的聚类中心之间的差异相加，以获得排列不变描述符。然后，为了提高计算效率，它对K个簇中心的描述符应用聚合而不是串联。在形式上，CEM可以写成:
- $e_k=\frac{\sum^N_{i=1}e^{-s_k\|X-i-d_k\|^2}(X_i-d_k)}{\sum^K_{j=1}e^{-s_j\|X_i-d_j\|^2}},(21)\\ e=\sum^K_{k=1}\Phi(e_k),(22)\\ s=\delta(W_e),(23)\\ Y=sX,(24)$
- 其中 $d_k∈\R^C, s_k∈\R$ 为可学习参数。 $\Phi$ 表示ReLU激活的批归一化。除了通道方向的缩放向量，紧凑的上下文描述符e也被应用于计算SE-loss来正则化训练，从而改善了小对象的分割。
CEM不仅增强了类相关的特征映射，而且还通过结合SE-loss迫使网络平等地考虑大对象和小对象。由于其轻量级架构，CEM可以应用于各种主干网，而计算开销很低。

Bilinear Attention

继GSoP-Net之后，Fang等人声称以前的注意力模型只使用一阶信息，而忽略了高阶统计信息。因此，他们提出了一种新的双线性注意块(bi-attention)来捕捉每个通道内的局部两两特征相互作用，同时保留空间信息。
双注意采用注意中的注意(AiA)机制来捕获二阶统计信息:外部点方向的通道注意向量是从内部通道注意的输出中计算出来的。正式给定输入特征映射X，双注意首先使用双线性池来捕获二阶信息。
- $\bar{x}=Bi(\Phi(X))=Vec(UTri(\Phi(X)\Phi(X)^T)),(25)$
- 其中 $\Phi$ 表示用于降维的嵌入函数， $\Phi(X)$ 是 $\Phi(X)$ 在通道域上的转置，Utri(·)提取矩阵的上三角元素，vec(·)是矢量化。双注意将内通道注意机制应用于特征映射 $\bar{x}\in\R^{\frac{c'(c'+1)}{2}*H*W}$ :
- $\hat{x}=w(GAP(\bar{x}))\Phi(\bar{x}),(26)$
- 这里ω和φ是嵌入函数。最后利用输出的特征映射 $\hat{x}$ 计算外部逐点注意机制的空间通道注意权值:
- $s=\delta(\hat{x}),(27)\\ Y=sX,(28)$
双注意块在保留空间信息的同时，利用双线性池化对每个通道上的局部两两特征交互进行建模。与其他基于注意力的模型相比，该模型更加关注高阶统计信息。双注意力可以被纳入任何CNN主干，以提高其代表性，同时抑制噪声。

Spatial Attention

空间注意可以看作是一种适应性的空间区域选择机制:注意到哪里。如下图所示，RAM、STN、GENet和Non-Local是不同类型空间注意方法的代表。RAM表示基于rnn的方法。STN表示那些使用子网明确预测相关区域的网络。GENet表示那些使用子网隐式地预测软掩码以选择重要区域的子网。Non-Local代表与自我关注相关的方法。在本节中，首先总结具有代表性的空间注意机制。
按类别和日期排序的代表性空间注意机制。应用领域包括:Cls =分类，FGCls =细粒度分类，Det =检测，SSeg =语义分割，ISeg =实例分割，ST =风格转移，Action =动作识别，ICap =图像字幕，其中g(x)和f(g(x)， x)为Eq. 1描述的注意过程。范围是指注意范围图。S或H表示软注意或硬注意。(A)根据预测选择区域。(B)基于元素的产品，©通过注意力图聚合信息。(1)将网络集中在判别区域，(2)避免对大输入图像的过度计算，(3)提供更多的变换不变性，(4)捕获远程依赖关系，(5)对输入特征映射进行降噪(6)自适应聚合邻域信息，(7)减少归纳偏差。

RAM

卷积神经网络具有巨大的计算成本，特别是对于大输入。为了将有限的计算资源集中在重要的区域上，Mnih等提出了循环注意模型(recurrent attention model, RAM)，该模型采用rnn和强化学习(reinforcement learning, RL)，使网络学习注意的位置。RAM率先使用rnn进行视觉注意，随后出现了许多其他基于rnn的方法[Draw: A recurrent neural network for image generation]，[Show, attend and tell: Neural image caption generation with visual attention]，[Multiple object recognition with visual attention]。
如下图所示，RAM有三个关键元素:(A) a glimpse sensor，(B)a glimpse network和© RNN模型。glimpse sensor取坐标 $l_{t−1}$ 和图像 $X_t$ 。它输出以 $l_{t−1}$ 为中心的多个分辨率补丁 $ρ(X_t, l_{t−1})$ 。glimpse network $f_g(θ(g))$ 包括一个glimpse sensor，并为输入坐标 $l_{t−1}$ 和图像 $X_t$ 输出特征表示 $g_t$ 。RNN模型考虑 $g_t$ 和内部状态 $h_{t−1}$ ，输出下一个中心坐标 $l_t$ 和动作 $a_t$ ，例如图像分类任务中的softmax结果。由于整个过程不可微，它在更新过程中应用了强化学习策略。
- RAM中的注意过程。(A):a glimpse sensor以图像和中心坐标作为输入，输出多个分辨率补丁。(B):a glimpse network包括一个a glimpse sensor，以图像和中心坐标作为输入，输出一个特征向量。©整个网络循环使用一个a glimpse network，输出预测结果和下一个中心坐标。
这提供了一种简单而有效的方法将网络集中在关键区域，从而减少了网络的计算次数，特别是对于大输入，同时提高了图像分类结果。

Glimpse Network

受人类如何按顺序进行视觉识别的启发，Ba等人提出了一种深度循环网络，类似于RAM，能够处理输入图像的多分辨率剪切，称为 Glimpse，用于多目标识别任务。提出的网络使用Glimpse作为输入来更新其隐藏状态，然后在每一步预测一个新对象以及下一个Glimpse的位置。Glimpse通常比整个图像小得多，这使得网络的计算效率很高。
提出的深度循环视觉注意模型由context network, glimpse network, recurrent network, emission network, and classification network组成。首先，上下文网络将下采样的整个图像作为输入，为循环网络提供初始状态以及第一次glimpse的位置。然后，在当前时间步长t处，给定当前瞥见xt及其位置元组lt，glimpse网络的目标是提取有用信息，表示为
- $g_t=f_{image}(X)·f_{loc}(l_t),(29)$
- 其中 $f_{image}(X)$ 和 $f_{loc}(l_t)$ 是输出向量具有相同维数的非线性函数，· 表示元素积，用于融合来自两个分支的信息。然后，由两个堆叠的循环层组成的循环网络将从每个单独的瞥见收集到的信息聚合在一起。循环层的输出是:
- $r_t^{(1)}=f_{rec}^{(1)}(g_t,r_{t-1}^{(1)}),（30）\\ r_t^{(2)}=f_{rec}^{(2)}(r_t^{(1)},r_{t-1}^{(2)}),（31）$
- 给定循环网络的当前隐藏状态 $r^{(2)} _t$ ， emission network预测the next glimpse的位置。正式地，它可以写成
- $l_{t+1}=f_{emis(r_t^{(2)})},(32)\\$
- 最后，分类网络根据循环网络的隐藏状态 $r^{(1)}_ t$ ，输出对类标号 y 的预测
- $y=f_{cls}(r_t^{(1)}),(33)$
与在整个图像上运行的CNN相比，该模型的计算成本要低得多，并且由于每一步只处理一个片段，因此可以自然地处理不同大小的图像。此外，通过循环注意机制提高了鲁棒性，也缓解了过拟合问题。该管道可以并入任何最先进的CNN骨干或RNN单元。

Hard and soft attention

为了可视化图像标题生成模型应该关注的位置和内容，Xu等人引入了一个基于注意的模型以及两种不同的注意机制，硬注意和软注意。给定一组特征向量 $a = \{a_1，…， a_L\}， a_i∈\R^D$ 从输入图像中提取，该模型旨在通过每个时间步生成一个单词来生成标题。因此，他们采用长短期记忆(LSTM)网络作为解码器;注意机制用于生成上下文向量 $z_t$ ，该向量以特征集a和之前的隐藏状态 $h_{t−1}$ 为条件，其中t表示时间步长。形式上，特征向量 $a_i$ 在第t个时间步长的权值 $α_{t,i}$ 定义为
- $e_{t,i}=f_{att}(a_i,g_{t-1}),(34)\\ \alpha_{t,i}=\frac{exp(e_{t,i}}{\sum_{k=1}^Lexp(e_{t,k})},(35)$
- 其中 $f_{att}$ 是由一个多层感知器实现的，该感知器以之前的隐藏状态 $h_{t−1}$ 为条件。正权重 $α_{t,i}$ 可以被解释为位置i是正确的焦点位置的概率(硬注意)，或者作为位置 $i$ 对下一个单词的相对重要性(软注意)。为了获得上下文向量 $z_t$ ，硬注意机制分配了一个multinoulli分布，参数化为 ${α_t,i}$ ，并将 $z_t$ 视为随机变量:
- $p(s_{t,i}=1|\alpha,h_{t-1})=\alpha_{t,i},(36\\ z_t=\sum_{i=1}^Ls_{t,i}\alpha_i,(37)$
- 另一方面，软注意机制直接使用上下文向量zt的期望，
- $z_t=\sum_{i=1}^L\alpha_{t,i}\alpha_i,(38)$
注意机制的使用通过允许用户理解模型关注的内容和位置，提高了图像标题生成过程的可解释性。它还有助于提高网络的表示能力。

Attention Gate

以往的MR分割方法通常对特定的感兴趣区域(ROI)进行操作，这需要过度浪费计算资源和模型参数。为了解决这一问题，Oktay等人提出了一种简单而有效的机制，即注意门(attention gate, AG)，它专注于目标区域，同时抑制无关区域的特征激活。给定输入特征图X和粗尺度采集的门限信号 $G∈\R^{C'×H×W}$ ，门限信号中包含上下文信息，注意门采用加性注意获得门限系数。首先将输入X和门控信号线性映射到 $R^{F ×H×W}$ 维度空间，然后将输出在通道域中进行压缩，得到一个空间注意力权重图 $S∈\R^{1×H×W}$ 。
注意门将模型的注意力引导到重要区域，同时抑制不相关区域的特征激活。由于其轻量化设计，在不显著增加计算成本或模型参数数量的情况下，大大增强了模型的表示能力。它具有通用性和模块化，使其易于在各种CNN模型中使用。

STN

平移等方差的特性使cnn适合处理图像数据。然而，cnn缺乏其他的变换不变性，如旋转不变性、缩放不变性和翘曲不变性。为了实现这些属性，同时使cnn关注重要区域，Jaderberg等提出了空间transformer网络(STN)，该网络使用明确的过程来学习平移、缩放、旋转和其他更普遍的扭曲的不变性，使网络关注最相关的区域。STN是第一个明确预测重要区域并提供具有变换不变性的深度神经网络的注意机制。随后的各种作品[Deformable convolutional networks]、[Deformable convnets v2: More deformable, better results]取得了更大的成功。
以二维图像为例，二维仿射变换可表示为:
- 这里，U是输入特征映射， $f_{loc}$ 可以是任何可微函数，例如轻量级全连接网络或卷积神经网络。 $x_{s}^i$ 和 $y_{s}^i$ 为输出特征映射中的坐标， $x^t_i$ 和 $y^t_i$ 为输入特征映射中的对应坐标，θ矩阵为可学习仿射矩阵。获取对应关系后，网络利用对应关系对相关输入区域进行采样。为了保证整个过程是可微的，并且可以端到端更新，使用双线性采样对输入特征进行采样。STNs自动关注判别区域，并学习对某些几何变换的不变性。

Deformable Convolutional Networks

与stn的目的相似，Dai等提出了可变形卷积网络(deformable ConvNets)对几何变换不变性，但他们以不同的方式关注重要区域。具体来说，可变形卷积神经网络不学习仿射变换。他们将卷积分为两步，首先从输入特征映射中对规则网格R上的特征进行采样，然后使用卷积核对采样特征进行加权求和。这个过程可以写成:
- $Y(p_0)=\sum_{p_i\in \R}w(p_i)X(p_0+p_i),(43)\\ \R ={(-1,1),(-1,0),...,(1,1)},(44)$
- 可变形卷积通过引入一组可学习的偏移量 $p_i$ 来增强采样过程，这些偏移量可以由轻量级CNN生成。利用偏移量 $p_i$ ，可变形卷积可表示为:
- $Y(p_0)=\sum_{p_i\in \R}w(p_i)X(p_0+p_i+∆p_i),(45)$
- 通过上述方法，实现了自适应采样。然而， $p_i$ 是一个浮点值，不适合网格采样。为了解决这个问题，使用双线性插值。还使用了可变形的RoI池，大大提高了目标检测。
可变形卷积神经网络自适应选择重要区域，扩大卷积神经网络的有效接受域;这在目标检测和语义分割任务中很重要。

Self-attention and variants

自注意在自然语言处理(NLP)领域被提出并取得了巨大成功。最近，它也显示出成为计算机视觉的主导工具的潜力。通常，自我注意被用作一种空间注意机制来获取全局信息。本文现在总结了自注意机制及其在计算机视觉中的常见变体。
由于卷积运算的局域化，cnn具有固有的窄接受域，这限制了cnn在全局上理解场景的能力。为了增加感受野，Wang等人将自我注意引入计算机视觉。以二维图像为例，给定特征映射 $F∈\R^{C×H×W}$ ，自关注首先通过线性投影和重塑运算计算查询、键和值 $Q, K, V∈\R^{C'×N}, N = H×W$ 。那么自我关注可以表述为:
- $A=(a)_{i,j}=softmax(QK^T),(46)\\ Y=AV,(47)$
- 式中， $A∈\R^{N×N}$ 为注意矩阵， $α_{i,j}$ 为第i个元素与第j个元素之间的关系。整个过程如下图(左)所示。自我注意是建模全局信息的强大工具，在许多视觉任务中都很有用。
- 视觉transformer。左:体系结构。视觉transformer首先将图像分割成不同的小块，并将它们投影到特征空间中，在特征空间中，transformer编码器对它们进行处理以产生最终结果。右图:带有多头注意力核心的基本视觉transformer块。
然而，自注意机制存在一些缺点，特别是其二次复杂度，限制了其适用性。已经引入了几种变体来缓解这些问题。解纠缠非局部方法[Disentangled non-local neural networks]提高了自注意的准确性和有效性，但大多数变体都侧重于降低其计算复杂度。
CCNet将自注意操作视为一个图卷积，用几个稀疏连接图代替自注意处理的密集连接图。为此，该算法提出了一种循环考虑行注意和列注意的交叉注意方法，以获取全局信息。CCNet将自注意的复杂性从 $0 (n^2)$ 降低到 $O (N \sqrt N)$ 。
EMANet从期望最大化(EM)的角度来看待自我注意。提出了EM关注，采用EM算法得到一组紧凑的基，而不是使用所有的点作为重建基。这将复杂度从 $O(n^2)$ 降低到 $O (N K)$ ，其中K是紧化基的数量。
人工神经网络建议使用所有位置特征作为键和向量是冗余的，并采用空间金字塔池来获得几个具有代表性的键和值特征来代替，以减少计算量。
GCNet分析了自注意所使用的注意图，发现自注意所获得的全局上下文对于同一图像的不同查询位置是相似的。因此，该方法首先提出预测所有quert点共享的单个注意图，然后根据该注意图从输入特征的加权和中获得全局信息。这类似于平均池，但它是收集全局信息的更一般的过程。
A2Net受SENet的启发，将注意力分为特征收集过程和特征分配过程，使用两种不同的注意力。第一种方法通过二阶注意力池聚合全局信息，第二种方法通过软选择注意力分配全局描述符。
GloRe从图学习的角度来理解自我注意。它首先将N个输入特征收集到 $\ll N$ 个节点，然后学习节点间全局交互的邻接矩阵。最后，节点将全局信息分发给输入特征。在LatentGNN、MLP-Mixer和ResMLP中也可以找到类似的想法。
ocnet提出了对象-上下文表示的概念，它是同一类别中所有对象区域表示的加权聚合，例如所有汽车区域表示的加权平均值。它用这种对象上下文表示代替了键和向量，从而成功地提高了速度和效率。
解纠缠非局部方法的动机是[Non-local neural networks]，[Gcnet]。Yin等深入分析了自我注意的机制，提出了将自我注意解耦为两两项和一元项的核心思想。两项侧重于关系建模，一元项侧重于显著边界。这种分解防止了两个术语之间不必要的交互，极大地改善了语义分割、目标检测和动作识别。
HamNet将捕获全局关系作为低秩补全问题建模，并设计了一系列使用矩阵分解捕获全局上下文的白盒方法。这不仅降低了复杂性，而且增加了自我关注的可解释性。
EANet提出，自我注意应该只考虑单个样本的相关性，而忽略不同样本之间的潜在关系。为了探索不同样本之间的相关性，减少计算量，它利用了一种可学习的、轻量级的、共享的键和值向量的外部关注。研究进一步表明，使用softmax对注意图进行归一化并不是最优的，双重归一化是一种更好的选择。
自关注除了作为cnn的一种补充方法外，还可以用来代替卷积运算来聚合邻域信息。卷积运算可以表示为输入特征X与卷积核W之间的点积:
- $Y^c_{i,j}=\sum_{a,b\in\{1,...,k-1\}}W_{a,b,c}X_{\hat{a},\hat{b}},(48)\\ \hat{a}=i+a-[k/2],\hat{b}=j+b-[k/2],(49)$
- K表示内核大小，c表示通道。上述公式可以看作是通过卷积核使用加权和对邻域信息进行聚合的过程。聚合邻域信息的过程可以更一般地定义为:
- $Y_{i,j}=\sum_{a,b\in\{0,..,k-1\}}Rel(i,j,\hat{a},\hat{b})f(X_{\hat{a},\hat{b}})$
- 其中 $Rel(i,j,\hat{a},\hat{b})$ 为位置 $(i, j)$ 与位置 $(\hat a, \hat b)$ 之间的关系。根据这个定义，局部自我关注是一个特例。例如，SASA将其写为:
- $Y_{i,j}=\sum_{a,b\in \N_k(i,j)}softmax_{ab}(q^T_{ij}k_{ab}+q_{ij}r_{a-i,b-j})v_{ab},(51)$
- 其中q, k和v是输入特征x的线性投影， $r_{a - i,b - j}$ 是(i, j)和(a, b)的相对位置嵌入。
本文现在考虑几个使用局部自注意作为基本神经网络块的具体工作：
SASA认为使用自注意来收集全局信息计算量太大，可以采用局部自注意来代替CNN中的所有空间卷积。作者表明，这样做提高了速度，参数的数量和结果的质量。他们还探讨了位置嵌入的行为，并表明相对位置嵌入是合适的。他们的工作还研究了如何将局部自关注与卷积结合起来。
LR-Net与SASA同时出现。研究了如何利用局部自注意对局部关系进行建模。综合研究了位置嵌入、核大小、结构可组合性和对抗性攻击的影响。
SAN探索了两种利用注意力进行局部特征聚合的模式，即成对模式和补丁模式。提出了一种内容和频道自适应的注意力矢量，并从理论和实践两方面对其有效性进行了评价。除了在图像域提供显著改进外，它还被证明在3D点云处理中很有用。

Vision Transformers

transformer在自然语言处理方面取得了巨大的成功。在iGPT和DETR证明了基于transformer的模型在计算机视觉中的巨大潜力。受此启发，Dosovitskiy等提出了视觉transformer(vision transformer, ViT)，这是第一个用于图像处理的纯transformer架构。它能够获得与现代卷积神经网络相当的结果。
如上文图所示，ViT的主要部分是多头注意(MHA)模块。MHA以序列作为输入。它首先将一个类标记与输入特征 $F∈\R^{N×C}$ 连接起来，其中N是像素数。然后通过线性投影得到 $Q, K∈\R^{N×C'}$ 和 $V∈\R^{N×C}$ 。接下来，将Q、K、V在信道域中划分为H个磁头，分别对其进行自关注。MHA方法如下图所示。ViT堆叠了许多具有完全连接层、层归一化和GELU激活函数的MHA层。
- 左:Self-attention。右:多头自我关注。
ViT表明，纯基于注意力的网络可以比卷积神经网络获得更好的结果，特别是对于JFT-300和ImageNet-21K等大型数据集。继ViT之后，又出现了PCT、IPT、T2T-ViT、DeepViT、SETR、PVT、CaiT、TNT、Swintransformer、Query2Label、MoCoV3、BEiT、SegFormer、FuseFormer[、MAE等基于transformer的架构，在图像分类、目标检测、语义分割、点云处理、动作识别、自监督学习等多种视觉任务上都取得了优异的成绩。
由于其他近期调查[Transformers in computational visual media: A survey]、[A survey on visual transformer]、[Transformers in vision: A survey ]、[Can attention enable mlps to catch up with cnns?]全面回顾了视觉任务中transformer方法的使用。

GENet

受SENet的启发，Hu等人设计了GENet，通过在空间域中提供重新校准功能来捕获远程空间上下文信息。GENet结合了零件收集和激励操作。在第一步中，它将输入特征聚集在大的邻域上，并对不同空间位置之间的关系进行建模。在第二步中，首先使用插值方法生成与输入特征图大小相同的注意图。然后通过乘以注意图中相应的元素来缩放输入特征图中的每个位置。这个过程可以描述为:
- $g=f_{gather}(X),(52)\\ s=f_{excite}(g)=\theta(Interp(g)),(53)\\ Y=sX,(54)$
- 这里， $f_{gather}$ 可以采用捕获空间相关性的任何形式，例如全局平均池化或深度卷积序列;Interp(·)表示插值.采集激发模块是轻量级的，可以像SE块一样插入到每个残差单元中。它强调重要的特征，同时抑制噪声。

PSANet

受卷积神经网络成功捕获远程依赖关系的启发，Zhao等人提出了新的PSANet框架来聚合全局信息。将信息聚合建模为信息流，提出了一种双向信息传播机制，使信息在全局范围内流动。PSANet将信息聚合表述为:
- $z_i=\sum_{j\in Ω(i)}F(x_i,x_j,∆_{ij})x_j,(55)$
- 式中， $_{ij}$ 表示i与j的位置关系。 $F (x_i, x_j，∆_{ij})$ 是一个考虑 $x_i, x_j，∆_{ij}$ 的函数，控制从j到i的信息流。 $Ω_i$ 表示位置i的聚集邻域;如果希望获取全局信息， $Ω_i$ 应该包括所有空间位置。
由于计算函数 $F (x_i, x_j，∆_{ij})$ 的复杂性，将其分解为近似:
- $F(x_i,x_j,∆_{ij})≈F_{∆_{ij}}(x_i) + F_{∆_{ij}}(x_j),(56)$
- 式55可化简为:
- $z_i=\sum_{j\in Ω_(i)}F_{∆_{ij}}(x_i)x_j+\sum_{j\in Ω_(i)}F_{∆_{ij}}(x_j)x_j$
- 第一项可以看作是在位置i收集信息，第二项可以看作是在位置j分配信息。函数 $F_{∆ij} (x_i)$ 和 $F_{∆ij} (x_j)$ 可以看作是自适应注意权值。
上述过程在强调相关特征的同时聚合全局信息。它可以添加到卷积神经网络的末端，作为一个有效的补充，大大提高语义分割。

Temporal Attention

时间注意可以看作是一种动态的时间选择机制，它决定了什么时候需要注意，因此通常用于视频处理。以前的作品经常强调如何捕捉短期和长期的跨帧特征依赖关系。在这里，首先总结具有代表性的时间注意机制，并具体说明下表中所描述的过程g(x)和f(g(x)， x)。
- 按日期排序的代表性时间注意机制。ReID =重新识别，Action =行动识别。范围是指注意范围图。S或H表示软注意力或硬注意力。g(x)和f(g(x)， x)为公式1所描述的注意过程。(A)通过注意图聚合信息。(1)利用多尺度短期时间上下文信息;(2)捕捉长期时间特征依赖关系;(3)捕捉局部时间上下文

Self-attention and variants

RNN和时间池或权重学习已广泛用于视频表示学习，以捕获帧之间的交互，但这些方法在效率或时间关系建模方面存在局限性。为了克服这些问题，Li等人提出了一种全局局部时间表征(GLTR)来利用视频序列中的多尺度时间线索。GLTR由用于局部时间上下文学习的扩展时间金字塔(DTP)和用于捕获全局时间交互的时间自注意模块组成。DTP采用扩张率逐渐增加的扩张卷积来覆盖不同的时间范围，然后将不同的输出串接起来，聚合多尺度信息。给定输入帧特征 $F = \{f1，…，f_T\} ,DTP$ 可以写成:
- 其中 $DConv^{(r)}(·)$ 为展开卷积，展开率为 r。自注意机制采用卷积层，然后进行批归一化和ReLU激活，根据输入特征映射 $F'= \{f'_1,...,f'_T\}$ 生成查询 $Q∈\R^{d×T}$ ，键 $K∈\R^{d×T}$ ，值 $V∈\R^{d×T}$ 。可以写成
- $F_{out}=g(VSoftmax(QK^T))+F',(60)$
- 其中g表示由卷积实现的线性映射。
来自相邻帧的短期上下文信息有助于区分视觉上相似的区域，而长期上下文信息有助于克服遮挡和噪声。GLTR结合了两个模块的优点，增强了表示能力并抑制了噪声。它可以被纳入任何最先进的CNN骨干学习全局描述符为整个视频。然而，自注意机制具有二次的时间复杂度，限制了其应用。

TAM

为了高效灵活地捕捉复杂的时间关系，Liu等提出了一种时间自适应模块(TAM)。它采用自适应核代替自关注来捕获全局上下文信息，时间复杂度低于GLTR。TAM有两个分支机构，一个局部分支机构和一个全局分支机构。给定输入特征图 $X∈\R^{C×T ×H×W}$ ，首先对特征图应用全局空间平均池化GAP，以保证TAM具有较低的计算成本。然后，TAM的局部分支在时域上使用多个具有ReLU非线性的1D卷积来生成位置敏感的重要性图，以增强帧相关特征。局部分支可以写成
- $s=\delta(Conv1D(\delta(Conv1D(GAP(X))))),(61)\\ X^1=sX,(62)$
- 与局部分支不同，全局分支是位置不变的，并侧重于基于每个通道中的全局时间信息生成一个基于通道的自适应内核。对于第c个通道，内核可以写成：
- $\Theta_c=softmax(FC_2(\delta(FC_1(GAP(X)_c)))),(63)$
- 式中 $Θ_c∈\R^K$ , K为自适应核大小。最后，TAM将自适应内核 Θ 与 $X^1_{out} $ 进行卷积:
- $Y=\Theta \otimes X^1,(64)$
在局部分支和全局分支的帮助下，TAM可以捕获视频中复杂的时间结构，以较低的计算成本增强每帧特征。由于其灵活性和轻量化设计，TAM可以添加到任何现有的二维cnn中。

Branch Attention

分支注意可以看作是一种动态的分支选择机制:要注意哪个分支，与多分支结构一起使用。本文首先总结了具有代表性的分支注意机制，并指定了下表中所描述的过程g(x)和f(g(x)， x)，然后详细讨论了各种机制。
- 按日期排序的代表性分支关注机制。Cls =分类，Det=对象检测。g(x)和f(g(x)， x)为公式1所描述的注意过程。范围是指注意范围图。S或H表示软注意力或硬注意力。(A)元素产品。(B)渠道型产品。©通过注意力聚合信息。(1)克服梯度消失问题(2)动态融合不同分支。(3)自适应选择合适的接受野(4)提高标准卷积的性能(4)动态融合不同的卷积核。

Highway networks

受长短期记忆网络的启发，Srivastava等人提出了采用自适应门通机制的Highway networks，使信息能够跨层流动，以解决训练非常深的网络的问题。假设一个普通神经网络由L层组成， $H_l(X)$ 表示第L层的非线性变换，则Highway networks可以表示为
- $Y_l=H_l(X_l)T_l(X_l)+X_l(1-T_l(X_l)),(65)\\ T_l(X)=\delta(W_l^TX+b_l),(66)$
- 式中 $T_l(X)$ 表示调节第 $l$ 层信息流的变换栅极。 $X_l$ 和 $Y_l$ 是第l层的输入和输出。
门控机制和跳接结构使得用简单的梯度下降法直接训练非常深的Highway networks成为可能。与固定的跳过连接不同，门控机制适应输入，这有助于跨层路由信息。Highway networks可以并入任何CNN。

SKNet

神经科学界的研究表明，视觉皮层神经元根据输入刺激适应性地调整其接受野(RFs)的大小。这启发了Li等人提出了一种称为选择性核(SK)卷积的自动选择操作。SK卷积使用三个操作来实现:分裂、融合和选择。在分割过程中，对特征映射应用不同核大小的变换，得到不同大小的RFs。然后通过元素求和将所有分支的信息融合在一起以计算门向量。这用于控制来自多个分支的信息流。最后，在门向量的引导下，对所有分支的特征图进行聚合，得到输出的特征图。这可以表示为:
- 这里，每个转换 $F_k$ 都有一个唯一的核大小，为每个分支提供不同规模的信息。为了提高效率， $F_k$ 通过分组或深度卷积实现，然后依次进行扩展卷积、批处理归一化和ReLU激活。 $t^{(c)}$ 表示向量T的第c个元素，或者矩阵T的第c行。
SK卷积使网络能够根据输入自适应调整神经元的RF大小，以很小的计算成本显著改善了结果。SK卷积中的门机制用于融合来自多个分支的信息。由于其轻量级设计，SK卷积可以通过替换所有大的内核卷积来应用于任何CNN主干。ResNeSt也采用了这种关注机制，以更通用的方式改进CNN骨干网，在ResNet和ResNeXt上取得了优异的成绩。

CondConv

cnn的一个基本假设是所有卷积核都是相同的。鉴于此，增强网络表示能力的典型方法是增加其深度或宽度，这将引入显著的额外计算成本。为了更有效地增加卷积神经网络的容量，Yang等提出了一种新的多分支算子CondConv。一个普通的卷积可以写成
- $Y = W * X, (72)$
- 其中*表示卷积。所有样本的可学习参数W是相同的。CondConv自适应地组合了多个卷积核，可以写成:
- $Y=(\alpha_1W_1+...+\alpha_nW_n)*X,(73)$
- 这里，α是一个可学习的权重向量，由
- $\alpha=\delta(W_r(GAP(X))),(74)$
这个过程相当于多个专家的集合，如下图所示：
- CondConv。(a) CondConv首先组合不同的卷积核，然后使用组合核进行卷积。(b)混合专家首先使用多个卷积核进行卷积，然后对结果进行合并。(a)和(b)是等价的，(a)的计算成本要低得多。
CondConv充分利用了多分支结构的优点，采用了计算成本小的分支关注方法。提出了一种有效提高网络性能的新方法。

Dynamic Convolution

轻量级cnn极低的计算成本限制了网络的深度和宽度，进一步降低了它们的表示能力。为了解决上述问题，Chen等人提出了动态卷积(dynamic convolution)，这是一种新颖的算子设计，与CondConv并行，它在增加计算成本的同时提高了表征能力，并且不会改变网络的宽度或深度。
动态卷积使用K个相同大小和输入/输出维度的并行卷积核，而不是每层一个核。与SE块一样，它采用挤压激励机制来生成不同卷积核的注意权值。然后通过加权求和动态聚合这些核，并应用于输入特征映射X:
- 这里的卷积是通过卷积核的权重和偏差的总和来组合的。
与对特征映射进行卷积处理相比，压缩激励和加权求和的计算成本非常低。因此，动态卷积提供了一种有效的操作来提高表征能力，并且可以很容易地用作任何卷积的替代品。

Channel & Spatial Attention

通道&空间注意结合了渠道注意和空间注意的优点。它自适应地选择重要的对象和区域。残差注意网络开创了通道和空间注意领域，强调了空间和通道维度上信息特征的重要性。它采用由多个卷积组成的自底向上结构，生成三维(高度、宽度、通道)注意图。然而，它具有较高的计算成本和有限的接受域。
为了利用全局空间信息的后期作品通过引入全局平均池化以及解耦通道注意和空间通道注意来提高计算效率，从而增强特征的识别。其他研究应用自注意机制来探索通道和空间注意的两两交互作用。然而，进一步的研究采用空间通道注意机制来扩大感受野。
如Eq. 1所描述的代表性通道和空间注意机制以及具体过程g(x)和f(g(x)， x)见下表。
- 按日期排序的代表性渠道和空间注意机制。Cls =分类，ICap =图像字幕，Det =检测，Seg =分割，ISeg =实例分割，KP =关键点检测，ReID =重新识别，其中g(x)和f(g(x)， x)为Eq. 1描述的注意过程。范围是指注意范围图。S或H表示软注意力或硬注意力。(A)元素产品。(B)通过注意图聚合信息，(I)将网络集中在判别区域，(II)强调重要通道，(III)捕获远程信息，(IV)捕获任意两个域之间的跨域交互。

Residual Attention Network

受ResNet成功的启发，Wang等将注意机制与残差连接相结合，提出了非常深卷积残差注意网络(very deep convolutional residual attention network, RAN)。
在残差注意网络中堆叠的每个注意模块可以分为掩码分支和主干分支。主干分支处理特征，并且可以由任何最先进的结构实现，包括预激活残差单元和初始块。mask分支采用自底向上、自顶向下的结构学习相同大小的mask，对trunk分支的输出特征进行软加权。在两个1 × 1的卷积层之后，sigmoid层将输出归一化为[0,1]。总的来说，残差注意机制可以写成：
- $s=\delta(Conv_2^{1*1}(h_{up}(h_{down}(X)))),(78)\\ X_{out}=sf(X)+f(X),(79)$
- 其中 $h_{up}$ 为自底向上结构，在残差单元之后多次使用max-pooling来增加接受域; $h_{down}$ 为自顶向下结构，使用线性插值来保持输出大小与输入特征图相同。两部分之间还存在跳跃式连接，在公式中省略。f 表示主干分支，它可以是任何最先进的结构。
在每个注意力模块中，一个自底向上的前馈结构对空间依赖性和跨通道依赖性进行建模，从而导致一致的性能改进。残差注意可以以端到端训练的方式整合到任何深度网络结构中。然而，提出的自底向上的自顶向下的结构无法利用全局空间信息。此外，直接预测三维注意图的计算成本较高。

CBAM

为了增强信息通道和重要区域，Woo等提出了卷积块注意模块(convolutional block attention module, CBAM)，将通道注意和空间注意串联起来。该算法将通道注意图和空间注意图解耦以提高计算效率，并通过引入全局池化来利用空间全局信息。
CBAM有两个顺序子模块，信道和空间。给定一个输入特征图 $X∈\R^{C×H×W}$ ，它依次推断出一个1D通道关注向量 $s_c∈\R^C$ 和一个2D空间关注图 $s_s∈\R^{H×W}$ 。通道关注子模块的表述类似于SE块，不同之处在于它采用了多种池化操作来聚合全局信息。具体来说，它有两个使用max-pool和avg-pool操作的并行分支:
- 其中 $GAP^s$ 和 $GMP^s$ 表示空间域中的全球平均池化和全球最大池化操作。空间注意子模块对特征的空间关系进行建模，与通道注意互为补充。与通道注意不同的是，它使用一个具有大核的卷积层来生成注意图。
其中Conv(·)表示卷积操作，而 $GAP^c$ 和 $GMP^c$ 是通道域中的全局池化操作。[]表示通道间的连接。整个注意力过程可以概括为
- $X'=M_c(X),(88)\\ Y=M_s(X'),(89)$
- CBAM将通道注意和空间注意依次结合起来，可以利用特征的空间关系和跨通道关系来告诉网络关注什么和关注哪里。更具体地说，它强调有用的通道和增强信息的局部区域。由于其轻量级设计，CBAM可以无缝集成到任何CNN架构中，而额外成本可以忽略不计。然而，通道和空间注意机制仍有改进的空间。例如，CBAM采用卷积来产生空间注意图，因此空间子模块可能会受到有限的接受域的影响。

BAM

与CBAM同时，Park等提出了瓶颈注意模块(BAM)，旨在有效提高网络的表征能力。利用扩展卷积来扩大空间注意子模块的接受域，并根据ResNet的建议构建瓶颈结构以节省计算成本。
对于给定的输入特征图X, BAM推断出两个并行流中的通道注意力 $s_c∈\R^C$ 和空间注意力 $s_s∈\R^{H×W}$ ，然后将两个分支输出的大小调整为 $R^{C×H×W}$ 后将两个注意力图求和。通道注意分支像SE块一样，对特征映射应用全局平均池化来聚合全局信息，然后使用信道降维的MLP。为了有效地利用上下文信息，空间注意分支结合了瓶颈结构和扩张卷积。总的来说，BAM可以写成
- 其中， $W_i, b_i$ 分别表示全连接层的权重和偏置， $Conv^{1×1}_1$ 和 $Conv^{1×1}_2$ 是用于信道缩减的卷积层。 $DC^{3×3}_i$ 表示具有3×3核的扩展卷积，用于有效地利用上下文信息。Expand将注意图 $s_s$ 和 $s_c$ 扩展到 $R^{C×H×W}$ 。
BAM可以在空间和通道两个维度上强调或抑制特征，并提高表征能力。对通道和空间注意分支进行降维处理，使其能够与任何卷积神经网络集成，并且计算成本很小。然而，尽管扩张卷积有效地扩大了接受野，但它仍然无法捕获远程上下文信息以及编码跨域关系。

scSE

为了聚合全局空间信息，SE块对特征映射应用全局池化。然而，它忽略了在密集预测任务中很重要的逐像素空间信息。因此，Roy等提出了空间和通道SE块(scSE)。与BAM一样，使用空间SE块作为SE块的补充，提供空间注意力权重，以关注重要区域。
给定输入特征映射X，对特征映射分别应用空间SE和通道SE两个并行模块对空间信息和通道信息进行编码。通道SE模块为普通SE块，空间SE模块采用1 × 1卷积进行空间压缩。两个模块的输出是融合的。整个过程可以写成
- 式中f为融合函数，可以是最大值、加法、乘法或拼接。
提出的scSE块结合通道和空间注意来增强特征以及捕获逐像素的空间信息。分割任务因此受益匪浅。在f - cnn中集成一个scSE块，可以在很小的额外成本下实现语义分割的一致性改进。

Triplet Attention

在CBAM和BAM中，通道注意和空间注意是独立计算的，忽略了这两个领域之间的关系。在空间注意的激励下，Misra等提出了三重注意，这是一种轻量级但有效的注意机制，用于捕获跨域交互。
给定一个输入特征映射X，三重关注使用三个分支，每个分支的作用是捕获H, W和c中任意两个域之间的跨域交互。在每个分支中，首先对输入应用沿不同轴的旋转操作，然后一个Zpool层负责聚合第零维的信息。最后，一个核大小为k × k的标准卷积层对后两个域之间的关系进行建模。这个过程可以写成
- 其中， $Pm_1$ 和 $Pm_2$ 分别表示绕H轴和W轴逆时针旋转90°，而 $Pm_i^{−1}$ 表示逆时针旋转。Z-Pool沿着第零维度连接最大池和平均池。
- $Y = Z - P oo l (X) = [GMP (X); G A P (X)], (105)$
- 与CBAM和BAM不同，三重注意强调捕获跨域交互的重要性，而不是独立计算空间注意和通道注意。这有助于捕获丰富的判别特征表示。由于其结构简单而高效，可以很容易地在经典骨干网中添加三重关注。

SimAM

Yang等人在提出SimAM时也强调了学习跨通道和空间域的注意权重的重要性。SimAM是一种简单的无参数注意模块，能够直接估计3D权重，而不是扩展1D或2D权重。SimAM的设计基于著名的神经科学理论，从而避免了对网络结构进行手动微调的需要。
在空间抑制现象的激励下，他们提出应该强调表现出抑制作用的神经元，并将每个神经元的能量函数定义为:
- $e_t(w_t,b_t,y,x_i)=(y_t-\hat{t})^2+\frac{1}{M-1}\sum_{i=1}^{M-1}(y_o-\hat{x_i})$
- 其中 $\hat t = w_tt + b_t,$ $\hat x_i= w_tx_i + b_t$ , t和 $x_i$ 单位和所有其他单位的目标是在同一个频道; $i \in 1, ..., N$ 和N = H×W。上述方程存在最优闭型解:
- $e^*_t=\frac{4(\delta^2+\lambda)}{(t-\hat\mu)^2+2\hat\delta^2+2\lambda}$
- 式中，为输入特征的均值， $σ^2$ 为输入特征的方差。sigmoid函数用于控制注意力向量的输出范围;应用元素乘积得到最终输出:
- $Y=sigmoid(\frac 1E)X,(108)$
- 该工作简化了注意力设计过程，并基于数学和神经科学理论成功地提出了一种新的三维无权重参数的注意力模块。

Coordinate attention

SE块在跨通道关系建模之前使用全局池来聚合全局空间信息，但忽略了位置信息的重要性。BAM和CBAM采用卷积来捕获局部关系，但无法对长期依赖关系进行建模。为了解决这些问题，Hou等提出了一种新的关注机制——坐标关注，该机制将位置信息嵌入到通道关注中，使网络能够以较小的计算成本关注较大的重要区域。
坐标注意机制有两个连续的步骤:坐标信息嵌入和坐标注意生成。首先，池化核的两个空间范围对每个通道进行水平和垂直编码。在第二步中，对两个池化层的连接输出应用共享的1 × 1卷积变换函数。然后，坐标注意将得到的张量分成两个单独的张量，以产生具有相同数量通道的注意向量，用于输入X沿的水平和垂直坐标。可以写成
- 式中， $GAP^h$ 和 $GAP^w$ 分别表示垂直和水平坐标的池化函数， $s_h∈\R^{C×1×W}$ 和 $s_w∈\R^{C×H×1}$ 分别表示相应的注意权值。
利用坐标关注，该网络可以准确地获取目标物体的位置。这种方法比BAM和CBAM有更大的接受域。与SE块一样，它也对跨通道关系进行建模，有效地增强了学习特征的表达能力。由于其轻量级的设计和灵活性，它可以很容易地用于移动网络的经典构建模块。

DANet

在场景分割领域，编码器-解码器结构不能利用对象之间的全局关系，而基于rnn的结构严重依赖于长期记忆的输出。为了解决上述问题，Fu等提出了一种新的自然场景图像分割框架——双注意网络(dual attention network, DANet)。与CBAM和BAM不同，它采用自注意机制，而不是简单地叠加卷积来计算空间注意图，使网络能够直接捕获全局信息。
DANet并行使用位置注意模块和通道注意模块来捕获空间和通道域中的特征依赖关系。给定输入的特征图X，首先在位置注意模块中应用卷积层来获得新的特征图。然后，位置关注模块使用所有位置特征的加权和来选择性地聚合每个位置的特征，其中权重由对应位置对之间的特征相似性决定。通道注意模块除了通过降维来模拟跨通道关系外，具有类似的形式。最后将两个分支的输出进行融合，得到最终的特征表示。为简单起见，将特征映射X重塑为C × (H × W)，因此整个过程可以写成
- 其中， $W_q、W_k、W_v∈\R^{C×C}$ 用于生成新的特征图。
位置注意模块使DANet能够捕获远程上下文信息，并从全局角度自适应地整合任何尺度的相似特征，而通道注意模块负责增强有用的通道以及抑制噪声。将空间关系和通道关系考虑在内，明确地改善了场景分割的特征表示。然而，它的计算成本很高，特别是对于大的输入特征映射。

RGA

在关系感知全局注意(RGA)中，与强调捕获远程上下文的坐标注意和DANet不同，Zhang等人强调两两关系提供的全局结构信息的重要性，并使用它来生成注意图。RGA有两种形式，空间RGA (RGA- s)和通道RGA (RGA- c)。RGA-S首先将输入特征映射X重塑为C ×(H×W)，并使用计算成对关系矩阵 $R∈\R^{(H×W)×(H×W)}$ 。
- $Q=\delta(W^QX),(120)\\ K=\delta(W^KX),(121)\\ R=Q^TK,(122)$
- 位置i处的关系向量 $r_1$ 通过叠加所有位置的成对关系来定义:
- $r_i=[R(i,:);R(:,i)],(123)$
- 空间关系感知特征yi可表示为
- $Y_i=[g^c_{avg}(\delta(W^{\phi}x_i));\delta(W^{\Phi}r_i)],(124)$
- 其中 $g^c_{avg}$ 表示通道域中的全局平均池化。最后，第i个位置的空间注意得分由式给出
- $\alpha_i=\delta(W_2\delta(W_1y_i)),(125)$
- RGA-C与RGA-S具有相同的形式，只是将输入特征映射作为H × W维特征的集合。
RGA利用全局关系生成每个特征节点的关注分数，提供了有价值的结构信息，显著增强了表征能力。RGA-S和RGA-C具有足够的灵活性，可用于任何CNN网络;Zhang等人建议依次使用它们，以更好地捕捉空间和跨通道关系。

Self-Calibrated Convolutions

受群体卷积成功的启发，Liu等提出了自校准卷积作为在每个空间位置扩大感受野的一种手段。自校准卷积与标准卷积一起使用。它首先在通道域中将输入特征X划分为 $X_1$ 和 $X_2$ 。自校准卷积首先使用平均池化来减小输入大小，扩大接受野:
- $T_1=AvgPool_r(X_1),(126)$
- 其中r是过滤器的大小和步幅。然后使用卷积对通道关系进行建模，使用双线性插值算子 $U_p$ 对特征映射进行上采样:
- $X'_1=U_p(Conv_2(T_1)),(127)$
接下来，元素乘法完成自校准过程:
- $Y'_1=Conv_3(X_1)\delta(X_1+X_1'),(128)$
- 最后，输出特征图表示为：
- $Y_1=Conv_4(Y'_1),(129)\\ Y_2=Conv_1(X_2),(130)\\ Y=[Y_1;Y_2],(131)$
- 这种自校准卷积可以扩大网络的接受域，提高网络的适应性。它在图像分类和某些下游任务如实例分割、目标检测、关键点检测等方面都取得了优异的效果。

SPNet

空间池通常在一个小区域上运行，这限制了它捕获远程依赖关系和关注远区域的能力。为了克服这个问题，Hou等人提出了条带池化，这是一种能够在水平或垂直空间域中编码远程上下文的新型池化方法。带钢池有水平和垂直带钢池两个分支。水平条形池化部分首先在水平方向上池化输入特征 $F∈\R^{C×H×W}$ :
- $y^1=GAP^w(X),(132)$
然后在y中应用核大小为3的1D卷积来捕获不同行和通道之间的关系。这样重复W次，使输出yv与输入形状一致:
- $y_h=Expand(Conv1D(y^1)),(133)$
- 垂直条池的执行方式与此类似。最后，使用元素求和将两个分支的输出融合，生成注意图:
- $s=\delta(Conv^{1*1}(y_v+y_h)),(134)\\ Y=sX,(135)$
- 条带池化模块是在混合池化模块的基础上发展起来的。两者都考虑空间和通道关系来克服卷积神经网络的局部性。SPNet在几个复杂的语义分割基准测试中实现了最先进的结果。

SCA-CNN

由于CNN的特征具有天然的空间、通道和多层性，Chen等提出了一种新的基于空间和通道的基于注意的卷积神经网络(SCACNN)。它是为图像字幕任务而设计的，并使用编码器-解码器框架，其中CNN首先将输入图像编码为矢量，然后LSTM将矢量解码为单词序列。给定输入特征映射X和前一个时间步长LSTM隐藏状态 $h_{t−1}∈\R^d$ ，空间注意机制在LSTM隐藏状态 $h_{t−1}$ 的引导下，更多地关注语义有用区域。空间注意模型为:
- 其中⊕表示一个矩阵和一个向量的加法。类似地，channel-wise attention首先聚合全局信息，然后计算一个channel-wise attention weight vector，隐藏状态ht−1:
- 总的来说，可以用两种方式之一编写SCA机制。如果渠道型注意力比空间型注意力更重要，就有
- $Y=f(X,\Phi_s(h_{t-1},X\Phi_c(h_{t-1},X)),\Phi_c(h_{t-1},X),(140)$
- 如果空间注意力优先:
- $Y=f(X,\Phi_s(h_{t-1},X),\Phi_c(h_{t-1},X\Phi_c(h_{t-1},X))),(140)$
- 式中，f(·)表示以特征图X和注意图为输入，输出调制后的特征图Y的调制函数。
不同于以往的注意机制，即平等地考虑每个图像区域，并使用全局空间信息来告诉网络关注的位置，SCA-Net利用语义向量来生成空间注意图以及通道关注权重向量。作为一个强大的注意力模型，SCA-CNN还提供了一个更好的理解模型在句子生成过程中应该关注的位置和内容。

GALA

大多数注意机制只使用来自类标签的弱监督信号来学习集中在哪里，这启发了Linsley等人来研究明确的人类监督如何影响注意模型的性能和可解释性。作为概念证明，Linsley等人提出了全局和局部注意模块(GALA)，该模块对SE块进行扩展，采用空间注意机制。
给定输入特征图X, GALA使用一个结合了全局和局部注意力的注意力掩码来告诉网络在哪里和关注什么。在SE块中，全局注意力通过全局平均池化聚合全局信息，然后使用多层感知器产生一个通道级的注意力权重向量。在局部注意力中，对输入进行两次连续的1 × 1卷积，生成位置权重图。局部路径和全局路径的输出通过加法和乘法进行组合。正式地，GALA可以表示为:
- 其中 $a, m∈\R^C$ 是可学习的参数，表示通道方向的权重向量。
在人类提供的特征重要性图的监督下，GALA显著提高了表征能力，并且可以与任何CNN主干相结合。

Spatial & Temporal Attention

时空注意结合了空间注意和时间注意的优点，可以自适应地选择重要区域和关键帧。一些研究分别计算时间注意和空间注意，而另一些研究则生成联合的时空注意图。进一步的工作集中于捕捉成对关系。下表总结了Eq. 1所描述的具有代表性的时空注意注意力和具体过程g(x)和f(g(x)， x)。
- 按日期排序的具有代表性的时空关注。Action=动作识别，ReID =再识别。范围是指注意范围图。S或H表示软注意力或硬注意力。g(x)和f(g(x)， x)为公式1所描述的注意过程。(A)基于元素的产品(B)通过注意力图聚合信息(I)强调空间和时间域的关键点(II)获取全局信息。

STA-LSTM

在人体动作识别中，每种类型的动作通常只依赖于几个特定的运动关节。此外，随着时间的推移，可能会执行多个操作。受这些观察结果的启发，Song等提出了一种基于LSTM的联合时空注意网络，以自适应地寻找判别特征和关键帧。它的主要注意相关组件是空间注意子网络，用于选择重要区域和时间注意子网络，用于选择关键帧。空间注意子网可表示为:
- 式中，Xt为时刻t的输入特征， $U_s、W_{hs}、b_{si}、b_{so}$ 为可学习参数， $h^s_{t−1}$ 为步骤 t−1的隐藏状态。注意，隐藏状态h的使用意味着注意过程考虑了时间关系。时间注意子网络类似于空间分支，并使用以下方法生成其注意图:
- $\beta_t=\delta(W_{xp}X_t+W_{hp}h^p_{t-1}+b_p),(151)$
- 为了便于优化，它采用了ReLU函数而不是规范化函数。它还使用正则化目标函数来提高收敛性。
总的来说，本文提出了一种联合时空注意方法，将重点放在重要的关节和关键帧上，在动作识别任务上取得了很好的效果。

RSTAN

为了捕捉视频帧中的时空背景，Du等人引入了时空注意力，以全局方式自适应地识别关键特征。RSTAN的时空注意机制包括空间注意模块和时间注意模块。给定输入特征映射 $X∈\R^{D×T ×H×W}$ 和RNN模型的先前隐藏状态 $h_{t - 1}$ ，时空注意旨在生成用于动作识别的时空特征表示。首先，将给定的特征映射X重塑为 $R^{D×T X(H×W)}$ ，并将X(n, k)定义为第n帧的第k个位置的特征向量。在时刻t，空间注意机制的目标是为每一帧产生一个全局特征 $l_n$ ，可以写成
其中引入 $γ_α$ 来控制位置分数图的清晰度。在获得逐帧特征 ${l_1,...,l_T\}$ ,RSTAN使用一种时间注意机制来估计每个帧特征的重要性
- RSTAN中使用的时空注意机制在空间和时间域中识别与RNN当前步骤的预测密切相关的区域。这有效地增强了任何2D CNN的表示能力。

STA

以往基于注意力的视频人物再识别方法仅对每一帧图像分配一个注意力权重，未能捕捉到图像的时空关系。为了解决这个问题，Fu等人提出了一种新的时空注意力(STA)方法，该方法在不需要任何额外参数的情况下为不同帧中的每个空间区域分配注意力分数。
给定输入视频 $\{X_n|X_n∈\R^{C×H×W}\}^N_{n=1}$ 的特征映射，STA首先在信道域的平方和上使用l2范数生成分帧关注映射:
- 然后将特征图和注意图横向划分为K个局部区域，每个局部区域代表人的一个部分。区域k的空间注意力得分由
- $s(n,k)=\sum_{(i,j)\in Region_K}\|s_{n,k}\|_1,(159)$
- 为了捕捉不同帧中区域之间的关系，STA将 $l_1$ 归一化应用于时间域中的注意力得分，使用
- $S(n,k)=\frac{s_{n,k}}{\sum_{n=1}^N\|s_{n,k}\|}_1,(160)$
- 最后，STA将输入特征图 $X_i$ 分成 K regions ${X_{n,1},...,X_{n,K}\}$ ,并计算出输出
STA不是逐帧计算空间注意图，而是同时考虑空间和时间注意信息，充分利用两个维度上的判别部分。这减少了遮挡的影响。由于它的非参数设计，STA可以处理可变长度的输入视频序列;它可以与任何二维CNN骨干网相结合。

STGCN

为了对帧内的空间关系和帧间的时间关系进行建模，Yang等人提出了一种新的时空图卷积网络(STGCN)来学习视频的判别描述符。首先利用两两相似度构造补丁图，然后利用图卷积进行信息聚合。
STGCN包括两个并行GCN分支，即时间图模块和结构图模块。给定视频的特征映射，STGCN首先将每帧水平划分为P个patch，并应用平均池化来生成patch-wise feature $x_1，…， x_N$ ，其中补丁总数为 $N = TP$ 。对于时态模块，它将每个patch作为一个图节点，为视频构建一个patch图，其中通过对成对关系矩阵E进行归一化得到邻接矩阵 $\hat A$ ，定义为
- 其中 $\sum^N_{j=1}(A + i) (i, j)$ 。给定邻接矩阵 $\hat A$ ，第m个图卷积可以使用
- $X^m=\hat A X^{m-1}W^m+X^{m-1},(167)$
- 其中， $X∈\R^{N×c}$ 表示所有patch的隐藏特征， $W^m∈\R^{c×c}$ 表示第m层的可学习权矩阵。对于空间模块，STGCN采用了类似邻接矩阵和图卷积的方法，除了对一帧内不同区域的空间关系进行建模。
STGCN将时空维度扁平化为一个序列，利用GCN来捕捉不同帧间斑块的时空关系。采用两两注意法获得加权邻接矩阵。通过利用斑块之间的时空关系，STGCN克服了遮挡问题，同时增强了信息特征。它可以与任何CNN主干一起使用来处理视频。

FUTURE DIRECTIONS

Necessary and sufficient condition for attention

本文发现方程1是必要条件，但不是充分必要条件。例如，GoogleNet符合上述公式，但不属于注意机制。不幸的是，发现很难找到所有注意机制的充分必要条件。注意机制产生的充分必要条件仍值得探索，这有助于促进我们对注意机制的认识。

General attention block

目前，需要针对不同的任务设计一种特殊的注意机制，这需要付出相当大的努力来探索潜在的注意方法。例如，通道注意是图像分类的一个很好的选择，而空间注意则非常适合于语义分割和目标检测等密集预测任务。通道注意力关注的是要注意什么，而空间注意力关注的是要注意哪里。基于这一观察，鼓励考虑是否可能存在一种利用各种注意机制的一般注意力障碍。例如，软选择机制(分支注意)可以根据所承担的具体任务在通道注意、空间注意和时间注意之间进行选择。

Characterisation and interpretability

注意机制是由人类视觉系统驱动的，是朝着建立可解释的计算机视觉系统的目标迈出的一步。通常，基于注意的模型是通过呈现注意图来理解的，如下图所示。然而，这只能给人一种直观的感觉，而不是精确的理解。然而，医疗诊断和自动驾驶系统等安全或安全很重要的应用程序通常有更严格的要求。这些领域需要更好地描述方法的工作方式，包括失效模式。发展可表征和可解释的注意模型可以使它们更广泛地适用。
- 注意图结果来自[An image is worth 16x16 words: Transformers for image recognition at scale]。该网络专注于每张图像的判别区域。

Sparse activation

我们可视化了一些注意图，得到了与ViT一致的结论，如上图所示，注意机制可以产生稀疏激活。这些现象给我们一个启示，稀疏激活可以在深度神经网络中取得较强的性能。值得注意的是，稀疏激活与人类的认知相似。这些促使去探索什么样的建筑可以模拟人类的视觉系统。

Attention-based pre-trained models

大规模基于注意力的预训练模型在自然语言处理中取得了巨大成功。最近，MoCoV3、DINO、BEiT和MAE已经证明，基于注意力的模型也非常适合于视觉任务。由于它们能够适应不同的输入，基于注意力的模型可以处理看不见的物体，并且自然适合将预训练的权重转移到各种任务中。我们认为，预训练与注意模型的结合有待进一步探索:训练方法、模型结构、预训练任务和数据规模都值得研究。

Optimization

SGD和Adam非常适合优化卷积神经网络。对于视觉变形，AdamW效果更好。最近，Chen等人通过使用一种新的优化器，即锐度感知最小化器(SAM)，显著改善了视觉变形。很明显，基于注意的网络和卷积神经网络是不同的模型;不同的优化方法可能对不同的模型效果更好。研究注意力模型的新优化方法可能是值得的。

Deployment

卷积神经网络具有简单，统一的结构，这使得它们易于部署在各种硬件设备上。然而，在边缘设备上优化复杂多变的基于注意力的模型是很困难的。然而，[Swin transformer]、[CVT]、[Volo: Vision outlooker for visual recognition]的实验表明，基于注意的模型比卷积神经网络提供了更好的结果，因此，寻找简单、高效、有效的、可广泛应用的基于注意的模型是值得尝试的。

CONCLUSIONS

在深度学习时代，注意机制已经成为计算机视觉领域不可或缺的技术。本文系统地回顾和总结了计算机视觉中深度神经网络的注意机制。将不同的注意方法根据其操作领域进行分组，而不是根据应用任务进行分组，并表明注意模型可以被视为一个独立的主题。最后，对今后的研究方向进行了展望。希望这项工作将鼓励各种潜在的应用程序开发人员使用注意力机制来改善他们的深度学习结果。也希望这项调查能让研究者更深入地了解各种注意机制以及它们之间的关系，作为未来研究的跳板。

你可能感兴趣的:(论文笔记,计算机视觉,人工智能,注意力机制,综述)

人工智能混合编程实践：C++调用Python ONNX进行YOLOv8推理 FriendshipT 人工智能混合编程实践人工智能 c++python YOLO ONNX 目标检测
人工智能混合编程实践：C++调用PythonONNX进行YOLOv8推理前言相关介绍Python简介C++简介ONNX简介YOLOv8简介前提条件实验环境项目结构C++调用PythonONNX进行YOLOv8推理C++调用Python的相关dll代码framework.hpch.hcxx_pythonModule.hdllmain.cpppch.cppcxx_pythonModule.cppC++
智能算法安全与跨领域创新实践智能计算研究中心其他
内容概要在智能算法快速渗透各行业的背景下，安全治理与技术创新已成为驱动跨领域应用的核心议题。当前研究重点围绕算法可解释性增强、动态风险评估及数据安全防护展开，通过融合联邦学习的分布式协作框架、量子计算的算力突破以及注意力机制的特征聚焦能力，构建起多模态技术融合的创新路径。在应用场景层面，医疗影像诊断、金融风险预测与自动驾驶系统等关键领域已形成算法效能与安全性的双重验证体系，其中超参数优化、特征工程
H800实战应用深度解析endofsentence 智能计算研究中心其他
内容概要H800作为新一代计算架构的核心组件，其设计理念聚焦于高性能计算与人工智能场景的深度融合。通过模块化异构计算架构，H800实现了计算密度与能效比的突破性提升。下表展示了H800在不同场景下的性能表现对比：场景类型训练速度提升推理延迟降低能效比提升自然语言处理35%22%40%计算机视觉28%18%33%推荐系统41%29%37%资深系统架构师指出："H800的异构计算架构在模型并行处理方面
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
探索IT世界的宝藏：优质资源推荐与深度解析点我头像干啥 Ai 分类人工智能数据挖掘 python 深度学习
引言在当今数字化时代，信息技术（IT）已经成为推动社会进步和经济发展的重要引擎。无论是软件开发、网络安全、数据分析，还是人工智能、云计算等领域，IT技术都在不断革新和演进。对于IT从业者、学生以及技术爱好者来说，掌握最新的技术动态和获取优质的学习资源至关重要。本文将为大家推荐一些优质的IT资源，并深入探讨如何利用这些资源提升自己的技术能力。一、优质IT资源推荐1.在线学习平台1.1Coursera
DeepSeek大语言模型下几个常用术语曲幽 AI 计算机语言模型人工智能自然语言处理 deepseek ollama ai
昨天刷B站看到复旦赵斌老师说的一句话“科幻电影里在人脑中植入芯片或许在当下无法实现，但当下可以借助AI人工智能实现人类第二脑”（大概是这个意思）更多内容，可关注公众号“一名程序媛”，我们一起从0-1学编程基本概念AI人工智能NLP自然语言处理LLM大语言模型HuggingFace一个提供了丰富的预训练模型和工具库的平台网站Ollama开源的本地大语言模型运行框架，用来在本地部署调用大语言模型，如D
H100架构解析与性能优化策略智能计算研究中心其他
内容概要NVIDIAH100GPU作为面向高性能计算与人工智能领域的旗舰级产品，其架构设计与优化策略在计算效率、显存带宽及并行任务处理等方面实现了显著突破。本文将从核心架构创新与典型场景调优两个维度展开：首先解析第三代TensorCore的稀疏计算加速机制、FP8混合精度支持特性及其对矩阵运算的优化效果；其次，针对显存子系统中HBM3堆栈布局、L2缓存分区策略以及数据预取算法的协同优化进行拆解；最
10 大中文医学数据集汇总：涵盖神农中医药、中医药古籍、医学推理、医学问答……
医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发，再到个性化医疗，数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。医学数据集的形式多样，涵盖了不同维度和领域的数据资源。例如，在疾病诊断领域，像RJUA-QA这样的问答数据集推动了复杂医学知识的自动化应用；而在中医药领域，神农中医药数据集整合了传统中医药文献、临床案例和药方数据。针对于此，本文整理了医学领域的1
中文对联/十二生肖/城市景点/旅游计划……年味超浓的数据集汇总
正月初三，年味正浓。新春的喜庆氛围不仅弥漫在大街小巷，也在人工智能领域引发了诸多创新应用。从AI生成春联，到春运交通标志的智能识别，再到生肖文化的深度挖掘，AI工具正赋能传统民俗，让年味更浓！在这阖家团圆，喜庆祥和的日子里，HyperAI超神经为大家整理了8个春节相关的数据集，涵盖对联、十二生肖、民族文化等热门主题，助力开发者在AI赋能春节的道路上大展拳脚！快来领取你的「新春大礼包」吧~点击查看更
空间智能数据集（不定期更新）数据集
在人工智能领域的顶级会议NeurIPS上，斯坦福大学的杰出教授李飞飞发表了题为《FromSeeingtoDoing:AscendingtheLadderofVisualIntelligence》的主题演讲。在这次演讲中，李飞飞教授探讨了机器视觉的未来以及人工智能如何塑造我们的现实世界。她强调了空间智能的重要性，并将其视为全面智能的基石。李飞飞教授指出，解决空间智能问题是迈向全面智能的基础性、关键性
高斯Splatting：3D 重建与新视图合成的综述三谷秋水人工智能机器学习计算机视觉计算机视觉人工智能深度学习
24年5月来自挪威大学的论文“GaussianSplatting:3DReconstructionandNovelViewSynthesis,aReview”。基于图像的3D重建是一项具有挑战性的任务，涉及从一组输入图像中推断出目标或场景的3D形状。基于学习的方法因其直接估计3D形状的能力而备受关注。这篇论文重点介绍3D重建的最新技术，包括生成新的、未见过的视图。高斯Splatting方法的最新发
NTIRE比赛：技术前沿、国内企业表现与计算机视觉未来展望 AndrewHZ 深度学习新浪潮计算机视觉人工智能深度学习调研报告算法 NTIRE 画质算法
一、NTIRE比赛概述：图像恢复与增强领域的全球竞技场1.1NTIRE的定位与历史NTIRE（NewTrendsinImageRestorationandEnhancement）是计算机视觉领域最具影响力的国际赛事之一，聚焦于图像恢复与增强技术的前沿探索。自2017年首次举办以来，NTIRE每年与计算机视觉顶会CVPR联合召开，成为学术界与工业界技术实力的重要展示平台。其竞赛内容涵盖图像超分辨率、
中国团体保险行业发展规模及投资发展趋向研究报告2021-2027年 Le9420 电子商务
第1章：中国团体保险行业发展综述1.1团体保险行业定义及特点1.1.1团体保险行业的定义1.1.2团体保险行业产品/业务特点（1）团体保险与个人保险（2）团体保险与社会统筹保险1.2团体保险行业统计标准1.2.1团体保险行业统计口径1.2.2团体保险行业统计方法1.2.3团体保险行业数据种类1.2.4团体保险行业研究范围（1）团体人寿保险（2）团体健康保险（3）团体意外伤害保险第2章：美国团体健康
清华DeepSeek以手札为剑，破AI迷津雾霭，开启荣耀进阶征途 2501_91080610 pdf
清华DeepSeek：以手札为剑，破AI迷津雾霭，开启荣耀进阶征途在当下这个科技浪潮奔涌不息的时代，人工智能领域成为了无数科研人员竞逐的“战场”。在这片充满无限可能却又迷雾重重的天地中，清华DeepSeek宛如一位英勇无畏的剑客，紧握“手札”这把利剑，奋力劈开迷津雾霭，大步踏上荣耀进阶的征途。溯源：手札中的智慧传承与沉淀清华DeepSeek背后，是一群怀揣着对AI炽热梦想的清华学子与科研精英。手札
模型上下文协议（MCP）：构建 AI 与数据交互的新范式 xxgshxs 人工智能 chatgpt prompt 文心一言 llama copilot
引言在人工智能领域，大型语言模型（LLMs）的应用正从通用问答向复杂任务执行演进，但数据孤岛、工具集成碎片化及隐私安全等问题制约了其潜力。模型上下文协议（ModelContextProtocol,MCP）作为Anthropic提出的开放标准，旨在通过标准化接口连接AI应用与异构数据源及工具，重塑AI开发范式。本文从技术架构、核心功能、应用场景等维度解析MCP的设计逻辑与实践价值。一、核心概念与设计
量子计算如何颠覆能源优化领域：从理论到实践 Echo_Wish 人工智能前沿技术量子计算能源
量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
AI人工智能 Agent：电力系统中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：电力系统中智能体的应用作者：禅与计算机程序设计艺术1.背景介绍1.1电力系统的挑战与机遇电力系统是现代社会运行的基石，其安全、可靠、高效运行对经济发展和人民生活至关重要。近年来，随着可再生能源的快速发展、电力需求的不断增长以及电力市场化的推进，电力系统面临着前所未有的挑战，同时也迎来了新的发展机遇。挑战：可再生能源的波动性和间歇性：太阳能和风能等可再生能源的输出功率受天气条
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
10.【线性代数】—— 四个基本子空间 sda42342342423 math 线性代数基本子空间
十、四个基本子空间1.列空间C(A)C(A)C(A)inRmR^mRm2.零空间N(A)N(A)N(A)inRnR^nRn3.行空间C(AT)C(A^T)C(AT)inRnR^nRn4.左零空间N(AT)N(A^T)N(AT)inRmR^mRm综述5.新的向量空间讨论矩阵Am∗nA_{m*n}Am∗n的四个基本空间，m行n列1.列空间C(A)C(A)C(A)inRmR^mRm[col11col21
autoMate - AI实现电脑任务自动化的本地工具小众AI AI开源人工智能自动化运维
GitHub：https://github.com/yuruotong1/autoMate更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AIautoMate是一款由开源开发的本地自动化工具，以AI+RPA（人工智能+机器人流程自动化）为核心特色。它将大型语言模型的智能理解与RPA的流程执行能力结合，用户只需用自然语言描述任务，如“整理桌面文件”或“生成周报”，即可
从零开始构建大模型(LLM)应用和老莫一起学AI 人工智能 ai 大模型语言模型 llm 自然语言处理学习
大模型（LLM）已经成为当前人工智能的重要部分。但是，在这个领域还没有固定的操作标准，开发者们往往没有明确的指导，需要不断尝试和摸索。在过去两年中，我帮助了许多公司利用LLM来开发了很多创新的应用产品。基于这些经验，我形成了一套实用的方法，并准备在这篇文章中与大家分享。这套方法将提供一些步骤，帮助需要的小伙伴在LLM应用开发的复杂环境中找到方向。从最初的构思到PoC、评估再到产品化，了解如何将创意
《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》空云风语人工智能 YOLO 机器视觉目标跟踪人工智能计算机视觉 YOLO
走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
深度解析：DETR的多尺度特征融合 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
"深度解析：DETR的多尺度特征融合"作者：禅与计算机程序设计艺术1.背景介绍1.1目标检测的挑战与传统方法的局限性目标检测是计算机视觉领域中的一个基本任务，其目标是识别图像或视频中所有感兴趣的目标，并确定它们的位置和类别。传统的目标检测方法，如FasterR-CNN和YOLO，通常依赖于预定义的锚框或候选区域来生成目标proposals。然而，这些方法存在一些固有的局限性：人工先验知识:锚框的设
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
AI大模型零基础金融人如何一周自学大模型，从零基础到入门，看这篇就够了！冻感糕人~ 人工智能金融 AI大模型 LLM 大模型技术大模型学习路线大模型基础
前几天参加了字节跳动在上海举办的火山引擎Force原动力大会，OpenAI也连续开了12天发布会，最近堪称科技界的春晚了。如果说2022年ChatGPT横空出世把人工智能的发展带上了一个新的台阶，那么2024年末，大模型对工作、生活的全面“侵入”让我们越来越接近库兹韦尔所描述的那个奇点时刻。作为金融民工，我们想通过这篇文章讲讲从用户的角度如何一周快速掌握大模型，以及为什么我建议每一个金融从业人员（
目标检测项目 sho_re 神经网络人工智能 pytorch 目标检测
·识别图片中有哪些物体并且找到物体的存在位置多任务：位置+类别目标种类与数量繁多的问题目标尺度不均的问题遮挡、噪声等外部环境干扰VOC数据集：PASCALVOC挑战赛(ThePASCALVisualObjectClasses)是一个世界级的计算机视觉挑战赛。4大类，20小类VOC2007：9963图片/24640目标VOC2012：23080图片/54900目标·COCO数据集：起源于微软2014
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
数据分析与AI丨AI Fabric：数据和人工智能架构的未来 Altair澳汰尔数据分析 ai RapidMiner 知识图谱人工智能
AIFabric架构是模块化、可扩展且面向未来的，是现代商业环境中企业实现卓越的关键。在当今商业环境中，数据分析和人工智能领域发展可谓日新月异。几乎每天都有新兴技术诞生，新的应用场景不断涌现，前沿探索持续拓展。可遗憾的是，众多企业在利用数据和人工智能方面，脚步总是滞后。这是每个行业进行创新和获得竞争优势的冲刺阶段，但正如大多数企业时常感受到的那样，大规模实施下一代数据和AI工具说起来容易做起来难。
Manus演示案例：英伟达财务估值建模解锁投资洞察的深度剖析 ylfhpy Manus 深度学习人工智能机器学习机器翻译 Manus
在当今瞬息万变的金融投资领域，精准剖析企业价值是投资者决胜市场的关键。英伟达（NVIDIA），作为科技行业的耀眼明星，其在人工智能和半导体领域的卓越表现备受瞩目。Manus凭借专业的财务估值建模能力，深入挖掘英伟达的潜在价值，为投资者提供了一份极具价值的分析报告。Manus在接到为英伟达进行详细财务估值建模的任务后，迅速且有条不紊地开展工作。数据收集是建模的基石，其重要性不言而喻。在收集英伟达公司
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交