jjw_zyfx

Swin Transformer翻译 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows翻译

下载论文

代码

摘要

本篇论文呈现了一个新的vision Transformer我们称为Swin Transformer。它可以作为计算机视觉的通用骨干网络。将Transformer从语言应用到视觉的挑战来自于这两个领域之间的差异，比如：视觉实体之间的尺寸有很大的变化，并且与文本中的词相比图片具有很高的分辨率的(即像素较多）。为了解决这些差异，我们提出了一个分等级的Transformer。它的表征使用可移动的窗口进行计算的。移动窗口调度算法通过把自注意力计算限制在非重叠的局部窗口，同时也允许跨窗口连接从而提高了效率。这种分层的架构让各种尺度的模型都变得非常灵活，并且这种架构在各自的图片大小上具有线性计算复杂度。Swin Transformer的这些特性使其能兼容一系列的视觉任务，包括图片分类(在 ImageNet-1K上的top-1为87.3)，密集预测任务像物体检测(在COCO test-dev 取得了58.7 box AP 和 51.1 mask AP)，语义分割(在ADE20K验证集上取得了mIoU 53.5 )。在COCO上，它的性能大幅超越了以前最好的模型，在box AP 上增加2.7个点和 mask AP增加2.6个点，在ADE20K增加 3.2的mIoU。表明基于Transformer的模型作为视觉骨干网络的潜力。分层架构和移动窗口方法也证明了对所有MLP架构是有益的。代码和模型是公开在https://github.com/microsoft/Swin-Transformer。

1、引言

在计算机视觉领域，在很长的一段时间内，卷积神经网络 (CNNs)都是占据主导地位。从AlexNet开始和它在ImageNet图片分类上的革命性表现。CNN架构通过更大的规模、更广泛的连接和更复杂的卷积形式，已经变得非常强大。随着CNNs作为大量视觉任务的的骨干网络，这些架构的进步使得性能有所提升从而广泛的提升了整个领域。
另一方面，在自然语言处理 (NLP)方面的网络架构的进化已经出现了不同的道路，现在流行的架构已经由Transformer取代。Transformer是为序列模型和转换任务而设计的，它因在模型中使用注意力而能关注到数据中的长期依赖关系而著称。它在语言领域的巨大成功使得研究者想让它应用在视觉领域。在视觉领域的某些任务上已经取得了有希望的结果。特别是图片分类和多模态。

Figure 1 (a) Swin Transformer通过合并更深层的图像块(灰色表示)来构建分层的特征图，它的计算复杂度和输入图片大小呈线性关系，因为自注意力只在局部窗口(红色表示)中计算，它因此能作为图片分类和密集识别任务的通用骨干网络。(b) 最为对比，以前的 vision Transformers产生单个的低分辨率特征图，并且由于是全局自注意力计算，所以计算复杂度与输入图片的大小呈平方关系。

在本篇论文中，我们寻找Transformer的拓展应用，以至于它能作为计算机视觉中的通用骨干网络，就像Transformer在NLP中和CNNs在视觉领域中的一样。我们观察到，将语言领域的高性能迁移到视觉领域的重大挑战可以通过两种模式之间的差异来解释。其中一个差异是尺度。不像词tokens作为语言Transformers处理中的基本元素。视觉元素在规模上可以非常大，这是一个在目标检测等任务中已经受到关注的问题。在已存在的基于Transformer的模型当中，tokens都是固定尺度的，这一性质不符合视觉应用。另一个不同是，与词在文本段落中相比图片拥有非常高的分辨率(非常大的像素)。这些已存在的很多视觉任务像语义分割要求在像素级别的密集预测，这在高分辨率图片上可能让Transformer难以应对，因为它的自注意力的计算复杂度是图片大小的平方倍。为了克服这个问题，我们提出了一个通用的 Transformer骨架，叫做 Swin Transformer，Swin Transformer构造了分层的特征图，计算复杂度和图片大小呈线性关系。正如Figure 1(a)中所述， Swin Transformer通过开始的小尺度的图像块并逐渐的在更深的Transformer层中合并相邻的图像块来构造一个分层的表征。通过这些分层特征图，Swin Transformer模型可以方便地利用高级技术进行密集预测像特征金字塔网络 (FPN)和 U-Net。通过在无重叠的窗口上计算局部自注意力能够达到线性计算复杂度，这个无重叠窗口是图片的一部分(轮廓是红色的)。每个窗口的图像块个数是固定的。而且复杂度随着图片大小呈线性关系。这些优点让Swin Transformer适合作为很多视觉任务的通用骨干网络。和以前的基于Transformer的架构对比，以前的产生单一像素的特征图和复杂性呈平方关系。

Figure 2 在Swin Transformer架构中计算自注意力的移动窗口方法的一个说明。在 $\mathit l$ 层(左)采用常规窗口划分方案,在每个窗口中计算自注意力。在下一层: $\mathit l+1$ 层(右)，移动分割窗口，结果放在新的窗口中。新窗口中的自注意计算横跨 $\mathit l$ 中以前窗口的边界，让这些窗口连接起来。

    Swin Transformer的一个关键设计是它在连续自注意力层之间窗口移动分割。正如 Figure 2中说明的那样。移动窗口跨过前一层的窗口，让他们连接起来这能极大的增强模型的能力(看 Table 4)。这种策略对于真实世界的延迟也是有效的：所有的query图像块在同一个窗口内共享同一组 key，这有助于硬件中的内存访问。相反，在早期由于不同的query图像使用不同的 key组所以基于自注意力方法的滑动窗口在普通的硬件上有低延迟。我们的实验表明：移动窗口方法比滑动窗口方法拥有更低的延迟，在模型能力上也类似(看Tables 5 和 6)。移动窗口方法也已经被证明了它对所有的MLP架构的模型有益。
    Swin Transformer在图片分类，物体检测，语义分割识别任务中达到了很强的性能。在上述三个任务中在相同的延迟下Swin Transformer远胜ViT / DeiT和ResNe(X)t模型。它在 COCO test-dev数据集上的58.7 box AP 和 51.1 mask AP超过了以前最好的结果，在box AP上比以前高了2.7，mask AP上比以前高了2.6。在 ADE20K数据集上的语义分割，在验证集上获得了 53.5 mIoU ，比以前最好的高了3.2mIoU 。在ImageNet-1K图片分类上的top-1精度达也到了87.3%。
    Swin Transformer是一个能让计算机视觉和自然语言处理这两个领域都受益的统一架构，因为它将有助于视觉和文本信号的联合建模，并且来自这两个领域的模型知识可以更深入地共享。我们希望Swin Transformer在各种视觉问题上的出色表现能够加深人们的这种信念，并鼓励对视觉和语言信号进行统一建模。

2、相关工作

CNN和变体 CNN作为标准的网络模型贯穿整个视觉领域。尽管CNN已经存在几十年了，知道AlexNet出现 CNN才开始变成主流。从那以后，更深更高效的卷积神经网络架构进一步推动了在视觉领域中进行深度学习的浪潮，例如：VGG [52], GoogleNet [57], ResNet [30], DenseNet [34],HRNet [65], 和 EfficientNet [58]。除了这些高级架构，在改进各个卷积层方面也做了大量工作如：深度卷积和可变卷积。尽管CNN和它的变种在计算机视觉应用方面仍然主流的骨干网络架构。我们想强调的是基于 Transformer架构来处理视觉和语言任务的统一模型具有很大的潜力。我们在几个基础的视觉识别任务上的工作，达到了很强的性能，我们希望这将有助于模式的转变。
基于自注意力的骨干网络架构 受到自注意力层和Transformer架构在自然语言处理领域成功运用的启发。一些工作用自注意力层取代ResNet的一些或者全部的空间卷积层。在这些工作当中，自注意力的计算是在每个图像的局部窗口中以达到加速优化的目的，他们比同等的基于ResNet架构在精度和浮点计算量的权衡上稍好。然而其昂贵的内存访问导致其实际延迟明显大于卷积网络的延迟。我们的滑动窗口则相反，我们提出了移动窗口，它允许在通用硬件上能更高效地实现。
自注意力/Transformers使CNNs更完美 另一个工作是用自注意力层和Transformers来增强标准的 CNN架构。自注意力层可以通过提供对远距离依赖关系或异构交互进行编码的能力来补充主干或头部网络。更多最近的基于编码器解码器的Transformer已经应用到了物体检测，和实例分割任务。我们的工作探索了Transformers对于基本视觉特征提取的适应性，并且是对这些工作的补充。
基于Transformer的视觉骨干网络 和我们的工作最相近的是Vision Transformer (ViT)和它的后续变种。具有开创性工作的ViT直接将Transformer架构应用于非重叠的中型图像块，以进行图像分类。与卷积网络相比，它在图像分类上实现了令人印象深刻的速度-精度权衡。然而 ViT要求在大规模训练数据集(例如： JFT-300M)上才能有好的表现，DeiT介绍了几种训练策略，这些策略允许ViT也可以使用较小的ImageNet-1K数据集来进行有效地训练。 ViT在图片分类上的结果是鼓舞人心的。但是它的架构在密集型视觉任务或者当输入图片图像非常高时是不适合作为通用骨干网络的，因为它适应于低图像特征图，并且复杂度随着图片大小呈平方关系。有少量工作通过直接使用上采样或者反卷积把ViT模型应用到物体检测或者语义分割等密集型视觉任务中，但是性能却相对较低。与我们的工作同时进行的有一些人修改了ViT架构【72、15、28】，以实现更好的图像分类。根据经验我们发现我们的Swin Transformer在图片分类上在这些所有的方法中，达到了最好的速度精度权衡，尽管我们的工作聚焦在了通用性能而不是针对分类任务。另一个与此同时的工作是做了和我们具有相同思想的工作，在Transformer上构建多图像特征图。它的复杂度仍然和图片的大小呈平方关系，而我们的复杂性是线性的，并且在局部操作，这种局部操作在视觉信号的高相关性建模中被证明是有益的。我们的方法既高效又有效，在 COCO的目标检测和ADE20K的语义分割上达到了最好的精度。

3、方法

3.1、总体架构

Figure 3 (a)一个Swin Transformer (Swin-T)架构。(b)两个连续的 Swin Transformer 块(公式3中的符号表示)。W-MSA 和 SW-MSA分别是带有归一化和移动窗口配置的多头自注意力模型。

     Figure 3是Swin Transformer架构的一个总揽图，这个图说明了Swin-T非常小。它通过一个图像块分割模型将输入的RGB图片分割成非重叠的图像块，这一点和ViT一样。每一个图像块作为一个‘token’而且由连接在一起的行图像的RGB值作为它的特征。在我们的实现当中，我们用4x4的图像块大小因此每个图像块的特征维度为4x4x3=48。用一个线性嵌入层将这个行-值特征投射到任何维度(用C表示)。
    用修改过的自注意力计算的几个Transformer块 (Swin Transformer 块)作用在这些图像块tokens上。Transformer块保持 tokens的个数为 $(\frac{H}{4}\times\frac{W}{4})$ 。包含线性嵌入层作为“Stage 1”。
    为了形成分层特征，随着网络的深入，tokens的数量是由图像块合并层减少的。第一个图像块合并层连接每个组的2x2相邻图像块的特征。在4C维上应用一个线性层来连接特征。通过多个2×2 = 4(2倍的下采样率)图像块来减少tokens的数量。输出维度设置成2C，Swin Transformer块是被用作特征变换，分辨率保持在 $(\frac{H}{8}\times\frac{W}{8})$ 。这个第一个图像块合并和特征变化的块被命名为 “Stage 2”，这Stage 2的程序被重复两次分别叫做“Stage 3” 和 “Stage 4”，输出的分辨率分别是 $(\frac{H}{16}\times\frac{W}{16})$ 和 $(\frac{H}{32}\times\frac{W}{32})$ 。这些阶段共同产生与典型卷积网络相似的特征映射分辨率的分层表征，例如：VGG 和 ResNet。因此，我们所提的架构能很方便的取代已存在的针对很多视觉任务的骨干网络。
Swin Transformer块 Swin Transformer是基于移动窗口(在3.2部分介绍)并且保持其他层不变的模型构建的，用来取代Transformer块中的标准的多头自注意力(MSA)。一个 Swin Transformer块是由基于多头自注意力(MSA)的移动窗口模型组成的。紧接着让GELU非线性激活函数放在一个 2层的 MLP中间。在每个MSA模块和每个 MLP之前使用归一化层(LN)，每个模块都是用一个残差连接。

3.2、基于自注意力的移动窗口

标准的Transformer架构和它的图片分类的变种都使用了全局自注意力，这样一个token和其他所有tokens之间的关系都是需要计算的。全局计算导致了计算复杂度与各自的tokens数呈平方关系，这让它不适合做对要求具有很多 tokens的密集型预测或者高分辨率图片的很多的视觉任务。
在非重叠窗口内的自注意力 为了高效地建模，我们提出在局部窗口内计算自注意力。窗口的设置是用非重叠的方式均匀的分割图片。假设每个窗口包含 M × M个图像块。一个全局的MSA模块和一个基于 h × w个图像块的图片的窗口的计算复杂度分别是： $\Omega(\mathrm{MSA}) = 4hwC^2+2(hw)^2C\quad\quad\quad\quad\quad\quad\quad(1)$ $\Omega(\mathrm{WMSA})= 4hwC^2+2M^2hwC\quad\quad\quad\quad(2)$ 其中前者和图像块数hw呈平方关系，后者当M是固定时呈线性关系(M默认设置为7)。对于一个大的hw全局自注意力计算通常是承受不起的，然而基于自注意力的窗口是可扩展的。
在连续的块中移动窗口 基于窗口的自注意力模块缺少跨窗口的连接这限制了它的模型能力。为了引入跨窗口连接同时保持对非重叠窗口的高效计算，我们提出了一个移动窗口分割方法，它能在连续的 Swin Transformer块中交替的使用两个分割配置。
正如Figure 2所述，第一个模型用了一个规则的窗口分割策略，这个策略从左上的像素开始，8x8的特征图用4x4(M=4)窗口大小将其均匀分割成2 × 2。然后，下个模块采用从前一层移动的窗口配置，通过用规则分割窗口来取代现在的窗口的 $(\lfloor \frac{M}{2} \rfloor,\lfloor \frac{M}{2} \rfloor)$ 。在移动窗口分割方法下，连续的 Swin Transformer块计算方法如下： $\quad\quad \hat z^l =\mathrm{WMSA}(\mathrm {LN(\mathrm z^{\mathscr l-1})})+\mathrm z^{l-1},$ $z^l=\mathrm{MLP(LN(\hat z^\mathscr l))}+\hat z^\mathscr l,$ $\quad\quad \hat z^{l+1} = \mathrm{SWMSA(LN(z^l))}+z^l,$ $\quad\quad\quad\quad\quad\quad z^{l+1} = \mathrm{MLP(LN(\hat z^{\mathscr l+1}))}+\hat z^{\mathscr l+1},\quad\quad\quad(3)$ 其中， $\hat z^l$ 和 $z^l$ 分别表示 $l$ 块的 (S)W-MSA模块和 MLP模块的输出特征；W-MSA 和 SW-MSA分别表示使用规则的基于多头自注意力的窗口和移动窗口分割配置。

Figure 4 在移动窗口分割中对于自注意力的一个高效批量计算方法的说明。

移动窗口分割方法将上一层中的相邻的非重叠窗口连接起来，并且发现这种方法在图片分类，物体检测，语义分割中是有效的。如表4所示。
对移动配置的高效批量计算 移动窗口分割的一个问题是：它将产生很多个窗口。在移动配置中从 $\lceil \frac{h}{M} \rceil\times\lceil \frac{w}{M} \rceil$ 到 $(\lceil \frac{h}{M} \rceil+1)\times(\lceil \frac{w}{M} \rceil+1)，$ 一些窗口可能会比 $M\times M$ 还小。一个天真的解决方法是把较小的窗口填充到 $M\times M$ 大小，当计算注意力的时候屏蔽填充值。当在规则的分割中的窗口数较少时例如2x2。用这个天真的方法增加的计算量是相当可观的(2x2变成3x3将变大2.25倍)。在这里，我们提出了一个更有效的批量计算方法：沿着左上方向循环移动。如 Figure 4所述。移动之后，一个批量窗口由在特征图中不相连的几个子窗口组成，屏蔽机制是用来限制在每个子窗口中的自注意力计算。随着循环移动，批量窗口的数量保持和规则的窗口分割的数量一样。因此也是高效的。这种方法的低延迟在Table 5中展示。
相对位置偏置 在计算自注意力的时候，在计算相似性时我们按照 [49, 1, 32, 33]让每个头都包含一个相对位置偏置 $B\in\Bbb R^{M^2\times M^2}$ $\mathrm {Attention}(Q,K,V)=\mathrm {SoftMax}(QK^T/\sqrt d+B)V，\quad\quad\quad\quad(4)$ 其中 $Q，K，V\in\Bbb R^{M^2\times d}$ 是query, key 和 value矩阵，d是query/key个维度， $M^2$ 是在一个窗口中的图像块个数。因为沿着每个轴的相对位置分布在 [-M + 1, M - 1]之间，我们的参数一个更小的偏置矩阵 $\hat B\in\Bbb R^{(2M-1)\times(2M-1)}$ ，B的值来自 $\hat B$ 。与没有用偏置的或者使用绝对位置嵌入的方法相比我们方法能观察到巨大性能的提升，如Table 4所述。进一步的添加绝对位置嵌入到输入中就像 [20]那样做使得性能略降。因此在我们的实现中没有采用这种方法。

3.3架构变种

我们构建我们的基础模型叫做 Swin-B,其模型大小和计算复杂度和ViT-B/DeiT-B相似。我们也会介绍 Swin-T, Swin-S 和 Swin-L，它们分别是拥有基础的模型大小和计算复杂度的0.25倍，0.5倍，2倍的版本。注意Swin-T 和 Swin-S的计算复杂度分别和 ResNet-50 (DeiT-S) 和 ResNet-101相似。窗口大小默认设置为M=7，每个头的查询维度d = 32，每个MLP的扩展层α = 4。对于所有的实验，这些模型变体的超参数是：

Swin-T: C=96, layer numbers = {2, 2, 6, 2}
Swin-S: C = 96, layer numbers ={2, 2, 18, 2}
Swin-B: C = 128, layer numbers ={2, 2, 18, 2}
Swin-L: C = 192, layer numbers ={2, 2, 18, 2}
其中C是第一阶段中的隐藏层的通道数。模型大小，理论上的计算复杂度 (FLOPs)，模型变体在ImageNet图片分类上的吞吐量是被列在了Table 1。

Table 1 在 ImageNet-1K分类数据集上对比不同的骨架网络。吞吐量的测量是按照 [63]，并使用 [68]的 GitHub仓库，和一个V100 的GPU。

4、实验

我们在 ImageNet-1K图片分类， COCO物体检测， ADE20K语义分割上做了实验。接下来，我们首先在上述三个任务中对比我们的 Swin Transformer和以前最好的模型。然后，我们剖析了 Swin Transformer的重要设计元素。

4.1、在ImageNet-1K上进行图片分类

设置对于图片分类，我们以所提的Swin Transformer在 ImageNet-1K上为基准。 ImageNet-1K包含来自1000个类别的128万个训练图片，和5万张验证图片。top-1精度在一次裁切上已经报道过了，我们考虑两个训练设置。

通常的ImageNet-1K训练，这个设置绝大部分是遵循 [63]。我们用了AdamW优化器进行了300轮训练并使用 cosine衰减学习率调度器，前20轮进行了预热。批量大小为1024，初始化学习率为 0.001，0.05的权重衰退。我们在训练的是时候用了 [63]中的绝大多数数据增强和正则化策略。除了与在 [31]中重复的数据增强操作和 [45]中的EMA，这些没有带来性能提升。注意这点和 [63]相反，在 [63]中重复的数据增强对ViT的稳定训练是至关重要的。
在ImageNet-22K上预训练并且在ImageNet-1K微调。我们也在更大的ImageNet-22K数据集上进行预训练，ImageNet-22K数据集包含1420万图片和2.2万个类别。我们用了AdamW优化器进行90轮训练，用了一个线性学习率衰减调度算器，前五轮进行了预热训练。批量大小4096，初始化学习率为0.001，权重衰退为 0.01。在 ImageNet-1K上进行微调，我们训练模型用了30轮，批量大小为1024，一个固定学习率 $10^{-5}$ ，权重衰退为 $10^{-8}$ 。

在常规的 ImageNet-1K上训练的结果 在Table 1(a)上展示了使用常规的ImageNet-1K上训练后的结果和其他骨干网络的对比，包括基于Transformer的，基于ConvNet。
与以前基于Transformer的最好的架构比如DeiT对比， Swin Transformers在相同的复杂度下，大幅超越了 DeiT：使用 $224^2$ 的输入 Swin-T (81.3%)比DeiT-S (79.8%)高了1.5%，使用 $224^2/384^2$ 的输入 Swin-B (83.3%/84.5%)比 DeiT-B (81.8%/83.1%)分别高了1.5%/1.4%。
与目前最好的卷积网络比如：RegNet和 EfficientNet相比，Swin Transformer在速度和精度权衡上稍好。注意，尽管RegNet 和 EfficientNet是通过全架构搜索得到的，但是我们所提出的Swin Transformer是从标准Transformer中修改得到的。它拥有很大的进一步改进的潜力。
在 ImageNet-22K上预训练的结果 我们也在ImageNet-22K上预训练大容量的 Swin-B 和 Swin-L。在 ImageNet-1K图片分类上进行微调，如 Table 1(b)所述。对于Swin-B，在ImageNet-22K上从头开始预训练的结果要比在 ImageNet-1K上从头训练的结果高 1.8%∼1.9%。与以前在 ImageNet-22K最好的训练结果相比，我们的模型在速度和精度权衡上要好的多。Swin-B在相近的推理吞吐量(84.7
vs. 85.9 images/sec)和略低的FLOPs (47.0G vs.55.4G)下获得了 86.4%的 top-1精度，这比ViT高了 2.4%。更大的 Swin-L模型达到了 87.3% top-1精度，比 Swin-B模型高了 0.9%。

4.2、在CoCo上的物体检测

设置物体检测和实例分割是在 COCO 2017上做的。COCO 2017包含11.8万个训练样本，5千个验证图片，2万个测试图片。使用验证集进行消融研究，在测试数据集上做了一个系统级别的对比。对于消融实验，我们考虑用4个经典的目标检测框架： mmdetection中的 Cascade Mask R-CNN, ATSS, RepPoints v2, 和 Sparse RCNN。对于这四个框架，我们统一使用相同的设置：多尺度训练(将较短的边长度缩放在 480 和 800之间，同时较长的一边为1333)，AdamW优化器( 0.0001的初始化学习率， 0.05的权重衰退，批量大小为16)，3成的调度(36轮)。对于系统级别的比较，我们采用了一个改良的 HTC(命名为HTC++)，具有 instaboost [22]，更强的多尺度训练，6x的调度(72轮)，soft-NMS，用ImageNet-22K预训练模型作为初始化。
我们把我们的 Swin Transformer和标准的卷积网络例如：ResNe(X)t和以前的Transformer网络比如：DeiT做对比。比较是只改变骨架，其他参数不变。虽然Swin-Transformer和ResNe(X)t由于其分层特征图而直接适用于上述所有框架，但DeiT只生成单分辨率的特征图，不能直接应用。为了公平对比，我们按照 [81]使用反卷积层为DeiT构造分层特征图。

Table 2 在 COCO上的物体检测和实例分割的结果。 $\dagger$ 表示添加的反卷积层是用来生成分层的特征图的。 $\ast$ 表示多尺度测试。

与 ResNe(X)t对比 Table 2(a)列出来了Swin-T和 ResNet-50在四个目标检测框架上的结果，我们的Swin-T在模型大小，FLOPs和延迟稍高的情况下，我们的box AP比 ResNet-50高了3.4∼4.2。
Table 2(b)上展示了 Swin Transformer 和 ResNe(X)t使用 Cascade Mask R-CNN在不同的模型容量下的对比结果。 Swin Transformer达到了51.9 box AP 和 45.0 mask AP的高检测精度。在相同的模型大小，FLOPs和浮点计算量下，它比ResNeXt101-64x4d有显著的提升 +3.6 box AP and +3.3 mask AP。用一个改进的HTC框架在更高的52.3 box AP and 46.0 mask AP基准下， Swin Transformer带来的增益也是很高的，增加了4.1 box AP 和 3.1 mask AP(见Table 2©)。根据推理速度，尽管而ResNe(X)t是由高度优化的Cudnn函数构建的，我们的架构是由PyTorch实现的，并没有得到很好的优化。一个全局的核优化超出了本篇论文的范围。
与 DeiT对比 在Table 2(b)上展示了用 Cascade Mask R-CNN框架的DeiT-S的性能。Swin-T的结果比DeiT-S高2.5 box AP 和 2.3 mask AP，在相近的模型大小 (86M vs. 80M)和更高的推理速度下 (15.3 FPS vs. 10.4 FPS)。DeiT的推理速度较低的原因是复杂度和图片大小呈平方关系。
与以前最好的模型对比 Table 2©显示的是与以前最好的模型进行的对比。我们的最好模型在 COCO test-dev上达到了58.7 box AP 和 51.1 mask AP，比以前最好的结果高了2.7 box AP和 2.6 mask AP。

4.3、在ADE20K上做语义分割

设置 ADE20K是被广泛用于做语义分割的数据集。涵盖150个语义类别。它总共包含2万5千个图片，2万个图片用来训练，2千个图片做验证，另外3千个图片做测试。我们利用mmseg中的SuperNet作为我们的基础框架，因为他们的高效性。更多细节看附录。

Table 3 语义分割在 ADE20K验证集和测试集上的结果。 $\dagger$ 表示添加的反卷积层是用来生成分层的特征图的。 $\ddagger$ 表示模型在ImageNet-22K上预训练

结果 Table 3列出了不同方法/骨架对的mIoU，模型大小，FLOPs和 FPS。从这些结果中，可以看出来 Swin-S在相同的计算代价下比 DeiT-S高5.3 mIoU(49.3 vs. 44.0)，比ResNet-101高4.4 mIoU，比ResNeSt-101高2.4 mIoU。我们的Swin-L模型在ImageNet-22K上预训练，在验证集上达到了53.5 mIoU，比之前最好的模型高3.2 mIoU(50.3 mIoU由SETR创造的，它拥有更大的模型大小)。

4.4、消融研究

在这部分，我们对所提的Swin Transformer中的重要设计元素做消融实验，使用ImageNet-1K图片分类数据集， Cascade Mask R-CNN在 COCO上做物体检测，UperNet在ADE20K上做语义分割。

Table 4 移动窗口方法和不同位置嵌入方法在三个基准模型上的消融实验，使用的是 Swin-T架构。w/o shifting：所有的自注意力模块采用规则的窗口分割，没有移位。abs. pos：ViT中的绝对位置嵌入。rel. pos：默认设置，使用了一个相对位置偏置。app.：在等式4中的第一个比例点积。

移动窗口 在三个任务上的移动窗口方法的消融实验在 Table 4.。带有移动窗口分割的Swin-T在每个阶段都胜过了与之对应的单窗口分割模型。在 ImageNet-1K top-1精度高了1.1%，在CoCo上高了2.8 box AP/2.2 mask AP，在 ADE20K上高了2.8 mIoU。结果表明使用移动窗口让以前层中的窗口建立联系的高效性。头上的延迟通过使用移动窗口也变小了。如表5所示。

Table 5 在V100 GPU上的不同自注意力计算方法和实现的真实速度。

相对位置偏置 Table 4显示了不同位置嵌入方法的对比。Swin-T使用相对位置偏置比没有使用位置偏置或者使用绝对位置偏置的在ImageNet-1K上的 top-1精度高了1.2%/0.8%，在 COCO上高了1.3/1.5 box AP 和 1.1/1.3 mask AP，在 ADE20K上高了2.3/2.9 mIoU，表明了使用相对位置偏置的高效性。也说明了尽管绝对位置偏置提高了图片分类的精度但是它却让目标检测和语义分割降低了(在CoCo上降低0.2 box/mask AP，在ADE20K上降低0.6 mIoU)
虽然最近的ViT/DeiT模型放弃了图像分类中的平移不变性，尽管平移不变性长期以来被证明对视觉建模至关重要，但是我们发现对于通用视觉建模来说某些平移不变性的归纳偏差仍然是可取的，尤其是对于目标检测和物体分割的密集型预测任务。

Table 6 在三个基准数据集上用不同的方法进行自注意力的计算 Swin Transformer的精度。

不同的自注意力方法 在表五中显示不同自注意力计算方法和实现的真实速度的对比。我们的循环实现方法比填充方法在硬件上更高效。尤其是在更深的阶段。总的来说，在Swin-T, Swin-S 和 Swin-B上分别带来了 13%, 18% 和 18%的加速。在所提的移动窗口方法上构建的自注意力模块比在单纯的/核实现的滑动窗口方法在四个网络阶段更高效分别是40.8×/2.5×, 20.2×/2.5×, 9.3×/2.1×, 和 7.6×/1.8×。总的来说，Swin Transformer架构上构建的移动窗口要比 Swin-T, Swin-S, and Swin-B构建的滑动窗口变体分别快了4.1/1.5, 4.0/1.5, 3.6/1.5 倍。表6是三个任务上的精度对比。表明在视觉建模中他们的精度相似。
与 Performer进行对比，Performer是基于Transformer架构的最快的模型中的一个。所提出的基于移动窗口的自注意计算和整体Swin-Transformer架构的速度稍快。使用 Swin-T在 ImageNet-1K数据集上比Performer高了2.3% 的top-1精度。

5、结论

本篇论文介绍了 Swin Transformer，一个新的vision Transformer，它具有分层特征表示，与输入图片大小呈线性计算复杂度。 Swin Transformer在 COCO的目标检测和ADE20K的语义分割上达到了最好的性能。显著的超过了以前最好的模型。我们希望Swin Transformer在很多视觉问题中的很强的性能表现能推动视觉与语言联合建模的发展(多模态)。
移动窗口作为Swin Transformer的关键元素，基于自注意力的移动窗口在视觉问题中已经展现出了它的有效性和高效性。我们也期待着将它用在自然语言处理中也一样的好。

感谢

我们感谢微软的很多同事的帮助，尤其是 Li Dong 和 Furu Wei 的很有帮助的讨论。Bin Xiao, Lu Yuan 和 Lei Zhang在数据集上的帮助。

你可能感兴趣的:(学术论文,transformer,深度学习,人工智能)

Java 程序员必读书单 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 Java实战深度学习实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Java是一门高级、新兴的静态面向对象编程语言，在互联网、移动互联网、大数据、云计算、人工智能、物联网等领域都有广泛应用。作为Java程序员的你是否也经常被面试官或者HR问到有关Java的知识点呢？如果你最近在准备面试或阅读相关技术文档，则本文正是适合你。在本文中，我将给你一些你可能不知道的关于Java的重要概念和知识，并通过具体的代码示例和图表来帮助你理解这些
一文彻底搞清楚HarmonyOS NEXT的元服务 harmonyos-next
程序员Feri一名12年+的程序员,做过开发带过团队创过业,擅长Java、嵌入式、鸿蒙、人工智能等,专注于程序员成长那点儿事,希望在成长的路上有你相伴！君志所向,一往无前！1.什么是元服务在万物互联时代，人均持有设备量不断攀升，设备种类和使用场景更加多样，使得应用开发、应用入口变得更加复杂。在此背景下，应用提供方和用户迫切需要一种新的服务提供方式，使应用开发更简单、服务（如听音乐、打车等）的获取和
从阅读空间到知识孵化器，AI时代智慧图书馆何为？技能咖生成式人工智能认证 GAI认证人工智能
在人工智能（AI）浪潮席卷全球的当下，图书馆作为知识传播与文化传承的重要场所，正面临着前所未有的变革。从传统的阅读空间到如今的知识孵化器，智慧图书馆在AI时代肩负着新的使命与挑战。本文将探讨智慧图书馆在AI时代的发展方向，并引入生成式人工智能认证（GAI）认证，为图书馆从业者的技能提升提供新思路。AI时代智慧图书馆的新角色知识资源整合与挖掘者在AI时代，信息爆炸式增长，图书馆不再仅仅是纸质书籍的收
基于人工智能的扫阅卷和数据分析服务需求文档 YiWait 人工智能人工智能数据分析数据挖掘
基于人工智能的扫阅卷和数据分析服务需求文档一、项目背景在教育领域，传统的人工阅卷方式效率低下、主观性强且易出错，难以满足大规模考试及频繁测评的需求。随着人工智能技术的飞速发展，基于人工智能的扫阅卷和数据分析服务应运而生。该服务利用先进的图像识别、自然语言处理等技术，实现试卷扫描、自动阅卷、成绩统计以及深度数据分析，为教育机构、学校提供高效、准确、全面的测评解决方案，助力教学质量提升和教育决策优化。
AI程序员大逃杀：从“码农”到“魔法师”的奇幻漂流 ——揭秘人工智能如何重塑程序员工作流 lifire_H 人工智能
当程序员遇上AI，是“饭碗不保”还是“原地飞升”？这场代码界的工业革命，正在让每个程序员经历从“流水线工人”到“科技魔法师”的奇幻蜕变。一、效率革命：当键盘遇上“读心术”1.需求分析：从“鸡同鸭讲”到“灵魂共鸣”还记得那些年被客户需求文档支配的恐惧吗？甲方爸爸一句“我想要五彩斑斓的黑”，就能让产品经理和程序员集体崩溃。现在，AI就像个自带翻译机的“需求捕手”——把客户支离破碎的诉求往WPSAI里一
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
当细致剪裁遇上大语言模型：从数据匹配到卓越性能的奇幻之旅步子哥 AGI通用人工智能语言模型人工智能自然语言处理
在浩如烟海的人工智能技术中，构建和调教大语言模型（LLMs）的过程就像是一场精心策划的奇幻冒险。本文带您走进一个鲜为人知的领域——如何利用“量身定制”的数据，让模型在知识的海洋中游刃有余。我们将透过一篇最新的研究《TheBestInstruction-TuningDataareThoseThatFit》，探索如何通过选择与目标模型分布高度契合的数据来优化监督式微调（SFT）的效果，以及这一方法如何
深度学习：让机器学会“思考”的魔法 AI极客Jayden　 AI 深度学习
文章目录引言：从“鹦鹉学舌”到“举一反三”一、深度学习是什么？1.定义：机器的“大脑”2.核心思想：从数据中“悟”出规律二、深度学习的“大脑”结构：神经网络1.神经元：深度学习的基本单元2.神经网络：多层“神经元”的组合3.深度：为什么需要多层？三、深度学习如何“学习”？1.训练过程：从“笨拙”到“熟练”2.损失函数：衡量“错误”的尺子3.反向传播：从错误中“反思”四、深度学习的“超能力”1.图像
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
AI 生成 PPT 网站介绍与优缺点分析 KL_lililli 人工智能 powerpoint
随着人工智能技术不断发展，利用AI自动生成PPT已成为提高演示文稿制作效率的热门方式。本文将介绍几款主流的AIPPT工具，重点列出免费使用机会较多的网站，并对各平台的优缺点进行详细分析，帮助用户根据自身需求选择合适的工具。1.免费及免费试用机会较多的网站1.1Tome网址：Tome–TheAIassistantforsales简介：Tome是一款专注于AI助力讲故事与演示制作的工具，用户只需输入简
机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
AI算力要变天了？一文搞懂ASIC和GPU asicgpuai芯片
近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。这是否意味着AI算力市场即将变天？随着人工智能技术的飞速发展，AI算力的重要性日益凸显。从早期的简单模型训练到如今的大规模语言模型如ChatGPT等的出现，对算力的需求呈爆发式增长。01那什么是ASIC和GPU？ASIC：定制化
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析 m0_74825656 面试学习路线阿里巴巴 transformer 架构深度学习
1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT)编码器-解码器模型(如BART,T5)DenseTransformerDenseTransformer的优势是什么DenseTransform
利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元墨夶数据库学习资料1 人工智能 mysql 物联网
在工业4.0和智能制造的大背景下，如何确保生产设备的高效稳定运行成为企业竞争力的核心要素之一。传统的事后维修方式已经难以满足现代制造业的需求，而基于人工智能（AI）的预测性维护系统则为这一挑战提供了全新的解决方案。今天，我们将深入探讨如何结合AI技术和MySQL数据库，打造一个智能、高效的工业物联网（IIoT）健康监测平台，助力企业在激烈的市场竞争中脱颖而出。一、为什么选择AI+MySQL？1.A
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Deepseek和豆包在技术创新方面有哪些相同点与不同点？ alankuo 人工智能
Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。Transformer架构能有效处理长序列数据，捕捉文本语义信息，为模型性能提供基础。混合专家模型（MoE）应用：都采用了MoE架构。该架构将模型拆分为多个“专家”，训练和推理时让不同“专家”负责不同任务或数据子集，提高模型表达能力和效率，降低训练成本。模型优化以提升性能：都通过
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要