哈尔滨张谦蛋

深度学习之图像分类（十三）Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解（二）

S-transformer摘要

摘要

文章提出一个新的结构叫swin transformer,可以作为计算机视觉的通用骨干。将transformer从语言实体应用到视觉实体中存在挑战：1、视觉实体的尺度变化较大，需要能够融合多尺度信息，但是ViT的stage尺度是固定的，2、图像中的像素是高分辨率的，形成的token往往具有很大的维度，通常计算代价和输入图像的分辨率成平方比，带来巨大的计算代价；解决办法：1、定义最基础的patch，以最小的patch为基础构建MxM的图像块，通过每个stage之后将图像块进行融合，每个stage可以输出不容尺度的特征信息，借助这些分层特征图，Swin Transformer模型可以方便地利用密集预测的先进技术，如特征金字塔网络（FPN）[42]或U-Net [51]。2、通过定义最小的patch，以最小的patch的为基础，在一个融合MxM个patch的图像块内进行attention;通过在图像中分割非重叠窗口并在这些窗口内本地计算自注意力，每个窗口中的图块数量是固定的，因此复杂性变为与图像大小成线性关系。与此同时带来了另外一个问题：每个MxM的图像块的attention只在自己的区域内进行，不能与相邻区域之间信息的进行交互，为了解决这个问题提出了shift windows，通过shift操作，可以与不同的区域进行信息交互，从而每个MxM的图像块都可以尽可能的学习到相邻区域和全局的信息。Swin transformer的分层以及shift Windows的设计可以处理密集预测任务，在目标检测和语义分割取得了性能的大幅提升。分层设计和移位窗口方法对于所有MLP架构也证明是有益的。

Introduction

CNN架构通过更大的规模 [30, 76]、更广泛的连接 [34]和更复杂的卷积形式 [70, 18, 84]的演进而变得越来越强大。长期以来一直是卷积神经网络主导计算机视觉的主流任务。

在NLP中，随着网络架构的演变，Transformer逐渐占据主导地位；其突出之处在于利用注意力机制来建模数据中的长程依赖关系。Transformer在NLP取得的巨大成就促使人们不得不尝试将Transformer应用于解决计算机视觉的任务。

在本中我们试图扩展transformer的适用性，并证明transformer可以像CNNs成为计算机视觉任务的通用骨干。我们观察到，在将其在语言领域的高性能转移到视觉领域中存在显著挑战，这可以通过两种模态之间的差异来解释。其中一个差异涉及尺度，另一个差异是图像中的像素分辨率比文本段落中的单词高得多。我们提出了一种通用的Transformer骨干，称为Swin Transformer，它构建了分层特征图，并具有与图像大小成线性关系的计算复杂性。如图1(a)所示，Swin Transformer通过从小尺寸的图块开始（用灰色轮廓显示），并逐渐在深层Transformer层中合并相邻的图块，构建了一个分层表示（每一层输出不同尺度信息。然后将不同尺度的信息进行融合）。借助这些分层特征图，Swin Transformer模型可以方便地利用密集预测的先进技术，如特征金字塔网络（FPN）[42]或U-Net [51]。通过在图像中分割非重叠窗口并在这些窗口内本地计算自注意力，实现了线性计算复杂性（用红色轮廓表示）。每个窗口中的图块数量是固定的，因此复杂性变为与图像大小成线性关系。这些优点使Swin Transformer适用于各种视觉任务的通用骨干，与以前的基于Transformer的架构 [20] 不同，VIT生成单一分辨率的特征图并具有二次复杂性。

Swin Transformer在连续的自注意力层之间移动窗口分区, 移动的窗口连接了前一层的窗口，提供了它们之间的连接，显著增强了建模能力。并且窗口内的所有query块共享相同的key键集L,这种方法在减小实际延迟方面非常有效，相比之下，早期基于滑动窗口的自注意力方法 [33, 50] 由于为不同的查询像素使用不同的键集，在一般硬件上延迟较高。所以本文提出的移动窗口比滑动窗口有更低的延迟。移动窗口方法对于所有MLP架构 [61] 也证明是有益的。

Swin Transformer在图像分类、目标检测和语义分割的识别任务中取得了强大的性能。

Related Work

CNN及其变体一直是计算机视觉中的标准网络模型。人们提出了更深层次、更有效的卷积神经网络架构推动了卷积神经网络的发展，还有很多工作致力于改进单个卷积层，如深度可分离卷积 [70] 和可变形卷积 [18, 84]。尽管CNNs仍然是计算机视觉的主要骨干架构，但是我们相信transformer也可以像CNNs一样称为计算机视觉的主要骨干架构。我们的工作在几个基本的视觉识别任务上取得了强大的性能，拥有在视觉和语言之间实现统一建模的强大潜力。

一些研究采用自注意力层来替代流行的ResNet [33, 50, 80]中的一些或所有空间卷积层。在这些工作中，自注意力在准确性/FLOPs的权衡方面略微优于相应的ResNet架构。但昂贵的内存访问使得它们的实际延迟显著大于卷积网络，我们提出在连续的层之间移动窗口，这可以在一般硬件上实现更有效的实现。

另一些关于注意力的研究是通过在标准CNN架构中添加自注意力层或Transformer来增强。

我们的工作探讨了将Transformer用于基本视觉特征提取的适应性，并与之前所做的将transformer应用在目标检测和语义分割方面的工作形成互补。

ViT的开创性工作直接在非重叠的中等大小图像块上应用Transformer架构进行图像分类。虽然ViT需要大规模的训练数据集（即JFT-300M）才能表现良好，但DeiT [63]引入了几种训练策略，使ViT在使用较小的ImageNet-1K数据集时也能取得良好效果。但由于其低分辨率特征图和与图像大小呈二次增加的复杂性，它的架构不适用于在密集视觉任务上作为通用骨干网络使用，或者当输入图像分辨率较高时。通过直接上采样或者反卷积将ViT用到目标检测和语义分割等密集视觉任务时，性能相对较低，一些其他的工作是关于ViT结构修稿的但是表现出的分类结果并不理想。另一项与我们同时进行的工作 [66] 探索了在Transformer上构建多分辨率特征图的类似思路。它的复杂性仍然与图像大小成二次关系，而我们的复杂性是线性的，已被证明在建模视觉信号中的高相关性方面是有益的[36, 25, 41]。

3. Method

3.1. Overall Architecture

它首先通过一个patch切分模块（类似于ViT）将输入的RGB图像分割为非重叠的patch。每个patch被视为一个“token”， 我们使用4×4的patch大小，因此每个patch的特征维度为4×4×3=48。在这个原始值特征上应用线性嵌入层，将其投影到任意维度（表示为C）（投影维度C为自己设置）。

随着patch merging layers层之后，减少了token数量；经过stage1之后的输出为56x56x96，token数量减少2x2倍相当于输入的宽和高分别除以2,因为H/M x W/M 是token的数量，又因为H/M x W/M相当于分辨率减小了MxM倍，相应的维度要增加MxM倍，之后经过一个liner projuction之后相当于维度增加了MxM/2；这将token数量减少了4的倍数（分辨率2×下采样），输出维度设置为2C。

Swin Transformer块； Swin Transformer是通过将Transformer块中的标准多头自注意力（MSA）模块替换为基于移动窗口的模块（在第3.2节中描述）而构建的，而其他层保持不变。如图3(b)所示，Swin Transformer块包括一个基于移动窗口的MSA模块（W-MSA），后跟一个具有GELU非线性激活函数的2层MLP。在每个MSA模块和每个MLP之前都应用了LayerNorm（LN）层，每个模块之后都应用了残差连接。

3.2. Shifted Window based Self-Attention

（阐述了为什么VIT不能够在目标检测和语义分割等密集预测任务上取得好成绩的原因）

标准的Transformer架构[64]及其用于图像分类的改编[20]都进行全局自注意力计算，其中计算了一个token与所有其他token之间的关系。全局计算导致与token数量成二次关系的复杂性，使其不适用于许多需要大量token进行密集预测或表示高分辨率图像的视觉问题。

ViT中在全局进行注意力计算Flops时，计算复杂度和HW成二次方，但是swin Transform中进行局部注意力时，计算复杂度和窗口的HW(MxM)成二次方，窗口数量为H/MxW/M，将MxM带入到公式一之后再乘以H/MxW/M就是基于窗口进行注意力的计算复杂度。

为了进行有效的建模，我们建议在局部窗口内计算自注意力。窗口被布置为以非重叠的方式均匀划分图像。假设每个窗口包含M × M个patch，全局MSA模块和基于图像大小为h × w的窗口的MSA模块的计算复杂性如下：

Ω(MSA) = 4hwC2 + 2(hw)2C, (1)

Ω(W-MSA) = 4hwC2 + 2M2hwC, (2)

其中前者与patch数量hw成二次关系，而后者在M固定时（默认设置为7）是线性的。全局自注意力计算通常对于大的hw来说是不可承受的，而基于窗口的自注意力是可扩展的。

(引入基于窗口的自注意力机制之后，缺乏了窗口之间的链接，采用shift Windows可以实现窗口之间的cross attention)

基于窗口的自注意力模块缺乏窗口之间的连接，这限制了其建模能力。为了在保持非重叠窗口的高效计算的同时引入跨窗口连接，我们提出了一种移动窗口分区方法，该方法在连续的Swin Transformer块中在两种分区配置之间交替。

如图2所示，第一个模块使用常规的窗口分区策略，从左上角像素开始，8 × 8特征图被均匀分割成2 × 2个大小为4 × 4的窗口（M = 4）。然后，下一个模块采用了与前一层不同的窗口配置，通过将窗口从常规分区的窗口中位移(M/2,M/2；向下取整)像素。采用移动窗口分区方法，连续的Swin Transformer块计算如下：

采用移动窗口分区方法，连续的Swin Transformer块的计算如下：

其中，z’l and zl分别表示块 L的 (S)W-MSA 模块和 MLP 模块的输出特征；W-MSA 和 SW-MSA 分别表示使用常规和移动窗口分区配置的基于窗口的多头自注意力。

移动窗口分区的一个问题是它将导致更多的窗口，从h / M × w / M到(h / M + 1) × (w / M+1)在移动配置中，其中一些窗口可能小于M × M。一种简单的解决方案是将较小的窗口填充到大小为M × M，并在计算注意力时屏蔽填充值。当常规分区中的窗口数量较小时，例如2 × 2，采用这种简单解决方案会导致计算量的显著增加（2 × 2 → 3 × 3，增加了2.25倍）。在这里，我们提出了一种更有效的批处理计算方法，通过向左上方向进行循环移位，如图4所示。在这次移位后，一个批处理窗口可能由几个在特征图中不相邻的子窗口组成，因此采用了屏蔽机制，将自注意力计算限制在每个子窗口内。采用循环移位后，批处理窗口的数量保持与常规窗口分区相同，因此也是高效的。这种方法的低延迟在表5中显示。

在计算自注意力时，我们遵循[49, 1, 32, 33]，通过将相对位置偏置B ∈ RM2×M2 （由于q,k,v∈RM2×d， QKT属于RM2×M2）添加到每个头部以计算相似性：

其中，Q、K、V ∈ RM2×d 分别是查询、键和值矩阵；d 是查询/键的维度，而 M^2 是窗口中的patch数量。由于每个轴上的相对位置位于范围 [−M + 1, M − 1] 内，我们对一个较小尺寸的偏置矩阵Bˆ ∈ R(2M−1)×(2M−1) 进行参数化，B 中的值来自Bˆ。

我们观察到相对于没有这个偏置项或使用绝对位置嵌入的对照组，有显著的改进，如表4所示。在输入中进一步添加绝对位置嵌入，就像[20]中所做的那样，会导致性能稍微下降，因此在我们的实现中没有采用。

表4. 在三个基准测试上使用Swin-T架构对位移窗口方法和不同位置嵌入方法进行消融研究。w/o shifting: 所有自注意模块采用常规窗口划分，没有位移；abs. pos.: ViT的绝对位置嵌入项；rel. pos.: 使用额外的相对位置偏置项的默认设置（参见公式(4)）；app.: 公式(4)中的第一个缩放点积项。

补：相对位置偏执的计算过程。

在预训练中学到的相对位置偏置也可以用于通过双三次插值[20, 63]初始化具有不同窗口大小的模型进行微调。

3.3. Architecture Variants

我们构建了我们的基础模型，称为Swin-B，其模型大小和计算复杂度与ViTB/DeiT-B相似。我们还引入了Swin-T、Swin-S和Swin-L，它们的模型大小和计算复杂度分别为基础模型的0.25倍、0.5倍和2倍左右。请注意，Swin-T（x0.25）和Swin-S（x0.5）的复杂性与ResNet-50（DeiT-S）(--Swin-T（x0.25）)和ResNet-101(--Swin-S（x0.5）)相似，分别为0.25×和0.5×的基础模型。默认情况下，窗口大小设置为M = 7。每个头的查询维度为d = 32，每个MLP的扩展层为α = 4（transformer block输出送入到MLP,进过MLP的处理之后输出维度为transformer block输出维度的4倍），适用于所有实验。这些模型变体的架构超参数如下：

其中，C是第一阶段隐藏层的通道数。模型变体在ImageNet图像分类任务上的模型大小、理论计算复杂度（FLOPs）和吞吐量列在表1中。

表1. 在ImageNet-1K分类任务上不同骨干网络的比较。吞吐量是使用[68]的GitHub存储库和V100 GPU进行测量的，遵循[63]的方法。

4. Experiments

我们在ImageNet-1K图像分类[19]、COCO目标检测[43]和ADE20K语义分割[83]上进行实验。在接下来的内容中，我们首先将提出的Swin Transformer架构与先前在这三个任务上的最先进方法进行比较。然后，我们对Swin Transformer的重要设计元素进行消融实验。

4.1. Image Classification on ImageNet-1K

设置（Settings）对于图像分类，我们在包含128万训练图像和1,000个类别的50,000个验证图像的ImageNet-1K上对提出的Swin Transformer进行基准测试。报告了单个裁剪的top-1准确度。我们考虑两种训练设置：

• 常规ImageNet-1K训练。此设置主要遵循[63]。我们使用AdamW [37]优化器进行300个时期，采用余弦衰减学习率调度程序和20个时期的线性热身。使用1024的批量大小，初始学习率为0.001，权重衰减为0.05。我们在训练中包含了[63]的大多数增强和正则化策略，但排除了重复的增强[31]和EMA [45]，这并不会提高性能。请注意，与[63]相反，重复的增强对于稳定ViT的训练是至关重要的。

• 在ImageNet-22K上进行预训练，然后在ImageNet-1K上进行微调。我们还在更大的ImageNet-22K数据集上进行预训练，该数据集包含1420万图像和22,000个类别。我们使用AdamW优化器进行90个时期，使用线性衰减学习率调度程序和5个时期的线性热身。使用4096的批量大小，初始学习率为0.001，权重衰减为0.01。在ImageNet-1K微调中，我们使用1024的批量大小，恒定的学习率为10^-5，权重衰减为10^-8，对模型进行30个时期的训练。

使用常规ImageNet-1K训练的结果表1(a)显示了与其他骨干网络的比较，包括基于Transformer和ConvNet的网络，使用常规ImageNet-1K训练。

与先前的Transformer-based架构（DeiT [63]）相比，即使复杂度相似，Swin Transformer也明显优于对应的DeiT架构：使用2242输入，Swin-T（81.3%）优于DeiT-S（79.8%）+1.5%；使用2242/3842输入，

Swin-B（83.3%/84.5%）优于DeiT-B（81.8%/83.1%）+1.5%/1.4%。与最先进的ConvNets，即RegNet [48]和EfficientNet [58]相比，Swin Transformer在速度-准确度权衡方面略有优势。值得注意的是，RegNet [48]和EfficientNet [58]是通过彻底的架构搜索获得的，而提出的Swin Transformer是从标准Transformer进行调整的，并有很大的改进潜力。

4.2. Object Detection on COCO

设置目标检测和实例分割实验在包含118K训练图像、5K验证图像和20K测试集图像的COCO 2017上进行。在验证集上进行了消融研究，并在测试集上进行了系统级别的比较。对于消融研究，我们考虑了四种典型的目标检测框架：级联Mask R-CNN [29, 6]，ATSS [79]，RepPoints v2 [12]和Sparse RCNN [56]，它们在mmdetection [10]中实现。对于这四个框架，我们使用相同的设置：多尺度训练 [8, 56]（调整输入大小，使得较短的一侧在480到800之间，较长的一侧最大为1333），AdamW [44] 优化器（初始学习率为0.0001，权重衰减为0.05，批量大小为16），以及3x 计划（36个时期）。对于系统级别的比较，我们采用了改进的HTC [9]（标记为HTC++），使用instaboost [22]，更强的多尺度训练 [7]，6x 计划（72个时期），soft-NMS [5] 和 ImageNet-22K 预训练模型进行初始化。

我们将Swin Transformer与标准的ConvNets（即ResNe(X)t）以及先前的Transformer网络（例如DeiT）进行比较。比较是通过仅更改backbones并保持其他设置不变来进行的。请注意，由于其分层特征图，Swin Transformer和ResNe(X)t可直接应用于上述所有框架，而DeiT仅生成单一分辨率的特征图，无法直接应用。为了进行公平比较，我们遵循[81]使用反卷积层为DeiT构建分层特征图。

与ResNe(X)t的比较表2(a)列出了Swin-T和ResNet-50在四个目标检测框架上的结果。我们的Swin-T架构在模型大小、FLOPs和延迟略大的情况下，相对于ResNet-50实现了一致的+3.4∼4.2的box AP增益。

表2(b)比较了Swin Transformer和ResNe(X)t在使用Cascade Mask RCNN时不同模型容量下的情况。Swin Transformer实现了较高的检测准确性，分别为51.9的box AP和45.0的mask AP，相对于具有相似模型大小、FLOPs和延迟的ResNeXt10164x4d，获得了+3.6 box AP和+3.3 mask AP的显著增益。在使用改进的HTC框架获得更高基线的52.3 box AP和46.0 mask AP的情况下，Swin Transformer的增益也很高，分别为+4.1 box AP和+3.1 mask AP（见表2(c)）。关于推理速度，尽管ResNe(X)t是由高度优化的Cudnn函数构建的，但我们的架构是使用内置的PyTorch函数实现的，其中并非所有都经过了良好的优化。深度核优化超出了本文的范围。

表2. 在COCO目标检测和实例分割上的结果。†表示使用额外的反卷积层生成分层特征图。*表示多尺度测试。

与DeiT的比较在表2(b)中展示了在Cascade Mask R-CNN框架下使用DeiT-S的性能。Swin-T的结果比DeiT-S高+2.5的box AP和+2.3的mask AP，具有相似的模型大小（86M vs. 80M）和显著更高的推理速度（15.3 FPS vs. 10.4 FPS）。DeiT较低的推理速度主要是由于其对输入图像大小的二次复杂度。

与先前最先进模型的比较表2(c)比较了我们的最佳结果与先前最先进模型的结果。我们的最佳模型在COCO test-dev上实现了58.7的box AP和51.1的mask AP，超过了先前最佳结果+2.7 box AP（无外部数据的Copy-paste [26]）和+2.6 mask AP（DetectoRS [46]）。

4.3. Semantic Segmentation on ADE20K

设置

ADE20K [83]是一个广泛使用的语义分割数据集，涵盖了150个语义类别的广泛范围。总共有25K张图像，其中20K用于训练，2K用于验证，另外3K用于测试。我们使用mmseg [16]中的UperNet [69]作为我们高效的基本框架。更多细节请参见附录。

结果

表3列出了不同方法/骨干网络对的mIoU、模型大小（#param）、FLOPs和FPS。从这些结果可以看出，相比于计算成本相似的DeiT-S，Swin-S的mIoU更高（49.3 vs. 44.0）。它还比ResNet-101高+4.4 mIoU，比ResNeSt-101 [78]高+2.4 mIoU。我们的Swin-L模型在ImageNet-22K预训练的情况下在验证集上达到了53.5的mIoU，超过了先前最佳模型+3.2 mIoU（SETR [81]的50.3 mIoU，其模型大小更大）。

表3. 在ADE20K验证集和测试集上的语义分割结果。†表示使用额外的反卷积层生成分层特征图。‡表示模型在ImageNet-22K上进行了预训练。

4.4. Ablation Study

在这一部分，我们通过使用ImageNet-1K图像分类、COCO目标检测上的Cascade Mask R-CNN和ADE20K语义分割上的UperNet，来剖析所提出的Swin Transformer中的重要设计元素。

Table 4. 采用Swin-T架构在三个基准测试上对移位窗口方法和不同位置嵌入方法进行的消融研究。w/o shifting：所有自注意模块都采用常规窗口分割，没有移位；abs. pos.：ViT的绝对位置嵌入项；rel. pos.：带有额外相对位置偏置项的默认设置（见公式（4））；app.：公式（4）中的第一个缩放点积项。

Table 5. 在V100 GPU上不同自注意计算方法和实现的真实速度。

相对位置偏置

表4显示了不同位置嵌入方法的比较。相对位置偏置的Swin-T相对于没有位置编码和使用绝对位置嵌入的模型，在ImageNet-1K上的top-1准确率分别提高了+1.2%/+0.8%，在COCO上的box AP/mask AP提高了+1.3/+1.5，而在ADE20K上的mIoU提高了+2.3/+2.9，表明了相对位置偏置的有效性。同时请注意，虽然包含绝对位置嵌入可以提高图像分类的准确性（+0.4%），但会损害目标检测和语义分割的性能（在COCO上的box/mask AP下降了-0.2，在ADE20K上的mIoU下降了-0.6）。(绝对位置嵌入会提高分类性能，但是会降低目标检测和语义分割的性能)

（在ViT和DeiT中放弃使用平移不变性，但是我们仍然认为平移不变性在目标检测和语义分割中是非常重要的）

尽管最近的ViT/DeiT模型在图像分类中放弃了平移不变性，尽管平移不变性在视觉建模中长期以来都被证明是至关重要的，但我们发现鼓励一定的平移不变性的归纳偏见仍然是通用视觉建模的首选，特别是对于目标检测和语义分割等密集预测任务。

不同的自注意方法 在表5中比较了不同自注意计算方法和实现的实际速度。我们的循环移位实现在硬件上比朴素填充更有效，特别是在较深的阶段。总体而言，在Swin-T、Swin-S和Swin-B上分别提高了13％、18％和18％的速度。

Table 5. 在V100 GPU上不同自注意计算方法和实现的真实速度。

基于提出的移动窗口方法构建的自注意模块分别比朴素/内核实现中使用滑动窗口的四个网络阶段更为高效，分别为40.8×/2.5×，20.2×/2.5×，9.3×/2.1×和7.6×/1.8×。总体而言，基于移动窗口构建的Swin Transformer架构对于Swin-T、Swin-S和Swin-B分别比基于滑动窗口构建的变体快4.1/1.5、4.0/1.5、3.6/1.5倍。表6比较了它们在三个任务上的准确性，显示它们在视觉建模中具有相似的准确性。

与Performer [14]相比，它是最快的Transformer架构之一（参见[60]），所提出的基于移动窗口的自注意计算和整体的Swin Transformer架构略快（参见表5），同时在ImageNet-1K上使用Swin-T相对于Performer实现+2.3%的top-1准确性（见表6）。

表6显示了使用不同自注意计算方法的Swin Transformer在三个基准任务上的准确性。

5. Conclusion

这篇论文介绍了Swin Transformer，这是一种新的视觉Transformer，能够生成分层特征表示并且在输入图像大小方面具有线性的计算复杂度。Swin Transformer在COCO目标检测和ADE20K语义分割等任务上取得了最先进的性能，明显超过了之前的最佳方法。我们希望Swin Transformer在各种视觉问题上的强大性能能够促进对视觉和语言信号进行统一建模。作为Swin Transformer的关键元素，基于偏移窗口的自注意力在视觉问题上表现出了有效和高效的特性，我们期待进一步研究它在自然语言处理中的应用。

Acknowledgement

我们感谢Microsoft的许多同事提供的帮助，特别是Li Dong和Furu Wei进行了有益的讨论；同时也要感谢Bin Xiao、Lu Yuan和Lei Zhang在数据集方面的支持。

A1. Detailed Architectures

表格7展示了详细的架构规格，其中假定所有架构都使用224×224的输入图像尺寸。“Concat n × n”表示对一个patch中的n × n相邻特征进行串联。此操作导致特征图以n的倍率进行下采样。“96-d”表示输出维度为96的线性层。“win. sz. 7 × 7”表示窗口尺寸为7 × 7的多头自注意力模块。

A2. Detailed Experimental Settings

A2.1. Image classification on ImageNet-1K

MLP---> LN--->avage gloab pooling --->全连接输出为1000类。

图像分类通过在最后一个阶段的输出特征图上应用（avage gloab pooling）全局平均池化层，然后接一个线性分类器来完成。我们发现，这种策略在准确性上与ViT [20]和DeiT [63]中使用额外的class token一样有效。在评估中，报告了使用单一裁剪的 top-1 准确性。

常规 ImageNet-1K 训练的设置主要遵循 [63]。对于所有模型变体，我们采用默认的输入图像分辨率 224x224。对于其他分辨率，例如 384x384，我们对在 224x224 分辨率上训练的模型进行微调，而不是从头开始训练，以减少 GPU 消耗。(2D插值)

在使用 224x224 输入从头开始训练时，我们采用 AdamW [37] 优化器进行 300 个周期的训练，使用余弦衰减学习率调度器，其中包含 20 个周期的线性热身。使用批量大小为 1024，初始学习率为 0.001，权重衰减为 0.05，梯度裁剪的最大范数为 1。在训练中，我们采用了 [63] 中的大部分增强和正则化策略，包括 RandAugment [17]、Mixup [77]、Cutmix [75]、随机擦除 [82] 和随机深度 [35]，但不包括重复增强 [31] 和指数移动平均 (EMA) [45]，因为它们不会提高性能。请注意，这与 [63] 中的情况相反，其中重复增强对于稳定 ViT 的训练至关重要。对于较大的模型，即 Swin-T、Swin-S 和 Swin-B，采用逐渐增加的随机深度增强，分别为 0.2、0.3 和 0.5。

对于更大分辨率的输入进行微调时，我们采用 AdamW [37] 优化器进行 30 个周期的训练，学习率保持为 10^(-5)，权重衰减为 10^(-8)，数据增强和正则化与第一阶段相同，只是将随机深度比例设置为 0.1。

ImageNet-22K 预训练我们还在更大的 ImageNet-22K 数据集上进行预训练，该数据集包含 1420 万张图像和 2.2 万个类别。训练分为两个阶段。对于第一个阶段，输入为 224x224，我们使用 AdamW 优化器进行 90 个周期的训练，采用线性衰减学习率调度器，其中包括 5 个周期的线性热身。使用批量大小为 4096，初始学习率为 0.001，权重衰减为 0.01。在 ImageNet-1K 微调的第二阶段，输入为 224x224 或 384x384，我们对模型进行 30 个周期的训练，批量大小为 1024，学习率保持为 10^(-5)，权重衰减为 10^(-8)。

A2.2. Object detection on COCO

进行消融研究时，我们考虑了四种典型的目标检测框架：Cascade Mask R-CNN [29, 6]，ATSS [79]，RepPoints v2 [12] 和 Sparse RCNN [56]，这些框架均在 mmdetection [10] 中实现。对于这四个框架，我们采用相同的设置：多尺度训练 [8, 56]（将输入的短边调整为在 480 到 800 之间，长边最多为 1333），AdamW [44] 优化器（初始学习率为 0.0001，权重衰减为 0.05，批量大小为 16），以及3倍的训练轮次（36 个周期，学习率在第 27 和 33 个周期时减小 10×）。

对于系统级的比较，我们采用了改进的 HTC [9]（标记为 HTC++），该框架使用 instaboost [22]，更强的多尺度训练 [7]（将输入的短边调整为在 400 到 1400 之间，长边最多为 1600），6倍的训练轮次（72 个周期，学习率在第 63 和 69 个周期时减小 0.1 倍），softNMS [5]，以及在最后一个阶段的输出处附加了额外的全局自注意层和 ImageNet-22K 预训练模型进行初始化。我们对所有 Swin Transformer 模型采用随机深度，深度比率为 0.2。

A2.3. Semantic segmentation on ADE20K

ADE20K [83]是一个广泛使用的语义分割数据集，涵盖了150个语义类别的广泛范围。总共有25,000张图像，其中20,000张用于训练，2,000张用于验证，另外3,000张用于测试。我们在 mmsegmentation [16] 中使用 UperNet [69] 作为基础框架，因为它具有高效性。

在训练中，我们使用 AdamW [44] 优化器，初始学习率为6 × 10^-5，权重衰减为0.01，使用线性学习率衰减的调度程序，以及1500次迭代的线性预热。模型在8个GPU上进行训练，每个GPU上有2张图像，总共训练160,000次迭代。对于数据增强，我们采用 mmsegmentation 中的默认设置，包括随机水平翻转、在比例范围 [0.5, 2.0] 内的随机重新缩放和随机光度失真。所有 Swin Transformer 模型都采用深度比率为0.2的随机深度。Swin-T 和 Swin-S 在输入为512×512的标准设置下进行训练，与先前的方法相同。Swin-B 和 Swin-L 带有 ‡ 的表示这两个模型是在 ImageNet-22K 上进行预训练的，并使用640×640的输入进行训练。

在推理中，使用相对于训练中的分辨率为 [0.5, 0.75, 1.0, 1.25, 1.5, 1.75] 的多尺度测试。在报告测试得分时，遵循常规做法，使用训练图像和验证图像进行训练 [71]。

A3. More Experiments

A3.1. Image classification with different input size

Table 8列出了不同输入图像大小（从224^2到384^2）的Swin Transformer的性能。通常，较大的输入分辨率会导致更高的 top-1 准确性，但推理速度较慢。

表8. 在ImageNet-1K分类上使用不同输入图像大小的Swin Transformers。

A3.2. Different Optimizers for ResNe(X)t on COCO

在CoCo上将ResNeXt的优化器换为AdamW具有更好的结果，AdamW优化器对于较小的骨干网络可以提高准确性。

表9. 在COCO目标检测上比较了ResNe(X)t骨干网络的AdamW和SGD优化器。在此比较中使用了Cascade Mask R-CNN框架。虽然SGD被用作Cascade Mask R-CNN框架的默认优化器，但我们通常观察到通过将其替换为AdamW优化器，特别是对于较小的骨干网络，可以提高准确性。因此，在与提出的Swin Transformer架构进行比较时，我们使用AdamW用于ResNe(X)t骨干网络。

A3.3. Swin MLP-Mixer

我们将提出的分层设计和移位窗口方法应用于MLP-Mixer架构，称为Swin-Mixer。表10显示了Swin-Mixer与原始MLPMixer架构MLP-Mixer [61]和后续方法ResMLP [61]的性能比较。Swin-Mixer在略小的计算预算（10.4G对12.7G）下表现明显优于MLP-Mixer（81.3%对76.4%）。与ResMLP [62]相比，它在速度和准确性的权衡上也更好。这些结果表明了提出的分层设计和移位窗口方法的泛化能力。

表10. Swin MLP-Mixer在ImageNet-1K分类上的性能。D表示每个注意力头的通道数。吞吐量是使用[68]的GitHub存储库和V100 GPU进行测量的，遵循[63]的方法。

你可能感兴趣的:(研究生学习-AI,transformer,深度学习,transformer)

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
深入解析 TCP 连接状态与进程挂起、恢复与关闭誰能久伴不乏 tcp/ip 网络服务器
文章目录深入解析TCP连接状态与进程挂起、恢复与关闭一、TCP连接的各种状态1.**`LISTEN`**（监听）2.**`SYN_SENT`**（SYN已发送）3.**`SYN_RECEIVED`**（SYN已接收）4.**`ESTABLISHED`**（已建立）5.**`FIN_WAIT_1`**（关闭等待1）6.**`FIN_WAIT_2`**（关闭等待2）7.**`CLOSE_WAIT`**
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
配音助手：自媒体神器，内置海量音色的语音，支持多主播配音阿幸软件杂货间媒体
软件介绍内置文字转语音，提供多个主播音色，男声、女声、小孩、方言。支持的场景也是比较多，比如：广告促销、有声读物、广播配音、影视配音、Ai配音等。这个软件是免费的，只不过需要通过手机号码登录就可以使用全部功能了。软件下载夸克下载
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
kube-scheduler 抢占机制分享放大价值 kubernetes源码分析 kubernetes kube-scheduler 抢占
当pod调度失败后，会在PostFilter扩展点执行抢占流程，下面分析相关的代码实现抢占接口//PodNominatorabstractsoperationstomaintainnominatedPods.typePodNominatorinterface{//将pod加入抢占成功的node中AddNominatedPod(pod*PodInfo,nodeNamestring)//将pod从no
Java特性之设计模式【责任链模式】 Naijia_OvO Java特性 java 设计模式责任链模式
一、责任链模式概述顾名思义，责任链模式（ChainofResponsibilityPattern）为请求创建了一个接收者对象的链。这种模式给予请求的类型，对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式在这种模式中，通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求，那么它会把相同的请求传给下一个接收者，依此类推主要解决：职责链上的处理者负责处理请求，客户只需要将
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
无面试无offer? 你需要AI 求职co-pilot的帮助!
大家好啊，我写的开源免费求职AIco-pilot工具发布了v3.0.0，欢迎大家参与、使用!https://github.com/weicanie/prisma-ai一、项目介绍开源免费的求职co-pilot，自动化简历准备至offer到手的整个流程。优化您的项目、定制您的简历、为您匹配工作，并帮助您做好面试准备。二、核心价值prisma-ai旨在解决求职者在准备简历和寻找工作时最头疼的3个问题:
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
AIGC工具与软件开发流程的深度集成方案 Irene-HQ 软件开发测试 AIGC 测试工具 github AIGC 程序人生面试
一、代码开发环节集成路径‌环境配置标准化‌安装AIGC工具包并配置环境变量（如设置AIGC_TOOL_PATH），确保团队开发环境一致‌。在IDE插件市场安装Copilot等工具，实现编码时实时建议调用‌。‌人机协作新模式‌‌需求解析‌：上传PRD文档，AI自动提取业务规则生成类结构（如支付模块的PaymentService雏形）‌。‌代码补全‌：输入注释//JWT验证中间件，生成OAuth2.0
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
Topview Avatar 2深度实测：AI数字人带货的新高度，还是又一个营销噱头？神码小Z AI工具人工智能
在AI数字人赛道越来越卷的今天，各家产品都在宣传自己的"独门秘技"。最近，TopviewAI推出的Avatar2引起了我的注意——号称突破了产品尺寸限制，实现了"万物皆可带"。作为一个经常需要制作营销视频的内容创作者，我决定亲自上手测试一番，看看这款工具是否真的像宣传的那样强大。TopviewAvatar2是什么？革命性升级还是渐进式改良？TopviewAvatar2是TopviewAI推出的第二
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓