AncilunKiang

《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》阅读笔记

论文标题

《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》

Swin 这个词貌似来自后面的 Shifted Windows
Shifted Windows：移动窗口
Hierarchical：分层

作者

微软亚洲研究院出品

初读

摘要

提出 Swin Transformer

可以作为 CV 的通用主干
Tansformer 用于图像的挑战：
- 视觉实体尺度变化很大，比如不同图片中的同一种物体大小不一
- 图片的像素比文本中的单词要大的多
解决：分层结构+移动窗口
- 将自注意力计算限制在不重叠的窗口上
- 同时还允许跨窗口连接
优点：
- 具有在各种尺度上建模的灵活性
- 计算复杂性相对于图像大小是线性的（为后续的 Swin V2 做了铺垫）
- 与广泛的视觉任务兼容
效果：
- ImageNet-1K上的 87.3 top-1 精度
- COCO testdev 上的 58.7 box AP 和 51.1 mask AP （盒子AP为 +2.7，掩模 AP为 +2.6）
- ADE20K val 上的 53.5mIoU（ADE20K 上的 IOU 为 +3.2）
- 分层设计和移动窗口方法也被证明对所有 MLP 架构都是有益的。

结论

Swin Transformer 优势特点：
- 产生了一种层次特征表示
- 相对于输入图像大小具有线性计算复杂性。
效果：

Swin Transformer 在 COCO 对象检测和 ADE20K 语义分割方面实现了最先进的性能，大大超过了以前的最佳方法。
展望：
- 我们希望 Swin Transformer 在各种视觉问题上的强大性能将鼓励对视觉和语言信号进行统一建模。
- 作为Swin-Transformer的一个关键元素，基于移动窗口的自注意被证明在视觉问题上是有效的，我们也期待着研究它在自然语言处理中的应用。

再读

Section 1 Introduction

第一段：CV现状

长期以来，计算机视觉建模一直由 CNN 主导。
第二段：NLP 现状

另一方面，NLP 中网络架构的演变走上了一条不同的道路，今天流行的架构是 Transformer。
第三段：本文对现存问题的解决
- 本文愿景：
  
  试图扩大 Transformer 的适用性，使其可以作为计算机视觉的通用主干。
- 将 Transformer 在语言领域的高性能转移到视觉领域的重大挑战可以用两种模式之间的差异来解释：
  - 其中一个差异涉及规模，视觉元素的规模可能会有很大变化，尤其是在对象检测等任务中。在现有的基于 Transformer 的模型中，tokens 都是固定规模的，这一特性不适合这些视觉应用。
  - 另一个区别是，图像中的像素分辨率比文本段落中的单词数高得多。如语义分割等视觉任务需要在像素级别进行密集预测，但因为其自注意力的计算复杂度是图像大小的二次方，所以 Transformer 在高分辨率图像上难以运算。
- 解决方案：提出通用的 Transformer 主干——Swin Transformer
  - 构造层次特征图
    
    Swin-Transformer 通过从小尺寸补丁（灰色轮廓）开始，逐渐合并更深 Transformer 层中的相邻补丁（patch），构建了一个层次表示。有了这些分层特征图，Swin-Transforme 模型可以方便地利用高级技术进行密集预测，如特征金字塔网络（FPN）或 U-Net。
  - 对图像大小具有线性计算复杂性。
    
    线性计算复杂性是通过在划分图像（红色轮廓）的非重叠窗口内局部计算自注意来实现的。每个窗口中的补丁数量是固定的，因此复杂性与图像大小成线性关系。这些优点使 Swin Transformer适合作为各种视觉任务的通用主干，与之前基于 Transformer 的架构形成鲜明对比，后者产生单一分辨率的特征图，并具有二次复杂性。
第四段：在连续的自注意层之间移动窗口分区（如图就是往右往下各移动两个 patch）
- 高建模能力：
  
  偏移的窗口桥接了前一层的窗口，提供了它们之间的连接，显著增强了建模能力。
- 低延迟：
  
  一个窗口内的所有查询补丁共享相同的密钥集，这有助于硬件中的内存访问。相比之下，早期的基于滑动窗口的自关注方法在通用硬件上由于不同查询像素的不同密钥集而延迟较低。
- 设计通用性：
  
  实验表明，所提出的移位窗口方法比滑动窗口方法具有低得多的延迟，但在建模能力方面相似。移位窗口方法也被证明对所有 MLP 架构都是有益的。
第五段：表现出色
- 在图像分类、对象检测和语义分割等任务上的延迟相似，显著优于 ViT/DeiT 和 ResNe（X）t 模型。
- 在 COCO 测试开发集上的 58.7 box AP 和 51.1 mask AP 超过了之前最先进的结果，分别为 +2.7 box AP （无外部数据的复制粘贴）和 +2.6 mask AP （DetectoRS）。
- 在 ADE20K 语义分割上，它在 val 集上获得 53.5 mIoU，比以前的最先进技术（SETR）提高了 +3.2 mIoU。
- 它在 ImageNet-1K 图像分类上也达到了 87.3% 的 top-1 准确率。
第六段：多模态通一展望

我们相信，跨计算机视觉和自然语言处理的统一架构可以使这两个领域受益，因为它将促进视觉和文本信号的联合建模，并且可以更深入地共享这两个域的建模知识。我们希望 Swin Transformer 在各种视觉问题上的出色表现能够在社区中更深入地推动这种信念，并鼓励对视觉和语言信号进行统一建模。

Section 2 Related works

CNN 及其变体

CNN 是整个计算机视觉的标准网络模型。
- CNN 开始发展并成为主流： AlexNet。
- 更深入、更有效的卷积神经架构：VGG、GoogleNet、ResNet、DenseNet，HRNet 和 EfficientNet。
- 改进单个卷积层：深度卷积和可变形卷积。
- 展望：虽然 CNN 及其变体仍然是计算机视觉应用的主要骨干架构，但我们强调了类似 Transformer 的架构在视觉和语言之间统一建模的强大潜力。我们的工作在几个基本的视觉识别任务上取得了很好的表现，我们希望它将有助于建模的转变。
基于自注意力机制的骨干架构

一些作品使用自注意层来取代流行的ResNet 中的部分或全部空间卷积层。
- 现状与优势：
  
  在这些工作中，为了加快优化，自注意力是在每个像素的局部窗口内计算的，并且它们实现了比对应的 ResNet 架构略好的准确性/FLOP权衡。
- 缺点：
  
  它们昂贵的内存访问导致它们的实际延迟显著大于卷积网络。
- 本文工作：
  
  我们建议在连续层之间移动窗口，而不是使用滑动窗口，这允许在通用硬件中更有效地实现。
以自注意力机制或 Transformer 补充 CNN

另一项工作是用自注意力层或 Transformer 来增强标准的 CNN 架构
- 自注意层可以通过提供编码远距离依赖性或异构交互的能力来补充主干或头部网络。
- Transformer 中的编码器-解码器设计已应用于对象检测和实例分割任务。
- 我们的作品探索了 Transformer 的改造，以提取基本的视觉特征，并与这些作品相辅相成。
基于 Transformer 的视觉骨干

最相关工作是 ViT 及其后续工作。
- ViT 的开创性：
  
  ViT 的开创性工作直接将 Transformer 架构应用于不重叠的中等大小图像块，用于图像分类。与卷积网络相比，它在图像分类方面实现了令人印象深刻的速度-精度折衷。
- ViT 的数据集依赖：
  
  虽然 ViT 需要大规模的训练数据集（即JFT-300M）才能表现良好，但 DeiT 引入了几种训练策略，使ViT 也能使用较小的 ImageNet-1K 数据集发挥作用。
- ViT 的计算复杂：
  
  ViT 在图像分类方面的结果令人鼓舞，但由于其低分辨率特征图和复杂度随图像大小的二次方增加，其架构不适合用作密集视觉任务或输入图像分辨率高时的通用骨干网络。
- 当前对 ViT 的改进：
  
  有一些工作通过直接上采样或去卷积将 ViT 模型应用于对象检测和语义分割的密集视觉任务，但性能相对较低。还有一些修改了 ViT 架构以获得更好的图像分类。
- 本文工作：
  
  根据经验，我们发现我们的 Swin-Transformer 架构在图像分类的这些方法中实现了最佳的速度精度权衡，尽管我们的工作侧重于通用性能，而不是专门针对分类。另一项并行工作探索了在 Transformer 上构建多分辨率特征图的类似思路。它的复杂性仍然是图像大小的二次方，而我们的复杂性是线性的，并且也在局部操作，这已被证明有利于对视觉信号中的高相关性进行建模。我们的方法既高效又有效，在COCO 对象检测和 ADE20K 语义分割方面都达到了最先进的精度。

Section 3 METHOD

3.1. Overall Architecture

总体架构

阶段一 [TODO]：
- Patch Partition：
  
  首先通过和 ViT 类似的 patch 分割模块将输入 RGB 图像分割成不重叠的 patch。每个 patch 都被视为一个“标记（token）”，其特征被设置为原始像素 RGB 值的串联。在本文的实现中，我们使用 $4\times4$ 的 patch 大小，因此每个补丁的特征维度为 $4\times4\times3=48$ 。
- Linear Embedding：
  
  用线性嵌入层应将补丁投影到任意维度（表示为 $C$ ）。这一顿操作之后每张图片就变成了 $\frac{H}{4}\times\frac{W}{4}\times C$ 的尺寸。
在这些补丁 token 上应用了几个具有修改的自注意计算的 Transformer 块（Swin-Transformer 块）。Transformer 块保持令牌的数量（ $\frac{H}{4}\times\frac{W}{4}$ ），并且与线性嵌入一起被称为“阶段1”。
阶段二：
- Patch Merging：有点像 Pixel Shuffle 上采样 [TODO] 的逆转版本。
  
  为了生成分层表示，随着网络的深入，通过 patch 合并层来减少令牌的数量。
  - 第一个 patch 合并层将每组 $2\times2$ 个相邻 patch 的特征连接起来。实际操作是把每个 patch 再分成一系列 $2\times2$ 的特征块，把然后把所有特征块的四个小块按序号拼一起（比如四个左上角的拼一起，四个右上角的拼一起，以此类推）。也就是说每个 patch 变成了 4 个 $2\times2$ 的特征块。
  - 再把上面 4 个 $2\times2$ 的特征块串联在一起，也就把原来 $4\times4\times C$ 变成 $2\times2\times4C$ 的 patch。
  - 再然后在 $4 C$ 维连接的特征上应用线性层（可以用等效的 $2 C$ 个 $1\times1$ 卷积核减半通道数）进行下采样。将上面 $2\times2\times4C$ 的 patch 变成 $2\times2\times2C$ 的 patch。这一顿操作之后，图片就变成了 $\frac{H}{8}\times\frac{W}{8}\times2C$ 的尺寸（很像卷积了，特征图缩小同时成 2 倍的增加通道数）。
  - 然后应用 Swin-Transformer 块进行特征变换。patch 合并和特征转换的第一块被表示为“阶段2”。
阶段三和阶段四：

重复阶段二两次即分别为阶段三和阶段四，输出分辨率进一步降为 $\frac{H}{16}\times\frac{W}{16}\times4C$ 和 $\frac{H}{32}\times\frac{W}{32}\times8C$ 。太像卷积了，这些阶段共同产生分层表示，具有与典型卷积网络（例如 VGG 和 ResNet）相同的特征图分辨率。因此，所提出的体系结构可以方便地取代现有方法中用于各种视觉任务的骨干网络。
Swin Transformer 块：

Swin Transformer 是通过将 Transformer 块中的标准多头自注意（MSA）模块替换为基于移位窗口的模块而构建的，其他层保持不变。Swin Transformer 块由一个基于移位窗口的 MSA 模块组成，然后是一个中间具有 GELU非线性的两层 MLP。在每个 MSA 模块和每个 MLP 之前应用 LayerNorm（LN）层，并且在每个模块之后应用残差连接。

3.2. Shifted Window based Self-Attention

基于移位窗口的自我注意

问题阐述：

标准 Transformer 架构及其对图像分类的自适应都进行全局自注意，其中计算 token 和所有其他 token 之间的关系。全局计算导致了 token 数量的二次复杂性，使其不适合于许多需要大量 token 集进行密集预测或表示高分辨率图像的视觉问题。
非重叠窗口中的自我注意：

为了有效建模，我们在局部窗口内进行自注意操作。窗口被排列为以非重叠的方式均匀地划分图像。假设每个窗口包含 $M\times M$ 个 patch，全局 MSA 模块和基于 $h\times w$ 个 patch 图像的窗口的计算复杂度为 [TODO]：
$\begin{align} \Omega(\mathrm{MSA})＝4hwC^2+2(hw)^2C\\ \Omega(\mathrm{W-MSA})＝4hwC^2+2M^2hwC \end{align}$
其中前者是 patch 数 $h w$ 的二次方，而后者在 $M$ 固定时是线性的（默认设置为 7）。全局自注意计算对于大型 $h w$ 来说通常是负担不起的，而基于窗口的自注意是可扩展的。
连续块中的移动窗口分区

基于窗口的自注意力模块缺乏跨窗口的连接，这限制了其建模能力。为了引入跨窗口连接，同时保持非重叠窗口的有效计算，我们提出了一种移动窗口分区方法，该方法在连续 Swin-Transformer 块中的两种分区配置之间交替。

第一个模块使用从左上角像素开始的规则窗口划分策略，将 $8\times8$ 的特征图均匀地划分为大小为 $4\times4$ （M=4）的 $2\times2$ 个窗口。然后，下一个模块通过将窗口从规则划分的窗口移位（ $\left\lfloor\frac{M}{2}\right\rfloor$ ， $\left\lfloor\frac{M}{2}\right\rfloor$ ）个像素，采用与前一层的窗口配置不同的窗口配置。使用移动窗口分区方法，连续的 Swin-Transformer 块计算如下：
$\begin{align} &\hat{\boldsymbol{\mathrm{z}}}^l=\mathrm{W-MSA}(\mathrm{LN}(\boldsymbol{\mathrm{z}}^{l-1}))+\boldsymbol{\mathrm{z}}^{l-1},\\ &\boldsymbol{\mathrm{z}}^l=\mathrm{MLP}(\mathrm{LN}(\hat{\boldsymbol{\mathrm{z}}}^{l-1}))+\hat{\boldsymbol{\mathrm{z}}}^{l-1},\\ &\hat{\boldsymbol{\mathrm{z}}}^{l+1}=\mathrm{SW-MSA}(\mathrm{LN}(\boldsymbol{\mathrm{z}}^l))+\boldsymbol{\mathrm{z}}^l,\\ &\boldsymbol{\mathrm{z}}^{l+1}=\mathrm{MLP}(\mathrm{LN}(\hat{\boldsymbol{\mathrm{z}}}^{l+1}))+\hat{\boldsymbol{\mathrm{z}}}^{l+1}, \end{align}$
其中， $\hat{\boldsymbol{\mathrm{z}}}^l$ 和 $\boldsymbol{\mathrm{z}}^l$ 分别表示块 $l$ 的 (S)W-MSA 模块和 MLP 模块的输出特征；W-MSA 和 SW-MSA 分别表示使用规则和移动窗口划分配置的基于窗口的多头自注意。

移动窗口分割方法引入了前一层中相邻非重叠窗口之间的连接，并被发现在图像分类、对象检测和语义分割方面是有效的。
针对移位配置的高效批量计算

移动窗口分区的一个问题是，在移位配置中，它将导致更多的窗口，从 $\left\lceil\frac{h}{M}\right\rceil\times\left\lceil\frac{w}{M}\right\rceil$ 到 $(\left\lceil\frac{h}{M}\right\rceil+1)\times(\left\lceil\frac{w}{M}\right\rceil+1)$ ，并且一些窗口将小于 $M\times M$ 。一个简单的解决方案是将较小的窗口填充到 $M\times M$ 的大小，并在计算注意力时屏蔽填充的值。当规则分区中的窗口数量很小时，例如 $2\times 2$ ，使用这种朴素解增加的计算量是相当大的（ $2\times2\to3\times3$ ，是 2.25 倍）。在这里，我们提出了一种更有效的批量计算方法，通过向左上角方向循环移位。

在该偏移之后，分批窗口可以由在特征图中不相邻的几个子窗口组成，因此采用掩蔽机制 [TODO] 来将自注意计算限制在每个子窗口内。通过循环移位，批处理窗口的数量与常规窗口分区的数量保持相同，因此也是有效的。
相对位置偏差

在计算自注意时，我们通过在计算相似性时包括每个头部的相对位置偏差 $B\in\R^{M^2\times M^2}$ ：
$\mathrm{Attention}(Q,K,V)=\mathrm{SoftMax}(QK^T/\sqrt{d}+B)V$
- 参数字典：
  - 其中 $Q,K,V\in\R^{M^2\times d}$ 是查询矩阵、键矩阵和值矩阵；
  - $d$ 是查询/键维度，
  - $M^2$ 是窗口中的补丁数量。
由于沿每个轴的相对位置位于 $[- M + 1 ， M - 1]$ 的范围内，因此我们参数化较小的偏置矩阵 $\hat{B}\in\R^{(2M-1)\times(2M-1)}$ ，并且 $B$ 中的值取自 $\hat{B}$ 。

观察到与没有该偏差项或使用绝对位置嵌入的对应项相比有显著改进。进一步向输入添加绝对位置嵌入会略微降低性能，因此在我们的实现中没有采用它。

预训练中学习到的相对位置偏差也可以用于初始化模型，以便通过双三次插值以不同的窗口大小进行微调。

3.3. Architecture Variants

架构变体

Swin-B ：基本模型

模型大小和计算复杂度与 ViTB/DIT-B 相似

Swin-T：

模型大小和计算复杂度是 ViTB/DIT-B 的 0.25 倍，与 ResNet-50（DeiT-S）复杂度相似
Swin-S：

模型大小和计算复杂度与 ViTB/DIT-B 的 0.5 倍，与 ResNet-101 的复杂性相似
Swin-L：

模型大小和计算复杂度与 ViTB/DIT-B 的 2 倍
模型变体的体系结构超参数为：
$\begin{align} \mathrm{Swin-T}&:C=96,\mathrm{layer\ numbers}=\{2,2,6,2\}\\ \mathrm{Swin-S}&:C=96,\mathrm{layer\ numbers}=\{2,2,18,2\}\\ \mathrm{Swin-B}&:C=128,\mathrm{layer\ numbers}=\{2,2,18,2\}\\ \mathrm{Swin-L}&:C=192,\mathrm{layer\ numbers}=\{2,2,18,2\} \end{align}$
- 参数列表：
  - 其中 $C$ 是第一阶段中隐藏层的通道编号。
  - 默认情况下，窗口大小设置为 M=7。
  - 对于所有实验，每个头的查询维度为 d=32
  - 每个 MLP 的扩展层为 α=4。

Section 4 EXPERIMENTS

4.1. Image Classification on ImageNet-1K

ImageNet-1K上的图像分类

设定：
- 数据集：
  - ImageNet-1K：
    
    包含 128 万个训练图像和来自 1000 个类别的 50 万个验证图像。报告了单作物的 top-1 精度。
  - ImageNet-22K：
    
    在这个较大的数据集上进行预训练，包含 1420 万张图像和 22K 个类。
- 两种训练环境：
  - 定期 ImageNet-1K 训练。
    - 使用 AdamW 优化器，用于 300 个 epochs
    - 使用余弦衰减学习率调度器和 20 个 epochs 的线性预热
    - 使用 1024 的批量大小、0.001 的初始学习率和 0.05 的权重衰减。
    - 在训练中包括了大多数扩充和正则化策略，除了重复扩充和 EMA，它们不会提高性能。注意，这与相反，在中，重复增强对稳定ViT的训练至关重要。
  - ImageNet-22K 预训练和 ImageNet-1K 上的微调
    - 对 90 个 epochs 使用 AdamW 优化器
    - 使用具有 5 个 epochs 线性预热的线性衰减学习率调度器。
    - 使用 4096 的批量大小、0.001 的初始学习率和 0.01 的权重衰减。
    - 在 ImageNet-1K 微调中，训练了 30 个 epochs 的模型，批量大小为 1024，恒定学习率为 $10^{−5}$ ，权重衰减为 $10^{−8}$ 。
常规 ImageNet-1K 训练的结果：
- 与 DeiT （之前最先进的基于 Transformer 的架构）相比：
  
  Swin Transformers 显著超过了具有类似复杂性的对应 DeiT 架构：Swin-T（81.3%）使用 2242 输入时比 DeiT-S（79.8%）高 +1.5%，Swin-B（83.3%/84.5%）使用 2242/3842 输入时比 DeiT-B（81.8%/83.1%）高 +1.5%。
- 与 RegNet 和 EfficientNet （最先进的 ConvNets）相比：
  
  Swin Transformer 实现了略好的速度-精度权衡。注意到，虽然 RegNet 和 EfficientNet 是通过彻底的架构搜索获得的，但所提出的 Swin Transformer 是根据标准 Transformer 改编的，具有很强的进一步改进潜力。
ImageNet-22K 预训练结果

我们还在 ImageNet-22K 上预训练较大容量的 Swin-B 和 Swin-L。
- Swin-B，ImageNet-22K 预训练比 ImageNet-1K 从头开始的训练带来 1.8%～1.9% 的收益。与之前 ImageNet-22K 预训练的最佳结果相比，我们的模型实现了显著更好的速度-精度权衡：Swin-B 获得了86.4%的前1精度，比具有相似推理吞吐量（84.7 vs.85.9图像/秒）和略低 FLOP（47.0G vs.55.4G）的 ViT 高 2.4%。
- 较大的 Swin-L 模型实现了 87.3% 的前1准确性，比 Swin-B 模型提高 +0.9%。

4.2. Object Detection on COCO

COCO上的目标检测

设定
- 数据集：COCO 2017
  
  在此数据集上进行对象检测和实例分割实验，其中包含 118K 训练、5K 验证和 20K测试开发图像。使用验证集进行消融研究，并在测试中报告系统级比较。
- 消融研究：
  - 四种典型的对象检测框架：
    - 毫米检测中的级联掩码 R-CNN、
    - ATSS、
    - RepPoints v2
    - 稀疏 RCNN 。
  - 参数设置：对这四个框架使用相同的设置：
    - 多尺度训练（调整输入大小，使短边在 480 和 800 之间，而长边最多为 1333）
    - AdamW 优化器（初始学习率为 0.0001，权重衰减为 0.05，批量大小为 16）和 3x 时间表（36个 epochs）。
    - 为了进行系统级比较，我们采用了一种改进的 HTC（表示为 HTC++），其具有 instabout、更强的多尺度训练、6x 调度（72个 epochs ）、软 NMS 和 ImageNet-22K 预训练模型作为初始化。
- 比较对象与方式：
  - 将Swin Transformer 与标准 ConvNets（即 ResNe（X）t）以及以前的 Transformer 网络（例如DeiT）进行比较。
  - 比较是通过在其他设置不变的情况下仅更改主干来进行的。
  - 虽然 Swin Transformer 和 ResNe（X）t 由于其层次特征图而直接适用于上述所有框架，但 DeiT 只产生单一分辨率的特征图，不能直接应用。为了进行公平的比较，我们按照使用反褶积层为 DeiT 构建分层特征图。
与 ResNe（X）t 的比较
- 下表列出了 Swin-T 和 ResNet-50 在四个对象检测框架上的结果。与 ResNet-50 相比，我们的 Swin-T 架构带来了稳定的 +3.4～4.2 盒 AP 增益，具有略大的型号大小、FLOP 和延迟。
- 下表比较了使用级联掩码 RCNN 在不同模型容量下的 Swin Transformer 和 ResNe（X）t。
  - Swin Transformer 实现了 51.9 盒 AP 和 45.0 掩模 AP 的高检测精度，这是 +3.6 盒 AP 和 +3.3 掩模 AP 相对于具有相似模型大小、FLOP 和延迟的 ResNeXt101 64x4d 的显著增益。
  - 在使用改进的 HTC 框架的 52.3 盒 AP 和 46.0 掩模 AP 的较高基线上，Swin Transformer 的增益也很高，分别为 +4.1 盒 AP 和 +3.1 掩模 AP。
  - 关于推理速度，虽然 ResNe（X）t 是由高度优化的 Cudnn 函数构建的，但我们的架构是用内置的 PyTorch 函数实现的，这些函数并不是都经过了很好的优化。彻底的内核优化超出了本文的范围。
与 Dei 的比较
- 在相似的模型大小（86M 对 80M）和显著更高的推理速度（15.3 FPS 对 10.4 FPS）下，Swin-T 比 DeiT-S 高 +2.5 盒 AP 和 +2.3 掩码 AP。
- DeiT 较低的推理速度主要是由于其对输入图像大小的二次复杂度。
与以前最先进技术的比较
- 我们的最佳模型在 COCO 测试开发中实现了 58.7 盒 AP 和 51.1 掩码 AP，超过了之前的最佳结果 +2.7 盒 AP（无外部数据的复制粘贴）和 +2.6 掩码 AP（DetectoRS）。

4.3. Semantic Segmentation on ADE20K

ADE20K 上的语义分割

设定：

ADE20K 是一个广泛使用的语义分割数据集，涵盖了 150 个语义类别。它总共有 25K 张图像，其中 20K 用于训练，2K 用于验证，另外 3K 用于测试。我们利用 mmseg 中的 UperNet 作为其高效性的基础框架。
结果：
- 在类似的计算成本下，Swin-S 比 DeiT-S 高 +5.3 mIoU（49.3 对 44.0）
- 它也比 ResNet-101 高 +4.4 mIoU，比 ResNeSt-101 高 +2.4 mIoU。
- 带有 ImageNet-22K 预训练的 Swin-L 模型在 val 集上实现了 53.5 mIoU，超过了之前的最佳模型 +3.2 mIoU（SETR 的 50.3 mIoU 具有更大的模型大小）。

4.4. Ablation Study

消融实验

实验方案：

使用 ImageNet-1K 图像分类、用于 COCO 对象检测的级联掩码 R-CNN 和用于 ADE20K 语义分割的 UperNet，来去除所提出的 Swin Transformer 中的重要设计元素。
移动窗口
- 具有移动窗口分区的 Swin-T 与基于单个窗口分区构建的 Swin-T 相比
  - 在 ImageNet-1K 上，高出 +1.1% top-1 精度
  - 在COCO上高出 +2.8 box AP/+2.2 mask AP
  - 在 ADE20K 上高出 2.8 mIoU。
- 结果表明，使用移动窗口在前面的层中的窗口之间建立连接是有效的。移位窗口的延迟开销也很小。
相对位置偏差
- 与没有位置编码和具有绝对位置嵌入的Swin-T相比，具有相对位置偏置的Swin-T
  - 在 ImageNet-1K 上分别产生 +1.2%/+0.8% top-1 准确度
  - 在 COCO 上产生 +1.3/+1.3 框 AP 和 +1.1/+1.3 掩模 AP
  - 在 ADE20K 上产生 +2.3/+2.9 mIoU
- 这表明相对位置偏置是有效的。还要注意的是，虽然包含绝对位置嵌入提高了图像分类精度（+0.4%），但它损害了对象检测和语义分割（在 COCO 上为-0.2 box/mask AP，在 ADE20K 上为-0.6 mIoU）。
- 尽管最近的 ViT/DeiT 模型在图像分类中放弃了长期以来一直被证明对视觉建模至关重要的平移不变性，但我们发现，鼓励某些平移不变性的归纳偏置对于通用视觉建模仍然是优选的，特别是对于对象检测和语义分割的密集预测任务。
不同的自注意力方法
- 上表比较了不同的自注意计算方法和实现的实际速度。
  - 循环实现比简单的填充更具硬件效率，特别是对于更深的阶段
  - 总体而言，它分别使 Swin-T、Swin-S 和 Swin-B 的速度提高了 13%、18% 和 18%。
- 在四个网络阶段上，基于所提出的移位窗口方法构建的自注意模块的效率分别比滑动窗口的效率高40.8×/2.5×、20.2×/22.5×、9.3×/2.1× 和 7.6×/1.8×。
- 总体而言，基于移位窗口构建的 Swin-Transformer 架构分别比基于滑动窗口构建的变体 Swin-T、Swin-S 和 Swin-B 快 4.1/1.5、4.0/1.5 和 3.6/1.5 倍。下表比较了它们在三项任务中的准确性，表明它们在视觉建模中同样准确。
- 与最快的 Transformer 架构之一 Performer 相比，所提出的基于移位窗口的自注意计算和整体 Swin-Transformer 架构略快，同时与使用 Swin-T 的 ImageNet-1K 上的 Performer 相比，实现了 +2.3% 的 top-1 精度。

三读

TODO List

Pixel Shuffle 上采样和 Patch Merging
模型中的从头到尾的 size 变化
MSA 和 W-MSA 计算复杂度推导
掩蔽机制具体实现

Pixel Shuffle 上采样和 Patch Merging

大约就是把 $[H, W, C]$ 的图卷积成 $[H,W,C\times r^2]$ 的大小，再通过 Shuffle 操作变成 $[H\times r,W\times r,C]$ 的大小，从而实现上采样的效果。

Patch Merging 则像是把它反过来，把前文所述化成示意图：

模型中的从头到尾的 size 变化

以图片分辨率为 $224\times 224$ 为例

第一阶段：
- Patch Partition 模块把 $224\times224$ 的图片打成 $4\times4$ 的图片块，所以图片维度由 $224\times224\times3$ 变成了 $(224\div4)\times(224\div4)\times(4\times4\times3)=56\times56\times48$
- Linear Embedding 层 Swin-T 的投影维度 $C = 96$ ，所以尺寸会变成 $56\times56\times96$ （代码里实际上是用 $4\times4$ 、步幅为4 、输出通道为 96 的卷积层实现的）、
- 在 Swin Transformer 块里会先展平为 $序列长度\times每个token的维度=3136\times96$ ，3136 这个长度对于注意力机制来说太长了，所以 Swin Transformer 块内进行的是基于窗口的自注意力。Swin Transformer 块也是不改变输入维度的，所以最终输出依然是 $56\times56\times96$ 。
第二阶段：
- Patch Merging 操作不在赘述，总之是把图片尺寸变成了 $28\times18\times192$
- 后面的 Swin Transformer 块依旧是输出不改变形状，依然是 $28\times28\times192$
第三阶段和第四阶段：

这两个阶段是复制的前面，所以仅仅是把尺寸变成了 $14\times14\times384$ 和 $7\times7\times768$

MSA 和 W-MSA 计算复杂度推导

对于 MSA 来说
- 首先需要让 $hw\times C$ 的 patch 分别成三个 $C\times C$ 的矩阵变成 q、k 和 v，所以此处的计算复杂度为 $3hwC^2$
- 然后 q 和 v 需要做运算用以得出注意力矩阵，实际上是 $hw\times C$ 的 q 矩阵和 $C\times hw$ 的 k 矩阵的转置得出 $hw\times hw$ 的注意力矩阵，所以此处的计算复杂度是 $hw)^2C$
- 最后需要给 v 加上注意力权重，实际上是 $hw\times hw$ 的注意力矩阵和 $hw\times C$ 的 v 矩阵做乘法，所以此处的计算复杂度是 $(hw)^2\times C$
- 最后的最后由于多个注意力头需要投射层，实际上还是 $hw\times C$ 的矩阵和 $C\times C$ 的矩阵相乘，所以此处的计算复杂度是 $hwC^2$
- 上面一堆最终加起来就是上面式子里的 $4hwC^2+2(hw)^2C$
对于 W-MSA 来说
- W-MSA 实际上就是在每个窗口中做 MSA 中的操作，也就说只要把 $h w$ 替换成 $M\times M$ 即可。
- 也就是说一个窗口里的复杂度是 $4M^2C^2+2M^4C$
- 窗口数为 $\frac{h}{M}\times\frac{w}{M}$ 个，所以总复杂度是 $(\frac{h}{M}\times\frac{w}{M})\times(4M^2C^2+2M^4C)=4hwC^2+2M^2hwC$

掩蔽机制具体实现

白话简述：
- 移位之后得到的是 9 个大小不一的块，如果把 9 个块填充成一样大小再进行运算则会大幅增加运算量
- 因此采用如图 4 那样拼接的方法，把这九个切切补补攒出四个一样大小的块，这样就不会大幅增加计算量了。
- 但是如此处理会带来新的问题，小块中的拼接部分是没有关联的，理应不进行注意力计算。此处的解决方案是：仍正常进行注意力计算，在最终的矩阵中把不应该有的部分变成极小的负数（图中用 -100 表示），这样在做 softmax 时无关的部分就变成 0 了。
  
  原作者在 GitHub 代码库的 issue 38 里做了可视化，也很一目了然：

个人感想

相较于 ViT 的尽量不用归纳偏置，完全使用 Transformer 原架构。Swin Transformer 更像是专门为图像而设计，像是把卷积核替换成了 Transformer 核。为此又设计了诸多繁琐的细节。这样在图像领域效果更好了，但是在不同模态的通用性降低了，应用在多模态领域可能需要一些额外的设计。

你可能感兴趣的:(论文阅读笔记,transformer,笔记,深度学习,论文阅读,论文笔记)

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
swagger【个人笔记】撰卢笔记 java
文章目录swagger导入mave坐标在配置类(WebMvcConfiguration)中加入knife4j相关配置设置静态资源映射，主要是让拦截器放行swagger常用注解@Api(tags="\[描述这个类的作用]")@ApiModel(description="\[描述这个类的作用]")@ApiModelProPerty("描述这个类的作用")@ApiOperation("\[描述方法的作用
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
5G标准学习笔记06-基于AI/ML波束管理刘孬孬沉迷学习 5G 学习笔记
5G标准学习笔记06-基于AI/ML波束管理前言前面对于孬孬学习了波束管理的概述，下面要进一步来看一下传统波束管理和现在3GPP中推动的AL/ML波束管理之前的区别联系。一、传统波束管理方法流程传统BM流程主要包括以下步骤：波束扫描（BeamSweeping）：gNB通过顺序发送多个窄波束（SSB或CSI-RS），覆盖整个服务区域，UE测量每个波束的信号质量（如L1-RSRP或L1-SINR）。波
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
两台pc如何高速度传输大文件费城之鹰其他两台电脑高速传输文件局域网不适用U盘传输资料网线直连两台电脑传资料
今天笔记本跑一个大一点的项目，8G的内存直接100%，i5的CPU直接75%并且在超频工作了，原本1.6Ghz的频率直接飙到了3.8Ghz，由于项目性质原因，采用的是公司配的笔记本，但是年初采购的联想E480，还在三包时间段内，公司不允许拆机增加内存，只能换一台新的台式机，听起来挺爽，有新设备，但是办公区域不准使用U盘这一类的存储设备，这就蛋疼了，大半年了项目代码，资料全在这个不够用的笔记本里，问
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
玩转Docker | 使用Docker部署NotepadMX笔记应用程序心随_风动玩转Docker docker 笔记 eureka
玩转Docker|使用Docker部署NotepadMX笔记应用程序前言一、NotepadMX介绍工具简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署NotepadMX服务下载NotepadMX镜像编辑部署文件创建容器检查容器状态检查服务端口安全设置四、访问NotepadMX服务访问NotepadMX首页设置访问验证编辑笔记总结前言在如今快节奏的工作与学习中，一
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在