不菜不菜

【论文精读 02】Swin Transformer

Swin Transformer —— 使用移位窗口的层级Vision Transformer

ICCV 2021 最佳论文
资料参考：

https://www.bilibili.com/video/BV1pL4y1v7jC/?spm_id_from=333.788&vd_source=fab4cd66aafcb3b54c4bc627c1dcaac1
https://www.bilibili.com/video/BV13L4y1475U/?spm_id_from=333.788&vd_source=fab4cd66aafcb3b54c4bc627c1dcaac1

作者

摘要

将 Transformer 直接从 NLP 应用到 Vision 是有挑战的，挑战主要来自两个方面，一个是尺度上的问题（例如对于一张街景的图，里面有大大小小的行人和车，对于同样一个语义的行人或车，具有不同的尺寸，这种现象在NLP当中没有），第二个问题就 resolution 太大了，如果我们要以像素点作为基本单位，序列的长度就变得高不可攀，所有的方法都是为了减少序列的长度。

本文作者提出 hierarchical Transformer ，通过移动窗口进行计算，因为 Swin Transformer有了像卷积神经网络一样有分层的结构，有多尺度的特征，就能够更容易使用到下游任务当中。

作者不光是在 ImageNet-1K 上做了实验，而且达到了87.3top-1上的精度，而且在密集预测行为预测任务上、目标检测、物体分割上都取得了很好的成绩。

Swin Transformer 已经超越了之前的所有网络，在COCO数据集上在目标检测任务能刷到58.7的成绩，提升2.7AP值，在实例分割任务当中提升2.6AP值，在ADE20K数据集上语义分割任务当中能刷到53.5的成绩，提升3.2mIoU。基于Transformer在视觉领域非常有潜力，对于MLP架构，用 shifteed window 也能提升， https://github.com/microsoft/Swin-Transformer

5 结论

本文提出 Swin Transformer，计算复杂度是跟输入图像的大小呈线性增长。 Swin Transformer 在COCO目标检测和ADE20K语义分割方面取得了最先进的性能，明显超过了以往的最佳模型。我们希望Swin Transformer 在各种视觉问题上的强大性能将鼓励视觉和语言信号的统一建模。

基于 shifted window 的自注意作为 Swin Transformer 的一个关键元素，对视觉问题是有效的，并期待研究其在自然语言处理中的应用。

1 引言

Swim Transformer 与 Vision Transformer 区别：

Swim Transformer 能够像卷积神经网络当中构建出具有层次性的特征图，对于目标检测和分割任务有更大的优势。Vision Transformer中都是保持下采样的规律不变，所以没法像 Swim Transformer 构建出具有层次性的特征层。
Swim Transformer 中以窗口的形式将特征图分开了，窗口与窗口之间不进行信息传递，能够降低运算量。在 Vision Transformer 中特征图是一个整体，并没有进行分割，全局建模，由于全局自注意的计算，对输入图像的大小具有平方倍的计算复杂度。

作者的研究动机是想证明 Transformer 可以作为一个通用的骨干网络，对于所有视觉的任务，不光是分类，在检测、分割、视频上都能取到很好的效果。

2 相关工作

卷积神经网络、自注意力/Transformer是如何用来帮助卷积神经网络、只用Transformer作为骨干网络。

3 模型体系结构

3.1 总体架构

图A：假设输入一张图的高度为 H ，宽度为 W ，RGB三通道的图片，首先会通过 Patch Partition 的模块，图片会变成（H/4）*（W/4） * 48 的图片，再依次通过 Stage1、Stage2、Stage3、Stage4，Stage2 在 Stage1 的基础上下采样了两倍，Stage3 在 Stage2 的基础上下采样了两倍，Stage4 在 Stage3 的基础上下采样了两倍，在下采样的过程中 channel 会翻倍。

图A：需要注意的是 Stage1 的第一个是 Linear Embedding 层，对于 Stage2、Stage3、Stage4 都是 Patch Merging 的结构。

Patch Partition假设一个 4 * 4 大小的RGB图像，用一个 4 * 4 大小的窗口对图像进行分割，分割之后对每一个窗口，在 channel 方向进行展平（打成 patch ），下图中 16 * 3 对应 Figure 3 中的 48 。

Linear Embedding： 对 Patch Partition 出来的特征矩阵的 channel 进行调整，原来的深度是48，通过调整之后，深度变为 C 。（对于 S B L… 所采用不同，得到不同的C）需要注意 Linear Embedding 还进行了 LayerNorm 处理，

Patch Partition 和 Linear Embedding 是可以通过卷积层进行操作，也就是用卷积核大小为 4*4，采用48个卷积核，步距设成4，padding=0。

Swim Transformer Block对于每个 Stage 会堆叠每个 Swim Transformer Block n 次（偶数次），可以从图 B 中看到，是使用了两个 Block，左边的这个Block其实是 Multi-Head Self Attention （Windows），下一个模块采用的是 SW 的自注意力模块（Shifted window Multi-Head Self Attention）。

Patch Merging实际是进行下采样，高和宽缩减为原来的一半，并且 channel 翻倍。下图为做法。以2*2作为窗口，在每个窗口当中相同位置的像素给取出来，能够得到四个特征矩阵，将这四个channel，在深度方向上进行 concat，在channel方向上进行 LayerNorm ，再通过全连接层（在每一个深度方向上进行映射），得到的就是 Patch Merging 输出的特征图。（可以类比池化操作）

在分类网络中对于 Stage4 后还会接上 LayerNorm，全局池化，以及一个全连接层进行输出。

MSA：对于 Multi-Head Self-Attention 模块，每一个像素都会求 Q、K、V，对于每一个像素求得的Q会与特征图当中的每一个像素的K进行匹配，后面再进行一系列计算。也就是对于特征图当中的每个pixel会与其他像素进行沟通。

W-MSA：首先会对特征图分成一个一个 Window（窗口），在下面的例子中分成 2*2 大小的4个窗口，在每个窗口的内部进行 Multi-Head Self-Attention 的计算过程，但 Window 和 Window 之间是没有任何通讯的。目的是为了减少计算量。缺点是窗口之间无法进行信息交互，导致感受野变小，无法看到全局的视野。

3.2 Shifted Window based Self-Attention

全局的自注意力的计算会导致平方倍的复杂度，尤其是密集型的任务或者是大尺寸的图片，全局算自注意力的计算复杂度非常贵。因此，我们在窗口做自注意力。

计算复杂度比较：

h代表feature map的高度，w代表feature map的宽度，C代表feature
map的深度，M代表每个窗口（Windows）的大小。

假设输入的高和宽都是112，h=w=112（有 h * w 个patch），C=128，M=7（7个窗口），将参数带入到公式当中，能节省大约401亿计算量。相当于用一个 h * w * c 的向量去乘以一个 c * c 的系数矩阵，得到 h * w * c ，所以每一个的计算复杂度是 h * w * c ^2 ，因为有三次操作，所以有 3 倍的 h * w * c ^2，q 与 k 的转置相乘，得到 hw * hw 的 A，计算复杂度是（hw）^2 * c ，自注意力矩阵与value的乘积 A 与 v，计算复杂度还是（hw）^2 * c ，因此就变成 2 * （hw）^2* c 。得到（1）的公式。

参考：https://blog.csdn.net/qq_37541097/article/details/121119988?spm=1001.2014.3001.5501

Shifted Window Multi-Head Slef-Attention（SW-MSA）：对窗口进行一定偏移，因为在 W-MSA 当中窗口之间是没法进行通讯的，因此引入 Shifted Window Multi-Head Slef-Attention
模块，目的是实现不同 Windows 之间的信息交互。

在 Layer 1 模块上使用 W-MSA ，在 Layer 1 + 1 上使用 SW-MSA 模块，

向右向下平移后：

但解决了窗口之间的信息交互之后，又会出现计算量增加的问题（从4个窗口增加到9个窗口），下面是作者的解决方式：
首先是移动windows，移动之后再去划分成44的windows，将 5和3、7和1、8 6 2 0
分别分成4*4的窗口，然后再对这四个区域去做 MSA 计算。

但为了分别计算区域5和区域3，但为了不去计算区域5与区域3的信息，将其减去100，经过softmax之后，都变成0，因此得到的还是只有区域5的信息。计算完成之后再将分开后的feature map还原。

紫色区域进行SW-MSA操作，因为这几个紫色区域是不连续的。

高效的按批次计算方法：循环位移-> 掩码->还原

Relative position bias：B 代表的是相对位置偏置。

table 个数由来：（2M-1）* （2M-1）

3.3 体系结构变体

Swin-T和Swin-S的复杂性分别与ResNet-50(DeiT-S)和ResNet-101相似。区别是有两个超参数，一个是C，另一个是每个stage有多少个Transformer block，这里与残差网络很像，残差网络也是有残差网络块。

4 实验

4.1.在ImageNet-1K上的图像分类

在 ImageNet-1K 预训练。有128万张图片，1000个类的数据集。
在 ImageNet-22K 预训练和 ImageNet-1K 的微调。

在 ImageNet-1K 训练中，ViT-B/16 在 ImageNet top-1 的 acc 能达到77.9，使用 Vision Transformer 只有在非常大的数据集进行预训练才能有比较好的效果，没有用很好的数据增强，在 ImageNet-1K 上训练效果并不好，还不如 EffNet 的效果。在 DeiT-B 因为用了更好的数据增强和模型蒸馏，因此 DeiT-B 也能取得相当不错的结果，能到83.1。对比 Swin-Transformer Base 同样输入尺寸是384*384，在 ImageNet top-1 的 acc 能达到 84.5，相对于 Vision Transformer 有非常大的提升。

在 ImageNet-21K （或ImageNet-22K）更大的数据集进行预训练之后，再在 ImageNet-1K 进行微调（或者说迁移学习），可以看到 ViT-B/16 在 ImageNet top-1 的 acc 能达到 84.0 。同样对于Swin-Transformer Base 同样输入尺寸下，在 ImageNet top-1 的 acc 能达到 86.4。因此比 Vision Transformer 效果要好很多。Swin-Transformer Large 在 ImageNet top-1 的
acc 能达到 87.3。

4.2 在COCO数据集上目标检测

在不同的算法框架下，Swin Transformer 比卷积神经网络好多少。

消融实验

1. 不去设置任何位置参数，在 ImageNet top-1 上能达到 80.1 的准确率。
2. 使用绝对位置编码，在ViT中使用的，在 ImageNet top-1 上能达到 80.5 的准确率，但在COCO数据集和ADE20k数据集当中可以看到性能降低了。可以看到效果并不好。
3. 使用相对位置偏置。在 ImageNet top-1 上能达到 81.3 的准确率，在COCO数据集和ADE20k数据集上都有明显的提升。
4. 使用了shifted windows 可以看到通过窗口与窗口之间的信息交互效果有明显提升。

Acknowledgement

Swin-T（Swin-Tiny）：concat 4 * 4，96-d，LN 其实对应的就是 Patch Partition 和
Linear Embedding，Patch Partition 和 Linear Embedding 的功能其实与Patch
Merging是一样的，都是对特征图进行下采样，修改channel，再通过LN输出。这里的 4 * 4 对应的就是对高和宽下采样4倍，96
对应的就是通过 Linear Embedding 后channel变成96，LN，再堆叠两个 swin Transformer
block…

Patch Partition 和 Linear Embedding，Patch Partition 和 Linear Embedding
的功能其实与Patch Merging是一样的，都是对特征图进行下采样，修改channel，再通过LN输出。这里的 4 * 4
对应的就是对高和宽下采样4倍，96 对应的就是通过 Linear Embedding 后channel变成96，LN，再堆叠两个 swin
Transformer block…

你可能感兴趣的:(论文精读)

深度学习论文精读（7）：MTCNN hwl19951007 计算机视觉论文精读
深度学习论文精读（7）：MTCNN论文地址：JointFaceDetectionandAlignmentusingMulti-taskCascadedConvolutionalNetworks译文地址：https://zhuanlan.zhihu.com/p/37884254参考博文1：https://zhuanlan.zhihu.com/p/38520597官方地址：https://kpzhan
graphrag论文精读 Ramos_zl 人工智能
论文精读：FromLocaltoGlobal:AGraphRAGApproachtoQuery-FocusedSummarization1.研究背景与问题在大语言模型（LLMs）的应用中，检索增强生成（RAG）方法通常用于从外部知识源检索相关信息，从而回答用户的问题。然而，RAG方法在处理涉及整个文本语料库的全局问题时效果不佳，比如“数据集中主要的主题是什么？”这些问题本质上是一个面向查询的总结任
图形学论文笔记 Jozky86 图形学图形学笔记
文章目录PBD：XPBD：shapematchingPBD：【深入浅出NvidiaFleX】(1)PositionBasedDynamics最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码XPBD：基于XPBD的物理模拟一条龙：公式推导+代码+文字讲解（纯自制）【论文精读】XPBD基于位置的动力学XPBD论文解读(
【图像拼接/视频拼接】论文精读：Efficient Video Stitching Based on Fast Structure Deformation 十小大图像拼接论文精读计算机视觉图像拼接 image stitching video stitching 论文阅读论文笔记音视频
第一次来请先看这篇文章：【图像拼接（ImageStitching）】关于【图像拼接论文精读】专栏的相关说明，包含专栏使用说明、创新思路分享等（不定期更新）图像拼接系列相关论文精读SeamCarvingforContent-AwareImageResizingAs-Rigid-As-PossibleShapeManipulationAdaptiveAs-Natural-As-PossibleImag
【CV论文精读】【BEV感知】BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View 量子-Alex CV知识学习和论文阅读 3d 目标检测目标跟踪
【CV论文精读】【BEV感知】BEVDet:High-PerformanceMulti-Camera3DObjectDetectioninBird-Eye-ViewBEVDet：鸟瞰下的高性能多摄像机三维目标检测0.论文摘要自动驾驶感知周围环境进行决策，这是视觉感知中最复杂的场景之一。范式创新在解决2D目标检测任务中的成功激励我们寻求一种优雅、可行和可扩展的范式，从根本上推动该领域的性能边界。为此
【论文精读】ESViT None-D 自监督学习深度学习人工智能计算机视觉算法
摘要基于transformer的SSL方法在ImageNet线性检测任务上取得了最先进的性能，其关键原因在于使用了基于对比学习方法训练单尺度Transformer架构。尽管其简单有效，但现有的基于transformer的SSL（自监督学习）方法需要大量的计算资源才能达到SoTA性能。故认为SSL系统的效率与两个因素高度相关：网络架构和预训练任务。故而提出改进：发现自监督单尺度transformer
【论文精读】DALL·E None-D 图像生成深度学习人工智能计算机视觉生成对抗网络 gan transformer GPT
摘要本文利用从互联网上收集的2.5亿个图像/文本对数据，训练了一个120亿参数的自回归transformer，进而得到一个可以通过自然语言/图像控制生成的高保真图像生成模型。在大多数数据集上的表现超越以往的方法。框架本文的目标为通过训练一个自回归transformer，通过将文本和图像tokens自回归建模为单个数据流，进而结合图像解码器进行图像生成，整体分为两个阶段：第一阶段：训练一个离散变分自
【论文精读】SimCLR2 None-D 自监督学习机器学习人工智能 deep learning 计算机视觉算法深度学习
摘要本文提出了一个半监督学习框架，包括三个步骤：无监督或自监督的预训练；有监督微调；使用未标记数据进行蒸馏。具体改进有：发现在半监督学习（无监督预训练+有监督微调）中，对于较大的模型只需采用少量有标签数据就可实现良好的结果证明了SimCLR中用于半监督学习的卷积层之后非线性变换（投影头）的重要性。更深的投影头能提高分类线性评估指标，也能提高从投影头的中间层进行微调时的半监督性能对于特定目标，过大的
【GigaGAN论文精读】Scaling up GANs for Text-to-Image Synthesis 旋转的油纸伞人脸相关人工智能从入门到实战深度学习生成模型计算机视觉 GAN GigaGAN
【GigaGAN论文精读】ScalingupGANsforText-to-ImageSynthesis0、前言Abstract1.Introduction（图放在文末）2.RelatedWorks2.1Text-to-imagesynthesis.2.2GAN-basedimagesynthesis.2.3Super-resolutionforlarge-scaletext-to-imagemod
【论文精读CVPR_2023】DiffSwap: High-Fidelity and Controllable Face Swapping via 3D-Aware Masked Diffusion 旋转的油纸伞人脸相关人工智能从入门到实战 3d Face Swapping AI换脸扩散模型
【论文精读CVPR_2023】DiffSwap:High-FidelityandControllableFaceSwappingvia3D-AwareMaskedDiffusion一、前言Abstract1.Introduction2.RelatedWorkFaceSwapping.DiffusionModels.3.Method3.1.Preliminaries:DiffusionModels3
【论文精读】Latent Diffusion None-D 图像生成人工智能 deep learning 深度学习计算机视觉算法 stable diffusion
摘要Diffusionmodels（DMs）被证明在复杂自然场景的高分辨率图像合成能力优于以往的GAN或autoregressive（AR）transformer。作为基于似然的模型，其没有GAN的模式崩溃和训练不稳定问题，通过参数共享，其可以模拟自然图像的高度复杂分布；另外也不需要AR类模型庞大的参数量，但DM在像素级的训练推理仍然需要大量的计算量，故本文的重点在于在不损害DM性能的情况下减少计
【论文精读】BERT None-D 文本生成 bert 人工智能深度学习自然语言处理 transformer
摘要以往的预训练语言表示应用于下游任务时的策略有基于特征和微调两种。其中基于特征的方法如ELMo使用基于上下文的预训练词嵌入拼接特定于任务的架构；基于微调的方法如GPT使用未标记的文本进行预训练，并针对有监督的下游任务进行微调。但上述两种策略都使用从左到右的架构，每个token只能处理self-attention层中的前一个token，这种限制在将基于微调的方法应用于问答等token级任务时可能非
【CV论文精读】Adaptive Fusion of Multi-Scale YOLO for Pedestrian Detection基于多尺度自适应融合YOLO的行人检测量子-Alex CV知识学习和论文阅读 YOLO 计算机视觉人工智能
AdaptiveFusionofMulti-ScaleYOLOforPedestrianDetection0.论文摘要和作者信息摘要虽然行人检测技术在不断改进，但由于不同规模的行人和遮挡行人模式的不确定性和多样性，行人检测仍然具有挑战性。本研究遵循单次目标检测的通用框架，提出了一种分而治之的方法来解决上述问题。该模型引入了一个分割函数，可以将一幅图像中没有重叠的行人分割成两个子图像。通过使用网络架
【CV论文精读】Pedestrian Detection Based on YOLO Network Model 基于YOLO的行人检测量子-Alex CV知识学习和论文阅读 YOLO 深度学习计算机视觉
【CV论文精读】PedestrianDetectionBasedonYOLONetworkModel0.论文摘要和作者信息摘要——经过深度网络后，会有一些行人信息的丢失，会造成梯度的消失，造成行人检测不准确。本文改进了YOLO算法的网络结构，提出了一种新的网络结构YOLO-R。首先，在原有YOLO网络的基础上增加了三个直通层。直通层由路由层和重组层组成。其作用是将浅层行人特征连接到深层行人特征，并
图像处理之《鲁棒图像隐写术：隐藏频率系数中的信息》论文精读 Hard Coder 图像处理图像处理 JPEG压缩鲁棒图像隐写频域系数论文阅读
一、文章摘要隐写术是一种将秘密信息隐藏到公共多媒体对象中而不会引起第三方怀疑的技术。然而，大多数现有的工作不能提供良好的抗有损JPEG压缩鲁棒性，同时保持相对较大的嵌入容量。提出了一种基于可逆神经网络的端到端鲁棒隐写系统。该方法将秘密信息直接隐藏到封面图像的离散余弦变换(DCT)系数中，而不是隐藏在空间域中，显著提高了鲁棒性和抗隐写安全性。首先提出了互信息损失来约束INN中的信息流。实现了双向融合
[论文精读]FBNETGEN: Task-aware GNN-based fMRI Analysis via Functional Brain Network Generation 夏莉莉iy 论文精读人工智能深度学习学习图论分类笔记
论文网址：https://arxiv.org/abs/2205.12465论文代码：https://github.com/Wayfear/FBNETGEN英文是纯手打的！论文原文的summarizingandparaphrasing。可能会出现难以避免的拼写错误和语法错误，若有发现欢迎评论指正！文章偏向于笔记，谨慎食用！目录1.省流版1.1.心得1.2.论文总结图2.论文逐段精读2.1.Abstr
[论文精读]Intelligence Quotient Scores Prediction in rs-fMRI via Graph Convolutional Regression Network 夏莉莉iy 论文精读人工智能机器学习深度学习计算机视觉学习笔记图论
论文网址：IntelligenceQuotientScoresPredictioninrs-fMRIviaGraphConvolutionalRegressionNetwork|SpringerLink英文是纯手打的！论文原文的summarizingandparaphrasing。可能会出现难以避免的拼写错误和语法错误，若有发现欢迎评论指正！文章偏向于笔记，谨慎食用！目录1.省流版1.1.心得1.
[论文精读]Community-Aware Transformer for Autism Prediction in fMRI Connectome 夏莉莉iy 论文精读 transformer 深度学习人工智能机器学习学习计算机视觉笔记
论文网址：[2307.10181]Community-AwareTransformerforAutismPredictioninfMRIConnectome(arxiv.org)论文代码：GitHub-ubc-tea/Com-BrainTF:TheofficialPytorchimplementationofpaper"Community-AwareTransformerforAutismPred
【论文精读】EfficientNet None-D BackBones 深度学习人工智能计算机视觉算法
摘要以往的卷积网络模型通过缩放深度，宽度和图像大小的其中之一或之二来扩大网络以实现更好的结果，但这种思想下经常产生次优的精度和效率的算法。本文认为通过同时平衡网络宽度、深度、分辨率的缩放倍数来扩大卷积网络，可以达到更好的精度和效率。框架优化目标定义卷积网络层iii为：Yi=Fi(Xi)Y_i=F_i(X_i)Yi=Fi(Xi)其中FiF_iFi是卷积算子，YiY_iYi为输出张量，XiX_iXi为
【论文精读】GPT2 None-D 文本生成 gpt 深度学习人工智能 nlp 自然语言处理语言模型
摘要在单一领域数据集上训练单一任务的模型是当前系统普遍缺乏泛化能力的主要原因，要想使用当前的架构构建出稳健的系统，可能需要多任务学习。但多任务需要多数据集，而继续扩大数据集和目标设计的规模是个难以处理的问题，所以只能采取多任务学习的其他框架。目前在语言任务上表现最佳的多任务学习系统，利用了预训练和监督微调的结合，通用的预训练系统可以在微调后在多个任务上表现良好，但微调仍需要监督数据。故本文做出证明
【论文精读】GPT1 None-D 文本生成深度学习人工智能 nlp 算法 gpt chatgpt
摘要如何从大量未标注文本中获取词级别的信息有两个主要挑战，使用何种优化目标能有效地学习文本表示，如何有效地将学习到的表示迁移到目标任务。针对这些问题，本文提出一种无监督预训练和有监督微调的组合的半监督方法，具体为：采用两阶段训练过程，首先使用语言建模目标在大量未标注数据上学习模型的初始参数，随后使用有监督目标微调预训练模型以适应目标任务模型架构使用Transformer，其在处理文本中的长期依赖关
【论文精读】Swin Transformer None-D BackBones 深度学习人工智能计算机视觉算法机器学习
摘要ViT的缺点：Transformer在语言处理中的基本元素是wordtoken，其特点是语义信息比较密集。而ViT中token的尺度（scale）是固定的，且视觉token携带的语义信息比语言文字序列差，故认为不适合视觉应用图像分辨率高，像素点多，如果采用ViT模型，自注意力的计算量会与像素的平方成正比，计算复杂度过高是导致ViT速度慢的主要原因故本文做出改进：基于滑动窗口机制，具有层级设计（
【论文精读】ViT-Adapter None-D BackBones 计算机视觉深度学习人工智能 transformer 机器学习
摘要视觉transformer类的模型可以分为普通ViT和视觉transformer变体两类。后者通常使用局部空间操作将特定于视觉的归纳偏差引入到其架构中，故而可以产生更好的结果（如SwinTransformer）。但普通的ViT可以使用包括图像，视频和文本的大量多模态数据进行预训练，这鼓励模型学习丰富的语义表示，但与特定于视觉的transformer变体相比，普通ViT在密集预测方面有决定性的缺
【论文精读】 Vision Transformer（ViT） None-D BackBones 深度学习人工智能计算机视觉
摘要验证了当拥有足够多的数据进行预训练的时候，ViT的表现就会超过CNN，突破transformer缺少归纳偏置的限制，可以在下游任务中获得较好的迁移效果。架构如上图，给定图像x∈RH×W×Cx\in\Reals^{H\timesW\timesC}x∈RH×W×C分割为2Dpatch序列xp∈RN×(P2⋅C)x_p\in\Reals^{N\times(P^2\cdotC)}xp∈RN×(P2⋅C
【论文精读】RetNet None-D BackBones 深度学习人工智能 nlp 算法
摘要Transformer是大型语言模型的主流架构。然而，transformer的训练并行性是以低效的推理为代价，这使得transformer对部署不友好。不断增长的序列长度会增加GPU内存消耗和延迟，并降低推理速度。许多算法都在继续开发下一代架构，旨在保持训练并行性和transformer的竞争性能，同时具有高效的O(1)O(1)O(1)推理复杂度。但同时实现上述目标是具有挑战性的，即所谓的不可
【论文精读】Transformer None-D BackBones transformer 深度学习人工智能
摘要以往的循环神经网络如LSTM和GRU，在序列建模和翻译问题中已经成为最先进的方法，但由于其循环结构，导致无法并行化计算，且难以对长序列的全局关系建模。故本文提出Transformer，一种非递归式的模型架构，完全依靠注意力机制来获取序列输入和输出之间的全局依赖关系，且Transformer允许并行化计算。具体为：提出自注意力机制，是一种为了方便计算序列表示而关联单个序列的不同位置的注意力机制基
论文精读的markdown模板——以及用obsidian阅读网页资料做笔记东方-教育技术博主笔记
#TheInvestigationofS-PChartAnalysisontheTestEvaluationsofEqualityAxiomConceptsforSixthGradersTags:#/unread本体论：背景起源和发展包含要素###可关联要素###逻辑意义：方法论：方法论是一种以解决问题为目标的理论体系或系统，通常涉及对问题阶段、任务、工具、方法技巧的论述。方法论会对一系列具体的方
【CV论文精读】【MVDet】Multiview Detection with Feature Perspective Transformation 量子-Alex CV论文阅读深度学习目标检测计算机视觉
0.论文摘要合并多个摄像机视图进行检测减轻了拥挤场景中遮挡的影响。在多视图检测系统中，我们需要回答两个重要问题。首先，我们应该如何从多个视图中聚合线索？第二，我们应该如何从空间上相邻的位置聚集信息？为了解决这些问题，我们引入了一种新的多视图检测器MVDet。在多视图聚合期间，对于地面上的每个位置，现有方法使用多视图anchorbox特征作为表示，这可能会限制性能，因为预定义的anchorbox可能
【CV论文精读】【协同感知综述】Collaborative Perception for Autonomous Driving ：Current Status and Future Trend 量子-Alex CV论文阅读深度学习目标检测自动驾驶
CollaborativePerceptionforAutonomousDriving：CurrentStatusandFutureTrend0.论文摘要感知是自动驾驶系统的关键模块之一，近年来取得了很大进展。然而，单个车辆的有限能力导致感知性能提高的瓶颈。为了突破个体感知的局限，协作感知被提出，它使车辆能够共享信息来感知视线和视野之外的环境。本文综述了有前途的协作感知技术的相关工作，包括介绍了基
【CV论文精读】EarlyBird: Early-Fusion for Multi-View Tracking in the Bird’s Eye View 量子-Alex CV论文阅读计算机视觉目标跟踪目标检测深度学习
【CV论文精读】EarlyBird:Early-FusionforMulti-ViewTrackingintheBird’sEyeView0.论文摘要多视图聚合有望克服多目标检测和跟踪中的遮挡和漏检挑战。多视图检测和3D对象检测中的最新方法通过将所有视图投影到地平面并在鸟瞰视图（BEV）中执行检测，实现了巨大的性能飞跃。在本文中，我们研究了BEV中的跟踪是否也能带来多目标多摄像机（MTMC）跟踪的
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他