Amusi（CVer）

最新的一篇视觉Transformer综述！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者：闪闪红星闪闪 | 已授权转载（源：知乎）

https://zhuanlan.zhihu.com/p/433048484

CVer公众号已汇集三篇视觉Transformer，公众号后台回复：Transformer综述，即可下载三篇ViT综述PDF！赶紧学起来！前两篇ViT综述是：

又一篇视觉Transformer综述来了！
华为&北大等联合最新提出的视觉Transformer综述

本文将介绍目前最新最全的视觉Transformer综述，11月份刚刚出炉！

前言

快卷起来！还怕改进想不到idea吗？中国科学院、东南大学等单位联合发表最新的视觉 Transformer 综述。综述涵盖三种基本 CV 任务（分类、检测和分割）的一百多种不同的视觉 Transformer，最新模型截止至今年8月！同时，综述还包括了大量的实证分析、性能改进分析，并披露了三个具有广阔前景的未来研究方向！

概要

Transformer 是一种基于注意力的编码器-解码器架构，它彻底改变了自然语言处理领域。受这一重大成就的启发，最近，在将类似于 Transformer 的结构应用于计算机视觉 (CV) 领域上进行了一些开创性工作，这已经证明了它们在各种 CV 任务上的有效性。与现在的卷积神经网络 (CNN) 相比，视觉 Transformer (ViT) 依靠有竞争力的建模能力，在 ImageNet、COCO 和 ADE20k 等多个基准上取得了十分优异的性能。在本文中，作者全面回顾了针对三个基本 CV 任务（分类、检测和分割）的一百多种不同的视觉 Transformer，其中提出了一种分类法，根据它们的动机、结构和使用场景来组织这些方法。由于训练设置和面向任务的差异，作者还在不同的配置上评估了这些方法，以方便直观地进行比较，而不仅仅是各种基准测试。此外，作者披露了一系列基本但未经开发的方面，这些方面可能使 Transformer 从众多架构中脱颖而出，例如，不充分的高级语义嵌入以弥合视觉和顺序 Transformer 之间的差距。最后，提出了三个有前景的未来研究方向，以供进一步研究。

> 1. 论文和代码地址

论文题目：A Survey of Visual Transformers

发表单位：中国科学院、东南大学、联想研究院、联想

论文地址：https://arxiv.org/abs/2111.06091

提交时间：2021年11月11日

> 2. 动机

ViT 发展速度十分迅速！

图1. Transformer 在NLP和CV中的应用和发展进程

如上图左边所示，Transformer 逐渐成为自然语言处理 (NLP) 的主要深度学习模型。从上图右图所示，在过去的一年中，针对不同的领域提出了数百种基于 Transformer 的视觉模型。

这篇综述和以往综述有什么区别？

图2. ViT 的分类

去年发表了几篇关于 Transformer 的评论，其中 Tay 等人回顾了 NLP 中 Transformers 的效率，Khan 等人和 Han 等人总结了早期的视觉 Transformer 和之前的注意力模型，以及一些没有系统方法的语言模型。最近对 Transformer 的综述是 Lin 等人介绍的，提供了对 Transformer 各种变体的系统综述，并粗略地提到了它在视觉上的应用。基于这些观察，本文旨在全面回顾最近的 ViT，并系统地对这些现有方法进行分类：

全面性和可读性。本文全面综述了100多种 ViT 的三个基本任务：分类、检测和分割。本文选择并分析了50多个代表性模型，如上图所示，本文不仅从一个角度对每个模型进行了详尽的分析，而且还通过渐进、对比和多视角分析等方式建立了它们之间的内在联系。
直观的比较。由于这些 ViT 在各种任务中遵循不同的训练方案和超参数设置，因此本次调查通过在不同的数据集和限制上将它们分开来呈现多个横向比较。更重要的是，本文总结了为每个任务设计的一系列有前景的组件，包括：用于主干的具有层次结构的浅层局部卷积，用于颈部检测器的具有稀疏注意力的空间先验加速，以及用于分割的通用掩码预测方案。
深入分析。本文进一步在以下方面提供了重要的见解：从序列到视觉任务的转换过程，Transformer 与其他视觉网络之间的对应关系，以及不同任务中采用的可学习嵌入（即类token、对象查询、掩码嵌入）的相关性。最后，本文概述了未来的研究方向。例如，编码器-解码器的 Transformer 主干可以通过学习的嵌入来统一三个子任务（分类、检测和分割）。

> 3. 最初的 Transformer

图3. Transformer 中的注意力层

图4. Transformer 整体架构

最初的Transformer架构如上图4所示，由以下3个模块组成：

多头注意力机制（MHSA）

每个注意力层的细节如上图3所示。

逐位置前馈网络（FFN）

位置编码

由于 Transformer 的解析太多，这里就不详细叙述，刚接触的可以参考以下链接查看细节：

https://zhuanlan.zhihu.com/p/48508221

> 4. 分类中的 Transformer

受到在 NLP 中 Transformer 优异发展的启发，一些研究人员试图将 Transformer 引入图像分类。与传统CNN相比，Vision Transformer（ViT）首次在主流分类基准上实现了类似甚至更高的性能。本节全面回顾了 2021 年 6 月之前发布的 40 多个 Transformer 主干，并根据其动机和实现将它们分为六类，如下图 5 所示。

基于本文提出的分类，首先介绍了 ViT，用于图像分类的原始视觉 Transformer。然后讨论了 Transformer Enhanced CNN 方法，该方法利用Transformer来增强CNN主干的远程依赖性。Transformer 具有很强的全局建模能力，但在早期忽略了局部信息。因此，CNN Enhanced Transformer 方法利用适当的卷积归纳偏置来增强 Transformer，而 Local Attention Enhanced Transformer 方法重新设计补丁分区和注意力块以增强 Transformer 的局部性并保持无卷积架构。此外，CNN 在性能和计算效率方面从经验上受益于分层和深层结构。受此启发，提出了 Hierarchical Transformer 和 Deep Transformer 方法。前者用金字塔茎代替固定分辨率的柱状结构，而后者防止注意力图过于平滑并增加其在深层的多样性。此外，本文还回顾了当前可用的视觉 Transformer 自监督方法。最后，作者评估这些 Transformer 的性能，分析有希望的改进，并回答一个常见问题以供进一步调查。

图5. ViT骨干的分类

4.1 最初的 ViT

ViT 是 Transformer 在图像分类中的第一个骨干。

图6. ViT 架构

4.2 Transformer 增强的 CNN

Transformer 有两个关键部分：MHSA 和 FFN。最近，Cordonnier 等人已经证明卷积层可以通过具有足够头数的 MHSA 来近似。Dong等人已经表明，MHSA 可能在没有跨层连接和 FFN时对“token一致性”具有很强的归纳偏置。因此，Transformer 在理论上具有比 CNN 更强大的建模能力。然而，它不可避免地具有沉重的计算成本，特别是对于浅层，由自注意力机制带来，随着特征分辨率的二次方增长。与之前基于注意力的方法类似，一些方法尝试将 Transformer 插入 CNN 主干或用 Transformer 层替换部分卷积块。例如 VTs 和 BoTNet。

详情阅读：CNN+Transformer！谷歌提出BoTNet：新主干网络！在ImageNet上达84.7%准确率！

4.3 CNN 增强 Transformer

归纳偏差可以表示为一组关于数据分布或解空间的假设，其在卷积中的表现是局部性和方差平移。局部性侧重于空间上接近的元素，并将它们与远端隔离。平移不变性表明在输入的位置之间重复使用相同的匹配规则 [97]。由于局部邻域内的协方差很大，并且在整个图像中趋于逐渐平稳，这些卷积偏差可以有效地处理图像数据。然而，强大的偏差也限制了 CNN 具有足够数据集的上限。最近的工作试图利用适当的卷积偏差来增强 Transformer 并加速其收敛。这些应用可以概括如下：软近似（DeiT、ConViT）、直接局部性处理（ CeiT、LocalViT）、位置编码的直接替换（CPVT、ResT）和结构组合（Early Conv. 、CoAtNet）。作者逐一对这些模型进行了简要叙述，更多推荐阅读：

FAIR新作：卷积可以让视觉Transformer性能更强！训练更稳定！

超越PVT！南大提出ResT：高效多尺度的视觉Transformer

89.77%准确率！谷歌提出CoAtNet：将卷积与自注意力结合

4.4 局部注意力增强的 Transformer

ViT 将输入图像视为一个补丁序列。这种粗糙的补丁嵌入过程忽略了语言和图像之间的差距，这可能会破坏图像的局部信息。作为局部提取器，卷积通过相对固定的滤波器聚合特征。这种模板匹配过程可以有效地处理大多数小数据集，但在处理大型数据集时面临表示的组合爆炸。与卷积相比，局部注意力机制可以根据局部元素之间的关系动态生成注意力权重。为了增强局部特征提取能力并保留无卷积结构，一些工作（Swin Transformer、 TNT block、Twins、T2T-ViT）尝试通过局部自注意力机制来适应补丁结构。随后作者对一些 ViT 变体进行了简要阐述，分别是：TNT、Swin Transformer、Twins& ViL和 VOLO。推荐阅读：

NeurIPS 2021 | Twins：更高效的Transformer主干网！完美适配下游检测、分割任务

打破Transformer宿命！新秀VOLO开源！横扫CV多项记录，首个超越87%的模型

重磅开源！屠榜各大CV任务！最强骨干网络：Swin Transformer来了

4.5 分层 Transformer

由于 ViT 在整个网络中以固定分辨率继承了原始的柱状结构，因此它忽略了细粒度特征，并带来了昂贵的计算成本。继分层 CNN 之后，最近的工作（CvT、PVT、ViL、T2T-ViT、PiT）将类似的结构应用于 Transformer 中。

ICCV 2021 Oral | 金字塔视觉Transformer(PVT)：用于密集预测的多功能backbone

ICCV 2021 | 全面超越ResNet！NUS和依图开源T2T-ViT：Transformer又一力作

ICCV 2021 | PiT：重新思考视觉Transformer的空间维度

87.7%准确率！CvT：将卷积引入视觉Transformer

4.6 深度 Transformer

根据经验，增加模型的深度使网络能够学习更复杂的表示。最近的工作将这种深度结构应用于 Transformer 并进行大量实验，通过分析跨 patch（Diverse Patch）和跨层（Refiner、DeepViT）的相似性以及残差块（CaiT）的贡献来研究其可扩展性。在深度 Transformer 中，更深层的特征往往不太具有代表性（注意力崩溃，由 DeepViT 发现），并且 patch 被映射到难以区分的潜在表示（补丁过度平滑，由 Diverse Patch 发现）。为了弥补上述限制，这些方法也多方面提出了相应的解决方案。本文简要介绍了CaiT、DeepViT & Refiner和 Diverse Patch，更加详细的，推荐阅读：

https://zhuanlan.zhihu.com/p/361629507

4.7 有自监督学习的 Transformers

自监督 Transformers 在 NLP 中取得了成功，但受监督的预训练 Transformers 仍占据 CV 领域的主导地位。最近的工作还试图在生成性（iGPT、BEiT）和辨别性（MoCo v3、DINO）中为视觉 Transformer 设计各种自监督学习方案。

ICCV 2021 | 当Transformer遇见自监督学习！Facebook重磅开源DINO
ICCV 2021 Oral | 何恺明团队提出MoCo v3：训练自监督视觉Transformer的实证研究

4.8 讨论

1）实验评估和对比分析

表1. 视觉 Transformer 在IMAGENET-1K、CIFAR-10、CIFAR-100上的TOP-1准确率对比

根据本文的分类法，所综述的监督模型可分为六类。表一总结了 Transformer 在主流分类基准上的分类性能，并为每个型号指定了专用颜色。为了客观直观地评估它们，以下三幅图说明了它们在不同配置下在 ImageNet-1k 上的比较（例如，模型大小、FLOPs 和训练方案）。下图总结了在 224x224输入分辨率下，每个模型的性能。由于 FLOPs 在 Transformer 内随输入大小呈二次增长，下图（b）将 FLOPs 作为水平轴，重点关注其在更高分辨率下的性能。下图（c）重点介绍带有外部数据集的预训练模型。根据这些图，作者简要分析了有利于模型性能、效率和可扩展性的几项改进，如下所示：

一般来说，大多数结构改进的方法针对特定模型尺寸、问题或特定输入分辨率进行优化，而其它基本训练策略，如 DeiT 和 LV-ViT，更适用于各种模型、任务和输入。
局部性对于 Transformer 来说是不可或缺的，VOLO 和 Swin 分别在分类和密集预测任务中占主导地位。
卷积 patch 化茎（即使用卷积生成patch）和早期卷积阶段（CoAtNet）显著提高了 Transformer 的精度，尤其是在大型模型上，因为这样的组合可以为浅层的细粒度局部特征提供相互帮助。
深层 Transformer 潜力巨大，如 Refined-ViT 和 CaiT。然而，由于模型大小与通道维度成二次方增长，因此深度 Transformer 中它们之间的权衡值得进一步研究。
CeiT 和CvT 展示了显著的优势在训练小型或中型模型（0−40M）时，这表明这种用于轻量级模型的混合注意块值得进一步探索。

图7

2）视觉Transformer发展趋势综述

Transformer 骨干在去年兴起。当我们的系统学与这些模型的时间线相匹配时，可以清楚地追踪到 Transformer for image classification 的发展趋势（前面的图 1）。作为一种自注意力机制，视觉 Transformer 主要根据 NLP 中的 vanilla 结构（ViT 和 iGPT）或 CV 中基于注意力的模型（VTs 和 BoTNet）重新设计。

然后，许多方法开始将 CNN 的层次结构或深层结构扩展到视觉 Transformer。T2T-ViT、PVT、CvT 和 PiT 的共同动机是将层次结构转移到 Transformer 中，但它们执行下采样的方式不同。CaiT、Diverse Patch、DeepViT 和 Refiner 专注于深度 Transformer 中的问题。此外，一些方法转向内部组件以进一步增强先前 Transformer 中的图像处理能力，即位置编码、MHSA 和 MLP。

下一波 Transformer 是局部范式。他们中的大多数通过引入局部注意力机制或卷积将局部性引入 Transformer。如今，最新的监督式 Transformer 正在探索结构组合和缩放定律。除了有监督的 Transformers，自监督学习在视觉 Transformers 中占了很大一部分。然而，目前尚不清楚哪些任务和结构对 CV 中的自监督 Transformer 更有利。

3）浅谈替代方案

在视觉 Transformer 的开发过程中，最常见的问题是 Transformer 是否可以取代卷积。通过回顾过去一年的改善历史，没有性能不足的迹象。视觉 Transformer 已经从一个纯粹的结构回归到一个混合的形式，全局信息逐渐回归到一个与局部信息混合的阶段。虽然 Transformer 可以等价于卷积，甚至比卷积具有更好的建模能力，但这种简单有效的卷积运算足以处理底层的局部性和低级语义特征。在未来，两者结合的思想将推动图像分类的更多突破。

> 5. 检测中的 Transformer

在本节中，作者详细介绍了用于目标检测的视觉 Transformer，它可以分为两类：作为颈部（neck）的 Transformer 和作为主干（backbone）的 Transformer。颈部检测器主要是基于 Transformer 结构的一种新表示，称为目标查询，即一组学习的参数均等地聚合全局特征。这些方法尝试在提高收敛速度或改进性能方面提供最佳融合范式。除了专门为检测任务设计的各种颈部外，一部分骨干检测器也考虑了特定的策略。最后，本文比较了它们之间的性能，然后分析了 Transformer 检测器的一些潜在的改进。

5.1 Transformer 颈部

作者首先回顾 DETR，这是最开始的一个 Transformer 检测器，它提供了一个新的表示目标查询，将对象检测制定为一个集合预测问题。由于其对小物体的准确性低和收敛速度慢，人们从三个方面努力改进这种 Transformer 检测器：稀疏注意力、空间先验和结构重设计。此外，本文还回顾了自监督的应用。

最初的检测器：DEtection with TRansformer (DETR)

图8

DETR是第一个端到端的 Transformer 检测器，它消除了手工设计的表示和非极大值抑制（NMS）后处理，通过引入目标查询和集合预测直接检测所有对象。具体地，DETR 使用编码器-解码器 Transformer 作为颈部，以及使用 FFN 作为预测头（如上图所示）。更详细地，推荐阅读：

目标检测新坑来了！对标Faster R-CNN！FAIR提出DETR：用Transformers来进行端到端的目标检测

稀疏注意力的 Transformer

在 DETR 中，解码器嵌入和全局特征之间的密集交互会消耗大量计算资源并减慢 DETR 的收敛速度。因此，一些努力旨在设计依赖于数据的稀疏注意力来解决这个问题，例如 Deformable DETR 和 ACT。接着作者描述了在稀疏注意力中的几个重要改进：Deformable DETR、ACT、SMCA、Conditional DETR、Two-Stage Deformable DETR 和 Efficient DETR。更详细地，推荐阅读：

训练加快10倍！性能更强！商汤等提出可变形DETR目标检测网络

港中文提出SMCA：加快DETR收敛

ICCV 2021 | 微软MSRA提出：训练快速收敛的条件DETR

重新设计结构的 Transformer

除了聚焦于交叉注意力的改进外，一些工作还重新设计了仅编码器的结构来直接避免解码器的问题。例如，TSP 继承了集合预测的思想，并放弃了解码器和目标查询。YOLOS 结合了 DETR 的编码器-解码器颈部和 ViT 的仅编码器主干，来重新设计仅编码器的检测器。

致敬YOLO！华科提出YOLOS：基于视觉Transformer的目标检测

自监督学习的 Transformer 检测器

受到自然语言处理中取得成功的预训练 Transformer 的启发，Dai 等人提出无监督预训练DETR（UP-DETR）从三个方面辅助监督训练：

从给定图像中随机裁剪的一个 path 分配给所有目标查询。解码器的目标是定位 patch 位置。
为了避免在预训练中对定位的过度偏见，提出了一个辅助重建任务来保留有判别性的特征。
基于单个查询 patch，多查询定位将多个 patch 分配给不同的目标查询，以模仿多目标检测任务并加速收敛。每个 patch 查询都是通过掩码注意力和目标查询混洗独立预测的。

UP-DETR 在小数据集上比 DETR 获得了更高的精度和更快的收敛速度，甚至在训练数据充足的情况下性能更好。关于 UP-DETR 的更多详情推荐阅读：

CVPR 2021 Oral | Transformer再发力！华南理工和微信提出UP-DETR：无监督预训练检测器

5.2 Transformer 骨干

作者在本文中回顾了许多用于图像分类的基于 Transformer 的主干。这些主干可以很容易地合并到各种框架中（例如，MaskR-CNN、RetinaNet、DETR 等）来执行密集预测任务。除了一般的改进外，它们中的一部分也有利于改进密集预测任务。层次结构将 Transformer 构造为一个从高分辨率到低分辨率的过程来学习多尺度特征，如 PVT。局部增强结构将主干构建为局部到全局的组合，以有效地提取短程和长程的视觉依赖性并避免二次计算开销，例如 Swin-Transformer、ViL 和 Focal Transformer。下表3在密集预测任务中比较了基于视觉 Transformer 框架的模型。基于 Transformer 的主干比当前 CNN 模型的性能高 2-6.8%，这证明了 Transformer 在密集预测方面的有效性。

表2. Transformer 颈和 CNN 在 COCO 2017 验证集上的性能

表3. 不同模型在密集预测任务的性能对比

与 FPN 类似，Zhang 等人通过结合非局部 [14] 和多尺度特征的特性，提出了一种专用于密集预测任务的特征金字塔 Transformer（FPT）[75]。它利用三个注意力组件来建模跨空间和尺度的交互，包括自注意力、自上而下的交叉注意力和自下而上的跨通道注意力。FPT 作为密集预测任务的通用主干，在许多 SOTA 模型上获得进一步提升。关于 FPT 的更多详情推荐阅读：

ECCV2020 | 即插即用，涨点明显！FPT：特征金字塔Transformer

5.3 讨论

本节在表2和表3中简要比较和分析了 Transformer 检测器。对于 Transformer 颈，本文只关注它们在单尺度特征结构中的 FLOPs，而不是多尺度特征，因为它们应用了不同的层数。从稀疏注意力（SA）的角度来看，Deformable DETR 减少了 8 GFLOPs 并缩短了 12 倍的训练时间，而 ACT-DC5 将计算成本从 187 GFLOPs 降低到 156 GFLOPs，并且性能损失很小。从空间先验（SP）的角度来看，one-stage 检测器显示地将空间先验与目标查询分开，带来快速收敛和高精度。SMCA 和 Conditional DETR 在 108 个训练 epoch 时分别达到了 42.7% 和 43% 的 mAP。two-stage 检测器和 TSP-RCNN 都用 proposals 替换了学习到的目标查询。这种本质上相同但结构上不同的方法显着提高了检测器的准确性。从多尺度 (MS) 特征的角度来看，它可以补偿 Transformer 在小物体检测上的性能。例如，Deformable DETR 和 SMCA 将 DETR 提高了 5.2% 和 3.1% APs 。仅编码器的结构减少了 Transformer 层数，但过度增加了 FLOPs，例如具有 537 GFLOPs 的 YOLOS-B。相比之下，编码器-解码器的结构是 GFLOPs 和层数之间的一个很好的权衡，但更深的解码器层可能会导致长时间的训练过程和过度平滑的问题。因此，将 SA 集成到具有 MS 和 SP 的深度解码器中值得进一步研究。

对于分类，有许多主干的改进，但很少有工作涉及密集预测任务。基于本文提出的分类法，很容易将现有方法分为两部分：分层的 Transformer 和局部增强的 Transformer。未来，作者预计 Transformer 主干将加入深度高分辨率网络来解决密集预测任务。

> 6. 分割中的 Transformer

Transformer 以两种方式广泛应用于分割：基于 patch 的 Transformer （patch-based Transformer）和基于查询的 Transformer （query-based Transformer）。后者可以进一步分解为带有目标查询的 Transformer（Transformer with object query）和带有掩码嵌入的Transformer（Transformer with mask embedding）。

6.1 基于 patch 的 Transformer

为了扩展感受野，CNN 需要大量的解码器堆叠来将高级特征映射到原始空间分辨率。相比之下，依靠全局建模能力，基于 patch 的 Transformer 将输入图像视为 patch 序列，并将它们送到一个柱状 Transformer 编码器中。这种分辨率不变策略使 Transformer 能够仅包含一个相对简单的解码器，并为分割任务获得理想的性能。此外，一些工作（SETR、TransUNet、Segformer）尝试研究基于 patch 的 Transformer 与不同分割框架（Mask R-CNN、U-net）之间的最佳组合。更加详细的内容推荐阅读：

CVPR 2021 | Transformer再下一城！复旦等提出SETR：语义分割网络港大&NVIDIA提出SegFormer：简单有效Transformer的语义分割新思路
Transformer一脚踹进医学图像分割！看5篇MICCAI 2021有感

6.2 基于查询的 Transformer

查询（Query）是 Transformer 解码器输入和输出处的一个可学习的嵌入。与 patch 嵌入相比，查询嵌入可以更“公平”地整合每个 patch 的信息。有着集合预测损失的基于查询的 Transformer 能够删除其他手工制作的表示和后处理。最近，许多努力试图将这种表示推广到可以分为两类的分割任务。一类框架是由检测任务监督的目标查询所驱动。另一类的查询仅由分割任务监督，称为掩码嵌入。

用目标查询的 Transformer（Transformer with Object Queries）

图9

基于目标查询的方法有三种训练方式：

基于 DETR 的预训练目标查询，一个带有查询的掩码头通过分割任务进一步细化（上图9（a）所示），如 Panoptic DETR。
代替多阶段训练过程，目标查询由一些端到端框架中的检测和分割任务同时建模（上图9（b）所示），如 Cell-DETR、VisTR。
用混合级联网络构建不同任务分支之间的差距，其中检测框的输出用作掩码头的输入（上图9（c）所示），如 QueryInst。

全景分割新标杆！南大&港大提出：Panoptic SegFormer

CVPR 2021 Oral | Transformer再突破！美团等提出VisTR：视频实例分割网络

ICCV 2021 | 实例分割新思路！腾讯&华中科大重磅开源QueryInst：又快又好！

用掩码嵌入的 Transformer（Transformer with Mask Embeddings）

另一类的 Transformer 框架努力使用查询直接预测掩码，本文将这种基于学习掩码的查询称为掩码嵌入。与目标查询不同，掩码嵌入仅由分割任务监督。如上图 9（d）所示，两个不相交的查询集并行用于不同的任务，例如：ISTR 和 SOLQ。对于语义分割和无框框架，一些研究从基于查询的 Transformer 中删除对象查询，并直接通过掩码嵌入来预测掩码（上图 9（e）），如 Max-DeepLab、Segmenter 和 Maskformer（严格意义上说 Maskformer 结合了 box-free 和 box-based 方法，使用 box-based 来增强 box-free 的效果）。

Transformer再下一城！厦大等提出ISTR：端到端实例分割

Segmenter：基于纯Transformer的语义分割网络

屠榜语义分割和全景分割！FAIR提出MaskFormer：语义分割是像素分类问题吗？

6.3 讨论

作为一项基础但仍具有挑战性的任务，分割也从不断发展的视觉 Transformers 中受益。本文根据三种不同的分割子任务（语义分割、实例分割和全景分割）总结了这些 Transformer。

下表 4 侧重于语义分割任务的 ADE20K 验证集（170 个类别）。作者发现 Transformer 在有大量类而不是较小类的数据集上进行训练可以显示出巨大的性能改进。

下表 5 侧重于评估实例分割任务的 COCO test-dev 2017 数据集。显然，带有掩码嵌入的 Transformer 在分割和检测任务中都超越了以往流行的模型。这些方法显著提高了 box 的准确率，但对分割只有轻微的改进，从而导致 APbox 和 APseg 的性能存在巨大差距。基于级联框架，QueryInst 在 Transformer 模型中获得了 SOTA 性能。因此，Transformer 与混合任务级联结构的结合值得进一步研究。

下表 6 侧重于评估全景分割任务。Max-DeepLab 通常通过掩码预测的方式解决全景分割任务中的前景和背景，而 Maskformer 成功地将此方式用于语义分割并统一了语义和实例级分割任务。基于它们在全景分割领域的表现，可以得出结论：Transformer 可以将多个分割任务统一到一个具有掩码预测的无框框架中。

表4. UperNet 和基于 Transformer 的模型在 ADE20K Val 中语义分割任务上的对比

表5. Transformers 和有代表性的CNNs 在 COCO test-dev 中实例分割任务上的对比

表6. 三种有代表性的 Transformers 在 COCO 全景 MiniVal 中全景分割任务上的对比

> 7. 讨论和总结

7.1 总结最近的改进

基于之前的比较和讨论，作者简要总结了三个基本任务（分类、检测和分割）的最新改进。

对于分类，深的层次的 Transformer 主干可有效降低计算复杂度并避免深层中的特征过度平滑。同时，早期的卷积足以捕获低级特征，可以显着增强鲁棒性并降低浅层的计算复杂度。此外，卷积投影和局部注意机制都可以提高Transformer的局部性。前者也可能是一种替代位置编码的新方法。
对于检测，Transformer 颈部受益于编码器-解码器结构，其计算量少于仅编码器的 Transformer 检测器。因此，解码器是必要的，但由于其收敛速度慢，因此只需要很少的堆叠即可。此外，稀疏注意力有利于降低计算复杂度并加速 Transformer 的收敛，而空间先验有利于Transformer的性能，收敛速度稍快。
对于分割，编码器-解码器 Transformer 模型可以通过一系列可学习的掩码嵌入将三个分割子任务统一为掩码预测问题。这种无框的方法在多个基准测试中取得了最新的 SOTA （MaskFormer）。此外，基于框的 Transformer 的特定混合任务的级联模型被证实可以在实例分割任务中获得更高的性能。

7.2 视觉 Transformer 的讨论

尽管有大量的视觉 Transformer 模型和应用，但对视觉 Transformer 的“基本”理解仍然效率低下。因此，本文将重点关注一些关键问题，以帮助解决读者的困惑。

7.2.1 Transformer 如何弥合语言和视觉之间的鸿沟

Transformer 最初是为机器翻译任务而设计的。在语言模型中，以句子的每个词为基本单元，代表高层次、高维的语义信息。这些词可以嵌入到低维向量空间表示中，因此称为词嵌入。在视觉任务中，图像的每个像素都是低级、低维的语义信息，与嵌入特征不匹配。因此，迁移到视觉任务的关键是构建图像到矢量的转换并保持图像的特征。例如，ViT 通过强松弛条件将图像转换为具有多个低级信息的 patch 嵌入，而 Early Conv. 和 CoAtNet 利用卷积来提取高级信息并减少 patch 中的冗余特征。

7.2.2 Transformer、自注意力与 CNN 的关系

从卷积的角度来看，如上提到的 4.3 节，其归纳偏置主要表现为局部性、平移不变性、权重共享、稀疏连接。这种简单的卷积核可以有效地执行模板匹配，但由于其具有强烈的归纳偏差（因为很快就可以收敛学习好了），其上限低于 Transformer。

从自注意力机制的角度来看，如上提到的 4.2 和 4.4 节，当给定足够数量的头时，它理论上可以表达任何卷积层。这种全注意力操作可以交替地结合局部和全局级别的注意力，并根据特征的关系动态生成注意力权重。即便如此，它的实用性也较差，准确率低于 SOTA CNN，计算复杂度更高。

从 Transformer 的角度来看，Dong 等人证明当在没有短连接或 FFNs 的深层训练时，自注意力层会表现出对“令牌均匀性（token uniformity）”的强烈归纳偏见。得出的结论是，Transformer 由两个关键组件组成：一个 self-attention 层聚合了 token 的关系，一个 position-wise FFN 提取了输入的特征。尽管 Transformer 具有强大的全局建模能力，如 4.3 节和 7.2.1 节所述，卷积可以有效处理低级特征，增强 Transformer 的局部性，并通过填充附加位置特征。

7.2.3 不同视觉任务中的可学习到的嵌入

图10 可学习的嵌入分类

Transformer 模型采用可学习的嵌入来执行不同的视觉任务。从监督任务的角度来看，这些嵌入可以分为类标记、目标查询和掩码嵌入。从结构上看，它们之间是有内在联系的。最近的 Transformer 方法主要采用两种不同的模式：仅编码器结构和编码器-解码器结构。每个结构由三个层次的嵌入组成，如上图 10 所示。从位置层次，学习嵌入在仅编码器的 Transformer 中的应用被分解为初始令牌（initial token）和后期令牌（later token），而学习的位置编码和学习的解码器输入嵌入被应用于编码器-解码器结构。从数量层面来看，仅编码器的设计会应用不同数量的令牌。例如，ViT 家族和 YOLOS 将不同的数字标记附加到初始层，而 CaiT 和 Segmenter 利用这些标记来表示最后几层的不同特征。在编码器 - 解码器结构中，解码器的学习位置编码（目标查询或掩码嵌入）在显式 [28]、[137] 或隐式 [69] 中附加到解码器的输入中。与常数输入不同，Deformable DETR 采用学习嵌入作为输入并加入到编码器的输出。

受多头注意力设计的启发，多初始的标记策略应该能进一步提高分类性能。然而，DeiT 表明这些额外的令牌会收敛到相同的结果，这对 ViT 没有好处。从另一个角度来看，YOLOS 提供了一种通过使用多个初始令牌来统一分类和检测的范式，但这种仅编码器的设计会导致计算复杂度过高。根据CaiT 的观察，后面的 class token 可以减少 Transformer 的一些 FLOPs 并略微提高性能（从79.9%到80.5%）。Segmenter 还展示了该策略在分割任务中的效率。

与带有仅编码器 Transformer 的多个后期令牌（later token）相比，编码器-解码器结构节省了更多的计算。它通过使用一小组目标查询（掩码嵌入）来标准化检测和分割领域中的 Transformer 方法。通过结合多个后期令牌和目标查询（掩码嵌入）的形式，像 Deformable DETR 这样的结构，它们对目标查询和可学习的解码器嵌入（相当于多个后期令牌）作为输入，可以将基于不同任务的可学习嵌入统一到 Transformer 编码器-解码器中。

7.3 未来的研究方向

Visual Transformer 方法取得了巨大的进步，并显示出在多个基准上接近或超过 SOTA CNN 方法的有希望的结果。然而，该技术太不成熟，无法颠覆卷积在 CV 领域的主导地位。基于 7.2 中的分析，作者指出了视觉 Transformer 的一些有前途的未来方向，以进一步进行整体串联。

1）集合预测：如上 7.2.3 节所述，由于损失函数的梯度相同，额外的类标记（token）将一致收敛。具有二分损失函数的集合预测策略已广泛应用于许多密集预测任务中的视觉 Transformer 里。如之前提到的，为分类任务考虑集合预测设计是很自然的，例如多类标记 Transformer 通过集合预测来预测混合 patch 图像，这类似于 LV-ViT 的数据增强策略。此外，在集合预测策略中的一对一标签分配导致早期过程中的训练不稳定，这可能会降低最终结果的准确性。使用其他标签分配和损失来改进集合预测可能有助于新的检测框架。

2）自监督学习：自监督 Transformer 预训练规范了NLP领域，并在各种应用中取得了巨大成功。作为 CV 中的自监督范式，卷积孪生网络采用对比学习来执行自监督预训练，这与 NLP 中的基于 mask 的自编码器不同。最近，一些研究尝试设计一种自监督的视觉 Transformer，以弥合视觉和语言之间预训练方法的差距。他们中的大多数继承了 NLP 中的掩码自编码器或 CV 中的对比学习方案。但是，没有像 NLP 中的 GPT-3 那样革命性的用于视觉 Transformer 的特定监督方法。如上 7.2.3 节所述，编码器-解码器结构可以通过学习的解码器嵌入和位置编码来统一视觉任务。用于自监督学习的编码器-解码器 Transformer 值得我们进一步研究。

7.4 总结

在 ViT 证明了其在 CV 任务中的有效性后，视觉 Transformer 受到了相当多的关注，并削弱了 CNN 的主导地位。在本文中，本文全面回顾了 100 多个 Transformer 模型，这些 Transformer 模型已先后应用于各种视觉任务中，包括分类、检测和分割。对于每个任务，提出了一种具体的分类法来组织最近开发的 Transformer 方法，并在各种流行的基准上对它们的性能进行了评估。通过对这些方法的综合分析和系统比较，本文总结了具有显著改进的方法，讨论了视觉 Transformer 的三个基本问题，并进一步提出了未来有希望的几个潜在研究方向。

三篇视觉Transformer论文下载

后台回复：Transformer综述，即可下载包含上面最新的三篇视觉Transforer综述PDF，硬核推荐！
CVer-Transformer交流群成立
扫码添加CVer助手，可申请加入CVer-Transformer 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加小助手微信，进交流群
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

你可能感兴趣的:(大数据,编程语言,计算机视觉,机器学习,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
自动化测试工程师面试，常问的问题有哪些？自动化测试老司机软件测试测试工程师自动化测试面试职场和发展软件测试 selenium 测试工具 android 测试工程师
自动化测试工程师面试是非常重要的环节，面试官会通过一系列的问题来评估候选人的技能和经验。下面是一些常见的问题，以及如何详细而规范地回答这些问题的建议。1.请介绍一下你的自动化测试经验。回答这个问题时，可以从项目经验、使用的自动化测试工具、编写的测试脚本等方面来介绍自己的经验。重点强调你在自动化测试领域的技能和擅长的领域。2.你在自动化测试中使用的编程语言是什么？为什么选择这种语言？回答这个问题时，
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户