叶舟

Pyramid Vision Transformer（PVT）: 纯Transformer设计，用于密集预测的通用backbone

论文地址：https://arxiv.org/pdf/2102.12122.pdf

官方代码：https://github.com/whai362/PVT

0、摘要

1、引言

2、相关工作

2.1、CV中的CNN backbone

2.2 密集预测任务

2.3、自注意力和视觉Transformer

3、金字塔视觉Transformer（PVT）

3.1、总体架构

3.2、Transformer特征金字塔

3.3、Transformer Encoder

3.4、更多细节

3.5、讨论

4、将PVT应用于下游任务

4.1、图像级预测

4.2、像素级密集预测

5、实验结果

6、总结

0、摘要

尽管基于CNNs的backbone在多种视觉任务中取得重大进展，但本文提出了一个用于密集预测任务的、无CNN的的简单backbone——Pyramid Vision Transformer（PVT）。相比于ViT专门用于图像分类的设计，PVT将金字塔结构引入到transformer，使得可以进行下游各种密集预测任务，如检测、分割等。与现有技术相比，PVT有如下优点：（1）相比于ViT的低分辨率输出、高计算复杂度、高内存占用，PVT不仅可以对图像进行密集划分训练以达到搞输出分辨率的效果（这对密集预测很重要），还可以使用一个逐渐缩小的金字塔来降低大feature maps的计算量；（2）PVT兼具了CNNs和Transformer的优点，使其成为一个通用的无卷积backbone，可以直接替换基于CNN的backbone；（3）大量实验表明，PVT可以提高多种下游任务的性能，如目标检测、语义/实例分割等。比如，参数量相当的情况下， RetinaNet+PVT可以在COCO上达到40.4AP，而RetinNet+ResNet50只有36.3AP。作者希望PVT能够成为像素级预测任务的一种可供选择的backbone，并促进后续的研究。

1、引言

一直以来，以CNNs作为backbone，使得各类计算机视觉任务得到长足发展。本文的目的是探索无CNN的通用backbone，为下游密集预测任务提供多一个选择。

受NLP领域的启发，一些研究尝试基于Transformer进行计算机视觉任务，如ViT、DETR、SETR、 Deformable detr、Transtrack等。

ViT是首次利用transformer替代CNNbackbone进行图像分类的工作，如图1（b）所示，其backbone为柱状结构，输入为一组粗糙的图像patchs。

尽管ViT在图像分类上得以应用，但在密集的像素级预测任务（如目标检测、分割等）上却并不适合使用，主要原因有：

（1）其输出分辨率比较低，且只有一个单一尺度，输出步幅为32或者16；

（2）输入尺寸即使增大一点，也会造成计算复杂度和内存消耗的大幅增加。

为了解决ViT的上述缺陷，本文提出了金字塔视觉Transformer（Pyramid Vision Transformer，PVT），可以作为密集预测任务的backbone来使用，相比ViT，PVT主要克服了以下难点：

（1）使用了细粒度的图像patch（如：每个patch大小为4*4）作为输入，来学习高分辨率的特征表示，而这对密集预测任务来说比较重要；

（2）引入一种逐级收缩的金字塔，随着网络深度增加，逐渐减小Transformer的序列长度，显著降低了计算量；

（3）使用空间缩减注意力（SRA）层来进一步降低学习高分辨率表示的资源消耗。

总体来说，PVT的优点有：

（1）传统CNN backbone的感受野随着深度增加而逐渐增大，而PVT始终保持全局感受野（受益于Transformer中的自注意力机制，在所有patchs中执行注意力），这对检测、分割任务更为合适；

（2）相比ViT，引入了金字塔结构的PVT可以嵌入到很多经典的piplines中，如RetinaNet、Mask-RCNN等；

（3）可以和其他Transformer Decoder结合，组成无卷积的框架，如PVT+DETR进行端到端目标检测。

PVT和其他backbone的对比如图2所示：

2、相关工作

2.1、CV中的CNN backbone

众所周知，CV深度学习主要是靠着CNN撑起来的，其首次应用在LeNet手写数字识别上。卷积块使用一个具有一定感受野的卷积核捕获局部的上下文信息，而为了引入平移等变性，卷积核的参数是共享的。随着硬件（如：GPU）的快速发展，使得在大规模数据集ImageNet上进行训练成为了可能，各种CNN分类模型层出不穷：GoogleNet、Inception系列、ResNeXt、DPN、MixNet、SKNet、ResNet、DenseNet，这些网络也引入了一些新概念，如多卷积核路径、跳跃连接、密集连接等。

2.2 密集预测任务

密集预测任务的目的是在feature map上对每个像素进行分类或者回归，主要有两种：目标检测、语义分割。

目标检测：

在深度学习时代，目标检测框架已被各种CNN模型所垄断，如一阶段的SSD、RetinaNet、FCOS、GFL、PolarMask、OneNet等，以及多阶段的Faster RCNN、Mask RCNN、Cascade RCNN、Sparse RCNN等。这些检测器大多是通过构建高分辨率、多尺度的feature map来获取高性能，而近期的DETR和可变性DETR确实结合CNNbackbone和Transformer decoder来构建一个端到端的目标检测器。DERT与那些基于CNN的detector一样，都需要高分辨率或者多尺度的feature map进行精准检测。

语义分割：

CNN在语义分割领域同样举足轻重，从早期的FCN将CNN引入语义分割开始，U-Net利用Encoder-Decoder结构对高低级特征进行了融合，从而在医学图像分割上取得良好的效果。后面为了进一步获取丰富的全局上下文，PSPNet提出了金字塔池化模块PPM、DeepLab系列则使用空洞卷积来增大卷积的感受野。与目标检测相似，语义分割同样依赖于高分辨率的feature map或者多尺度。

2.3、自注意力和视觉Transformer

由于卷积核的权重在训练之后是固定不变的，所以它对输入的变化难以适应，因此有些基于自注意力的方法被提出来缓解这个问题。比如：经典的Non-local，其试图对时域、空域中的长距离依赖进行建模，对视频分类的准确率有所提升；CCNet提出的交叉注意力则是为了降低Non-local中的计算量；而stand-alone自注意力的提出则试图用局部自注意力单元替代卷积层；AAnet则结合了自注意力和卷积操作；DETR利用Transformer decoder将目标检测建模为端到端的字典查询问题，成功移除了NMS等后处理；基于DETR，deformable DETR进一步引入了可变形注意力层，专注于上下文元素的稀疏集，从而使得收敛更快且性能更优。近期，ViT使用纯Transformer构建了一个图像分类模型，其将一组patchs作为图像输入；DeiT通过一种新颖的蒸馏方法进一步扩展了ViT。与这些方法不同的是，PVT尝试将金字塔结构引入Transformer，并设计一个纯Transformer的backbone，用于密集预测任务。

3、金字塔视觉Transformer（PVT）

3.1、总体架构

PVT的整体网络结构如图3所示：

PVT的目的是在Transformer中引入特征金字塔，因此可以生成多尺度的feature maps用于密集预测任务。与CNN的backbone相似，PVT也有四个stage，每个stage生成不同尺度的feature maps，且每个stage结构相似，都由patch embedding 层和个Transformer Encoder层组成。

在第一个stage，输入图像的尺寸为 $H\times W \times 3$ ，首先将其分解为 $\frac {HW} {4^2}$ 个patchs，每个patch大小为4*4*3。然后，将这些patchs拉直，进行线性投影得到嵌入后的patchs，其尺寸为 $\frac {HW} {4^2} \times C_1$ 。接着，将嵌入后的patchs和位置嵌入一同送到一个层的Transformer Encoder，将输出reshape后得到，尺寸为 $\frac{H}{4} \times \frac {W}{4} \times C_1$ 。

按照与第一个stage相似的方式，可以得到stage2~4的输出，其输出步幅分别为8，16，32。于是便得到了特征金字塔 $\left \{ F_1,F_2, F_3, F_4 \right \}$ ，其可以轻松用于各种下游任务，如分类、检测、分割等。

3.2、Transformer特征金字塔

与CNN的backbone通过带有步长的卷积获取多尺度feature maps不同，PVT通过patch嵌入层使用渐进缩减策略来控制feature maps的尺寸。

定义第i个stage的patch尺寸为。在stage i的起始阶段，首先将输入feature map $F_{i-1} \in \mathbb R^{H_{i-1} \times W_{i-1} \times C_{i-1}}$ 分解为 $\frac{H_{i-1}W_{i-1}}{P_{i}^{2}}$ 个patchs，然后将每个patch拉直并投影到维。经过线性投影后，嵌入的patch尺寸为 $\frac{H_{i-1}}{P_{i}} \times \frac{W_{i-1}}{P_i} \times C_i$ ，其中宽和高均比输入小倍。

按照这种方式，即可在每个stage灵活调整feature map的尺寸，使其可以构造Transformer的特征金字塔。

3.3、Transformer Encoder

针对stage i，其中的Transformer Encoder具有个Encoder层，每个Encoder层由注意力层和前馈层组成。由于所提出的PVT需要处理高分辨率的feature maps（如：4步长），因此提出了一个空间缩减注意力（SRA）层，替代传统的多头注意力（MHA）层。

与MHA相似，所提出的SRA同样接受query Q、key K、value V作为输入，不同之处在于SRA将K和V的宽高分别降低为原来的倍，如图4所示：

SRA的公式表示如下：

$\operatorname{SRA}(Q, K, V)=\text { Concat(head }_{0}, \ldots, \text { head} \left._{N_{i}}\right) W^{O}$ （1）

$\text { head }_{j}=\text { Attention }\left(Q W_{j}^{Q}, \mathrm{SR}(K) W_{j}^{K}, \mathrm{SR}(V) W_{j}^{V}\right)$ （2）

其中， $W_{j}^{Q} \in \mathbb{R}^{C_{i} \times d_{\mathbf{k}}}, W_{j}^{K} \in \mathbb{R}^{C_{i} \times d_{\text {head }}}, W_{j}^{V} \in \mathbb{R}^{C_{i} \times d_{\text {head }}}, W^{O} \in \mathbb{R}^{h_{i} \times d_{\text {head }}}$ 为线性投影的参数，为stage i中Transformer Encoder的个数。因此，每个head $d_{head}$ 的维度为 $\frac{C_i}{N_i}$ 。SR(·)是空间缩减操作，其定义为：

$\mathrm{SR}(\mathbf{x})=\operatorname{Norm}\left(\operatorname{Reshape}\left(\mathbf{x}, R_{i}\right) W^{S}\right)$ （3）

其中，代表stage i中注意力层的缩减率， $\operatorname{Reshape}\left(\mathbf{x}, R_{i}\right)$ 操作用于将输入 $x\in \mathbb R^{(R_{i}^{2}C_i)\times C_i}$ reshape到 $\frac{H_{i} W_{i}}{R_{i}^{2}} \times\left(R_{i}^{2} C_{i}\right)$ ， $W_{S} \in \mathbb{R}^{\left(R_{i}^{2} C_{i}\right) \times C_{i}}$ 为对输入进行降维的线性投影，Norm(·)为层归一化。Attention(·)则与Transformer一致，为：

$\text { Attention }(\mathbf{q}, \mathbf{k}, \mathbf{v})=\operatorname{Softmax}\left(\frac{\mathbf{q} \mathbf{k}^{\top}}{\sqrt{d_{\text {head }}}}\right) \mathbf{v}$ （4）

通过上述公式可以看出，Attention(·)模块的计算复杂度和内存消耗是NHA中的 $1/R_{i}^{2}$ ，因此就可以在有限的资源下处理更大的feature maps/sequences。

3.4、更多细节

PVT模型的超参主要有：

：stage i中的patch大小；
：stage i的输出通道数；
：stage i中Encoder层数；
：stage i中SRA的缩减率；
：stage i中SRA的head个数；
：stage i中前馈层的扩张率；

PVT遵循了ResNet的设计理念：（1）在浅层stage中的输出通道较小；（2）计算主要集中在中间stage。

作者设计了一系列的PVT模型，分别为PVT-Tiny，PVT_Small，PVT_Large，详见表1：

3.5、讨论

与本作最为相关的工作是ViT，这里主要讨论下两者之间的异同。

PVT和ViT都是纯Transformer的模型，没有任何卷积操作，而两者主要的不同在于PVT引入了特征金字塔结构。在ViT中，使用的是传统Transformer，其输入与输出尺寸相同，就如图1（b）所示，为筒状结构。由于资源限制，ViT的输出只能是一个比较粗糙的feature map，如16*16、32*32，相应的其输出步幅也比较低，如16步长、32步长。结果就导致ViT很难直接用于那些对分辨率要求比较高的密集预测任务。

PVT通过引入渐进缩减金字塔打破了Transformer的这种限制，可以像传统CNN backbone那样生成多尺度feature map。此外，还设计了一个简单有效的注意力层——SRA，来处理高分辨率feature maps并减低计算复杂度和内存消耗。

因此，总的来说，PVT相比ViT有如下优势：

（1）更加灵活：可以在不同的stage生成不同分辨率、通道的feature maps；
（2）更加通用：可以轻松嵌入到大多下游任务的模型中；
（3）对计算、内存更加友好：可以处理高分辨率的feature maps；

4、将PVT应用于下游任务

4.1、图像级预测

图像分类时图像级预测的代表任务。按照ViT和DeiT的做法，PVT给每个stage的输入额外增加了一个可学习的分类token，然后使用一个全连接层在分类token的顶部进行分类。

4.2、像素级密集预测

密集预测任务要求在feature map上执行像素级分类或者回归，这里主要讨论目标检测、语义分割。

目标检测：

作者在两个目标检测框架上应用了PVT：RetinaNet、Mask RCNN，分别是常用的一阶段目标检测器、主流的两阶段实例分割框架。

实现细节包括：（1）类似与ResNet，这里直接使用PVT各stage的输出 $\left \{ F_1,F_2, F_3, F_4 \right \}$ 作为FPN的输入，然后将细化的feature maps送到后续的检测或者实例分割head中。（2）在目标检测中，输入可以为任意尺寸，所以在ImageNet上预训练位置嵌入将变得无意义；因此，这里根据输入图像的大小，对预训练的位置嵌入进行双线性插值。（3）在训练检测模型时，PVT中所有层都不冻结，也即所有权重都参与更新。

语义分割：

这里选择语义FPN作为baseline，其属于一种没有特殊操作的简单分割方法，这样可以更好地观察backbone所带来的的收益。类似于目标检测，这里也是直接使用特征金字塔的输出作为语义FPN的输入，并对预训练的位置嵌入使用双线性插值。

5、实验结果

6、总结

本文主要提出了一个纯Transformer的模型——PVT，可以作为下游密集预测的backbone使用。还设计了一个渐进缩减金字塔和一个空间缩减注意力层，在有限的资源下获取多尺度的、更高分辨率的输出。大量实验表明，PVT比一些设计良好的CNN backbone效果更好。

尽管PVT可以作为替代CNN backbone的一个选择，但是那些专门针对CNN设计的一些模块却不能用到PVT中，如SE、SK、空洞卷积、NAS等。此外，经过多年发展，CNN backbone也有很多优秀的设计，如Res2Net、EfficientNet、ResNeSt等。与之相反，在CV领域基于Transformer的模型研究仍处于初级阶段，这还需要未来持续不断的研究。

头条搜索极速版邀请码是多少-2024头条搜索极速版邀请码怎么填写熊熊福利
头条搜索极速版邀请码是多少呢？拉到文章末尾就可以看到！在文章的结尾可以看到头条搜索极速版邀请码是多少。头条搜索极速版邀请码怎么填写第1步首先打开【头条搜索极速版】客户端，然后点击右下角底部【我的】第2步接着点击去领钱，任务栏里面找到【填写邀请码】右侧的【去填写】第3步再输入邀请码，最后点击【立即领取】即可。2024年头条搜索极速版为了回馈广大用户朋友的支持和厚爱，特推出邀请好友填写邀请码来获得一系
Laravel 原子锁概念讲解
引言什么是竞争条件(RaceCondition)？在并发编程中，当多个进程或线程同时访问和修改同一个共享资源时，最终结果会因其执行时序的微小差异而变得不可预测，甚至产生错误。这种情况被称为“竞争条件”。例子1：定时执行某个耗时的任务，如果第一个任务执行时还没有更新数据源，第二个任务就开始了，那么同一个数据源可能被更新或新增两次数据，最终导致数据源错误。例子2：商品秒杀场景：若库存仅剩1件，两个请求
日常喵叽呱呱
今天差点就忘记写了，今晚来了一个小朋友，他应该是我带的最差的小学生。数学也太差了吧，方程一点都不会。虽然做作业的速度很快，但是正确率为零。尤其是数学特别特别特别差。今天早上一大早我还去和其他教育机构的老师进行了教研活动。那些老师都好厉害呀。我特别佩服。他们上了讲台之后还能够流利顺畅的完成讲解任务。他们的脑子好好啊，而且还可以证明他们的知识储备非常丰富哦豁，就是一个小菜鸡。不知道我的表现到底怎么样？
走进图书馆也是主任
走进图书馆，选定了一个空位，坐下来，轻轻地打开，慢慢地进入书的世界，也许那是一种惬意的满足和心灵的慰藉。有时候我们忙于繁琐的教学，很少有闲暇去读书，更不用说到图书馆读书了，即使是上面压来的读书任务，谁有时间和心情去读书呢？读书需要心境，读书需要情态，读书更需要安静地品尝。是来自内心的渴望和对书的亲昵之感。女儿2,4，6上午上英语课，那么星期1,3,5上午或者一天时间我们就去图书馆阅读，说心里话，附
OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
复盘占坑牛魔王爱写作
0403+六连+Y先生复盘【今日回顾】01、点评学员打卡文；02、点评学院日常任务进度跟进，表格更新；03、今天一排小当家，协助学员做好相关流程；04、催卡；05、点评组督促学员对老铁文章进行文章点评，做好数据统计。【运营经验】1、在突发状况出现时，不要慌，从最基础的一个点抓起，慢慢地把一整个流程理顺，越急的情况下越不能心急；2、切记眼高手低，每一件小事都值得关注，不能因为自己做过无数次就掉以轻心
（详细文档）java web在线商城系统（jsp + servlet）熊猫发电机：miniqq207 实训项目数据仓库大数据
目录一、设计任务......................................................................................41.1设计意义................................................................................41.2设计目的..........
2018-10-06 卡罗森特
可能因为刚开始请了两天假，本应该我的任务是写策划案，结果让同学帮我写了，其实还是有点内疚的，身为策划部的一员在这两次活动中并没有帮到什么，有点难过。不过看到这次活动圆满结束，心里对你们竖起大拇指，干的不错，期待下一次，我可以负起自己的责任
人的行为读书笔记，2-7 夕颜剑主
第二章人的行为科学在认识论层次的一些问题第七节历史的范畴和专门的研究方法1.历史的研究范畴与历史家如何进行真正的历史工作历史的范畴是研究所有关于人的行为的经验资料。历史学家收集、批判、筛选所有可以取得的文件，以这种证据为基础，着手进行真正的历史工作。2.错误的历史研究方法有人说，历史的任务是揭露一些事件实际上是如何发生的，不允许有所遐想，亦不许有价值判断（也即，对于一切价值判断保持中立）。他们认为
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
免费单机游戏资源网站有哪些可以免费玩单机游戏的网站排行榜前十会飞滴鱼儿
导读：随着游戏行业的蓬勃发展，寻找高质量游戏资源成为玩家的首要任务。但是就目前的游戏市场来看，质量也是参差不齐，所以选对一个适合自己的平台也是首要任务，要说目前哪些游戏网站能受到大家的青睐，本期小编在此为您带来2024年最热门的游戏下载网站排行榜，希望对大家有所帮助！！！下面就一起来看看哪些能排在前十吧？2024最火的游戏下载盒子/网站排行榜前十——top1游戏豹官网——全网评分：★★★★★上榜理
2023-02-28 jnvjkdnfvd
一、早期新手指南环节01妖怪追捕开始游戏后建号，追随主线任务直至主线任务完成后，逐渐杀怪追捕。杀怪追捕不仅可以在环节中打进武器装备，还可以领工作经验卷和徽章原材料，可谓一石三鸟。02淬体觉醒在咱们打进一定量的妖怪追捕时，我们应该考虑到觉醒了，大家可点击觉醒，然后进入淬体选择项，在咱们觉醒宝钻充裕时能够进行觉醒，可是在咱们觉醒宝钻不足的情况下，也不需要惊慌，我们只需再次点一下淬体，随后追随它提醒去相
听书赚钱的app哪个最好，十大听书赚钱app推荐高省张导师
在探讨听书赚钱的App哪个最好时，需要考虑多个因素，包括资源丰富度、用户体验、赚钱机制以及用户口碑等。以下是根据当前信息整理的十大听书赚钱App推荐，供您参考：1喜马拉雅极速版特点：作为国内领先的音频分享平台，喜马拉雅极速版拥有海量的有声内容，涵盖小说、评书、相声等多种类型。用户可以通过完成听书任务、签到、分享等操作获取收益，合理利用时间，每天能轻松赚取一定金额。优势：资源丰富，用户基数大，赚钱机
Transformers基础组件—Datasets 小蒋的学习笔记 python 人工智能机器学习
目录datasets基本使用加载在线数据集加载数据集合集中的某一项任务按照数据集划分进行加载查看数据集数据集划分数据选取与过滤数据映射保存与加载加载本地数据集直接加载文件作为数据集加载文件夹内全部文件作为数据集通过预先加载的其他格式转换加载数据集通过自定义加载脚本加载数据集DatasetwithDataCollatordatasets基本使用fromdatasetsimport*加载在线数据集da
【大模型】结构化提示词：让AI高效完成复杂任务的“编程语言” JosieBook AI/大数据/云计算人工智能
文章目录前言：提示词一、不同提示词写作方法对比进阶技巧对比表实战组合策略二、三板斧：精准撰写提示词的黄金法则角色设定：为AI精准定位任务描述：明确行动指南输出要求：规范成果呈现三、魔法棒：零基础也能用的“AI需求翻译机”四、结构化：把提示词写成“可插拔的乐高”五、分治法：把“庞然大物”拆成可并行的小任务前言：提示词在人工智能时代，提示词（Prompt）已成为连接人类意图与AI能力的核心媒介。优质的
YOLOv5改进策略|YOLOv5 ⾃主检查和跟踪相关的任务|基于视觉的⽆⼈⽔⾯舰艇⾃主导航极端海洋条件斌擎人工智能官方账号 YOLO 人工智能 YOLOv5 目标检测计算机视觉深度学习自主导航
目录介绍解决方案目标检测的视觉结论视觉感知是无人水面舰艇(USV)自主导航的重要组成部分，特别是与自主检查和跟踪相关的任务。这些任务涉及基于视觉的导航技术来识别导航目标。海洋环境中极端天气条件下的能⻅度降低使得基于视觉的方法难以正常工作。为了克服这些问题，本文提出了一种基于视觉的自主导航框架，用于在极端海洋条件下跟踪目标物体。所提出的框架由一个集成感知管道组成，该管道使用生成对抗网络(GAN)来消
手机做任务哪个软件好?五大手机做任务赚钱正规平台推荐! 爱生活爱氧券
任务赚钱有什么赚钱软件APP在这个信息时代，随着智能手机的普及，人们越来越依赖手机完成各种任务。而随之而来的是，越来越多的人开始通过手机APP来赚钱。那么，任务赚钱有什么赚钱软件APP呢？本文将为大家介绍几款热门的赚钱软件APP，帮助您轻松实现赚钱梦想。首先要介绍的是“任务多多”APP。作为一款功能强大的赚钱软件，它提供了丰富多样的任务供用户选择。无论是回答问卷、试用商品、下载APP还是分享文章等
2025年服务器技术全景解析：量子计算、液冷革命与未来生态构建国际云1688 腾讯云国际量子计算腾讯云服务器云计算架构运维
2025年服务器技术全景解析：量子计算、液冷革命与未来生态构建一、量子计算：从实验室到产业化的跨越1.中国量子计算产业化突破•本源量子“悟空”超导计算机：搭载72位自主超导量子芯片“悟空芯”，支持198个量子比特并行计算，已为全球139个国家完成超32万个计算任务。在金融领域，其投资组合优化应用使资源消耗较经典计算机降低50%，黑石集团等机构已将其用于高频交易策略优化；在生物医药领域，量子混合神经
5万人流挤地铁如何追踪？陌讯算法实战FPS飙升300%
开篇痛点在智慧城市安防场景中，传统视觉算法常面临“三难困境”：低光照漏检率飙升（夜间误报率超30%）、人群遮挡ID切换混乱（MOTA指标＜50%）、硬件资源吃紧（1080P视频流处理＞200ms）。某省会交警平台曾反馈：“雨雾天车牌识别准确率骤降至65%，追踪目标平均5分钟丢失1次”。技术解析：动态多目标蒸馏网络陌讯视觉算法创新性融合多任务蒸馏架构与时空注意力机制，攻克复杂场景泛化难题。核心公式创
三篇AAAI顶级论文带你一键搞懂多模态！
关注gongzhonghao【计算机sci论文精选】！拿捏更多顶会顶刊发文资讯随着人工智能技术的飞速发展，多模态学习逐渐成为研究热点。多模态技术能够整合文本、图像、语音等多种模态的信息，为人工智能的应用带来了更丰富的语义理解和更强大的交互能力。此外，多模态技术在视频和语言任务中的应用也取得了显著进展。这些技术不仅提升了模型的性能，还为人工智能在更多领域的应用提供了新的可能性。今天小图给大家精选3篇
实训任务一：我与新媒体佐智雄
一、自我介绍大家好哦，我是来自湖南商业技师学院的刘某某是一名中职的学生，我喜欢听音乐、画插画，无聊时也会打打游戏，我比较社恐，性格比较内向我对新媒体的认知是通过快手，抖音等网络平台传递信息，新媒体传播速度快，广泛，便捷。而传统媒体指的是报纸、广播、电视等。“新媒体是以数字技术为基础，以网络为载体进行信息传播的媒介”中国的新媒体起源于1994年第一家曙光论坛的创立，兴起于2012年新浪微博的用户爆发
头条搜索极速版邀请码是多少？头条搜索极速版邀请码填写流程介绍熊熊福利
头条搜索极速版邀请码是多少呢？拉到文章末尾就可以看到！在文章的结尾可以看到头条搜索极速版邀请码是多少。头条搜索极速版邀请码怎么填写第1步首先打开【头条搜索极速版】客户端，然后点击右下角底部【我的】第2步接着点击去领钱，任务栏里面找到【填写邀请码】右侧的【去填写】第3步再输入邀请码，最后点击【立即领取】即可。2024年头条搜索极速版为了回馈广大用户朋友的支持和厚爱，特推出邀请好友填写邀请码来获得一系
虚拟机Ubuntu搭建gitlab服务器，ssh连接 yizhiyu_hh 服务器 ubuntu gitlab
任务：在一台新的计算机上搭建gitlab环境，用于版本管理并使用ssh连接要求：1、要在Windows系统下运行2、gitlab可以在局域网内被任何pc访问3、搭建完后，使用ssh工具管理4、工具要免费SP1：下载安装虚拟机和ubuntu系统虚拟机选择virtualbox，链接https://www.virtualbox.org/wiki/Downloads现在的virtualbox版本都比较高，
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
5.7感恩日记Day4 文案小杀手瑶晗
万分感恩：昕昕班班的信任，说感觉你的文字很温暖，参与sop的修改，昕昕班班谢谢你，我爱你万分感恩：静默师父对我的开导，总是很恐惧得到一切，师父每次都告诉我说，要相信我值得一切美好，师父，谢谢你，我爱你万分感恩：组长的提醒，提醒我及早点评日记，不要拖到一起，害怕完不成任务，你真的太贴心了，谢谢你，我爱你万分感恩：同事的泡面和陪伴，中午因为下雨，没有回家，和你一起吃饭，很开心吖，谢谢你，我爱你万分感恩
1.5分钟了解炫石互娱文化传媒app是骗局软件,操作错误为由不给提现怎么办最新曝光36
1.炫石互娱文化传媒APP在平台不能提现怎么办？2.炫石互娱文化传媒APP这个软件靠谱可信吗？3.炫石互娱文化传媒APP在软件做任务被骗？4.炫石互娱文化传媒APP软件app无法登录?5.炫石互娱文化传媒APP平台是真的吗？6.炫石互娱文化传媒APP被骗无法提现，操作失误！7.炫石互娱文化传媒APP平台是騙局吗？8.炫石互娱文化传媒APP被骗无法出金如何维护自己的合法权益!希望看到这篇文章的人可以
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
拉新推广一手接单平台，发布任务悬赏拉新平台趣闲赚手机做任务赚佣金
趣闲赚是2022年值得大力推荐的手机做任务免费赚钱项目。趣闲赚有很多优势，比如说：可以发放任务拉新，新注册的伙伴可以直接做高价任务；如果你想在趣闲赚发布任务，也是可以直接发布，没有门槛。新手完成4个任务即可提现4元，2元起提现微信红包或者支付宝，小钻吧的网友快去参与吧（扫描文末二维码，可加小编微信查看朋友圈最新红包活动）趣闲赚上面的任务单价也就是几块钱到几十元一单，做的多挣的多。【趣闲赚】拿着手机
Shell脚本-tee工具
一、前言在Linux/Unix系统中，tee是一个非常实用的命令行工具，它可以帮助我们同时将命令的输出打印到终端，并写入文件。这种“双路输出”机制在脚本调试、日志记录、自动化任务中非常有用。无论是做日志分析、脚本调试，还是编写部署脚本，tee都是一个不可或缺的工具。本文将带你全面了解tee工具的使用方式，包括：✅tee的基本语法与常用参数✅如何将命令输出既显示又保存✅tee在Shell脚本中的实战
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

Pyramid Vision Transformer（PVT）: 纯Transformer设计，用于密集预测的通用backbone

0、摘要

1、引言

2、相关工作

2.1、CV中的CNN backbone

2.2 密集预测任务

2.3、自注意力和视觉Transformer

3、金字塔视觉Transformer（PVT）

3.1、总体架构

3.2、Transformer特征金字塔

3.3、Transformer Encoder

3.4、更多细节

3.5、讨论

4、将PVT应用于下游任务

4.1、图像级预测

4.2、像素级密集预测

5、实验结果

6、总结

你可能感兴趣的:(论文笔记,DeepLearning,PVT,backbone,密集预测,下游任务,Transformer)