基于视觉Transformer的目标检测

基于视觉Transformer的目标检测

无卷积骨干网络:金字塔Transformer,提升目标检测/分割等任务精度

https://github.com/whai362/PVT

例如,在参数数量相当的情况下,PVT+RetinaNet在COCO数据集上实现了40.4 AP,超过ResNet50+RetinNet(36.3 AP)4.1个绝对AP(见下图)。研究者希望PVT可以作为像素级预测的替代和有用的主干,并促进未来的研究。

基于视觉Transformer的目标检测_第1张图片

提供了新思路,比不上yolov系列,研究可以,做工业产品貌似不太适合。

YOLOS:

Transformer能否以最少的2D空间结构从纯粹的序列到序列的角度进行2D目标识别呢?

为回答该问题,我们提出了YOLOS(You Only Look at One Sequence),一系列基于朴素ViT(即尽可能少的进行修改)的目标检测模型。我们发现:在中等大小数据集ImageNet上预训练的YOLOS已经足以在COCO上取得极具竞争力的目标检测性能,比如:YOLOS-Base可以取得42.0boxAP指标。与此同时,我们还通过目标检测。讨论了当前预训练机制、模型缩放策略对于Transformer在视觉任务中的局限性。

一部分介绍:

致敬YOLO!华科提出YOLOS:基于视觉Transformer的目标检测_3D视觉工坊-CSDN博客

模型都不是特别小,跟yolov5比,感觉还是差一些。

最小74m,最大42.0的模型1.4G

GitHub - hustvl/YOLOS: You Only Look at One Sequence (https://arxiv.org/abs/2106.00666)

你可能感兴趣的:(目标检测,transformer,自动驾驶,pytorch)