基于Transformer的目标检测领域最新进展

      本文为检索该领域文章后做的简单记录,没有模型结构的详细介绍,不过其中两三篇文章已是目前目标检测领域的SOTA(截止到21年8月) !

        a、End-to-End Object Detection with Transformers最早将Transformer带入到目标检测领域的文章,名叫DeTR,在coco数据集上可以达到44.9的准确率,与Faster R-CNN相当;模型的主要结构是先用一个常见的CNN网络提取2D的特征,然后将输出的特征图展平,当作序列输入给Transformer,然后经Transformer处理后并行输出最终预测结果;免去了关于Anchor的处理,免去了NMS的处理;从最后的实验结果来看,该模型不仅在目标检测领域能发挥作用,在目标检测的下游视觉任务领域中,其也能发挥较好的作用,例如全景分割,即语义分割与实例分割的结合版,可见该模型的强大之处!

        b、Transformer in Transformer:华为2021年的一项工作,顾名思义,该模型的输入,需要将图片划分为一系列的patches,这一初步划分视为visual sentences,然后下一步再对这些划分出来的patches进行划分,视为visual word;模型里的Transformer结构粉为两块,即内部的与外部的,分别对输入进行处理;最终的测试结果表明,其在分类任务上可以实现81.5%的准确率,超过了当时的SOTA,其次就是在下游任务领域,目标检测、分割等任务上都能实现不错的精度。

        c、Focal Self-attention for Local-Global Interactions in Vision Transformers:非常新的一篇文章,七月份微软出的,该模型测试结果表明超过了此前的Transformer目标检测领域的SOTA,即Swin Transformer(需要注意到,这两篇文章都是微软的工作,不过可能知识不过组的),达到了58.7/58.9 box mAPs;通过文章中的表6可以看到测试的情况,上面半部分例举出来的一些模型,其实在原文章中是没有所说的那个准确率的,应该是后面其他人做出来的,另外就是这些准确率非常高的模型的输入图片的分辨率都很高,这也是提升准确率的一个重要因素吧!此外需要注意到,这两份工作中测试出的高准确率结果,都有注明是在HTC或HTC++方法或架构的模型下得到的结果,HTC即Hybrid Task Cascade(HTC),即混合任务级联架构,最早出现在19年的一篇文章中(Hybrid task cascade for instance segmentation.),HTC++即改进版的HTC,增加了文章(Instaboost: Boosting instance segmentation via probability map guided copy-pasting.)中的copy-pasting策略;还有就是Swin Trans开源了,但是Focal Trans没有!

        还有需要注意到,58.7/58.9 box mAPs这个结果是在mini-val以及test-dev两个不同数据集上得到的,在2014年数据集中,训练集82783张,验证集40504张,测试集40775张. 另外,验证集分为两部分,miniVal有5000张,剩下的35504张图像和训练集称为Trainval35k (Trainval35k==train2014+val2014-minival2014.). 通常在论文中使用Trainval35k当作训练集,参考链接:https://www.pianshen.com/article/91481620364/;

        HTC文章的方法从如下的两个方面进行改进:1)在级联优化中将分割与检测任务组合在一起去完成多阶段地处理;2)采用了一个全卷积的分支(分割分支)提供空间信息,从而帮助区分分割任务中的前景与背景。从而网络可以学习到更具区分性的特征并且在每个stage上组合互补的特征。

        d、CBNetV2: A Composite Backbone Network Architecture for Object Detection:也是21年七月发出来的,北大的工作,刚好超过了上面微软的工作,其测试准确率达到了60.1% box AP and 52.3% mask AP;越来越离谱!文章中提出了一种架构,可以在里面融合不同的backbone以及detection head,然后来实现更好的效果,上述测试结果就是基于微软的Swin Transformer,将其作为backbone,虽然实现了更高的准确率,同时所需的epoch更少,但是模型的参数量是前者的两倍;然后就是速度应该是非常慢的,因为整个模型相当于是有几块级联在一起实现的,可参考前面的HTC架构。

你可能感兴趣的:(Transformer,深度学习,目标检测,图像处理)