【20210109期 AI周报】该重视 Vision Transformer 了

当你还在研究目标检测中one2one的时候,当你还在死磕模型lantency的时候,当你还在折腾模型NPU部署的时候,当...,我不得不提一下:该重视Vision Transformer了。自2020年5月,Facebook AI提出了DeTr后,Transformers在计算机视觉领域无处不在的。包括且不限于以下内容:

【20210109期 AI周报】该重视 Vision Transformer 了_第1张图片

1 推荐2篇综述

论文:A Survey on Visual Transformer
链接:https://arxiv.org/abs/2012.12556

Transformer 是一种基于自注意力机制的深度神经网络,最初应用于自然语言处理领域。受到Transformer 强大的表示能力的启发,研究人员提议将Transformer 扩展到计算机视觉任务。与其他网络类型(例如卷积网络和循环网络)相比,基于Transformer 的模型在各种视觉基准上显示出竞争力甚至更好的性能。在本文中,我们通过将这些视觉Transformer模型分类为不同的任务,并分析了这些方法的优缺点,提供了文献综述。特别地,主要类别包括基本图像分类,高级视觉,低级视觉和视频处理。由于自注意力是 Transformer 的基本组成部分,因此也简要回顾了计算机视觉中的自注意力,包括有效的Transformer 方法,可将Transformer 推入实际应用。最后,我们讨论了视觉变压器的进一步研究方向。
 

论文:Transformers in Vision: A Survey
链接:https://arxiv.org/abs/2101.01169

Transformers 模型在自然语言任务方面的惊人结果,吸引了视觉界研究其在计算机视觉问题中的应用。这项调查旨在提供计算机视觉学科中的 Transformers 模型的全面概述,首先介绍Transformers 模型背后的基本概念,即自我监督和自我关注。Transformers 体系结构利用自我关注机制在输入域中对远程依赖项进行编码,从而使其具有较高的表达力。由于他们假定对问题的结构没有任何先验知识,因此将使用前置任务的自我监督应用于大规模(未标记)数据集上的预训练变压器模型。然后,在下游任务上对学习的表示进行微调,由于编码特征的泛化和表现力,通常可导致出色的性能。我们涵盖了Transformers 在视觉领域的广泛应用,包括流行的识别任务(例如图像分类,目标检测,动作识别和分割),生成模型,多模式任务(例如视觉问题解答和视觉推理),视频处理(例如活动识别,视频预测),低级视觉(例如图像超分辨率和彩色化)和3D分析(例如点云分类和分割)。我们从网络和实验两个方面比较了流行技术各自的优点和局限性。最后,我们对研究方向和可能的未来工作进行了分析。

Blog:https://zhuanlan.zhihu.com/p/340149804

 

2 再补充几篇新的论文

论文:TransTrack: Multiple-Object Tracking with Transformer
链接:https://arxiv.org/abs/2012.15460
代码:https://github.com/PeizeSun/TransTrack

在这项工作中,我们提出了TransTrack,这是使用Transformer进行MOT的基准。它利用查询键机制,并将一组学习到的对象查询引入到管道中,以检测新出现的对象。 TransTrack具有三个主要优点:(1)它是基于查询键机制的在线联合检测跟踪管道。简化了先前方法中的复杂步骤和多步骤组件。 (2)它是基于Transformer的全新体系结构。学习的对象查询将检测当前帧中的对象。来自上一帧的对象特征查询将那些当前对象与先前的对象相关联。 (3)首次展示了一种基于查询键机制的简单有效的方法,并且Transformer架构可以在MOT17挑战数据集上获得具有竞争力的65.8%的MOTA。我们希望TransTrack可以为多对象跟踪提供新的视角。

 

论文:TrackFormer: Multi-Object Tracking with Transformers
链接:https://arxiv.org/pdf/2101.02702.pdf

TrackFormer,一个端到端的多对象基于encoder-decoder Transformer体系结构的跟踪和分段模型。该方法引入了跟踪查询嵌入,这些跟踪跟随对象以自回归方式播放的视频序列。新查询由DETR对象检测器生成,并随时间嵌入其对应对象的位置。 Transformer解码器调整轨道查询嵌入从一帧到另一帧,从而跟随变化的对象位置。 TrackFormer通过新的注意跟踪实现了帧之间的无缝数据关联自我和编码器-解码器注意机制的范例, 可在多对象跟踪任务上提供最先进的性能。希望我们统一执行检测和跟踪的方式将促进未来多目标跟踪和视频理解方面的研究。

 

3 基础知识Self-Attention

可以查看:

attention专栏

CV中的Attention和Self-Attention

通过代码学习Transformer

DETR: Postprocessing-free Detector

 

学术交流

如果你平时遇到任何困扰你已久、或面试中的遇到目标检测等相关问题,可以加群(扫码下方二维码,备注互助群,就会拉入群),告诉我们,统一记录在《Question List》中。尽力帮助大家解决难题,真正解决问题的那种!

【20210109期 AI周报】该重视 Vision Transformer 了_第2张图片

 

下载1

在【AI约读社】公众号后台回复:目标检测,即可获取《图解目标检测》链接

【20210109期 AI周报】该重视 Vision Transformer 了_第3张图片

你可能感兴趣的:(AIWeekly,深度学习,神经网络,机器学习,自然语言处理,pytorch)