西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》

西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》_第1张图片

由于Transformer主要采用动态多头注意力机制来实现特征全局建模,因而具备较强的特征学习能力。近年来,基于Transformer的模型已经在计算机视觉和自然语言处理方向全面开花落地!并且随着ViT论文的出现,基于Transformer的计算机视觉模型已经可以媲美CNN方法!2021年以来,Transformer模型在各大数据集上纷纷霸榜!本篇综述将详细阐述Transformer在图像和视频应用中的研究进展,对Transformer在视觉特征学习理解中的应用进行全面的概述。首先,回顾一下注意力机制,它在 Transformer 中起着至关重要的作用。然后介绍了视觉Transformer模型以及各个模块的原理。第三,研究了现有的基于 Transformer 的模型,并比较了它们在视觉学习理解应用中的性能。并主要研究了计算机视觉的三个图像任务和两个视频任务。前者主要包括图像分类、目标检测和图像分割。后者包含目标跟踪和视频分类。最后总结了当前视觉Transformer普遍存在的10个问题,并对Transformer 的发展前景进行了展望。

87acc752dc9712b3e062ee9100147c05.gif

资料下载:

1. 点击下面链接进入公众号:“深度学习技术前沿

2. 在公众号消息对话框回复:“ViT22” 即可以获取哈~

西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》_第2张图片

注意力机制主要包括四种:通道注意力、空间注意力、时间注意力和分支注意力。 它们分别集中在关注什么、在哪里、何时以及关注哪些方面。

西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》_第3张图片

西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》_第4张图片

西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》_第5张图片

西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》_第6张图片

西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》_第7张图片

西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》_第8张图片

b7e629de9bb8f610190abc15ab400bd8.gif

资料下载:

1. 点击下面链接进入公众号:“深度学习技术前沿

2. 在公众号消息对话框回复:“ViT22” 即可以获取哈~

你可能感兴趣的:(人工智能,计算机视觉,机器学习,深度学习,java)