视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表

视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表_第1张图片

作者 | CV君

来源 | 我爱计算机视觉

Transformer 技术最开始起源于自然语言处理领域,但今年5月份Facebook 的一篇文章将其应用于计算机视觉中的目标检测(DETR算法,目前已有78次引用)使其大放异彩,并迅速得到CV研究社区的关注。

已有研究表明,Transformer 在计算机视觉领域不仅适用于高级任务如图像分类、目标检测、车道线检测等,在低级任务如图像增强中也取得了突破性进展,毫无疑问,Transformer 是目前计算机视觉领域最值得关注的方向之一。

一时间,在各种视觉任务 + Transformer 的论文正如雨后春笋般涌出。

今天,来自华为诺亚方舟实验室、北京大学、悉尼大学的学者公布论文 A survey on Visual Transformer,对该领域进行了较为系统的文献总结,相信对于想要研究、使用Visual Transformer 技术肯定会有帮助。

该文作者信息:

视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表_第2张图片

Transformer 技术发展的里程碑事件:

视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表_第3张图片

Transformer 的重要事件

下表列出了 Visual Transformer 代表作品:

视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表_第4张图片

Transformer 已经进入的视觉方向:图像分类、目标检测、分割、图像增强、图像生成、视频修补、视频描述等,为解决Transformer 计算效率问题,业界也有多篇论文提出了新的改进。以推进 Transformer 在CV工业界的尽快落地。

Transformer 是什么?

Transformer 的提出最开始用于机器翻译,下图展示了原汁原味 Transformer 的结构:

视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表_第5张图片

用于早期自然语言处理任务的 Transformer 架构图

这里输入是一种语言的句子,每个单词变换为512维的向量嵌入,Transformer 时对其进行多次的编码和解码,编码模块中每一个编码器Encoder把上一阶段的结果进行编码,最后一个编码器将数据经过多个解码器Decoder 进行解码,解码器之间也进行串联,最后一个解码器输出另一种语言的句子。

每一个编码器Encoder内含有自注意力(self-attention layer)层和一个前馈神经网络(feed-forward neural network)模块。每一个解码器含有自注意力(self-attention layer)层、编码器-解码器注意力层和一个前馈神经网络(feed-forward neural network)模块。

视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表_第6张图片

Transformer 的详细结构图

基于Transformer的语言模型获得了成功应用:

视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表_第7张图片

基于Transformer构建的代表性语言模型列表

Vision Transformer(ViT,出自谷歌论文 An image is worth 16x16 words: Transformers for image recognition at scale)示意图:

视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表_第8张图片

Vision Transformer 框架

视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表_第9张图片

IPT的架构图

分类任务上,在 JFT300M 数据集上预训练的 Vision Transformer 在多个图像识别基准上接近或优于 SOTA,在 ImageNet 上达到 88.36% 的准确率,在 CIFAR-10上达到 99.50%,在 CIFAR-100 上达到 94.55%,在 VTAB 套件的 19个任务上达到 77.16%。

iGPT 、 ViT 、BiT-L的详细结果如下表:

视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表_第10张图片

Transformer 用于目标检测突破性算法DETR(出自Facebook 论文 End-to-end object detection with transformers)流程图:

视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表_第11张图片

DETR 的整体架构

为使得Visual transformer 模型参数量和计算量更小,使其更具实用性,业界提出了不少算法。

下表列举了基于 transformer 的模型压缩代表作:

视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表_第12张图片

作者指出了一些未来的研究方向:

开发更适合视觉任务的transformer 模型;

自然语言处理中的transformer往往一个模型可以在多个任务中有效,CV领域中也值得探索;

研究更加计算高效的transformer。

参考链接:

https://arxiv.org/abs/2012.12556


更多精彩推荐
  •  赠书 | 手把手教你自己动手打造一个智能恒温器

  • 仅剩一周!!CSDN年终大放血!人人有份的大奖你确定不来?

  • 对人脑而言,阅读计算机代码和阅读语言有何不同?

  • 最高要价 8888元,小米 11 邀请函现身闲鱼;荣耀与微软签署全球 PC 合作协议;Xfce 4.16 发布|极客头条

  • Python 新人笑、C# 旧人哭,你立的技术 Flag 2020 实现了吗?

你可能感兴趣的:(计算机视觉,人工智能,自然语言处理,机器学习,深度学习)