Transformer 最新综述介绍

作者来自牛津大学

论文地址:[2206.06488v1] Multimodal Learning with Transformers: A Survey (arxiv.org)icon-default.png?t=M5H6https://arxiv.org/abs/2206.06488v1

首先,本文介绍的主要内容:

1. 多模态学习的背景,变压器生态系统,和多模态大数据时代

2. 理论审查香草变压器,视觉变压器,多模态变压器,从几何拓扑的角度来看

3. 回顾多模态变压器应用程序,通过两个重要的范式,即多模态预训练和特定的多模态任务

接下来,我们将按照文章的行文结构进行介绍!!!

第二节:背景工作

首先,文章在背景中主要介绍了三部分。第一部分,介绍了多模态学习的发展,以及后来在深度学习中的一些应用。然后,第二部分就是Transformer自2017年提出至今,自Version in Transformer(Figure 2)提出并应用在视觉应用中,其热度一直居高不下。最后,是第三部分,多模态大数据的应用

Transformer 最新综述介绍_第1张图片

 第三节:TRANSFORMERS

这部分从Token inputs 、Self-attention、Multi-head attention、基础的Transformer Layer 展开介绍。

Transformer 最新综述介绍_第2张图片

 文中对不同形式的输入形式(Modalities),Token化的方式(Tokenization )以及Token的学习方式拉开对比(Token Embeding)。其中由于多模态数据本身数据的多样性进行这种类型的扩展介绍也是十分有意义的。且对Token中编码方式是否以CNN或是全连接方式也进行了扩展。

Transformer 最新综述介绍_第3张图片Transformer 最新综述介绍_第4张图片

 然后,对Transformer中的计算方式进行了汇总,结合TABLE 4和Figure 4进行了详细的图形解释。

 

最后,讨论了在多个场景中的应用

主要分为 Transformer 在预训练多模态数据中的具体任务展开介绍。

Transformer 最新综述介绍_第5张图片

 

你可能感兴趣的:(深度学习,计算机视觉)