Transformer系列--多模态多任务的统一Transformer“Transformer is all you need”

文章目录

  • 前言
  • 一、Motivation
  • 二、网络结构分析
  • 三、实验结果分析
  • 四、总结与反思
  • 五、参考文献

前言

  • 论文:Transformer is all you need:Multimodal multitask Learning with a Unified Transformer
  • 地址:https://arxiv.org/pdf/2102.10772.pdf
  • code:暂未公布

一、Motivation

Transformer首先应用于sequence-to-sequence模型的自然语言处理领域。随着Transformer模型取得巨大的成功,现在该方法已经扩展到视觉领域,甚至还可以应用于视觉和语言的联合推理任务。尽管可以针对各种下游任务中的应用对预先训练好的Transformer进行微调,并获得良好的结果,但这种模型微调方法会导致为每个下游任务创建不同的参数集,而且大多Transformer模型仅限于单个领域或特定的多模态领域的任务。例如, V i T ViT ViT 专门用于视觉相关的任务, B E R T BERT BERT 专注于语言任务,而 V I L B E R T − M T VILBERT-MT VILBERTMT 只用于相关的视觉和语言任务。

一个随着而来的问题是:我们能否建立一个单一的Transformer,能够在多种模态下处理不同领域的广泛应用?

二、网络结构分析

最近,Facebook的一个人工智能研究团队进行了一个新的统一Transformer(UniT) encoder-decoder模型的挑战,该模型在不同的模态下联合训练多个任务,并通过一组统一的模型参数在这些不同的任务上都实现了强大的性能。
Transformer系列--多模态多任务的统一Transformer“Transformer is all you need”_第1张图片
提出的UniT结构是建立在传统的Transformer编码器-解码器架构上,包括每个输入模态类型的独立编码器,后面跟一个具有简单的每个任务特定的头的解码器。输入有两种形式:图像和文本。

  • 首先,卷积神经网络骨干网提取视觉特征;
  • 然后,BERT将语言输入编码成隐藏状态序列;
  • 然后,Transformer解码器应用于编码的单个模态或两个编码模态的连接序列(取决于任务是单模态还是多模态);
  • 最后,Transformer解码器的表示将被传递到特定任务的头,该头将输出最终的预测。

三、实验结果分析

  • 从这个表格中可以明显的看出:多任务训练的UniT性能优于单独训练的目标检测和VQA
    Transformer系列--多模态多任务的统一Transformer“Transformer is all you need”_第2张图片

  • 基于UniT模型的目标检测与VQA的分析
    Transformer系列--多模态多任务的统一Transformer“Transformer is all you need”_第3张图片

  • UniT模型在8个数据集的7个任务上的性能
    Transformer系列--多模态多任务的统一Transformer“Transformer is all you need”_第4张图片

四、总结与反思

所提出的UniT 模型同时处理8个数据集上的7个任务,在统一的模型参数集下,每个任务都有较强的性能。强大的性能表明UniT有潜力成为一种领域未知的transformer 架构,向更通用的智能的目标迈进了一步。

五、参考文献

  • https://medium.com/syncedreview/facebook-ais-multitask-multimodal-unified-transformer-a-step-toward-general-purpose-98db2c858603

你可能感兴趣的:(论文阅读,Transformer)