【CVPR 2022 多模态融合(有3D检测)】Multimodal Token Fusion for Vision Transformers

Multimodal Token Fusion for Vision Transformers

  • 论文简介:
  • 具体实现:
    • Alignment-agnostic fusion
    • Alignment-aware fusion
    • Multimodal Token Fusion
    • Residual Positional Alignment
  • 实验结果:

【CVPR 2022 多模态融合(有3D检测)】Multimodal Token Fusion for Vision Transformers_第1张图片

论文简介:

许多方法已经应用到了 Transformer 以解决单模态视觉任务,其中自注意模块被堆叠来处理图像等输入源。直观地说,向 Transformer 输入多种模式的数据可以提高性能,但注意力权重可能会被稀释,从而极大地削弱最终的性能。

在本文中,作者提出了一种多模态 Token 融合方法(Token Fusion),针对基于 Transformer 的视觉任务。为了有效地融合多种模式,Token Fusion 动态检测无信息的 token,

你可能感兴趣的:(▶,深度学习-计算机视觉,3d,计算机视觉,深度学习,目标检测,人工智能)