粗读Attention Bottlenecks for Multimodal Fusion

        本文提出的模型针对的是视频分类。众所周知,视频中,画面和声音往往是互相联系的,比如音频出现爆炸声时,视频一般会出现火光。在此之前,视频分类中,信息只在每帧视频的不同区域之间通过ViT互相传递,音频信息也只通过AST互相传递影响,不会综合考虑两种信息。

粗读Attention Bottlenecks for Multimodal Fusion_第1张图片

        上图第一张小图即为传统的视频分类方式。作者提出了两种方式,一种是在靠后的层中(later layers),将两部分信息进行相互传递,另一种是两种信息不直接互相传递,而是借助一个bottleneck模块。将这两种思路融合(不在一开始就交换信息和借助中介),便得到了本文的模型,如最右边的图所示。

你可能感兴趣的:(深度学习,人工智能,深度学习)