【论文笔记】Separating the “Chirp” from the “Chat”: Self-supervised Visual Grounding of Sound and Language
Abstract提出了DenseAV,一种新颖的双编码器接地架构,仅通过观看视频学习高分辨率、语义有意义和视听对齐的特征。在没有明确的本地化监督的情况下,DenseAV可以发现单词的"意义"和声音的"位置"。此外,它在没有监督的情况下自动发现并区分这两种类型的关联。DenseAV的定位能力源于一种新的多头特征聚合算子,该算子直接比较稠密的图像和音频表示进行对比学习。相比之下,许多其他学习"全局"音