【论文笔记】Audio-Visual Event Localization in Unconstrained Videos

Audio-Visual Event Localization in Unconstrained Videos

  • Abstract
  • I. Introduction
  • II. Related Work
  • III. Dataset and Problem
    • 完全和弱监督的事件定位
    • 跨模态定位
  • IV. 方法
    • 4.1 Audio-Visual Event Localization Network
    • 4.2 Audio-Guided Visual Attention
    • 4.3 Audio-Visual Feature Fusion
    • 4.4 Weakly-Supervised Event Localization
  • V. Method for Cross-Modality Localization

Abstract

  • 在视频中找出声音位置
  • 三个任务:监督,弱监督,跨模态定位
  • DMRN 融合两者信息
  • 音像距离网络来处理跨模态定位问题

I. Introduction

  • 跨模态是有用的
  • 本文提出了几个问题:
  1. 对听觉和视觉模式的共同推断是否优于对它们的独立推断?
  2. 在嘈杂的训练条件下,结果如何变化?
  3. 知道一种模态如何帮助模拟其他模态
  4. 我们如何最好地融合两种方式的信息
  5. 给定在一个模态的观察,我们能否在另一个模态定位内容
  • 本文贡献:
  1. 一系列三个音像事件本地化任务
  2. 音频引导视觉注意模型,以适应性地探索音像相关性
  3. 一种新颖的双模多路剩余网络,融合了视听功能
  4. 一个有效的音像距离学习网络,以解决跨模态本地化
  5. 数据库

II. Related Work

  • 声音事件检测
  • 视频动作定位
  • 多输入模态的联合表示
  • 音像跨模态建模

III. Dataset and Problem

  • Dataset: Audio set 的子集
  • label: 音像事件边界

完全和弱监督的事件定位

  • 注意力模型
  • 把视频分割成不重叠的片段 { V t , A t } t = 1 T \left\{V_{t}, A_{t}\right\}_{t=1}^{T} { Vt,At}t=1T
  • y t = { y t k ∣ y t k ∈ { 0 , 1 } , k = 1 , … , C , ∑ k = 1 C y t k = 1 } \boldsymbol{y}_{t}=\left\{y_{t}^{k} | y_{t}^{k} \in\{0,1\}, k=1, \ldots, C, \sum_{k=1}^{C} y_{t}^{k}=1\right\} yt={ ytkytk{ 0,1},k=1,,C,k=1Cytk=1} 成为标签
  • 在监督问题中,我们在乎的是时间在音频的单独定位,在视觉上的单独定位,以及音像联合空间的定位。

跨模态定位

  • 给定一个模态(听觉/视觉)的片段,我们希望找到其同步内容在其他模态中的位置(视觉/听觉)
  • 做到音像同步
  • { A t } t = 1 L \left\{A_{t}\right\}_{t=1}^{L} { At}t=1L ∈ \in { A t } t = 1 T \left\{A_{t}\right\}_{t=1}^{T} { At}t=1T,找到对应 { V t } t = 1 L \left\{V_{t}\right\}_{t=1}^{L} { Vt}t=1L ∈ \in { V t } t = 1 T \left\{V_{t}\right\}_{t=1}^{T} { Vt}t=1T where l < T l<T l<T

IV. 方法

Github Code

4.1 Audio-Visual Event Localization Network

4.2 Audio-Guided Visual Attention

This two sections are implemented in att_Net, models.py
【论文笔记】Audio-Visual Event Localization in Unconstrained Videos_第1张图片
【论文笔记】Audio-Visual Event Localization in Unconstrained Videos_第2张图片

4.3 Audio-Visual Feature Fusion

DMRN is implemented in TBMRF_Net, models_fusion.py

4.4 Weakly-Supervised Event Localization

This is implemented in att_Net, models_weakly.py

V. Method for Cross-Modality Localization

【论文笔记】Audio-Visual Event Localization in Unconstrained Videos_第3张图片

  • 本文给出一个网络来计算给定视觉和音频之间的距离D。
  • t ∗ = argmin ⁡ t ∑ s = 1 l D θ ( V s + t − 1 , A ^ s ) t^{*}=\operatorname{argmin}_{t} \sum_{s=1}^{l} D_{\theta}\left(V_{s+t-1}, \hat{A}_{s}\right) t=argmints=1lDθ(Vs+t1,A^s)找到这个最优的t,完成定位问题。
  • Label 是 V i V_i Vi A i A_i Ai 是否同步
  • 使用预训练的CNN,只训练FC,最终得到 { R i v , R i a } i = 1 N \left\{R_{i}^{v}, R_{i}^{a}\right\}_{i=1}^{N} { Riv,Ria}i=1N,天蓝色部分。
  • D θ ( V i , A i ) = ∥ R i v − R i a ∥ 2 D_{\theta}\left(V_{i}, A_{i}\right)=\left\|R_{i}^{v}-R_{i}^{a}\right\|_{2} Dθ(Vi,Ai)=RivRia2
  • Loss: L C = y i D θ 2 ( V i , A i ) + ( 1 − y i ) ( max ⁡ ( 0 , t h − D θ ( V i , A i ) ) ) 2 L_{C}=y_{i} D_{\theta}^{2}\left(V_{i}, A_{i}\right)+\left(1-y_{i}\right)\left(\max \left(0, t h-D_{\theta}\left(V_{i}, A_{i}\right)\right)\right)^{2} LC=yiDθ2(Vi,Ai)+(1yi)(max(0,thDθ(Vi,Ai)))2

你可能感兴趣的:(论文笔记,AI,视频处理)