论文阅读:Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

题目:Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting
作者:Martine Toering

一、研究背景

  • 传统的自监督对比学习不适用于视频:
    实例级的对比学习取得了很大进展,但是由于操作是用于经过增强的实例集上的,所以并不适用于探索视频的丰富动态结构。视频本身提供的数据增强,如:视角变化,光线,形变,运动等,却没有被充分利用。
  • 传统对比学习忽视了实例间的语义相似性:
    在负样本对之间优化得到低相似性分数却不考虑二者的语义相似性,会使样本嵌入产生不理想的距离。
  • 实例级对比学习低效
  • 运动富含信息却和其他信息流相互作用

二、研究目标
找到一种适合视频的自监督表示学习方法:“Video Cross-Stream Prototypical Contrasting”
避免特征级别的对比,减少距离度量的开销:对实例和原型进行对比
有效利用运动信息:用原型映射和交替训练将知识从运动(流)转移到RGB
论文阅读:Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting_第1张图片

三、研究内容
因此,本文提出了可以作用在采样集上的“Video Cross-Stream Prototypical Contrasting”(视频跨流原型对比),它可以在RGB和光流这两种不同的视角(view)下预测出一致的原型分配(assignment)。
同时,本文采用交替优化策略;在优化任一支流时,所有的视角(view)都会映射在同一个流原型向量(stream prototype vectors)集上。并且,用所有与预测不匹配的视角(view)预测原型分配(assignment)。
本文提出的方法习得了更有效的视频嵌入和运动信息。
论文阅读:Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting_第2张图片

  1. Contrastive instance learning:
  • data augmentation module
  • embedding function
  • contrastive loss function
    论文阅读:Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting_第3张图片
  1. Predicting stream prototype assignments
    优化Z和C,最大化同一采样在不同视图下,原型分配的一致性,通过比较原型分配(Q*、Q)来间接地对比特征:
    在这里插入图片描述
    在这里插入图片描述

  2. 优化
    通过最大化Q和C之间的相似性来计算Q,并在一个batch内部去优化;并用Tr(迹)来代表QQ后的矩阵,来衡量相似性:
    请添加图片描述
    通过约束Q的维度,进而在(4)中影响Cs维度,确保每个原型在一个batch内最少被选择B/K次:
    论文阅读:Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting_第4张图片
    求得Q
    ,并让Q*接近Q,以此优化C(原型向量)、Z(编码器):
    在这里插入图片描述

  3. Learning cross-stream
    论文阅读:Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting_第5张图片
    请添加图片描述
    论文阅读:Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting_第6张图片

四、创新点

  1. 用两条支流进行流原型间的实例对比学习,避免了不必要的计算开销。
  2. RGB和光流用两种方式进行相互联系:共同预测原型,交替优化
  3. 用不同模态作为输入视角,通过原型习得正负样本,避免使用大batchsize或存储器
  4. 提高不同视角下的一致性,比较聚类分配而不是单独的特征

五、实验结果
论文阅读:Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting_第7张图片

你可能感兴趣的:(笔记,计算机视觉,人工智能,机器学习)