论文浏览(31) AR-Net: Adaptive Frame Resolution for Efficient Action Recognition

文章目录

    • 0. 前言
    • 1. 要解决什么问题
    • 2. 用了什么方法
    • 3. 效果如何
    • 4. 还存在什么问题&有什么可以借鉴


0. 前言

  • 相关资料:
    • arxiv
    • github,项目网页
    • 论文解读
  • 论文基本信息
    • 领域:行为识别
    • 作者单位:IBM
    • 发表时间:ECCV 2020

1. 要解决什么问题

  • 行为识别相关研究主要集中在以下两个方面:
    • 为2D CNN增加额外的temporal modeling。
    • 使用3D CNN进行时空建模。
  • 一般来说,性能的提升都伴随着算力的增加。为了更加方便部署,主要的研究内容是模型压缩以及设计小模型。
  • 几乎所有模型都都使用相同尺寸的数据帧作为模型输入。
  • 其实这篇论文让我想到了 SCSampler,只不过这篇更彻底,除了会skip帧之外,还会对帧的输入resolution进行处理。

2. 用了什么方法

  • 将输入帧的resolution作为变量,通过模型进行设置。
    • 总体思想如下图所示:
    • 论文浏览(31) AR-Net: Adaptive Frame Resolution for Efficient Action Recognition_第1张图片
  • 主要工作:提出AR-Net模型,本模型使用一种可微分(即可以使用梯度下降更新参数)的方法来学习输入数据的尺寸。
  • 模型总体结构如下图所示
    • 模型可以分为两个部分:
      • policy network:由 feature extractor 和 LSTM 组成,得到每帧的尺寸。
      • backbone network:不同尺寸的frame由不同的backbone来提取特征。
        • 尺寸太小的图片也不用处理了,就当skip该帧。
    • 论文浏览(31) AR-Net: Adaptive Frame Resolution for Efficient Action Recognition_第2张图片
  • policy network 的具体实现没有细看,记录一下大概的思路
    • 设置一些不同尺寸的输入数据(应该是有一定数量的固定尺寸,目标是选择其中一个)
    • 实现网络是特征提取+LSTM,LSTM应该是1对1,每次输入特征提取的结果来更新参数。
    • 在选择结果时使用了 Gumbel Softmax,这部分应该是实现重点,没细看,等开源了可以研究下。
  • 损失函数:
    • 分类损失函数就是普通的交叉熵。
    • 由于frame尺寸不一定,所以模型的GFOPS也不一定,有一个GFLOPS相关损失函数,形式为
      • 论文浏览(31) AR-Net: Adaptive Frame Resolution for Efficient Action Recognition_第3张图片
    • 我们希望确定图像尺寸的时候,skip更多frame,所以也设置了一个相关的损失函数(没细看)
      • 论文浏览(31) AR-Net: Adaptive Frame Resolution for Efficient Action Recognition_第4张图片

3. 效果如何

  • 在ActivityNet上好得很
    • 论文浏览(31) AR-Net: Adaptive Frame Resolution for Efficient Action Recognition_第5张图片
  • 在mini-kinetics-200上结果也不错
    • 论文浏览(31) AR-Net: Adaptive Frame Resolution for Efficient Action Recognition_第6张图片
  • 比较了各种不同的policy
    • 论文浏览(31) AR-Net: Adaptive Frame Resolution for Efficient Action Recognition_第7张图片

4. 还存在什么问题&有什么可以借鉴

  • 最终的分类结果看起来还是比较普通的TSN形式,2D CNN+avg预测结果。

  • 等开源了可以考虑改成online形式用用看。

  • 训练了mini-kinetics,没有在kinetics400上尝试,感觉稍微欠一点意思。

你可能感兴趣的:(CV)