论文浏览(36) Finding Action Tubes with a Sparse-to-Dense Framework

文章目录

    • 0. 前言
    • 1. 要解决什么问题
    • 2. 用了什么方法
    • 3. 效果如何
    • 4. 还存在什么问题&有什么可以借鉴


0. 前言

  • 相关资料:
    • arxiv
    • github
    • 论文解读
  • 论文基本信息
    • 领域:时空行为检测
    • 作者单位:上海交大&上海大学
    • 发表时间:AAAI 2020

1. 要解决什么问题

  • 之前主流的时空行为检测方法框架如下论文浏览(36) Finding Action Tubes with a Sparse-to-Dense Framework_第1张图片
  • 上述框架的主要流程是基于检测的
    • 首先,通过短期信息(从帧或小片段)获取人物的信息。
    • 之后,通过启发式算法,对不同帧的bbox进行关联。
  • 上述框架存在的缺陷:
    • 输入数据中只有很少量的历史数据(brief temporal information),这使得相似的动作非常难以分辨。比如跳远和撑杆跳,前面都是跑,最后一点才有区别。
    • 这种方法要预测每一帧的信息,所以需要大量算力。

2. 用了什么方法

  • 为了解决之前架构的问题,提出了新的架构。新结构主要引入了两个概念:
    • 引入了LFB的思想,构建 long-term feature augmentation module(LFA),合并 short-term 与 long-term 的特征。
    • 引入了 sparse-to-dense 的思想,即构建 adaptive dynamic temporal sam-
      pling module,用于选择合适的时间点的帧,执行detection操作(而不是之前框架中,对每一帧都进行操作)。
    • 新老结构对比图如下所示
    • 论文浏览(36) Finding Action Tubes with a Sparse-to-Dense Framework_第2张图片
  • 新结构的细节如下图
    • 论文浏览(36) Finding Action Tubes with a Sparse-to-Dense Framework_第3张图片
  • 需要进一步了解的细节有以下几个方面
    • temporal pyramid and prposals 的细节
      • 生成方法看论文就是1D conv + anchors
      • 没有彻底搞清楚这个anchors与输入clip的frames长度的关系(输入的clip会有这么长吗?)。
    • LFA的实现细节。
      • 看了论文,大概是说先3D CNN提取特征,然后temporal avg pool+1d提取temporal信息,然后通过这个temporal信息执行一个类似于注意力机制的网络从而获取长期信息。
      • 我不太懂,这个长期信息,好像也就是输入数据当前clip得到的,好像没有什么是一直保存着的,跟之前看的LFB有点区别。
    • Dynamic temporal sampling的细节。
      • 是对前面的每一个 temporal proposal 进行dynamic temporal sampling操作。
      • 好像重点是GT的生成?还没细看。
    • Sparsely sampled bounding box detection的细节。
      • 说是对2D特征进行检测操作。
      • 问题就是2D特征是怎么来的,刚开始不是3D卷积吗?难道是控制了feature的channel数量,从而在最后一层输出时channel数量与输入的frames数量相同?没细看这部分。
    • Dense tube generation from sparse proposals的细节。

3. 效果如何

  • 与SOTA的对比
    • 论文浏览(36) Finding Action Tubes with a Sparse-to-Dense Framework_第4张图片
  • 从时间性能上看,有很大优势。
    • 性能计算主要就是通过在JHMDB-21上跑一边,计算每个video的平均时间。
    • 论文浏览(36) Finding Action Tubes with a Sparse-to-Dense Framework_第5张图片

4. 还存在什么问题&有什么可以借鉴

  • 没有复现比较麻烦。

  • 速度看起来比较快,但真要用到online场景下好像不太现实,还需要进一步考虑下。

你可能感兴趣的:(CV)