论文浏览(24) Grouped Spatial-Temporal Aggregation for Efficient Action Recognition

文章目录

    • 0. 前言
    • 1. 要解决什么问题
    • 2. 用了什么方法
    • 3. 效果如何
    • 4. 还存在什么问题&有什么可以参考的地方


0. 前言

  • 相关资料:
    • arxiv
    • github
    • 论文解读,论文解读2
  • 论文基本信息
    • 领域:行为识别
    • 作者单位:约翰斯·霍普金斯大学
    • 发表时间:ICCV 2019

1. 要解决什么问题

  • Temporal reasoning 在视频分析中非常重要。
    • 什么是temporal reasoning?
      • 论文中提到,UCF101和Kinetics数据集并不太需要 temporal reasoning,因为大多数类别通过静态场景和物体就可以识别,甚至打乱帧顺序得到的识别结果也差不多。
      • 换句话说,如果只有一帧基本上不能判断行为类别(比如拿起、放下等动作)。

2. 用了什么方法

  • 之前的方法主要包括C2D/C3D/P3D
    • C2D其实就是一些2D CNN,可以理解为TSN/TRN。
    • C3D其实就是最朴素的3D神经网络,2D CNN中的1x1卷积转换为1x1x1卷积,3x3卷积转换为3x3x3卷积。
    • P3D其实就是一些decompose方法,把3x3x3转化为1x3x3+3x1x1卷积。
      • 什么P3D/S3D/R(2+1)D都是这个思路。
    • 论文浏览(24) Grouped Spatial-Temporal Aggregation for Efficient Action Recognition_第1张图片
  • 灵感来源:
    • 从上面的图中可以看出,之前的 decompose 方法都是在 spatial 或 temporal 的角度进行。
    • 本文提出的方法主要是从channel从面进行decomopse。
    • 换句话说,本文的思路来源于group convolution。
    • 对不同group分别进行spatial和temporal操作,然后concat到一起。
  • Grouped Spatial-Temporal aggregation(GST)
    • (a) 图就是普通的C3D形式,对于两个蓝色的分支可以理解为其输入的特征图都是一致的,并没有对输入特征图进行分组
    • (b) 就是GST-Large结构,即将用两个分支分别获取空间信息以及时间信息,并没有对输入特征图进行分组。这应该不算是真正的分组卷积。
    • © 就是普通的GST结构,输入特征平均分为两部分,然后分别进行卷积操作。当然,这种情况也不能算是普通的分组卷积,毕竟 alpha 的取值不一定是0.5
    • 论文浏览(24) Grouped Spatial-Temporal Aggregation for Efficient Action Recognition_第2张图片
  • 参数量对比
    • 这里应该指的就是一次 3x3 卷积或其分解形式的参数对比。
    • 论文浏览(24) Grouped Spatial-Temporal Aggregation for Efficient Action Recognition_第3张图片

3. 效果如何

  • 都是在Something-Something上做的实验
    • 论文浏览(24) Grouped Spatial-Temporal Aggregation for Efficient Action Recognition_第4张图片
    • 论文浏览(24) Grouped Spatial-Temporal Aggregation for Efficient Action Recognition_第5张图片

4. 还存在什么问题&有什么可以参考的地方

  • 没有放Kinetics的结果,猜测应该是不咋地。

  • 这种思路好像跟FAIR那篇有点类似,不过FAIR那篇论文在分组卷积上做的比较彻底。

你可能感兴趣的:(CV)