论文 | CVPR2020 《Action Genome: Actions as Compositions of Spatio-temporal Scene Graphs》 论文解读

一 写在前面

未经允许,不得转载,谢谢~~~

这也是今年发表在CVPR上的文章,简单整理记录一下。

主要信息:

  • 文章出处:CVPR2020
  • 文章代码:暂未发布
  • 数据集地址:暂未发布
  • 原文链接:https://arxiv.org/abs/1912.06992

二 主要内容

2.1 相关背景

以action recognition为代表的视频理解任务通常将视频当成一个单独的动作进行分析。相对应地,很多数据集对一个视频也用一个action进行标注。

虽然在图像领域,像scene graph这样的结构化表示已经被证明可以在很多任务上提升模型的性能。但在视频领域,视频动作的拆解(objects以及relationship的对应关系)还处于under-explored状态。

在认知科学也有研究支持人类会将长的视频分成几段以便理解。

2.2 本文工作

  1. 在视频领域,提出Action Genome,将动作表示成spatio-tempoal scene graph的形式。

以“person sitting on a sofa“为例,Action Genome在其对应的帧上进行object和relation的注释:

  • object:person,sofa
  • relation:, ,
  1. 基于Charades构建含有scene-graph的数据集:Action Genome

按照上面所示的例子,对视频进行sene-graph的标注工作,具体包括object以及relation;

最后的数据集包含:

  • 157 action categories;
  • 234K video frames;
  • 476K bounding boxes;
  • 1.72M relationships
  1. 在三种任务上进行了scene graph对于视频理解的帮助:
  • action recognition
  • few-shot action recognition
  • spatio-temporal scene graph prediction

三 具体方法

3.1 Action Genome dataset

先简单介绍一下scene graph:

  • node:object(物体对应图里的节点)
  • edge:realtionship(物体之间的关系对应图中节点之间的边)

对应数据集的标注与构建:

  • 整个数据集是基于Charades构建起来的;
  • 标注的方法是action-oriented sampling strategy (以视频中的action为导向进行标注)
  • 具体对应这个图进行解释:

对于视频中的每个action(不同的颜色段),在这个时间范围内统一sample 5帧进行注释。假设一段视频中有4个actions(action本身可包含,可覆盖),那总共会有4x5=20帧视频帧被标注到。

具体的标注形式如图所示,先标出跟这个action相关的object(bounding box),然后再标注relationships。

其中总共包含3类realtionships:

  • attention(looking or not)
  • spatial (空间位置)
  • contact (交互方式)

最后的数据集信息:

  • 234253 frames
  • 35 object classes, 476229 bounding boxes
  • 25 relationship classes,1715568 instances

3.2 方法

方法部分相对比较简单,主要就是构建scene-graph,然后获取最终的representation。

看颜色的线路(蓝 vs 绿),最终的特征来源最终包含2个部分:

  1. scene graph
  2. 3D CNN

其中scene graph的部分,对于视频中的每一帧经过scene graph predictor(先用Faster RCNN进行object detection,再用RelDN进行relationships prediction )构建对应的graph,然后用类似long-term feature bank中的方法获取到graph对应的特征表示。

具体而言,图中看到的feature map是|O| x |R|大小的,|O|表示所有object的数目(已经包含person),|R|表示所有relationship的种类,其值等于对应object的置信度乘上对应relationship的置信度。然后对于每一帧,都把这个map展开作为这一帧的feature,最后对不同帧之间做一个融合得到scene-graph这一路得到的特征。

3D CNN这一路是取视频中比较短的片段过3D conv主导的网络,最终得到的feature,这样可以结合短距离信息和长距离信息。

四 实验结果

介绍一下关于action recognition的结果:在Charader数据集上,通过用scene-graph features替换LFB(long-term feature bank)的feature banks ,能在SOTA的LFB上提升1.8% mAP。

另外还做了一个验证实验,假设真实的scene graph是存在的情况下,也就是直接用手工标注的GT进行scene-graph的构建,能在mAP上获得16%的提升。

五 写在最后

现在的视频分类的文章基本都不在ucf,hmdb这种小数据集上做了==,感觉从科研的角度来说会越来越难,但是真的能出现一些更challenging更有意义的工作还是感觉很好的。

感谢阅读~

有问题欢迎交流。

你可能感兴趣的:(论文 | CVPR2020 《Action Genome: Actions as Compositions of Spatio-temporal Scene Graphs》 论文解读)