基于PaddlePaddle复现Representation Flow之论文阅读笔记

介绍:
本阅读笔记是为百度论文复现营准备的针对论文“Representation Flow for Action Recognition“的阅读笔记。

解决的问题:
论文主要针对视频理解的场景解决了两个问题:
1。 传统的光流计算方法效率低,且传统光流图不一定能有效表征视频帧中的动作信息。
2。 已经存在的光流计算网络只能接收传统的RGB帧。

提出的方案:
一种称为光流表示层的网络,实现了TV-L1光流计算方法。

论文的效果体现在两个方面:

  1. 可以快速的提取动作表示,计算时间比传统方法高效。
  2. 可以用在CNN特征图后,可以灵活的在网络中放置光流层,并且可以不需要和RGB层融合而直接进行判别输出。

光流表示层网络结构如图1所示。
光流表示层在视频理解网络中的位置如图2所示。

基于PaddlePaddle复现Representation Flow之论文阅读笔记_第1张图片
基于PaddlePaddle复现Representation Flow之论文阅读笔记_第2张图片

有价值的建议:

  1. 在网络的哪一层使用光流层。作者发现,在第一层CNN和第四层CNN之间使用光流层效果较好。
  2. 多个光流层堆叠效果不好,但是在两个光流层间加一个卷积层效果反而会更好。
  3. 对于光流层施加光流层可以判别相同动作出现的位置,即flow of flow的概念。

感想:
作者提出的光流表示层作为一个模块,在各种需要使用光流的网络中都有很好的替换潜力。目前已有PyTorch代码。通过通读该论文,计划后续使用PaddlePaddle框架来复现该论文的结果。

参考文献:
[1] 论文原文
[2] PyTorch 代码
[3] 百度论文复现课程

你可能感兴趣的:(人工智能,paddlepaddle,视频处理)