《ECO:Efficient Convolutional Network for Online Video Understanding》文献阅读

参考:https://zhuanlan.zhihu.com/p/36795554
本文仅供学习,如有侵权,请私聊

文章目录

  • 1、Introduction
  • 2、主要工作
  • 3、结构
  • 4、在线视频理解
  • 5、实验
  • 6、总结

caffe源码
pytorch源码

1、Introduction

主要提出了两点:

  1. 使用单帧的图像,在很多情况下已经可以获得一个不错的初始分类结果了,而相邻帧间的很多信息都是冗余的。因此,ECO 中在一个时序邻域内仅使用单帧图像。
  2. 为了获得长时程的图像帧间的上下文关系,仅仅使用简单的分数融合(aggregation) 是不足够的。因此,ECO 中对较远帧之间采取对 feature map 进行 3D 卷积的方式进行 end-2-end 的融合。

2、主要工作

  1. 与TSN类似,我们从整个视频中抽取固定数量的帧来覆盖长期时间结构,以便理解视频。这样,采样帧跨越整个视频,与视频的长度无关。
  2. 与TSN不同的是,我们使用3D网络来学习帧间的关系,并在整个视频中跟踪它们。该网络经过端到端训练,以学习这种关系。
  3. 该网络直接提供视频级别的分数,不需要事后的特征聚合。

因此,即使在小型计算设备上,它也可以在线模式和实时运行

3、结构

《ECO:Efficient Convolutional Network for Online Video Understanding》文献阅读_第1张图片ECO网络的基本结构如上图所示,S1-SN是从视频中采样得到的N个RGB 的 segment。

  1. 对于每个segment,采用共享的2D卷积子网络 来得到96 个 2828大小的 feature map,堆叠后得到一个 N282896 大小的特征volume。此处使用的是BN-Inception 网络中的第一部分(到 inception-3c 层前)。
  2. 对于得到的特征volume,采用一个3D子网络进行处理,直接输出对应动作类别数目的一维向量。此处采用了3D-Resnet18[6]中的部分层。

如上的两部分,就构建了这篇文章中构建的第一种网络结果 ECO-Lite。除了用 3D 卷积进行融合,还可以同时使用2D卷积,如下图所示,即为 ECO-Full 网络结构。此处多的一个 2D 网络分支采用的是 BN-Inception 网络中 inception-4a 到最后一个 pooling 层间的部分,最后再采用average-pooling得到video-level的表示,与3D net的结果 concat 后再得到最后的action分类结果。
《ECO:Efficient Convolutional Network for Online Video Understanding》文献阅读_第2张图片

4、在线视频理解

《ECO:Efficient Convolutional Network for Online Video Understanding》文献阅读_第3张图片
《ECO:Efficient Convolutional Network for Online Video Understanding》文献阅读_第4张图片

5、实验

《ECO:Efficient Convolutional Network for Online Video Understanding》文献阅读_第5张图片在UCF101和HMDB51数据集上的表现,此处只使用RGB作为输入。
《ECO:Efficient Convolutional Network for Online Video Understanding》文献阅读_第6张图片在不考虑I/O读取时间的前提下的速度/精度比较。VPS(videos per second)指每秒处理多少段视频。此实验基于单卡Tesla P100
《ECO:Efficient Convolutional Network for Online Video Understanding》文献阅读_第7张图片不同采样帧下的精度性能对比。
《ECO:Efficient Convolutional Network for Online Video Understanding》文献阅读_第8张图片可视化时间精度效果,在UCF101数据集上。
《ECO:Efficient Convolutional Network for Online Video Understanding》文献阅读_第9张图片在线视频分类问题通常以 early action recognition 的形式来评估。如上图所示,横轴显示的是可以看到的视频的前百分之几,纵轴则是对应的精度。

6、总结

  1. 与TSN类似的视频帧采样
  2. 采用3D卷积做融合( two-stream 网络文章[7]中是用于 video clip 内的融合)
    直观的motivation+简单有效的框架设计

你可能感兴趣的:(Human,Action,Recognition)