光流(Optical Flow) 与 视频行为识别 的关系

什么是光流?

光流(Optical Flow)是空间运动物体在观察成像平面上的像素运动的瞬时速度,在时间间隔很小(如视频的连续两帧之间)时,也等同于目标点的位移。通常将二维图像平面特定坐标点上的灰度瞬时变化率定义为光流矢量。

光流法,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。

当人眼观察运动物体时,物体的景象在视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜(即图像平面),好像一种光的“流”,故称之为光流。光流表达了图像的变化,由于它包含了目标运动的信息,因此可被观察者用来确定目标的运动情况。

视频行为识别

在视频行为识别(action recognition)方向,目前最常见的网络框架有两类:一类是直接将视频作为输入的3D卷积网络,另一类即是将图像以及光流(optical flow)分别作为输入的two-stream网络。目前two-stream类的方法在效果上还是明显要优于3D卷积类的方法。本文主要讨论two-stream类方法中光流的应用。

虽然光流在two-stream类的方法里被广泛应用并且具有很好的效果,但这里存在一个问题,就是光流在行为识别模型中到底起到了什么作用,它本身的语义信息到底是什么?通常我们认为光流代表了视频的motion信息,然后直接就将其当作一个黑盒子作为了网络的输入。

《On the Integration of Optical Flow and Action Recognition》

该文对光流在行为识别中的作用进行了深入的研究,探讨了为什么光流在行为识别中是有效的,在行为识别中怎么样的光流才是好的以及我们应该如何改进光流。

  • 光流在行为识别模型中很有效,并不是因为它能够捕捉运动信息,而主要是因为光流对图像外观(appearance)的不变性
  • 光流算法通常使用终点误差(end-point-error, EPE)来衡量,但EPE的大小与行为识别效果的好坏并没有很强的相关性。
  • 光流算法在边缘以及小位移部分的准确度对动作识别的效果的相关性比较大
  • 行为识别分类误差来训练(fine tune)光流,比起用EPE误差来能获得更好的行为识别效果
  • 用行为识别分类误差来训练得到的光流,与普通的光流的差异主要集中在人体的内部与边缘区域。

总的来说,作者得出了光流的核心作用表观不变性的结论,并认为应该改进光流。

 
 
 

你可能感兴趣的:(Deep,Learning,Temporal,Action,Detection)