时空动作检测Actions As Moving Points--MOC detector

1.概念
时空动作检测有两个目标,一个是识别视频中所有的动作实例,另一个是在时间以及空间上定位动作。

2.相关方法
之前的方法有基于frame-level,也就是基于每一帧先进行检测,然后通过一定的方法将基于每一帧的检测结果在时间上进行融合,但是这种方法将时间与空间的信息割裂开来处理,最终效果并不好。
基于clip-level的方法将一个视频片段作为输入,通过检测器检测出人物框,然后再通过3D网络等进行特征提取进而进行识别,这种方法要分为两个阶段进行,检测器在空间上给出动作实例的框,然后再进行动作识别的处理,这种方法对检测器的性能要求很高,并且计算量大,不利于应用。
针对以上的问题,MOC-detector基于centernet无锚框的架构设计了单阶段的检测器,这使得训练更加容易同时效果也更好。

3.MOC-detector简介
MOC-detector采用全卷积的one-stage框架,将动作实例看作一系列移动的点,并在每一帧中点的位置回归出人的位置框,如下图

时空动作检测Actions As Moving Points--MOC detector_第1张图片

MOC-detector将任务分解为三个子任务
1.中心检测 :检测动作实例的中心以及类别
2.偏移估计:估计当前帧动作实例对于中心的偏移
3.框回归:再每一帧的中心预测框大小
首先,通过2D网络对每一帧进行特征提取,其次三个分支依据特征产生结果。

1.Center Branch: Detect Center at Key Frame
时序信息对于动作检测十分重要,该分支利用了时序的信息,通过一个全卷积的结构实现,该分支的输入为每一帧的特征在时序上的拼接。
将2D Backbone输出的特征矩阵直接在时间上进行拼接,采用2D卷积来进行处理

2.Movement Branch: Move Center Temporally
这个分支通过关联相邻的帧在时间维度上来预测动作实例的中心,它利用时序信息来预测关于关键帧的中心偏移。输入与CenterBranch的输入相同

3.Box Branch: Determine Spatial Extent
与前两个分支不同,该分支没有利用时序信息,它基于当前帧进行框的预测.
该分支的输入为每一帧的特征值,在每一帧上预测框。

你可能感兴趣的:(动作识别,深度学习,计算机视觉)