Action Prediction探索

背景

由于项目组中有异常行为检测的项目,该项目需要对异常行为及时的报警,是real-time and online的检测。前期,项目研究了Action Recognition,而Recognition是对trimmed视频进行识别,而且是对发生完的动作进行识别,不适合项目的需求。而之后又探索了anomaly detection,这个是对异常事件的检测,但是异常事件检测采用重构的思想,即对正常行为进行训练,重构误差小,当一个没有见过的行为出现时,重构误差将会很大,用重构误差来判断一个行为是否属于异常事件,往往会出现误报警,即一个人突然快速走路也会判断为异常事件,不适合异常行为的场合。
因此,综合前面的探索,考虑到应用场景,因此把研究方向定到了Action Prediction。

Action Prediction定义:

根据论文SSNet: Scale Selection Network for Online 3D Action Prediction提及,Recognizing (predicting) an action before it is fully performed,即在行为没有全部发生时,便识别整个行为,这种操作就是行为预测。也称为early action recognition

调研

  1. Human Interaction Prediction Using Deep Temporal Features, ECCV2016.
    Action Prediction探索_第1张图片

通过对视频帧提取opetical flow并且转换为彩图 ,根据不同的数据集合用不同的方式选取ROI 区域,即可以通过行人检测获得每个人的box, 并merge box获得ROI。输入ROI 区域并且通过CNN 建模,获得temporal features,并对行为进行分类。
测试的时候,用前50%的数据判断视频的类型即可
2. Leveraging Structural Context Models and Ranking
Score Fusion for Human Interaction Prediction, TMM2017

Action Prediction探索_第2张图片
Action Prediction探索_第3张图片
共有两个部分的特点:
1. 将输入分为local 和 global两个部分,global部分指两个人共同的区域,local部分分为:单独每个人,每个人的上半身和下半身。分割的部分采用的是human detection,根据Human detection的bbox,进而手工计算两个人共同区域、上半身以及下半身。根据规则来设定。
2. 采用spatial + temporal信息共同判断,最终采用可学习参数的fuse,对多个model进行融合。

其中每个模块的结构如下图所示:
1. structure model (including spatial and temporal)
Action Prediction探索_第4张图片
对一个时刻下的结构进行建模和分类
2. spatial model and temporal model
Action Prediction探索_第5张图片
temporal model是对多个时刻的动作进行建模并分类

你可能感兴趣的:(action,prediction)