论文Action Tubelet Detector for Spatio-Temporal Action Localization解读

论文链接

https://arxiv.org/abs/1705.01861

动机

当前的行为定位算法都是在每一帧上进行目标检测得到空间定位,再连接每一帧上的检测结果得到时间上的定位。这种方式将每一帧作为独立的输入,没有将视频帧的时间连续性特征信息考虑进去,容易造成检测结果的模糊

贡献

提出一个Action Tubelet detector (ACT-detector),输入多帧连续视频帧,输出预测行为在多帧上的多个bbox构成的anchor cuboids,然后对每个bbox进行精修得到预测行为的tubelets。由于ACT-detector考虑到多个视频帧的连续性特征,从而能够减少行为预测的模糊性,同时提高定位准确度

算法

论文Action Tubelet Detector for Spatio-Temporal Action Localization解读_第1张图片

ACT-detector

  1. 使用SSD作为目标检测的算法,用于预测anchor cuboid
  2. 将K帧连续视频帧输入SSD,每一帧共享网络权重,预测行为在每一帧上的anchor大小及其类别,回归得到每个anchor cuboid的精修值4K个,表示anchor cuboid在K帧上每个bbox的微调值,微调后获得更准确的tubelet
  3. 卷积核的感受野比anchor cuboid的bbox尺度更大,从而能提取anchor cuboid的上下文信息
  4. 训练损失:只使用存在行为的视频片段进行训练,排除了视频开始和结束的一些帧序列。
    在这里插入图片描述表示预测的anchor cuboid集合
    在这里插入图片描述表示和真值tubelets的IoU大于0.5的anchor cuboid集合
    在这里插入图片描述表示和真值tubelets的IoU小于0.5的anchor cuboid集合
    在这里插入图片描述表示第i个anchor cuboid与真值标签为y的tubelets中的第j个进行匹配计算loss,匹配为1,不匹配为0。集合在这里插入图片描述中的anchor cuboids是有真值匹配的,而集合在这里插入图片描述中的anchor cuboid是没有真值匹配的
    在这里插入图片描述表示anchor cuboids和真值匹配的个数
    在这里插入图片描述
    在这里插入图片描述
    论文Action Tubelet Detector for Spatio-Temporal Action Localization解读_第2张图片

双流ACT-Detector

训练两个目标检测器,一个输入连续K帧RGB图片,另一个输入连续K帧光流图。两个的输出都是tubelets。对两个流的结果融合方式做了对比实验,一个是union fusion,即对两个流的输出tubelets集合进行并操作得到最终结果,另一个是late fusion,即对两个流中的anchor cuboid的置信度进行平均,但只使用来自RGB流的anchor cuboid进行下一步的bbox精修

把action tubelets转变为spatio-temporal tubes

t表示一个tubelet,L表示tubelet的link,即多个tubelet相连后的大tubelet

  1. 输入的tubelets:首先对视频中的每K帧输入ACT-Detector提取tubelets。前一个K帧输入和后一个K帧输入有K-1帧重叠。在对多个tubelet进行连接时,使用NMS只为每个类保留置信度最大的N个tubelet进行连接
  2. 一个link和一个tubelet之间的重叠:用link的最后一个tubelet和当前想要连接到link上的tubelet的对应的bbox计算mIoU,作为link和当前tubelet的IoU
  3. 初始化:在一个新的帧上,创建一个新的link,用于连接 N个tubelets。如果一个帧和当前任何link都不相关,就重新创建一个link
  4. 连接tubelets:对于当前帧f,对当前存在的links根据其score进行降序排序,每一个link的score是当前其连接的所有tubelet的score的平均值。一个候选tubelet要连接一个link,需要满足(1)该tubelet还未被其他link连接 (2)有最高的置信度 (3)L和tubelet的重叠要大于threshold
  5. 终止:当连续K个或更多帧不满足4的要求时,连接终止
  6. 时序上的平滑:要让连接好的tubelet links变成action tubes,需要进行时序上的平滑。在每一帧上,对通过该帧的tubelet的box的坐标求平均值,作为新的坐标。

实验

数据集

UCF-Sports dataset,J-HMDB dataset,UCF-101 dataset

评价指标

IoU:预测tube和真值tube的每个bbox的IoU的平均,当IoU>0.5,则为TP
mAP,Recall,MABO (Mean Average Best Overlap)

结果

论文Action Tubelet Detector for Spatio-Temporal Action Localization解读_第3张图片
论文Action Tubelet Detector for Spatio-Temporal Action Localization解读_第4张图片
论文Action Tubelet Detector for Spatio-Temporal Action Localization解读_第5张图片
论文Action Tubelet Detector for Spatio-Temporal Action Localization解读_第6张图片

优缺点

优点

  1. 对视频中的人体动作实现空间和时间上的定位分类

缺点

  1. 在双流act-detector中,光流估计非常耗时,加上后续处理,难以做到实时
  2. 后续选择多个tubelets连接成action tube,计算复杂,理解较为困难

反思

  1. 对于时空上的行为检测,是否可以研究一种能直接在空间维度和时间维度上进行预测的行为检测算法,输入一个视频,直接预测得到多个三维的anchor cuboid?
  2. 文中说检测时考虑了连续帧之间的时序关系,但是在预测bbox时感觉还是对单独每一帧提取特征再进行目标检测,并没有提取帧之间的时序关系
  3. Two-stream ACT-detector中的motion detector是否也用SSD进行目标检测?如何使用光流图进行目标检测?

你可能感兴趣的:(行为检测)