时序动作检测

最终的结果是得到图像或视频段中目标的行为类别。视频中人体行为识别主要分为两个子方向。

行为分类/识别 Action Recognition

  • 给定一个包含一段明确的动作的视频片段进行分类,使用的视频序列数据都先将动作分割好了,时间较短(几秒钟)且有唯一确定的标签。所以也可以看作是input为视频,输出为label。

时序动作检测 Temporal Action Detection
主要解决的是两个任务:localization+recognization

1)where:什么时候发生动作,即开始和结束时间;
2)what:每段动作是什么类别
一般把这个任务叫做Temporal Action Detection,有的直接叫Action Detection,还有叫Action Localization、

  • 数据是未分割的较长视频序列,不仅要知道一个动作在视频中是否发生,还需要知道动作发生在视频的哪段时间(包括开始和结束时间)(行为检测 Temporal Action Localization)
  • 特点是需要处理较长的、未分割的视频,且视频中通常有较多干扰,目标动作一般只占视频的一小部分。也可以说是对视频进行指定行为的检测

你可能感兴趣的:(计算机视觉,深度学习)