On Space-Time Interest Points --时空关键点

2005年发表在IJCV上的一篇论文,被引4727次:On Space-Time Interest Points
代码:code

这篇论文在视频分类和行为识别方面应用很广,由于在(我们上周提到的一种时空无监督的事故检测方法,使用堆叠自编码器)《Deep Spatio-Temporal Representation for Detection of Road Accidents Using Stacked Autoencoder 》中提到检测碰撞的一种方法是识别时空维度上车辆轨迹的交点joint,(就是在这里作者引用了今天提到的这篇论文,目的是使用时空兴趣/关键点上的轨迹或密集轨迹去识别轨迹相交)其中,识别轨迹交点包含两个我比较疑惑的问题:

  • 如何获得车辆轨迹
  • 如何识别轨迹相交

下面先讲一下今天这篇论文的主要内容:
本文提出了什么是时空关键点(space-time interest points),基于时空关键点的核心思想是:视频图像中的关键点通常是在时空维度上发生强烈变化的数据,这些数据反映了目标运动的重要信息。
比如下图,一个在鼓掌的人,他的手掌一定会在前后帧中发生最大移动,手掌周围的图像数据发生变化最大,而这个人的身体其他部位变化很小,数据几乎保持不变,如果能将这个变化数据提取出,并进一步分析它的位置信息,就可以用于区分其他动作。足球场的足球亦如是。
On Space-Time Interest Points --时空关键点_第1张图片
时空关键点的提取方法是对空间关键点方法的扩展,本文时空关键点是将2D 的 Harris 关键点检测算法推广到了3D维度,具体求解比较复杂。
另外作者提到在进行视频关键点提取时,正确选择关键点的空间和时间尺度是重要的,因为需要正确估计事件的时空范围,这有利于进一步解释事件。为此,作者提出了一种时空关键点尺度自适应算法
On Space-Time Interest Points --时空关键点_第2张图片
我觉得下图是最能反应本文时空关键点的核心思想的:因为2D的Harris关键点检测器是找出2维图像值在水平方向和竖直方向都有显著变化的空间位置,时空关键点仅加了一个时间维度,其思想是通过要求局部时空体中的图像值沿空间和时间方向都有较大的变化来扩展空间域中兴趣点的概念,具有此类特性的点将对应于具有不同时间位置的空间兴趣点,对应于具有非恒定运动的局部时空邻域。也就是说对匀速直线运动不感冒。通常匀速直线运动确实也不是我们需要的内容,比如静止的背景,匀速直线运动的车辆(不会发生事故),在《Deep Spatio-Temporal Representation for Detection of Road Accidents Using Stacked Autoencoder 》中的目的是找到时空关键点的轨迹去判断是否有轨迹相交,相交即碰撞(区分碰撞与遮挡看后续轨迹是否异常),因此这篇论文我看的目的是想知道为什么论文里说使用STVV时空体积块而不是整个视频可以降低计算量,是因为先得到了时空兴趣点,再去获得时空兴趣点上的轨迹,而不是使用整个视频的STVV块,对于一开始提到的如何获得轨迹以及如何判断轨迹相交在下一篇博客描述。
On Space-Time Interest Points --时空关键点_第3张图片

你可能感兴趣的:(人工智能,计算机视觉,算法)