动作识别之STIP (Space-Time Interest Points)(一)

读 Laptev, I. and Lindeberg, T. Interest points in space-time. ICCV ,2003.    Laptev, I. On space-time interest points. IJCV, 2005.

       这是两篇是关于时空兴趣点的经典文章,其算法称为STIP算法。文章主要分为以下几个部分:

detector

       本文利用Harris(和Forstner)角点检测器检测时空兴趣点,即在图像局部区域空间和时间轴上像素值都有显著变化的点作为时空兴趣点。该检测器能够检测出关节的运动(articulated motion),能够检测出物体的分离和融合,不会检测出在时间轴上做匀速直线运动的点。除此之外,还能检测出一些噪声点,例如行人的外套上的一些点也会被当成兴趣点。

       检测出的兴趣点与选取的时间尺度与空间尺度有关,尺度与动作发生的范围(人本身的行为特点)有关。为了使该检测器能够自适应尺度变化,先对视频在时间和空间做了尺度变换,即采用了不同尺度的高斯滤波函数。       

        时空兴趣点的求解采用如下思想:把视频看作三维的函数,寻找到一个映射函数,通过这个映射函数,将三维视频的数据映射到一维空间中,然后通过求此一维空间的局部极大值的点,而这些点也就是我们所需要的兴趣点。类比经典的Harris算法,这里扩展了一个时间维,采用高斯窗口,同理后面转换为计算一个3*3的矩阵的3个特征值,最后用这3个特征值的和以及积构成一个响应函数H,对H设定阈值来计算对应点是否为兴趣点。具体计算过程如下:

       首先进行尺度变换,将视频转换为线性尺度空间表示:

              

       其中:

           

       成一个3*3的矩阵:

              

       其中:

              

       计算u矩阵的三个特征值,得到Harris角点函数在时空域的表达形式:

                

       通过计算H的正的极大值,可以得到时空兴趣点。  

时空尺度自适应

       时空域两个尺度因子的选择不同对检测到的兴趣点有很大的影响。时间尺度因子的选择对检测到的兴趣点的影响为:时间尺度因子越大,则表明动作发生的时间越长,所以优先检测出动作持续时间长的兴趣点;反之,时间尺度因子越小,则优先检测动作持续时间短的兴趣点。同理在空间尺度因子的影响效果相同。

       通过取归一化后的在时间尺度和空间尺度拉普拉斯算子极大值,可以得到时空域内动作发生的范围,即对应的时空尺度。在使拉普拉斯算子取得极大值的同时,也使H取到极大值,就可以得到尺度自适应的时空兴趣点。具体算法如下:

       迭代更新兴趣点的尺度和位置。

       (i)选择能使拉普拉斯算子达到极大值的尺度。

       (ii)在新的尺度下重新计算兴趣点的位置。

       直到位置与尺度收敛。

descriptor

       通过上面几步,可以检测出一些时空兴趣点,但是为了区分不同动作之间以及动作与噪声之间的兴趣点,作者又对这些兴趣点进行了分类,每一类兴趣点用一个向量表示。作者采用的局部描述算子为jets描述特征,这种特征主要提取的是视频中,兴趣点的时空领域的关于运动和动作外观信息,此种描述算子的计算方法是计算时空关键点的一次到四次偏导数,组合成34维的特征向量:

           

       其中:

        

       最后使用k-means对这些特征向量进行了聚类,其中兴趣点之间的距离采用马氏距离计算。    

video interpretation

       这一节的主要内容是,在video interpretation领域怎么应用视频序列的稀疏表达,这些稀疏表达是用已经分类好的时空兴趣点计算得来的。作者通过行人检测和姿态估计做了详细的说明。 

         

在行人检测方面,作者对“行走”这一动做建立了模型,这个模型由一系列的重复特征点组成,这些特征点是一个6维的特征向量,包括位置,时间,尺度,类别等信息。在检测方面,有一系列的公式来进行模板匹配,也还没怎么真正看懂。

       后面的实验证明本文提出的自适应的时空特征兴趣点在行人检测和姿态估计取得了不错的结果,这些实验环境允许在一个背景动态环境且高度杂乱,行人有部分遮挡且尺度大小有变化。

你可能感兴趣的:(Action,Recognition)