Spatio-temporal Fastmap-based Mapping for Human Action Recognition (动作识别 1)

原文链接(可能需要购买数据库)

人体动作检测很重要,但是很有挑战,原因在于:视场变化,遮挡,背景干扰,同一个动作的运动变化,不同动作间的模糊性。

【任何的问题域,都可以写成这种形式:xx是一个研究热点,在很多场合有很多应用,然而目前还没有解决,因为有xx之类的因素。所以提出某些解决方法。最后一句,引入下文的方法介绍。】

首先是表述问题,有两种:局部表述和全局表述。在局部表述里,有光流,空间-时间兴趣点操作符,基于词袋的局部描述符,或者那些包含特征点跟踪步骤的方法,或者身体姿态估计的方法。后一种方法可以抵抗遮挡,而且不需要背景逐差步骤。但是这些方法都有局限性,当视频质量不好,动作不连续,人体关节大范围变化,快速运动,自遮挡,外形的显著变化等等情况。而且,这些方法没有充分利用时间域或者空间域的关系,所以无法获得与动作相关的整体信息。

【任何问题,表述representation,是第一位的。我目前看到的方法就是文中说的背景逐差+光流。不看文章,就真是井底之蛙呀。】

基于最近的一点观察,人体动作可以认为是,人体轮廓在一定时间范围内的连续变化。一些基于动作的全局表达方法表明,在动作识别问题中,时间-空间的外形模型,要比身体模型更加重要。这些特征确定了身体的姿态,这些特征的变化也隐式地影响着全局动作规律和身体各个部分的运动。

【一点发现,外形模型space-time shape,是一种全局表述,这种模型更加本质。这个模型是不是就是最后一句话说的the extracted features?】

基于全局表述有两种,2D表述:MEI(Motion Energy Images),MHI(Motion History Images),3D表述:MHV(Motion History Volume),STV(Spatio Temporal Volume)。基于全局表述的解决问题思路是,先学习模板,再去匹配。

而一般模板都是高维,匹配的计算量很大,所以又出现了很多降维的方法。降维就是流行学习,常用的流形学习方法有:PCA,LLE(local linear embedding),KPCA(kernel PCA),LSTDE(Local Spatio-Temporal Discriminant Embedding),LPP(Locality Preserving Projections),NPE(Neighborhood Preserving Embedding),Isomap.

【全局表述的解决问题的思路是:先建立表述,即2D或者3D模板,再去匹配,匹配会用到各种流行学习的方法,也就是数据降维里用的各种方法。在列举降维方法的时候,作者列举了很多,当然不会列举这篇文章用的降维方法啦。还有一点,列举的方法都是比较新的方法,基本都是2008年以后的,而自己用的fastMap,是1995年的方法。不过有一点值得说的是,列举的方法的论文都是已经把方法用在动作识别的文章,而fastMap原本是纯纯的数据降维的方法,而作者把它用在动作识别这个问题上。】

本文采取的路线是“全局表述STV+FastMap降维方法+最近邻匹配NN”。

【全局表述是别人的[10],降维方法是别人的[18],最近邻就更不用说了。所以作者做的工作,就是降维方法比较老(1995年的方法),把一个曾经遗忘在历史角落的方法,用在这个新问题上,毕竟1995年做动作识别的人还是比较少。】

【点评:总的来说,这篇文章的综述写得蛮清楚,对动作检测的解决方法的归类很有条理,以及最后过渡到自己的方法。动作识别这个问题,本质上是,数据在时间域和空间域具有高度相关性,要从这样的数据中找出某种特定模式。如何表述数据在时间域和空间域的属性,就很关键了。】

【有一个很严重的问题,全局表述的方法,已经在opencv中实现了,也就是说,一般动作识别,用全局表述的占多数。而且,全局表述在2000年之前就已经提出来了。现在最要紧的是,把动作识别的最常用的方法MHI/MEI弄明白。】

你可能感兴趣的:(动作识别)