行为识别综述笔记

阅读文章来自:http://blog.csdn.net/endeavor_yuan/article/details/52045740


一、关键词:行为识别、特征提取、全局特征、局部特征。

 

二、分类体系:

Turaga,第五篇论文的作者将人体识别分为movement/action/activity,即移动、动作、行为识别。这三种分类分别是低层视觉,中层视觉和高层视觉。

第九篇论文的作者将2D的3D作为区分研究人体行为的区分特征。

[7], Aggarwal将人体行为研究分为2大类,其一是基于单个层次来实现,其二是基于等级体系来实现。单层实现由分为时空特征和序列特征2种,等级体系实现分为统计方法,句法分析法和基于描述的方法3种。


三、特征分类

全局特征是把一对象当做成一个整体,这是一种从上到下的研究思维。这种情况下,视频中的人必须先被定位出来,这个可以采用背景减图或者目标跟踪算法。然后对定位出来的目标进行某种编码,这样就形成了其全局特征。这种全局特征是有效的,因为它包含了人体非常多的信息。然而它又太依赖而底层视觉的处理,比如说精确的背景减图,人体定位和跟踪。而这些处理过程本身也是计算机视觉中的难点之处。另外这些全局特征对噪声,视角变化,遮挡等非常敏感。

局部特征提取是收集人体的相对独立的图像块,是一种从下到上的研究思维。一般的做法是先提取视频中的一些时空兴趣点,然后在这些点的周围提取相应的图像块,最后将这些图像块组合成一起来描述一个特定的动作。局部特征的优点是其不依赖而底层的人体分割定位和跟踪,且对噪声和遮挡问题不是很敏感。但是它需要提取足够数量的稳定的且与动作类别相关的兴趣点,因此需要不少预处理过程。

四、全局特征

//为了提前剪影信息

Wang[21]等人利用r变换获取了人体的剪影

Hsuan-Shen[22]则提取了人体的轮廓,这些轮廓信息是用星型骨架描述基线之间夹角的,这些基线是从人体的手,脚,头等中心延长到人体的轮廓。

Wang[23]同时利用了剪影信息和轮廓信息来描述动作,即用基于轮廓的平均运动形状(MMS)基于运动前景的平均能量(AME)两个模板来进行描述。

当把轮廓和剪影模板保存下来后,新提取出的特征要与其进行比较,Daniel[24]采用欧式距离来测量其相似度,随后他又改为用倒角距离来度量[25],这样就消除了背景减图这一预处理步骤。

除了利用轮廓剪影信息外,人体的运动信息也经常被采用。比如说基于像素级的背景差法光流信息等。当背景差法不能很好的工作时,我们往往可以采用光流法,但是这样经常会引入运动噪声,Effos[26]只计算以人体中心点处的光流,这在一定程度上减少了噪声的影响。

在三维空间中,通过给定视频中的数据可以得到3D时空体(STV)STV的计算需要精确的定位,目标对齐,有时还需背景减图。

Blank[27][28]等人首次从视频序列中的剪影信息得到STV。然后用泊松方程导出局部时空显著点及其方向特征,其全局特征是通过对这些局部特征加权得到的。

为了处理不同动作的持续时间不同的问题,Achard[29]对每一个视频采用了一系列的STV ,并且每个STV只是覆盖时间维上的一部分信息。

还有一种途径是从STV中提取相应的局部描述子,这一部分将在局部特征提取一节中介绍,在这里,我们还是先把STV特征当做是全局特征。

Batra[30]存储了STV的剪影,并且用很小的3D二进制空间块采样STV

Yilmaz[31]提取了STV表面的不同几何特征,比如说其极大值点和极小值点。

学者Keel[32]将剪影的STV和光流信息结合起来,作为行为识别的全局特征。

五、局部特征

行为识别中的局部特征点是视频中时间和空间中的点,这些点的检测发生在视频运动的突变中。因为在运动突变时产生的点包含了对人体行为分析的大部分信息。因此当人体进行平移直线运动或者匀速运动时,这些特征点就很难被检测出来

检测STIP

Laptev[33]Harris角点扩展到3D Harris,这是时空兴趣点(STIP)族中的一个。这些时空特征点邻域的像素值在时间和空间都有显著的变化。在该算法中,邻域块的尺度大小能够自适应时间维和空间维。

 

Dollar[34]指出上述那种方法存在一个缺点,即检测出来稳定的兴趣点的数量太少,因此Dollar单独的在时间维和空间维先采用gabor滤波器进行滤波,这样的话检测出来兴趣点的数目就会随着时间和空间的局部邻域尺寸的改变而改变。

类似的,Rapantzikos[35]3个维度上分别应用离散小波变换,通过每一维的低通和高通的滤波响应来选择时空显著点。同时,为了整合颜色和运动信息Rapantzikos[36]加入了彩色和运动信息来计算其显著点。

 

Wong[37]首先检测与运动相关的子空间中的兴趣点,这些子空间对应着一部分的运动,比如说手臂摆动,在这些子空间中,一些稀疏的兴趣点就被检测出来了。类似的方法,Bregonzio[38]首先通过计算后面帧的不同来估计视觉注意的焦点,然后利用gabor滤波在这些区域来检测显著点

你可能感兴趣的:(行为识别)