行人检测 特征 典型方法

1.行人特征

行人特征描述子可以分为三类:底层特征,混合特征和基于学习的特征。底层特征指的是颜色、纹理和梯度等基本的图像特征。这些单一特征可以计算速度快,并且可以利用积分图技术快速计算,但是只从某一方面如梯度或者纹理来描述行人特征,判别力较差。混合特征指的是多种底层特征的融合,或者是底层特征的高阶统计特征。这种特征能从不同的侧面来刻画图像特征,提高检测的准确率,但是随着特征的维度增加,特征的计算和分类器的检测时间也增加,影响实时性。基于学习的特征目前一般是指神经网络直接从原始图像学习得到的特征。这种特征能从大量的样本中学习出判断能力较强的特征,在行人检测中表现很出色,但是它的计算依赖高性能的硬件,也和训练样本密切相关,若样本不具有代表性,很难学习到好的特征。

用于行人检测的底层特征主要包括Haar, HOG, LUV, LBP等。Haar特征由VJ在应用到人脸检测中,其特征的简单表示如图所示。每一个特征值对应为图中一个矩形区域块的计算结果,在计算时通过黑色部分像素之和减去白色部分像素之和得到。对同一个区域块做计算时,不同的计算方法将得到同一个区域块不同的特征值。

行人检测 特征 典型方法_第1张图片

Dalal等提出的HOG[2] 特征是目前最有效的行人单一特征描述子。HOG刻画了图像的局部梯度幅值和方向特征,基于梯度特征,对块的特征向量进行归一化处理,允许块之间相互重叠,因此对光照变化的小量的偏移并不敏感,能有效地刻画出人体的边缘特征。HOG尤其缺点:维度高、计算慢。针对这些缺点,Zhu等[3]允许HOG中块大小可变,利用积分直方图技术来快速计算HOG特征,通过Adaboost 算法选择判别能力较强的块,然后构建级联分类器,该方法的检测速度比Dalal等的快将近70倍。Wojek等[4]则采用并行技术,在GPU上实现HOG,构建了一个实时的行人检测系统。

LBP 最早是由Ojala等[5]提出的一种用于纹理分类的特征提取方法,广泛应用在人脸识别中。Mu等[6]根据行人的特点,提出 LBP 的两个变种:Semantic –LBP( S -LBP) 和Fourier LBP (F-LBP)。Wang等[7]则简单地将局部图像块的LBP直方图特征串联起来作为行人的特征描述子,其检测性能不比S-LBP差,但Walk等[8]在其它行人数据集上的实验表明 HOG 与 LBP 特征的结合并没有提高检测性。究其原因是 LBP 在图像比较模糊或者光照变化强烈等成像条件较差时,不能有效地刻画出纹理特征。与LBP特征类似的有,Wu等[9]提出的CENTRIST特征,即 CENsus TRansformhISTogram。该特征能刻画场景的全局信息,最早用在场景分类中。2011年Wu等将CENTRIST应用在行人检测中[10],利用积分图技术快速计算该特征,并与级联分类器相结合构建了一个实时的行人检测系统。

颜色特征如LUV,是最基本的图像特征,易受光照的影响,不适合作为行人的特征描述子,但是由于人体的结构具有相对的稳定性,不同部位的颜色之间差异较小,因此Walk等[11]提出了颜色自相似特征来刻画局部块特征之间的相互关系,与HOG特征相结合,大大提高了检测性能。

Dollar等提出的积分通道特征[12]是一种典型的混合特征。他利用积分图技术对图像的各特征通道,如局部和,梯度方向直方图和哈尔特征等进行快速计算。该方法不仅将多特征有机结合起来,且解决了多特征融合计算速度慢的特点。2014年,Dollar等又提出了使用近似计算构建聚合多通道特征的特征金字塔的方法[13]。这种方法采用的混合特征包括LUV颜色特征、梯度幅值和梯度方向直方图,利用相邻尺寸之间特征比与尺寸比的幂指关系近似计算图像的多尺寸特征构建特征金字塔。

基于学习的特征一般是神经网络的特征,如使用卷积神经网络提取的特征。卷积神经元每一个隐藏层的单元提取图像的局部特征,将其映射成一个平面,特征映射函数采用sigmoid函数作为卷积网络的激活函数,使得特征映射具有平移不变性。每个神经元与前一层的局部感受野相连。卷积神经网络通过局部感受野,共享权值和亚采样来保证图像对位移、缩放和扭曲的鲁棒性。

2.行人检测典型方法

目前用于行人检测的方法大致可以分为两类:手工设计模型和深度学习模型。手工设计模型使用人工设计的特征,如HOG,LBP等以及它们之间的组合,分类器一般采用SVM或增强学习等。深度学习模型使用卷积和池化操作从原始图像中提取卷积特征,并使用全连接层作为行人分类器。

手工设计模型又称为传统方法。VJ等[1]采用Adaboost和多尺度Haar小波过完备基结合的方式进行行人检测,并利用用积分图来完达到快速特征计算的目的。Dalal等[2]提出了HOG特征用于行人的特征描述,并通过实验证明HOG比基于灰度的特征更富有信息,同时利用线性SVM作为分类器。这种方法是速度和效果综合平衡性能较好的一种行人检测算法,后来很多种改进的算法都是以该算法作为基本框架。因此HOG+SVM作为一个里程碑式的算法被写入到OpenCV中。2007年,PedroFelzenszwalb等提出了DPM[14]的模型,其大体思路与HOG一致,首先计算梯度方向直方图,然后使用SVM训练得到物体的梯度模型。为了适应物体的运动和变形,加入子模型检测物体的子部件,这种方法取得了很好的检测效果,连续获得VOC 07,08,09年的检测冠军。Dollar等首次使用了融合多种通道的特征[12],采用局部和,梯度方向直方图和哈尔作为行人的特征描述子,并且借助于积分图来快速地计算,分类器采用AdaBoost。并且通过实验证明多种通道特征比单一HOG特征具有更好的性能。2014年Dollar等又提出快速构建特征金字塔的方法[13],使用了LUV颜色特征、梯度幅值和梯度方向直方图组成的聚合多通道特征,使用AdaBoost方法检测行人。这种方法在640×480的图片上达到每秒30帧的检测速度,基本接近实时检测。

深度学习模型模拟了人脑的视觉感知系统,从原始图片中直接提取特征,特征通过逐层传递,,获得图片的高维信息,使得其在计算机视觉领域取得了巨大的成功。随着深度神经网络日趋火热,深度学习模型也被大量的应用于行人检测中。Ouyang等[15]使用深度模型从图片中提取特征,通过网络学习人体子部件的可见性处理行人检测中的遮挡问题。Sermanet等[16]利用卷积稀疏编码非监督训练卷积神经网络,并将其应用于行人检测。Tian等[17]通过对行人的标注加入语义信息如背包,骑车等来训练网络,取得良好的效果。

[1] P. Viola, M. J. Jones, and D.Snow, “Detecting pedestrians using patterns of motion and appearance,” IJCV,vol. 63, no. 2, pp. 153–161, 2005.

[2]N. Dalal, and B. Triggs, “Histograms of oriented gradients for human detection,”in CVPR, 2005, pp. 886- 893.

[3]Q. Zhu, C. Yeh, and T. Cheng, “Fast human detection using a cascade of histogramsof oriented gradients,” in CVPR , 2006, pp. 1491- 1498.

[4]C. Wojek, and B. Schiele, “A performance evaluation of single and mult- ifeature people detection,” in DAGM, 2008.

[5]T. Ojala, M. Pietikainen, and D. Harwood, “A comparative study of texturemeasures with classification based on feature distributeons,” PatternRecognition, 1996, vol. 19, no. 3, pp. 51- 59.

[6]Y. Mu, S. Yan, and Y. Liu, “Discriminative local binary patterns for pedestriandetection in personal album,” in CVPR, 2008.

[7]X. Wang, X. Han, and S. Yan, “A HOG - LBP human detector with partial occlusionhandling,” in ICCV, 2009.

[8]S. Walk, N. Majer, and K. Schindler, “New features and insights for pedestriandetection,” in CVPR, 2010.

[9]J. Wu, and J. Rehg, “CENTRIST: A visual descriptor for scene categorization,” PAMI,vol. 33, no. 8, pp. 1489- 1501, 2011.

[10]J. Wu, C. Geyer, and J. Rehg, “Rea- l time human detection using contour cues,”in ICRA, 2011, pp. 860- 867.

[11]S. Walk, N. Majer, and K. Schindler, “New features and insights for pedestriandetection,” in CVPR, 2010.

[12]P. Dollar, Z. Tu, and P. Perona, “Integral channel features,” in BMVC, 2009, pp.1-11.

[13]P. Dollar, R. Appel, S. Belongie, and P. Perona, “Fast feature pyramids forobject detection,” PAMI, vol. 36, no. 8, pp. 1532–1545, 2014.

[14]P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, ”Objectdetection with discriminatively trained part-based models,” PAMI, vol. 32, no.9, pp. 1627–1645, 2010.

[15]W. Ouyang and X. Wang, “A discriminative deep model for pedestrian detectionwith occlusion handling,” in CVPR, 2012, pp. 3258–3265.

[16]W. Ouyang and X. Wang, “A discriminative deep model for pedestrian detectionwith occlusion handling,” in CVPR, 2012, pp. 3258–3265.

[17] Y. Tian, P. Luo, X. Wang, and X. Tang,“Pedestrian detection aided by deep learning semantic tasks,” in CVPR, 2015,pp. 5079–5087.

你可能感兴趣的:(Pedestrian,Detection)