一种在RGB-D图像中检测行人的新的深度描述子

转载:http://www.tuicool.com/articles/z2mmia

一种在RGB-D图像中检测行人的新的深度描述子

Ningbo Wang,Xiaojin Gong, Jilin Liu

摘要

       随着深度摄像机技术的发展,实时同步获取高质量的深度图和彩色图成为现实。所以基于RGB-D数据的应用变得越来越流行,例如在RGB-D数据中检测人体。其中最关键的问题是找到一种更好的描述子,本文中提出一种新的用于深度图像的特征描述子, 金字塔深度自相似特征PyramidDepth Self-Similarities ( PDSS )。此描述子是基于 人体的深度信息具有高度局部自相似性 的思想。通过Kinect传感器收集RGB-D数据,实验证明PDSS是 深度方向直方图Histogramof Oriented Depth ( HOD )描述子的有效补充。此外,HOG、HOD和PDSS三种方法的综合可提高检测性能。

1  引言

       行人检测是计算机视觉领域内的一项重要任务,可以用在很多和我们的日常生活相近的地方,例如机场监控和驾驶员辅助系统。由于RGB-D摄像机技术的发展,尤其是Kinect传感器的发明,使得实时获取高质量的深度图和彩色图成为现实。在行人检测中利用深度信息有可能改善检测性能,但很具有挑战性。本文旨在解决这一问题。

       一般来说,行人检测是在单张图片中进行,包括三个关键问题: 特征 , 分类 ,检测策略 。获得更好的检测效果的关键是找到好的特征,因为人体会有不同的体型和外表。形状、外表、梯度 [6,3,13] 特征是较通用的选择。Dollar等 [4] 评价了几种目前最高水平的方法,结论表明没有任何单一特征可超越 梯度方向直方图Histogramof Oriented Gradients ( HOG ) [3] ,但额外特征可提供补充信息。例如, 局部二值模式Local Binary Pattern ( LBP ) [15] 和 颜色自相似特征ColorSelf-Similarities ( CSS ) [14]是HOG的不错补充。分类器用机器学习的方法进行训练,SVM [2] 、AdaBoost [5] 、以及这两种方法的变种效果最好。在检测阶段,最常用的方法是尺度空间的 滑动窗口搜索 加上 非极大值抑制 ( NMS , Non Maximum Suppression)。

       使用深度信息进行人体检测较为新颖,目前的相关研究工作不多。[1][10]中分别使用立体视觉和LADAR信息,这两种方法都需要 估计地平面 。Spinello和Arras[12]受HOG的启发提出了深度方向直方图Histogram of Oriented Depth(HOD)特征,使用Kinect获得的深度数据。然而,Kinect产生的深度图中有一些无效区域,例如人体边界、反光地面、远距离图像和吸收红外光的物体表面,见 图1 。如果没有合适的图像修复技术,这些区域可能给检测结果带来不利影响,所以HOD没有能够利用好深度信息。

一种在RGB-D图像中检测行人的新的深度描述子_第1张图片

图1 ,实验中的一些场景。第二行图片显示在深度图中存在一些无效区域(黑色区域)。

       本文中提出一种用于深度图的强壮的描述子, 金字塔深度自相似Pyramid DepthSelf-Similarities ( PDSS )。PDSS的基本思想是人体表现出结构性可从背景中区分出来,并且 人体的深度信息具有高度局部自相似性 。在我们的实验中,PDSS可应对Kinect的固有缺点,是HOD方法的有效补充。HOG、HOD和PDSS三种方法联合起来可达到更好的检测效果。

2  PDSS : Pyramid Depth Self-Similarities

       在深度图中,深度值在不同场景中变化很大,所以不能直接对深度值进行编码。此外,人体表现出一些结构性,其中的深度信息是局部相似的。例如,人的头部、手臂和躯干位于相似的深度级别。基于此事实,我们采用二阶深度统计作为特征提出了Pyramid Depth Self-Similarities (PDSS)。它比彩色图片检测中常用的 共现直方图co-occurrencehistogram [16] 的特征维数要低。我们提出的方法主要包括 快速直方图化 ,空间金字塔表示 和 直方图对比 ,见 图2 。

一种在RGB-D图像中检测行人的新的深度描述子_第2张图片

图2 ,用于深度图的PDSS描述子的主要内容。

     PDSS的核心部分是对比局部区域的相似性。为了描述深度信息的局部自相似性,我们将固定尺寸的检测窗口划分成cell。受LBP的对比机制的启发,我们比较中心cell和其周围8个相邻cell的深度直方图的相似性(见 图2 ),比较结果被依次串接起来形成一个8维向量。因此,这个8D向量可表示一个cell与其周围区域的相似性。描述相似性的维数远低于 CSS特征 [14] ,CSS中对比一个cell与检测窗口中所有剩余cell的相似性。我们选用直方图交叉来测量相似性,因为此方法计算速度快且结果较好,由 公式(1) 定义:

其中,H 1 和H 2 是两个直方图,H 1 (i)和H 2 (i)是对应直方图的第i个bin的值。

       为了高效的计算深度直方图,图片的 深度被划分为H个相等间隔 ,来构建一个H层的二进制映射,可以用其非零值表示像素的深度级别。通过统计cell内每个深度级别上的像素值的和来得到直方图。可以使用积分图来加速计算,因此可以高效计算cell的深度直方图。

       空间金字塔表示 ( SPR , Spatial Pyramid Representation) [7] 常用于将局部特征的空间分布组织起来。为了更好地编码描述子,我们使用SPR来组织空间信息。在SPR中,金字塔层图像被划分为越来越精细的网格序列。从所有cell中提取的特征被串接在一起形成一个向量。这种编码方法确实提高了图像分类的性能。为检测窗口建立L层金字塔,第l层被划分为S l 个cell。因此,检测窗口总共有   个cell,共L种尺寸,特征维数为n*8。

3  实验

       本节讨论描述子的实验评价,包括实现细节。实验是在Kinect从各种环境中收集的RGB-D图像上进行的。

3.1  数据集

       我们用Kinect传感器在7个不同光照条件的室内场景中收集数据,包括教室、餐厅、医院、会议室、超市、宿舍走廊和图书馆。 图3 中展示了一些典型样本,其中人体的外表和姿态变化万千。

       根据经验,2.5米距离内人体的像素高度太大,整个人体无法在VGA分辨率的图片中显示。同样,超过9米以后,深度信息变得不可靠。因此,收集的数据多数位于2.5米到9米之间。我们手动剪裁图片,得到总共2852对正样本(见 图3 ),还有10000对负样本来进行 自举 ( bootstrapping )训练。负样本从不含人体的图片中随机取样获得。

一种在RGB-D图像中检测行人的新的深度描述子_第3张图片

图3 ,不同场景中获得的RGB-D人体样本。人体的姿态、外表、衣服各不相同。有一些有部分遮挡,还有一些光线很差。

3.2  实现细节

       对于一对RGB-D图像,首先要提取彩色图和深度图的特征,然后进行联合检测。

       彩色图描述子

       由于局部灰度值梯度或边缘方向的分布可以很好地描述人体的外表和形状,所以HOG特征是最优选择。通过空间三线性插值、高斯权重和高质量局部对比度归一化来计算直方图可以使HOG有更好的表现,但会有一定的计算代价。考虑到实时应用,我们使用经过改动的HOG,与 [8][15] 中所述类似,维数为3780维。略微牺牲性能的前提下可加速10倍。 图4 显示了高效HOG的主要计算步骤。

一种在RGB-D图像中检测行人的新的深度描述子_第4张图片

图4 ,高效HOG的主要处理步骤,有两个关键点:(1) 计算水平和垂直梯度并通过  来统计方向。(2) 使用 [15] 中提到的高斯卷积核来加权方向映射,如此来替代直方图化。

       深度图描述子

       Spinello和Arras [12] 基于HOG提出了HOD特征,在深度图上遵循和HOG同样的处理流程。我们将HOD和PDSS描述子串接起来作为深度图的特征向量,在实验中PDSS的参数为H=16,L=2,深度特征维数为5060维。

       联合检测

       为了进行快速检测,我们根据 [12] 中的 预知深度信息的尺度空间 ( Depth-Informed Scale Space , DISS )方法构建了层次化的 深度-尺度映射 ,这是基于人体只会出现在兼容尺度内这一事实。然后,根据 [12] 中的DISS搜索方法在一对图像上进行多尺度滑动窗口检测。使用线性SVM来训练分类器。在图像中检测到人体的概率P由下面的公式(2) 定义:

其中P C 和P D 分别是从彩色图检测器和深度图检测器中得到的概率,这些概率是用一个sigmoid函数从线性SVM的响应值中转化而来的。k是一个权重因子,根据 [12] 中的方法训练获得。此公式说明当深度信息不可用时,检测结果由HOG检测器来定义。

3.3  结果

       为了验证PDSS的性能,我们在包含1704个人体的700对图像上进行了多尺度检测实验。在 双对数坐标系 ( log-log plot )中画Detection Error Tradeoff( DET )图( 不懂 )。 图5 中,曲线越靠近下方,性能越好。在10 -4 FPPW时,HOG+HOD比单独的HOG或HOD方法表现好。由于光线的变化,HOG表现不佳,深度信息在一定程度上有帮助。

       在深度图中,垂直于Kinect图像平面的边缘会产生无效点( ? ),这些点的深度信息是零,会被HOD特征用来计算梯度。如果没有合适的修复过程,任何折中方法都会影响梯度计算。由于柱状目标的边缘信息与人体相似,HOD会加重此消极影响,引起误报。PDSS不直接编码边缘信息,而是使用二阶统计信息来编码,因此是HOD特征的较好补充。所以HOD+PDSS比单独的HOD或PDSS方法表现要好,而HOG+HOD+PDSS是表现最好的。

一种在RGB-D图像中检测行人的新的深度描述子_第5张图片

图5 ,DET曲线。HOG+HOD+PDSS表现最好

       最后,使用HOG+HOD+PDSS检测器进行行人检测,并用 非极大值抑制 ( NMS , Non-Maximum Suppression)筛选结果。 图6 中是检测结果。

一种在RGB-D图像中检测行人的新的深度描述子_第6张图片

图6 ,HOG+HOD+PDSS检测结果示例。第一列中,检测器可在弱光条件下发现人体;第二列中,出现漏检(False Negative);第三列中,出现误报(False Positive)。

4 总结

       本文介绍了一种用于深度图的新的描述子PDSS。PDSS基于人体通常位于同一深度级上并且局部深度有很高的相似性这一思想。在实验中,我们将HOD+PDSS与HOD和PDSS分别比较,结果说明PDSS可做HOD的补充,而HOG、HOD+PDSS的联合表现最好。虽然联合检测器表现不错,但仍有改进空间,未来还将研究结合这两种检测器的方法。

论文下载: http://download.csdn.net/detail/masikkk/6949151

指导教师浙大龚小谨教授个人主页: http://mypage.zju.edu.cn/gongxj/609827.html

主要引文 People detection in RGB-D data [2011 IROS] 翻译: http://blog.csdn.net/masibuaa/article/details/19640709

你可能感兴趣的:(图像处理)