使用非对称和对像检测抗包装表示模型

在本文中,我们提出了目标检测的非对称性和反包装对像模式表示模型(NAM)。一组独特的子模式(对像部分)从一组对像类的样本图像构造; 对像图案然后使用子模式表示,连同空间关系的子模式中观察到的。许多特征描述符可以被用来描述这些子patterns.The NAM模型码对像类别的全局几何形状,并与对像的局部变化子模式处理的局部特征描述符。通过使用边缘方向直方图(EDH)功能在图像内描述的本地子图案轮廓形状,我们发现,更丰富的形状信息是提高识别性能有帮助。在此基础上表示,几种学习分类器用于检测新形像的对像类的实例。对各种类别的实验结果表明,我们的方法提供了图像内的对像的成功的检测。

一节
介绍
在本文中,我们考虑的检测和定位一个通用类的对像,如静止图像马或汽车的问题。 这是一个困难的问题,因为在一个类别的对像可以在形状和外观变化很大。 变化不仅源于在照明,闭塞,背景杂波和角度的变化,也由于非刚性变形,以及类内变化的形状和其他可视属性在富类对像之间。
我们如何应对变化,特殊的内部类对像带来的变化? 目前大多数的研究都集中在建模对像的变化,其中包括几种变形模板模型的[1,2],以及各种基于部分的,基于片段的模型[3,4,5,6,7,8, 9。 有几种可能来表示对像类。 星形形状模型[10,11]可以容易地训练和在对比合成模型[12]或复杂的图形模型[13]进行评价。 它允许根据需要,由于复杂线性扩展使用尽可能多的零件。 此外,这种模式具有足够的灵活性以应对物体形状和刚性和铰接式结构的出现大的变化。
Leibe 等人的方法。 [14]给出了对像的形状,可以结合在不同的训练实例中观察到的信息的高度灵活的学习表示。 奥佩尔特等人 [9]探索一个相似的几何表示该Leibe 等人 。 [14],但使用对像,内部和外部(轮廓)的唯一的边界。
图画结构模型[5,15]通过设置在可变形的配置,其中可变形配置由成对部件之间的弹簧状的连接表示零件的集合表示一个对像。 克兰德尔等人提出的K-风扇模型[16]研究哪个部分之间的额外空间限制在检测和定位实际上有帮助的程度。 从[6]零件模型的拼凑相似,但它明确地考虑如何重叠部分的外观模型交互来定义图像密集的外观模型。 实践证明,增加空间的限制提供了更好的性能。
另一种方法是建立一个功能集[17,18,19,20]认为是稳健的局部变量形状和各种姿势。 洛韦[17]提出了一种尺度不变特征变换(SIFT),它结合了一个尺度不变区域检测器和根据在所检测的区域中的梯度分布的描述符。 几何直方图[21]和形状方面[18]计算描述的区域中的边缘分布的直方图。 这些描述符被成功使用,例如,形状识别为哪些边缘可靠特征图纸。 HOG [22]类似于边缘取向直方图[19,20],尺度不变特征转换描述符[17],和形状上下文[18]的,但不同之处在于它在均匀间隔的格子和用途的致密网格重叠的局部对比度正常化以提高精度。
我们的方法有两种方法来处理对像的变化,全局和局部。 首先,我们提出了一种非对称和反填料对像模式表示模型(NAM)表示对像类别。 不结盟运动对像模型由若干本地零部件,我们把它称为子模式。 该模型的通用代码的可视对像类别,有链接目标模式的子模式空间关系的全球几何。
其次,子模式的建议的描述符可以处理对像的局部变化。 形状根据信息已被选定为局部特征的关键组成部分。 审查存在基于边界的描述后,我们的实验显示该边缘方向的直方图(G-HED)的网格描述符显著优于现有的功能集为形状类检测。 轮廓形状已在物体识别被用来在一定程度上:肖顿等人 。 [23]和奥佩尔特等人 [9]使用边界片段来表示一个对像,并使用边界匹配方法来检测对像。
所提出的架构可以应用于一个由排列在一个相对固定的空间配置可区分份的任何对像。 我们的实验是对马的侧视图图像执行; 因此,此对像类将被用作一个运行示例整个纸来说明所涉及的思想和技术。
本文的其余部分安排如下。 第2节描述的非对称性和抗堆积模型。 部分3引入了子图案描述符。 第4次5目前我们的做法的框架。 在第6,在真实图像的实验表明,该模型是有效的目标检测。
第二节。
非对称性和反包装模式表示模型的说明
非对称性和反填料对像模式表示模型(NAM)是一种抗装箱问题。在NAM的想法可被描述如下:给定的填充图案和 n 预定义子图案 { p1,p2,… ,pñ}后,从包装的图案,这些子模式,然后表示与这些子模式的该组合的压缩模式。

(a)

(b)
图。 (1)(a)我们的分层对像模型,(b)描述符集。
目标模式表示方法是(分层模型,代码,全球的几何形状和一般的视觉对像的类别与链接目标模式(最高级别)的子模式(第二级)的空间关系的局部外观和局部特征的线索联系起来的子模式第二级)和局部要素类(第三级)。参照图 (1)(a)中,对像图案是在顶层,第二和第三电平分别输入子模式和子模式的局部特征描述符是。 图。(1)(b)表示的子模式描述符。

(a)

(b)
图。 (2)。 (a)全球空间结构。 子模式 (黑盒子)被布置在边界框(红色)内。 红色的小圆圈表示的最佳位置和蓝色的椭圆形空间的不确定性 。 (b) 在代码中使用全局空间结构的侧视图马的姿势变化。 绿色箭头表示的偏差的距离 。
全球空间关系:顶层和第二级之间的空间关系可以通过全局空间结构进行说明。 图。 (2)提出了马类的全球空间结构的一个例子。
局部特征的编码:子模式可以由一组丰富的线索(例如形状,颜色和纹理)内它们进行说明。 之间的第二级和第三级,我们从子图案窗口捕获不同子图案线索,每种类型球杆的是通过使用适当的描述符进行编码,并连接成一个特征矢量这些编码的信息。 在本文中,我们使用的形状信息来表示子模式和边缘方向直方图(EDH)来描述的形状的信息。 编码子图案特征的细节已在第3节给出。
在这里,我们使用一个对像模式 Γ描述对像类别。它包含的对像图案n子模式可以由以下表达式定义:
Γ=⋃(i=1)^n▒〖p_i (x,r,de,w,ϕ(x,r)|{f_1 〖,f〗_2,⋯,f(m_i ) }) 〗
其中,x 是一个两维矢量指定为相对于物体图案位置的子图案的“锚定”位置;r表示该子图案的规模是一个偏差矢量; w示出子模式的判别重量计。ϕ(x,r)表示特征矢量i^th的子模式,并且f_j (1≤j≤m_i )是特征描述之一。
子图案之间的非对称关系描述对像类别的全局结构信息,并设计成脱钩由于仿射经线变化,姿态变化和其他形式的形状变形。 反包装是发现子模式在查询图像,将它们合并成一个对像模式和分类的过程。
第三节。
子模式描述
子图案可以通过一组丰富它们内部线索,如形状,颜色和纹理的进行说明。 基于观察,对于各种各样的通用对像的类别,形状[9,24,25]重要超过本地外形[26,27]。 在本文中,我们使用的形状信息作为物体检测的重要组成部分。
因为边缘点密切形状信息相关,局部形状通常可以由边缘方向的分布特征的比较好。 所提出的描述符是由边缘取向直方图[28,29,30,31,32],方向梯度直方图[22,33]和形状上下文[18]的启发。 他们只用边缘像素数与方向直方图和他们的计算密集重叠网格,使性能等都影响。
我们描述的实施结合了许多从早期的工作和更近的贡献这些想法。
我们首先使用Canny边缘检测得到的子图案边缘地图和删除利用马阿穆德等人的启发分组技术伪边缘。 [34]。
接着,一个子模式窗口被细分成κ× κ 网格(“小区”),对每个小区累积边缘方向的在小区内的边缘的像素的局部一维直方图。这个步骤非常类似于地区描述[35]。
最后,我们积累局部直方图的量度超过稍大空间区域(“块”),并使用结果正常化所有单元的块中。 我们指的是规范化描述块为边缘方向(G-HED)描述的直方图的网格。
我们现在给我们的G-HED实现的细节和检测器的性能的各种选择的效果。
在报道我们的实验中,我们通常使用方形G-HED的,例如κ×κ 网格η×η像素单元每片含方向γ 箱 ,其中 的κ,η,γ是参数。 子图案窗口是64×64像素,它被划分成4×4网格, 例如,κ=4 。块大小ζ的选择也是检测器的性能非常重要。 在实验中,2×2网格块表现最好的子模式 检测。 (例如,小区)的步幅(方框重叠)被固定在块大小的一半。
边缘像素的方向是由使用Sobel两个3 * 3算子,例如,垂直方向的边缘掩模和水平边缘掩模的两个掩模生成的边缘像素的方向。 对于每一个边缘像素p_((i,j) ),其边缘载体可以用载体□(□D) ={〖dx〗(i,j),〖dy〗(i,j) },其中〖dx〗(i,j)和〖dy〗(i,j)分别由使用垂直边缘掩模和水平边掩模就分图案窗口的位置p_((i,j) )得到的 表示。 每个边缘像素的方向被计算与方程θ(i,j)=tan^(-1)⁡(〖dy〗(i,j)/〖dx〗_(i,j) )。 方向箱均匀分布在(“符号”)或(“签名”)。 使用9箱(如 每〖20〗^°槽)能获得更好的性能。

(a) (b)

(c) (d)
图。 (3)。 轮廓形状描述符。 (a)原始图像,(b)边缘图,(c) 关于边缘图格, 包含4个栅格一个块的(d) 边缘方向直方图。
一个子模式的全局方向直方图平均将太多的空间信息来推断姿势。 在这里,我们适应的[35]用于说明子模式的方法。 一个子图案被均匀细分其边界框成n×n网格,并积累边缘方向的在网格内的边缘像素2×2的局部一维直方图,如图3所示。 在报道的实验中我们使用 n=4 这些直方图的组合然后表示描述符。
第四节 检测
我们的检测框架的管道如下:首先,训练分类器对每个子图案。接着,使用一个分类器,以检测对像的位置,即初始检测的假说。在此之后,将验证方案应用于假设以获得最终的检测。
4.1学习分类
学习的任务是建立{〖Cf〗_1 (∙),〖Cf〗_2 (∙),⋯,〖Cf〗_n (∙)}分类器用于与子模式的对象图案 ; 每个分类器对应于一子图形。 举个例子,给定一组的标记为正(对象)的训练图像的窗口或负(抽象的),如上述各图像窗口被转换成特征矢量的分类器。 然后这些载体被作为输入到该学习到的图像窗口部件或物体图案的非成员进行分类有监督的学习算法。 在我们的实验中,两舱LIBSVM已被用于分类(LIBSVM的详情,请参阅[36])。
4.2检测假设使用学习分类器之一
滑动窗口分类[25]是用于物体检测的简单,有效的技术。 初始检测的问题是确定该查询图像是否包含子图案和它在哪里的实例。 已经培养了SVM分类器的窗口,我们可以检测和使用简单的滑动窗口机制[22,37]在测试图像定位新对象实例。 这里我们选择j^th子模式 p_j作为初始检测子图案。 对应于子图案的分类器Cf(∙)被施加到固定大小的p_j在特征金字塔的各个位置的窗口,每个窗口被表示为特征向量ϕ(x,r) ,其中x用于指定所述图像中的窗口的位置,并r指定在图象的水平金字塔。 下面的表达式〖Cf〗_j (∙)表示在滑动窗口之一的分类器。

图(4)。 金字塔的图像(左),功能金字塔(中)和榜样的窗户(右)。
阈值 被引入,以确定该窗口是否是正或包含正实例。如果s_(p_j )>α那么 该窗口是正的,h_j=(x,r) 是一个假设,我们将h_j加入到子图案假说集合H={h_(j,1) 〖,h〗(j,1),⋯,h(j,k) }.。 门槛降低增加了正确的检测,但也增加了误判; 提高阈值具有相反的效果。 在我们的实验中,我们使用α=0.5。
图中示出的特征的金字塔。 (4),其类似于[33],规定了在一个固定的范围内的有限数目的尺度的特征图。 在实践中,我们通过经由反复舒缓和子采样计算标准图像金字塔,然后计算从图像金字塔的每一层的特征地图计算特征金字塔。 测试图像被缩放到尺寸范围从0.48至1.2倍的原始大小,从下一个不同每个刻度为1.2倍,

图(5) 初始检测和验证。 (a)的查询图像,(b)假设的初步检测{h_1,h_2 } ,(c)过程的验证对h_1(d)过程的验证对h_2,(e)最终结果。

第五节 验证
这些假设,然后通过验证方案精制,以获得最终的检测结果。 图。 (5)引入的处理。 第一步骤是生成一个h_Γ假说Γ的通过施加一个变换T(∙)和对象图形。 图 (5)(b)示出的转变过程h_j。 是集假说之一。T(∙) 改造利用由子图案和对象模式之间的空间关系设置的粗定位。 那么对于假设h_j和对象模式的转变Γ的特点是:
Sp_i=Cf_i (∅(L_i ))
这L_i=(x_i,r_i,〖de〗_i )(1≤i≤n)是旁子图案的预期位置h_j。 这种转变提供了目标模式,不仅位置x_i,规模估计r_i。而且偏差的〖de〗_i子模式对象模式。
接着,分类器〖Cf〗_i (∙)在位置施加到相应的窗口L_i 。
这s_(p_j )是确定该位置L_i是否 包含子模式p_j,整体分数核查对象模式 S_ver (h_Γ )是子模式Γ检测结果的组合s_(p_i ):
S_ver (h_Γ )=∑(i=1)^n▒(w_i∙s(p_i )-〖de〗_i )
其中, w_i是子模式的判别重量p_j,de_i是子模式的从最佳位置的偏差。 物P attern 的验证 图进行了说明。 (5)(c)和(d)所示。 当的值 S_ver高于 β阈值 ,所述假设位置h_Γ包含对象图案的一个实例。
第六节 实验
我们目前大量的实验评价,涉及多个现有数据集涵盖8多样的基于形状的对象类共计900余测试图像。
6.1评价标准
在本节中,我们研究了我们系统的PASCAL准则下的性能。 对于被标记为正确的检测,其推断边框必须与 基于重叠准则 为基础事实边界框一致 。 每个可以匹配到只有一个,而同一个对象,所以杂散检测计为误报。
表1.我们对INRIA马数据集的检测系统,包含170正面形象和170的负面形象。
β 正确的检测TP号 错误检测FP号 召回RTP / 170 精密PTP /(TP + FP)
20 152 110 0.8941 0.5802
30 138 107 0.8118 0.5633
40 130 98 0.7647 0.5702
50 126 86 0.7412 0.5942
60 121 74 0.7118 0.6205
80 110 53 0.6471 0.6748
100 103 45 0.6059 0.6959
120 87 39 0.5118 0.6905
150 67 26 0.3941 0.7204
180 41 14 0.2412 0.7455
210 23 7 0.1353 0.7667
表2.性能我们对魏茨曼马数据集检测系统。
β 正确的检测TP号 错误检测FP号 召回RTP / 170 精密PTP /(TP + FP)
20 299 36 0.9144 0.8925
30 294 34 0.8991 0.8963
40 289 31 0.8838 0.9031
50 283 28 0.8654 0.9099
60 266 24 0.8135 0.9172
80 229 17 0.7003 0.9309
100 206 11 0.6299 0.9493
120 185 8 0.5657 0.9585
150 149 6 0.4557 0.9612
180 106 4 0.3242 0.9636
210 62 2 0.1896 0.9688
当检测系统付诸实践,我们有兴趣知道多少它检测的对象,它使检测的频率都是假的。 这种权衡是由召回精度的曲线,其中的变化更准确地捕捉
Recall=TP/nP
Precision=TP/(TP+FP)
其中,TP 为真阳性的数量,FP是假阳性的数量和nP数据集阳性的总数。 感兴趣的第一数量,即,检测到的物体的比例,由召回给出。 感兴趣的第二量,即,相对于由系统作出检测的总数的错误检测的数目 ,由下式给出
1-Precision=FP/(TP+FP)

绘制召回与(1-精度),为此,表达了折衷。
性能也由(每图象(FPPI)误报)同时改变所述检测阈值,其中,对误报的发生绘制检出率(DR)的评价
Detection rate=TP/nP
Fals positives per image=FP/nN

其中,nN 是在数据 集 的图像的总数 。 不同方法的比较,主要是基于对DR / FPPI情节,两个点在0.3和0.4 FPPI。
6.2 INRIA马和魏茨曼,肖顿马
INRIA马[38]。 这具有挑战性的数据集包括含有一个或多个马,从侧面看,和170的图像,而不马170的图像。 马出现在一些规模和对杂乱的背景。
魏兹曼-肖顿马[23]。 肖顿等人提出另一匹马的检测数据集,恰好包含一匹马每328负面形象327正面形象组成。 在INRIA和魏茨曼是马的形象非常具有挑战性的数据集,包含不同的品种,颜色和纹理,具有不同关节,照明条件和体重秤。
我们提出我们的结果在表1和2中不同的检测结果由 如 在第4.3节中描述 改变阈值参数β获得 。
我们比较我们与达拉尔等人的方法。 [22]和Ferrari 等人 。 在INRIA和魏茨曼马数据集[25]。 我们随机在Caltech101和谷歌的图像选择每个类别的100个训练图像来训练分类。 达拉尔的方法是本领域目前人体检测的状态,并且已被证明对其他类非常具有竞争力。 法拉利等对象的检测方法。 许多对象类别取得了可观的收益。 像我们这样的,他们的目标探测器基于滑动窗口分为瓷砖,但使用不同的特征描述。
的结果显示在图 (6)。 我们的检测器实现了比HOG基本上更高的性能。 相比于[25]我们的方法达到相同的优良性能。 然而,他们的标准(检测到的边框被认为是正确的,如果它重叠 ≥20%) 是相当松散的,它可能会考虑为正确也相当不准确的检测。
6.3 ETHZ Shape classes
瑞士联邦理工学院的形状数据库(由V. Ferrari等 收集 [39]),在总共255图像由五个鲜明的外形类(苹果标志,瓶,长颈鹿,杯子和天鹅)。 所有产品类别有显著类内变化,规模变化,光照变化。 此外,许多对象通过广泛的背景杂波包围,有内部轮廓。

图。 (6)。 我们的探测器与法拉利等人的比较:[25] PAS-基础之一,达拉尔等 :[22]基于HOG-之一。
表3比较用检测性能[Ferrari等人,2007]关于ETHZ形状数据设定在0.4 FPPI。
Apple Bottle Giraffe Mug Swan average
Our 88.6 83.4 83.9 83.5 87.5 85.4
Fritz 89.9 76.8 90.5 82.7 84.0 84.8
Ferrari 83.2 83.2 58.5 83.6 75.4 76.8
我们比较[39]和[40]}的瑞士联邦理工学院形状数据库。 实验在5倍交叉验证进行。 我们分裂整套成半的培训,并为每个类别一半的测试,并从5个随机拆分报道平均表现。 这是在实施一致的[39,40],它报道了这组数据的国家的最先进的探测性能。 表3示出了我们对各类别相比较[39]。 平均超过所有类别我们提高 [39]的 8.6% 的性能 至85.4%。 苹果的标志,长颈鹿,天鹅,我们提高了 5.4,25.3 和 12.1% 的性能 。 在瓶子和杯子,我们的方法执行相媲美。 我们帐户对瓶子和杯子到这是相对于该背景判别少的形状的性能。 由于数据集的目的是测试基于

图。 (7)。 为INRIA和魏兹曼马匹数据集检测时阈值的值是50。在中间行中,最右边的图象显示了一个漏检。
第七节结论
我们已经提出了一种非对称和反填料对象模式表示模型(NAM)来表示对象类别。 该模型能有效编码对象的全局结构。 对象模式模型由几个部分子图案。 每个子图形由一组丰富的图像线索(形状,颜色和质地)的表示。 一个子图案描述可以将几个特征描述。 我们选择适当特征描述为子模式来处理局部变化。 在我们的工作中,边缘方向直方图描述符引入来描述的子图案的形状信息。 在此基础上表示,几种学习分类进行了培训,以检测子模式的实例。 所提出的架构可以应用于一个由排列在一个相对固定的空间配置可区分部件的任何对象类别。

你可能感兴趣的:(日常收集,图像识别)