一. 简介
SuperParsing是一种图像理解的算法,它可以对对象内的物体进行label,label的种类可以有成百上千种,更主要的是,这种label是像素级的。
将图片中的目标分为两类:
(1) stuff类:占据大量像素,在图片集中实例很多,没有固定的形状(shape)但是有相对一致的纹理特征,比如天空、道路、建筑物、树林。
这一类中的类别较少,一般的方法对这类的分类用像素或区域(region)级别的特征。
(2)thing类:在图片中占据较少像素,图片集中实例并不是很多,但是类别众多,是理解的重点,比如人、狗、车辆、标志牌等等。
Region级的特征能很好的表征目标整体的形状特点,却不合适形容细节。细节特征更好的特征处理方法是使用滑动窗(sliding window)。文章中
使用的特征提取方法是per-exemplar或者称为exemplar SVMs,详细的介绍在文献[4]中。这种特征提取方法可以将目标的边缘详细勾勒出,而
不是仅仅给出一个bounding box。在这里,使用region-based和per-exemplar detector分别对图像进行label,得到两个分类的得分,然后用SVM
得到最终的结果,如下图所示。
二 . Region-based 图像理解
具体名称为scalable nonparametric system,内容参考文献[2].
2.1 流程:
(1) 输入query图,提取全局特征;
(2)根据全局特征相似性,在训练集中找出一些类似图片(retrieval set);
(3)将query分割为super pixel;
(4)对每一类,计算super pixel的平均似然概率;
(5)依据super pixel在类似图片中的最近邻匹配,与马尔科夫随机域(MRF)模型结合,对query进行label。
label分为语义标签(semantic label)和几何标签(geometric label),然后最后将两者结合。
2.2. 相似图片集(retrieval set)
相似图片集想要在数据库中所有的图片中,找到与提交图片场景最相似的若干图片,这些图片需要有类似的目标和目标分布。
在这里,使用了四种全局特征进行相似性匹配,这四种特征分别是:
(1)空间金字塔(spatial pyramid):三层,SIFT字典尺寸200----4200维;
(2)Gist:RGB三通道,3尺度中分别使用8,8,4个方向----- 960维;
(3)小图片(tiny image):16*16的RGB图片------ 768维;
(4)颜色直方图(color histogram):RGB3通道,每一通道8个等级----24维。
根据欧式距离排列数据库中所有图片与提交图片在这四种全局特征之间的距离,然后计算这四种特征的平均距离得到最相似图像,
取前200幅作为相似图片集。
2.3.超像素(super pixel)
将提交图片进行图像分割,分成若干超像素(super pixel):相关的、联通的图像区域。以单个像素为单位进行label非常复杂,效率
低。超像素的分割是自底向上的。具体分割方法在参考文献[2]中。分割以后,超像素用20种局部特征来描述。这20种特征分别分为五类:
(1)形状(shape): 1. 位置框(bounding box)内的8*8 的形状掩膜,位置框是完全包含该超像素
的最小矩形框----64维;
2. 位置框长宽比与图片长宽比的关系------ 2维;
3. 位置框在图片中的面积------- 1维。
(2)位置(location):4. 上文提到掩膜在图片中的位置 ------ 64维;
5. 位置框上边缘相对于图片上边缘的高度 ------- 1维;
(2)纹理(Texture): 6,7. 纹理基元直方图和扩张纹元直方图(texton / detailed texton histogram )-----100*2维;
8,9. SIFT和扩张SIFT直方图 -------100*2维;
10~13.左右上下边界的SIFT直方图 ------100*4维;(3)颜色(color): 14,15. RGB各分量的均值和标准差(std.dev)------- 3*2维;
16,17. 颜色直方图,扩张颜色直方图(各通道11个等级)------ 33*2维;
(4)外表(appearance):18. 8*8的颜色缩略图 ------ 192维;
19. 颜色缩略图掩膜(masked color thumbnail)----- 192维;
20. 位置框的灰度Gist ---- 320维。2.4 标记超像素(super pixel labeling)
图像进行超像素分割以后,接下来要计算每一个超像素在相似图片集中各类中的似然比得分(likelihood ratio score)。
假设各特征是独立分布的,可以利用朴素贝叶斯估计(Naive Bayes assumption ),得到某个超像素s是c类的似然比L(s,c)。
对于第i个超像素Si,似然比等于此超像素在c类中的先验概率与所有除了c类的c横杠中的先验概率的比,也等于所有特征(20个)似
然比的乘积,如下式。
每一个特征的似然比是从非参数密度估计计算得来。计算如下式,c为c类,c横杠为非c类的其他所有类。
是提交图片分割出来的所有超像素集合。表示所有超像素中第k个特征满足与c类阈值的个数的集合。
2.5.语义推导(contextual inference)
如果一个被label为“河流”的超像素四周全是被label为“天空”的超像素,这显然是不符合常理的。这里对label的整体控制使用的是
一个最小化标准马尔科夫随机场能量函数的过程(MRF energy function),这个能量函数基于超像素的label类。如下式:
SP是超像素集,A是超像素集中的超像素对,每一对之间都是邻域关系。λ是平滑常数。ω是超像素权重,与超像素大小相关。
是邻域为c'下label为c类的条件概率,这是在训练集中得到的先验概率。
2.6 语义和几何联合分类(simultaneous classification of semantic and geometric classes)
label的种类可以分为两种:语义上的类和几何上的类。在几何上,这里用到三类:天空、地面和垂直的几何形状。
三 . Per-exemplar based 图像理解
具体内容参照文献[4]
3.1 流程(1)
四 基于SVM的分类和MRF平滑:
-----------------------------------------参考文献----------------------------------
[1] Finding Things: Image Parsing with Regions and Per-Exemplar Detectors
[2] Tighe, Lazebnik. SuperParsing: Scalable Nonparametric Image Parsing with Superpixels(ECCV2010)
[3] Felzenszwalb, P.F., Huttenlocher, D.P.: Ecient graph-based image segmentation. International Journal of Computer Vision 2 (2004)
[4] T. Malisiewicz, A. Gupta, and A. A. Efros. Ensemble of exemplar-SVMs for object detection and beyond. In ICCV, 2011