《Superparsing: Scalable Nonparametric Image Parsing with Superpixels》
IJCV 2013
superpixel-level,fully supervised,non parametric method
这篇文章是CVPR 2013的《Finding Things: Image Parsing with Regions and Per-Exemplar Detectors》和CVPR 2014的《Scene Parsing with Object Instances and Occlusion Ordering》的主要参考文章,而现有的代码是这两篇文章的。这篇也是Nonparametric的代表性工作之一,在很多其他论文中都有提到。为了熟悉现有代码框架,了解Nonparametric这类方法的主要思路,所以精读了这篇文章。
这里Nonparametric方法主要是lazy learning的思想(仅仅保存training set,当test image 到达时,才进行决策,并不是事先就有决策模型的。)
我们现在有一个training set,要得到一幅query(test image)的分割结果,主要步骤如下:
Step 1:在training set中为这个query找相似的图,得到一个retrieval set。是通过对这些图片提取global feature(Spatial pyramid,Gist,Color histogram),然后计算特征相似度来实现的。这里的特征是需要大体反应图片内容和结构的。
Step 2:把query和retrieval set中的图都分割成superpixel级别,并为每一个superpixel计算特征,这里的特征要从各个方面(color,texture,shape…)来挖掘该superpixel的特性,因为本文方法的分割就是基于superpixel这些特征做的。接下来的目标就是对这些superpixel进行分类。
Step 3:为query中的每个superpixel根据每个特征在retrieval set的superpixels中寻找相似的superpixels,也就是在该特征空间上的nearest neighbor,然后根据这些neighbor计算该query superpixel属于每个label的likelihood score(这个likelihood score的计算方法是在文章中定义的),属于哪个label的score值最大,那么该query superpixel就可以标为属于这个label。到了这一步,可以得到一个分割结果,是local superpixel labeling。
Step 4:对local labeling做优化:在一个query image中,当前superpixel的label和相邻的superpixels的label存在一定的关联关系,用MRF对这样的关系建模,得到global superpixel labeling结果。
Step 5:让semantic分割结果和geometric分割结果互相修正,得到更加准确的分割结果。
主要思想是根据一些特征,在retrival set中找到和query中当前我们要预测的superpixel相似的superpixels,看这些superpixels都属于什么label,然后得到prediction。
论文中对每个superpixel计算它属于某个类别c的log likelihood ratio,定义如下:
fik是superpixel si的第k个特征;
Nik是在feature k的标准下,在retrieval set中和si相似的superpixels;
D是training set中所有的superpixels;
这个L反映了query中的superpixel si 属于label c的可能性,主要是通过统计和si相似的那些superpixels的label数据得出的,si对哪个c的L值大,si的label就是这个c。
前面local superpixel labeling的方法是对query中每个单独的superpixel计算per-class likelihood ratio然后判断该superpixel的label。而我们会发现,一个superpixel的label会受到邻近的其他superpixel的label的约束,比如,如果当前superpixel周围的label都是“sky”,那么这个superpixel的类别不太可能是“water”,所以利用这样的信息是有利于提高精度的。
论文中选择MRF来编码这样的约束,将这个问题建模为对J(c)的最小化问题,然后通过inference的方法求解:
A是指在query image中和superpixel si相邻的superpixel set;
wi是si的权重,是si在图片中占的面积百分比;
这个J是一个MRF能量函数,最小化这个J就能得到当前query image的最优分割结果。
公式(4)中,L外面这一层是sigmod函数,是为了让ratio最大的那个值最后能脱颖而出,对能量函数产生较大的影响。
公式(5)中的E是“produce very intuitive penalties”,下图中,(d)列中的分割边缘较杂乱,总体能量较高,经过这一步的MRF smooth,对高能量的分割边缘做了处理(惩罚),得到总体能量较低的分割结果。
这里所说的“能量”是指来自graph cut的,用来衡量cut结果的好坏,分割边缘的能量值越低越好。细节暂未了解。
下图中从蓝色到红色的颜色条代表能量值从低到高,在(d)(f)列的图中,红色边缘能量值高。
geometric类别是固定的3个:sky,horizontal, vertical
假设一个semantic类别能对应一个geometric类别,那么对于一幅图,用这两种类别标准下的分割结果互相修正,可以互相促进提升精度,所谓“双管齐下”。效果图如下:
Joint的分割,目标函数如下:
要得到最优的分割结果,就是要最小化这个H(c,g),论文使用“alpha/beta-swap algorithm”做inference。
J(c)是semantic的结果,J(g)是geometric的结果,J(g)没有像J(c)那样用nearest-neighbor classifies的思想,去定义log likelihood ratio,由于geometric的类别只有3个,类别数量少且是确定的,所以使用boosted decision tree(BDT)即可得到一个likelihood ratio score,MRF smooth的过程和J(c)是一样的。
phi(ci,gi)的值是0或1,ci在gi中则为0,否则为1。所以(6)式的第三项可以看作是一个惩罚,对于一个superpixel si,我们期望它的ci在gi中,比如building在horizontal中,这样就可以更确定这个si属于building且属于horizontal;如果它的ci不在gi中,比如si的ci=building而gi=sky,那说明ci和gi至少有一个是错误的分类结果,所以要对目标函数加上惩罚。
1,在SIFT Flow和LMSun两个数据集上,证实本文所做的改进是合理的:从local labeling到MRF(就是加上MRF smooth,global labeling)到Joint(综合考虑semantic和geometric);用这个结果也和3种start-of-the-art的方法比较
2,选择用来做retrieval set的global feature
3,找合适的retrieval set size,因为这里在实验性能和程序计算量之间是有trade off的
4,对比nearest neighbor和boosted decision tree,在semantic和geometric的类别上
优点
1,scalable,训练集可扩展,不用训练model,方法灵活;
2,利用了semantic类别和geometric类别之间的联系,提高精度;
3,用retrieval set限制了该query image中可能出现的label的范围,有利于提高精度。
4,考虑把数据集分为indoor和outdoor,分别做实验看分割结果,并认为indoor场景更复杂,分割难度更大,并提供了一个baseline
5,考虑把semantic类别分为两种,“stuff”(sky,road,trees), “things”(people,cars),前者往往没有固定的形状,一般是一个region;后者会有大致的形状信息可以利用,也常常是object detection的目标。本文方法在stuff的类别上表现较差。
缺点
1,对于大数据集,每次要得到retrieval set都耗费大量时间去检索;
2,retrieval set的大小在performance和accuracy之间是trade off的;
3,一定程度上简化了superpixel和superpixel之间复杂的关系,会影响精度;
4,MRF smooth会有over-smoothing的问题,反而降低精度。