本周的第二篇论文:SuperParsing: Scalable Nonparametric Image Parsing with Superpixels,是10年的EECV的论文,质量应该还可以,初步一看对其中的相关概念还不是很理解。
首先SuperParsing这个词还不知什么意思,估计是超像素概念下对图像分析的意思,具体的意思还必须细致阅读。对于超像素概念也没有什么理解,还必须首先查阅基本概念。中文解释比较少,参阅http://ttic.uchicago.edu/~xren/research/superpixel/,可以得知超像素的意思就是不是按照传统的pixel的含义来表示图像,而是采用分割等技术来块的表示图像。
Nonparametric 非参数,那么文章中具体的含义是什么呢?
Abstract:
文章目的:This paper presents a simple and effective nonparametric approach to the problem of image parsing, or labeling image regions (in our case, superpixels produced by bottom-up segmentation) with their categories. 简言之,就是通过非参数的图像分析,将图像中的不同区域按照其不同的类别标签出来,很符合当前参加大赛的项目。
优点:不需要训练(no training)、扩展性很强(it can easily scale to datasets with tens of thousands of images and hundreds of labels)。
it works by scene-level matching with global image descriptors, followed by superpixel-level matching with local features and efficient Markov random field (MRF) optimization for incorporating neighborhood context. 采用全局与局部的匹配算法,并且采用马尔可夫随机场优化
本文数据库:Our system outperforms the state-of-the-art nonparametric method based on SIFT Flow on a dataset of 2,688 images and 33 labels. In addition, we report per-pixel rates on a larger dataset of 15,150 images and 170 labels.
1. INTRODUCTION
Purpose of this paper:
This paper addresses the problem of image parsing, or segmenting all the objects in an image and identifying their categories.
传统的方法,都是需要一定的训练,然后按照训练预先训练的类别来判定新的类别。
本文具有参考网页和代码:http://www.cs.unc.edu/SuperParsing 可以登录查看
2. System description
2.1 retrieval set
这是作为图像语义分析的第一步:
Our first step in parsing a query test image is to fi nd a relatively small retrieval set of training images that will serve as the source of candidate superpixel-level annotations.
当输入一张查询图像时,会找到相应的尽量小的训练的图像集,作为标注源,四个global的特征各取50个最前面的结果,那么总共有200张图像作为候选
用到了很多特征
在论文中,使用了全局的Gist特征,那么什么是Gist特征呢?
Marry potter等人的开创性工作阐述了场景信息的含义,人类在观察一副场景时或从场景从视野短暂消失之后就可以推理得到场景的语义信息,称为概念Gist表示。Gist主要包括场景的空间频率,颜色和纹理等,然后有一定的计算模型(参考博士论文 基于视觉层次感知机制的图像理解方法研究 合肥工业大学 博士论文,有详细解释)
第二步:对query的label依赖于前一步中的retrieval set,但是对于每个pixel进行label明显是十分的inefficient,所以文章中采用superpixel的方式进行label,文章采用bottom-up segmentation 作为提取regions的方法。
We obtain superpixels using the fast graph-based segmentation algorithmof [21] and describe their appearance using 20 di erent features similar to those
of [5]. 用到了两个其他的算法,如上图的(b)所示 。
All of the features are computed for each superpixel in the training set and stored together with their class labels。We associate a class label with a training superpixel if 50% or more of the superpixel overlaps with the segment mask for that label。如果50%以上的都重合,那么就接受这个class label。
第三步:Local superpixel labeling
当test image分割结束并提取其特征之后,就需要获取相似度了。
we next obtain a likelihood ratio score for each test superpixel and each class that is present in the retrieval set。
有两个数据集,分别是 the training set 和 retrieval set(query Image 得到的 200副),阈值选择 threshold tk to the median distance to the 20th nearest neighbor for the kth feature type over the dataset.
通过计算,使得贝叶斯概率最大的即是其类别。
上面三步结束后,即得到了一个较好的实验结果,但是实验的结果还需要加上上下文信息比较好。
第四步:Contextual inference
Next, we would like to enforce contextual constraints on the image labeling。比如说,如果某个superpixel被label为water那么它周围的被label为sky就不合理了,所以加上这样的上下文信息,也能较好的改善实验结果。
Many state-of-the-art approaches encode such constraints with the help of conditional random eld (CRF) models。上下文模型一般都是以随机场模型,该文主要采用最小化一个公式即可,关键是共生矩阵。
通过上下文约束,准确率能够提高大约3-5%。
对superpixel同时就semantic和geometric进行分类
3.实验结果