本文地址:https://link.springer.com/article/10.1007/s11263-013-0620-5
Selective Search结合穷举搜索与分割进行物体识别,同时结合图像层次进行识别。
与穷举搜索不同的是,本论文提出能不能把大部分无用的区域删掉,只留下可能存在对象的区域,这样会大量的节省时间。
作者借助层次聚类的方法,进行对象识别。
主要观点:物体存在的地方,是有相似性或者连续性的。
通过检测相邻区域的相似度来进行合并(颜色,纹理,空间,尺寸)这四种来计算相似度。
selective search 主要解决的是把图像中的物体框出来。
此方法结合了详尽搜索与分割两种方法的优势。结合分割中的优势,我们采用图像结构来指导我们的样本搜索。结合详尽搜索的优势,我们要把所有的物体全部标注出来。
我们在识别物体之前,先将其进行划分。分割的目的,是通过通用算法对图像进行独特的分割,其中有一个部分用于图像中的所有对象轮廓。
图像是存在分层的:在图1a中,沙拉和勺子在沙拉碗里,沙拉碗又放在桌子上,这是有层次关系的。
我们要用分层分区来解决的此类问题。
我们针对物体对象,有多种分类的原因。
例如对于上图来说:大体来说,有颜色区分,纹理区分,结构区分。
在(b)中区分猫2是根据颜色,而不是纹理。
在(c)变色龙的识别,可以通过纹理而不是周围的颜色,无法与周围的叶子区别开来。
在(D)轮子可以是汽车的一部分,因为它们是封闭的,而不是因为它们在质地或颜色上是相似的。
最重要基础的问题是,如果区域有很复杂的特征,例如人脸在毛衣上面,这两个事物按理来说是两个对象,但是若两者组成一个整体:人,就是一个对象。因此在没有事先承认的前提下,很难确定它俩是否是同一个物体。
本文结合分段和穷举搜索的优点,提出一种数据驱动的选择性搜索。受自底向上分割的启发,我们的目标是利用图像的结构来生成对象位置。
具体地说,我们使用基于数据驱动的分组策略,其中通过使用各种互补分组准则和具有不同不变性的各种互补颜色空间来增加多样性。通过组合这些互补分区的位置来获得所述位置集合。我们的目标是生成独立于类的、数据驱动的、选择性的搜索策略。
选择性搜索的应用领域是目标识别。我们采用20个对象类组成的Pascal VOC(什么是Pascal VOC)数据集进行测试。
在本文中,我们提出选择性搜索对象识别。我们的主要研究问题是:
(1)什么样的多样化策略适合作为选择性搜索策略的分割?
(2)选择性搜索在图像中创建一组高质量位置的效果如何?
(3)我们可以使用选择性搜索来使用更强大的分类器和外观模型进行物体识别吗?
我们将相关工作关注于目标识别领域,并将其分为三类:穷举搜索、分割和其他不属于任一类的采样策略。
1.穷举搜索:
由于对象可以位于图像中的任何位置和尺度,所以到处搜索是很自然的。然而,穷举搜索在计算上是十分耗时的。这对每个位置的评估成本和所考虑的位置的数量施加了约束。因此,这些滑动窗口技术大多使用粗搜索网格和固定的纵横比,使用弱分类器和经济图像特征,这种方法经常被用作分类器级联中的预选步骤。与滑动窗口技术相关的是FelZeZnZWalb等人的基于部件的目标定位方法。他们的方法也执行穷举搜索使用线性SVM和HOG特征。之后有人提出了利用外观模型来指导搜索。这既减轻了使用规则网格、固定比例和固定纵横比的限制,同时减少了访问位置的数量。这是通过使用分支定界技术直接搜索图像内的最佳窗口来完成的。虽然他们获得了令人印象深刻的结果线性分类器。
2.分段
3.样本策略:
对象可以在图像内的任何尺度下发生。此外,一些对象有较清晰的边界,有些没有清晰边界。因此,在选择性搜索中,必须考虑所有对象,如下图所示。这是最自然地通过使用分层算法来实现的。
没有单一的最优策略将区域分组在一起来识别物体。正如前面在第一张图中所观察到的,区域可能由于颜色、纹理或部分被封闭而形成对象。此外,诸如阴影和光的颜色之类的照明条件可能影响区域。因此,我们希望有各种各样的策略来处理所有情况,而不是在大多数情况下工作良好的单一策略。
选择性搜索的目标是产生一组可能的对象位置,以便在实际的目标识别框架中使用。这个集合的创建不应该成为计算瓶颈,因此我们的算法应该是相当快的。
我们采用分层分组算法来形成选择性搜索的基础。自底向上分组是一种流行的分割方法,因此我们把它用于选择性搜索。由于分组的过程本身是分级的,因此通过继续分组过程直到整个图像变成单个区域,我们可以自然地在所有尺度上生成位置信息。这满足捕获所有尺度的条件。
由于区域可以产生比像素更丰富的信息,因此我们希望尽可能使用基于区域的特征。为了得到一组理想情况下不跨越多个对象的小起始区域,我们使用Felzenszwalb, P. F., & Huttenlocher, D. P. (2004). Efficient graph-based image segmentation. International Journal of Computer Vision, 59, 167–181.的快速方法。
我们的分组过程现在工作如下。我们首先使用(Felzenszwalb和HuttnoCurter 2004)来创建初始区域。然后利用贪婪算法对区域进行迭代分组:首先计算所有相邻区域之间的相似度。将两个最相似的区域分组在一起,并计算所得区域与其相邻区域之间的新相似度。重复对最相似的区域进行分组的过程,直到整个图像变成单个区域。算法1中详细说明了一般方法。
对于区域ri和rj之间的相似度s(ri,rj),我们希望在快速计算的约束下得到各种互补测度。实际上,这意味着相似性应该基于可以通过层次结构传播的特征,即,当将区域ri和rj合并为rt时,需要根据ri和rj的特征来计算区域rt的特征而不访问图像像素。
选择性搜索的第二个设计准则是使采样多样化,并创建一组互补策略,其位置随后被组合。我们来使选择性搜索多样化
(1)通过使用具有不同不变性的各种颜色空间
(2)通过使用不同的相似性度量sij
(3)通过改变我们的起始区域
我们要考虑到不同的场景和照明条件。因此,我们在具有各种不变性的颜色空间中执行分层分组算法。特别地,我们用增加的不变性来处理以下颜色空间:
(1)RGB(2)强度(灰度图像)I,(3)实验室,(4)归一化RGB的rg通道加上用rgI表示的强度,(5)HSV,(6)归一化RGB用rgb表示,(7)C Geusebroek等。(2001)是对手的颜色空间,其中强度被划分,(8)来自HSV的色调通道H。表1中列出了具体的不变性。