Ali Borji等人在ECCV上发表了一篇关于显著性模型的综合论文。
原文来自:Ali Borji, Dicky N. Sihite, and Laurent Itti,
" Salient Object Detection: A Benchmark",
总结了自2011年以及之前发表的,能容易得到的(代码或者Saliency Map),具有很好的准确率的,或者具有很高引用率的模型。
全文共用5个数据库(这个五个数据都是包含物体的数据库,该文的重点也是考擦包含物体的数据库上比较各个模型)。
Human Inter-observer(IO) model:个人理解就是在N个观测者中,依次抽出一个人的标注结果作为测试,将其他N-1个人的标注结果的集合作为基准,计算这个人与其他人的标注的不一致性。
这篇文章大概回答了以下的一些问题:
问题1:现在的模型是否已经达到最好,还有没有提升的空间?
答:由于IO模型是所有模型的上界,因为人们通常在标注显著物体时能达到高度一致。而现有的模型与IO模型在所有数据库上(该文提出的5个数据库,以下同)还有很大的差距,所以还有提升空间。
问题2:现有模型的准确性有没有理论下界?
答:有。将图像中的所有像素依照均匀分布输入显著值,这样得到的显著图计算出来的AUC是0.5,是理论下界。所有的模型的AUC值都大于等于这个值。
问题3:目前模型主要分为哪几类?
答:目前的方法主要分为两大类。1)基于注视点预测的模型;2)基于提取和分割显著物体的模型。平均来说,基于注视点的模型的性能要比基于物体的显著性的模型差一些。注视点预测的模型中最好的模型要比基于物体的显著性的模型中最差的要好点。
问题4:为什么两类模型在便于分割的数据上的性能不同?
答:这个原因在于真阳性和假阳性的个数。分割算法试图产生白色的显著区域来包含更多的真阳性。令一方面,注视点预测模型具有很大的选择性,很少产生假阳性点(因为图中的注视点比较少)。在分开的独立的实验中,在注视点数据库上注视点预测模型的性能要优于基于分割的模型。
问题5:将现有的模型线性组合起来的结果是否要优于单独的模型?
答:在每个数据库上组合最好的模型得到的结果,有可能要优于其他所有的模型。而组合两个做好的模型得到的结果,与组合最优的三个模型的结果差不多(少一点)。
问题6:图像中的物体的大小对模型的准确性的是否有影响?
答:在很小的物体上取得较高的准确性确实具有挑战性。如果一个图的80%是物体,那么一个模型将整个图作为显著图,将能得到80%的准确率。大多数模型在大尺度物体图中的准确性都很高。
问题7:人工标注的一致性是否影响模型的准确性?
答:人工标注越一致,模型在其上的准确率越高。
问题8:每个模型是否对同一数据库中所有的图都有相似的准确性?
答:每个模型都有自己的最容易处理的图和最难处理的图。总的来讲:在中心有很生动的物体,而周围是与之截然不同的背景的图,是所有模型最容易处理的图。而最难处理的是那些有复杂纹理背景,物体又包含几个不同部分的图,或者包含能引起top-down注意的物体(比如文本,人脸,人体,社交行为,注意力导向以及动物)。
问题9:对显著图进行高斯模糊是否对准确性产生影响?
答:高斯模型对准确性能产生轻微的影响,但是他们的定性趋势以及模型的排序保持一致。
问题10:为什么高斯模型能改变注视点预测模型,但不改变显著物体检测模型的准确性?
答:可能的原因有两个:1)在注视点上存在着不一致性,导致模型的结果通常真正落在注意点上。因此,高斯模型的改良这种结果;2)在显著物体检测里,评价指标是个图像区域里进行计算,而在注视点预测模型里,通常是在眼睛注视点的采样图上进行计算。对于前者,高斯模糊只在边缘处其左右;而对于后者,则同样能改良模型的结果。
问题11:加入中心偏置是否能提供模型的准确性?
答:所有的数据库都具有中心偏置属性。加入中心偏置能提高较差性能的模型,但对于性能较好的模型的作用则相反。
问题12:现有模型的结果之间是否存在着相似性?
答:利用线性相关系数,可能得出,现有的模型之前确实存在相似性。
问题13:模型之间的一致性与人工标注一致性之间存在什么关系?
答:他们之间的关系可以总结为:1)对于那些同时是模型一致性和人工标注一致性的图,通常是包含很清晰的物体,其背景的颜色与物体的颜色截然不同;2)对于那些同时是人工标注不一致的和模型结果不一致的图,大多是那些不太容易定义显著物体的图。这些图都有复杂纹理背景,物体又包含几个不同部分。3)那些模型不一致的图通常是背景纹理较多较复杂的,而显著物体与背景的特征形似。4)最后对于那些模型一致而人工不一致的图,里面的物体通常包含多个部分,并且每个部分的特征都与背景不同。总体而言,对于人工不一致的图比较少。
【本文只代表个人观点,具体请参考原文】
【本文完】