视觉显著性发展与现状(一)
——大四显著性研究总结
一、Koch与Ullman的早期研究工作(1985)
实验室:http://www.klab.caltech.edu/
研究方向:实验室属于计算机神经系统,研究主要分为三个领域:Biophysics(基于神经计算的仿生物机制),Vsion(基于仿生物的视觉注意机制),Consciousness(大脑活动与意识之间的联系)
C. Koch and S. Ullman . Shifts in selective visual attention: Towards the underlying neural circuitry. Human Neurobiology, 4(4):219-227, 1985.
该文通过对灵长类动物和人类视觉系统的研究,提出了视觉显著性注意转移的三个特点:(1)不同图像的一些基本底层特征:颜色、朝向、运动方向和差异;(2)、选择性注释的一个功能是使不同图之间的信息变成一个连贯的整体;(3)提出了WTA机制,即在注意过程中先选择最明显的目标,然后选择次明显目标。
二、Itti和Koch的将视觉显著性模型第一次进行了实现(IT)(1998)
实验室:http://ilab.usc.edu/
研究方向:运用计算机模型探索大脑功能。生物视觉就是其实验室研究的重点。实验室很多视觉的前沿知识,在仿生物与计算机算法研究领域有很多创新
L. Itti, C. Koch, & E. Niebur .A model of saliency based visual attention for rapid scene analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11):1254-1259, 1998
该文的主要贡献是将选择性注视理论变成了实际模型——IT模型。该模型是基于Koch和Ullman在1985年提出的视觉选择性注视理论。算法基本流程与Koch提出方案基本类似,即:颜色、亮度和朝向特征的提取——中央周边差(1991年Leventhal提出的)计算三种特征的特性显著图——对特征图进行归一化处理然后进行特征图的合成——运用WTA机制标注出图像中的显著目标。这篇文章是显著性算法实现的鼻祖,涉及到显著性的文章大多会从该文出发谈起。
优点:第一次将视觉显著性理论变成实际理论,采用的WTA机制大致符合人眼的注意顺序,对图像的底层特征分析比较详细
缺点:仿生物模型的结构建立比较复杂,计算速度慢,效率低,目标轮廓无法辨识,图像分辨率低。
三、Harel和Koch提出的基于图的显著性算法(GBVS)(2006)
实验室:http://www.emotion.caltech.edu/,http://www.vision.caltech.edu/~harel/
研究方向:(师从Koch)视觉神经学,机器视觉和感知神经学
J. Harel, C. Koch, &P. Perona. Graph-based visual saliency. Advances in Neural Information Processing Systems, 19:545-552, 2006.
该文是在IT模型上进行改进的显著性算法。前期特征提取的方式基本类似,不同的是IT算法通过中央周边差计算特征显著图,而GBVS是通过马尔科夫随机场来计算特征显著图。首先通过像素的特征值定义图中任意两点间的距离,再通过一个公式得到图中任意两点间的权重,最后通过马尔科夫随机场的稳定状态来确定最后的显著图。最后得到的显著图也经过了归一化后的合成处理。
优点:该文对IT算法有了不错的改进,其实验效果比IT算法有了明显提高,也为显著性跨学科提供了新的思路。
缺点:图的计算量大,特别是当图像分辨高时,得到的图的顶点会很多,顶点之间的权重以及马尔科夫随机场稳定状态都是相当麻烦的,很难快速得到显著图。在实时应用过程中效果会很差。
四、侯晓迪提出的频率残差法(SR)(2007)
实验室: http://www.houxiaodi.com/, http://www.its.caltech.edu/~xhou/
研究方向:
(师从Koch)人类视觉感知的计算机模型,计算机神经网络
X,Hou &L,Zhang. Saliency Detection: A spectral residual approach. IEEE Conference on Computer Vision and Pattern Recognition, 2007, pp.1-8.
该文从频率的角度提出了一种新的显著性算法。作者认为,从信息理论出发,图像可以分为
冗余部分和新颖部分,通过对图像库1000幅图像的对数谱进行分析,作者发现图像的平均谱都是平滑的曲线,那么单一图像对数谱中突出的部分不就是显著性部分吗。基于该想法,作者提出了剩余谱理论。即
计算图像的振幅和相位——通过振幅谱突出部分相减得到特征谱——再通过傅里叶反变换得到显著图。
优点:从频率角度提出了视觉显著性的新的研究方向,并从信息角度分析了图像的组成部分。该算法只需要进行傅里叶变换和反傅里叶变换,因此计算速度相当快。
缺点:显著性区域不明显,只是标出来高亮的区域。更重要的在2012年他新发表的论文和2013年国际CVPR会议中,他说明自己剩余谱理论是不正确的,很多建立在该基础上的假设都是不完善的。在2012发表的论文中,他从理论角度,通过公式详细证明并解释了图像频率显著图的正真内涵。
Xiaodi Hou, Jonathan Harel and Christof Koch: Image Signature: Highlighting Sparse Salient Regions (PAMI 2012)
五、Achanta的相关研究(AC,IG)(2008,2009,2010)
实验室:http://ivrgwww.epfl.ch/~achanta/
研究方向:机器视觉,图像处理和颜色成像
1
、R. Achanta, F. Estrada, P. Wils and S. Süsstrunk, Salient Region Detection and Segmentation,International Conference on Computer Vision Systems (ICVS '08), Vol. 5008, Springer Lecture Notes in Computer Science, pp. 66-75, 2008.
该文的目的是对图像中的显著性区域进行检查和分割。文章提出的AC算法是基于局部对比度的纯粹的计算方法。AC算法通过比较图像中每个像素的亮度色彩值与一定区域的平均亮度色彩值来确定该点的显著性值,然后根据每个点的显著值得到整幅图像的显著值。
优点:该算法是多尺度的局部对比度方法,能够高亮显示整个目标区域,并能够很好的凸显出目标的边缘信息,而且由于变化的尺度并不是原图,能够保证显著图的分辨率。
缺点:由于目标中心区域相互之间的显著性可能不明显,不能高亮的显示显著目标的中心区域。
2
、R. Achanta, S. Hemami ,F. Estrada,& S. Süsstrunk, Frequency-tuned salient region detection. IEEE International Conference on Computer Vision and Pattern Recognition, 2009, pp.1597-1604.
该文提出的IG算法与之前的AC算法思想有类似之处,是通过在Lab色彩空间计算平均特征值Iu与高斯滤波之后的特征值Iwhc的差来定义图像的显著值。
文章的还提出了显著性检测的必要条件:(1)突出最大的显著性目标;(2)同时高亮显示出所有的显著性区域;(3)更好的定义显著性目标的边缘;(4)忽略噪声、纹理和人工块带来的高频信息;(5)有效地输出完整分辨率的显著图。
文章还比较了几种典型算法的特点:IT,MZ,GB,SR和AC,文章先是分析了不同算法的特点以及优缺点,然后重点在频率角度分析了这几种算法的缺陷,在此基础上提出了本文的频率调谐算法。
优点:基于图像全局对比度,模型构造简单,计算速度比较快,能够得到很好的显著图,并保证了显著图的高分辨率。
缺点:
3
、Radhakrishna Achanta and Sabine Susstrunk, Saliency Detection using Maximum Symmetric Surround, International Conference on Image Processing (ICIP), Hong Kong, September 2010.
作为国际会议论文,该论文与其09年提出的IG算法基本类似,不同之处是改进了平均特征值的计算方式。由于目标的中心区域容易被忽略,本文提出的算法主要是为了解决目标中心的高亮问题。
优点:能够更高亮的显示出目标物体,包括其中心区域。
缺点:增加了计算复杂度,需要对全图每个点进行扫描。
六、清华M.M.Cheng的工作
个人主页:http://mmcheng.net/zh/目前已在南开做副教授,刚进入视觉领域,觉得他的论文都是good ideal,高质量的论文。目前他的几篇关于目标快速检测和场景解析,图像矫正的文章都还在研究。个人觉得他的主页很值得一看。
研究方向:(I) biological motivated salient region detection and segmentation; (II) sketch based image retrieval and composition; (III) interactive image analysis and manipulation; (IV) similar scene elements analysis for smart image manipulation.
1、Global Contrast based Salient Region Detection. Ming-Ming Cheng, Guo-Xin Zhang, Niloy J. Mitra, Xiaolei Huang, Shi-Min Hu. IEEE International Conference on Computer Vision and Pattern Recognition (
IEEE CVPR), 2011, p. 409-416.
该论文主要在Achanta的FT思路上受到的启发,论文提出了HC和RC两个基于全局对比的显著性分割算法。HC方法是基于直方图统计的全局对比度方法,RC方法是在HC方法上添加了空间位置关系的方法,能够获得更好的结果。HC算法将输入图像在RGB色彩空间进行色彩统计分类,然后有对像素在Lab色彩空间进行距离度量,并通过平滑滤波减少了颜色分类的噪声,然后通过改进LC算法计算图像的显著度。而RC算法是将输入图像进行分割,然后对分割之后的区域进行显著度的计算。
论文还提出一种改进性的迭代图像分割算法,能够得到当今最好的图像分割算法。
优点:HC和RC能够得到高精度的显著图,并在复杂自然环境中准确分割出目标图像。HC算法改进了直方统计和全局对比度算法,能够获得不错的计算速度,在RC算法中,作者提出的区域分割思路为显著性算法注入了新的思路;
缺点:RC算法提出了新的思路,但是其计算复杂度比较大,实现麻烦,还有待改善。
这是MIT的一遍Saliency Benchmark中摘录的图片,对现阶段的显著性方法进行了很全面的总结和比较。
http://saliency.mit.edu/