显著性检测(三)A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

本文是显著性检测的开山之作,自1998年被发表,引用量接近8000次。这篇论文提出了一个视觉注意系统,灵感来自于早期灵长类动物视觉系统的神经元结构和行为。多尺度图像特征组合成一个单一的地形显著图。一种动态神经网络根据显著性降序选择位置。该系统通过快速选择、计算效率高的方式,对突出的位置进行详细分析,从而打破了场景理解的复杂问题。
本文所提出的显著性模型分为两个部分:首先提取图像特征,形成特征图进而得到显著图;然后模拟动态神经网络,将显著性按降序排列。
预处理:
输入为分辨率为640×480的静态彩色图像,使用二元高斯金字塔生成九个空间尺度,逐步通过低通滤波器,对图像做二次采样,生成从1:1(尺度0)到1:256(尺度8)的不同尺度的图像,加上原图共有9幅图像。
根据视觉机制中的“center-surround”理论,视觉神经元对局部空间的不连续性非常敏感。之前得到的9幅图像中,认为和原图相近的尺度是fine,和原图有较大差距的尺度是coarse。定义中心为尺度cϵ{2,3,4}中的像素,周围是尺度s=c+δ中的像素,其中δϵ{3,4}。这样我们得到六种(c,s)的组合,(2,5),(2,6),(3,6),(3,7),(4,7),(4,8).然后我们对这些组合做处理,不同尺度图之间的差异被标记为⊖,对精细的那个尺度做插值(也就是减少fine的图像的像素数使其与coarse的一致),然后做点对点的减法得到的就是差异。
前期特征提取:
强度:I=(r+g+b)/3,对红绿蓝三个颜色通道做均值。得到的I值用来产生高斯金字塔I(σ),其中σ是0到8共9个尺度。然后利用前面的(c,s)组合做差:
I(c,s)=|I(c)⊖I(s)|
六个组合得到六幅强度图像。
彩色:因为颜色变化在低亮度下难以观测,所以归一化只用在I大于整幅图像最大值的1/10处。对初始的颜色通道进行调整:
R = r – (g+ b)/2
G = g – (r + b)/2
B = b – (r + g)/2
Y = (r + g)/2 – |g - r|/2 – b
如果出现负值,就设置为0。
根据双色对立理论,红/绿、黄/蓝颜色对互相抑制,所以:
RG(c,s) =| (R(c)– G(c))⊖ (R(s)– G(s))|
BY(c,s) =| (B(c)– Y(c))⊖ (B(s)– Y(s)) |
方向:局部方向信息使用Gabor金字塔O(σ,θ)从I中获得,其中σϵ{0..8},θϵ{0°,45°,90°,135°}。
局部方向信息是center和surround尺度的差异:
O(c,s,θ) =| O(c,θ)⊖ O(s,θ)|
由上,我们得到了6张强度图,12张颜色图,24张方向图。
显著图:
显著图就是基于显著性的分布作出的用来代表显著性的图——在每一个位置用确定的数值表示显著性大小,决定选择的顺序。结合不同的特征图的难点在于他们的信息有着不可相比较的特质,有着不同的动态范围和提取方法。而且,因为是42幅图像结合,显著物体只在某些图像中体现出显著性,而且有可能在大多数图像中被噪声干扰或者被不显著的物体干扰。
由于缺乏top-down的监督指导,我们提出了一个归一化算子Ν(.),整体提升那些有显著物体的峰值的图,整体抑制那些包含可比较的峰值响应的图。Ν(.)的算法如下:
1将图中的值归一化到[0..M]范围内以消除那些依赖状态的幅值差异。
2找到图中全局最大值M的位置并且计算其他局部最大值的平均值m。
3为整幅图乘上(M-m)^2。
在整个过程中,由于只有局部最大值被考虑,所以该算子的信息只包含那些有意义的点,忽略了那些相似的区域。这一步能展现全局最大值与平均水平的差异有多大。因为当全局最大值很突出的时候,(M-m)的值会很大,整幅图像都会被提升;相反则会被抑制。
这些特征图被组合成三个显性图(conspicuity maps),分别代表强度、颜色和方向,都在尺度为4的图像上生成,通过跨尺度的加和得到,⨁包含了每幅图像与尺度4的差值,并且是点对点的运算。方向上先计算某个角度的六个特征图归一化,然后相加并归一化。
显著性检测(三)A Model of Saliency-Based Visual Attention for Rapid Scene Analysis_第1张图片
三个不同的通道各自的归一化存在一个假设:相似的特征在显著性上存在很强的竞争,不同的状态对显著图的影响不同,他们做平均值得到S。
显著图的最大值定义了最显著区域的位置,也就是我们直接观测到的视觉注意点。我们本可以选择最活跃区域,但是,从神经学可行的方法来看,我们将显著图模拟为在尺度4的二维层次的漏集成-发放神经元。这些模拟神经元包含了单一的电容(继承了由突触输入传送的电荷),漏电导,电压阈值。当达到阈值时,生成一个典型的高峰,电容电荷变为0。在尺度4上,显著图提供了一个生物学上可行的二维“赢者通吃”(WTA)神经网络,在其中单元中的突触交互作用保证了只有最活跃的位置被保留,其余的区域都被抑制。
显著图中的神经元感受S的输入刺激,并互相独立。显著图的更显著位置的神经元的电势因此增长得很快(这些神经元是纯集成不发放的)。每个显著图神经元激发相应的WTA神经元。所有WTA神经元也彼此独立进化,直到其中一个(获胜者)首先到达阈值并且发送。这将引发三个同时发生的机制:
1视觉注意点FOA转移到胜出者神经元的位置。
2引发对WTA的全局抑制,并且完全抑制(重置)全部的WTA神经元。
3显著图中FOA的位置有局部抑制被激活,导致FOA区域转移到下一个最显著位置,它变成胜出者,但是它也避免了FOA转移到以前的显著区域。
为了模型随后跳到突出的位置,空间上接近目前显著的位置,一个在FOA附近的小的激励在显著图中被激活。
FOA区域被定义为圆形,以显著的那个像素点作为圆心,以图像长宽中较短的那个边的六分之一为半径。由心理学的研究,模拟神经元的时间常数,电导和电压阈值被选中,因此FOA从一个突出的位置跳跃到下一个,大约30–70毫秒(模拟时间),一个先前显著地区域被抑
制约500–900毫秒。

你可能感兴趣的:(Saliency)