本人新手一枚,刚开始看这方面的东西,有任何翻译不妥希望大家指出。
公式复制不过来,先搁在这儿等有空了来补全!
基于显著标志的视觉注意力的快速场景分析的模型
Laurent Itti, Christof Koch, and Ernst Niebur
摘要:受到对早期灵长类动物的视觉系统的表现和其神经元结构的启发,提出了一个新的视觉注意力机制。把多个特征点图像组合成一个标志其特点的显著图。然后为了减少显著特征的数量,神经网络只会选择有明显特征的地点。这个系统解决了快速选择中复杂的场景感应问题,仅仅显著的地方会被仔细分析。
关键字:视觉注意,场景分析,特征提取,目标检测,视觉搜索
1 介绍
灵长类动物拥有一个重要的能力,即实时分析复杂的场景,尽管负责这种任务的神经元硬件条件在速度方面有一定的局限。媒介和更高级的视觉处理流程在后续处理上对场景信息进行了选择,只保留了他们的一部分。这样做大大减少了场景分析的复杂程度。这种选择是通过视觉领域的空间局部区域的形式实现的,这就是所谓的“注意力焦点”,这种方法不仅快速、由下向上、基于显著特点,而且还能较慢的、自上向下的、意志控制的、和取决任务目标的方式扫描场景图像。
注意力模型包括“动态路由”模型,在此模型中大脑皮层的视觉层次结构处理的仅仅是视觉领域中的一部分区域的信息。这个注意力区域的选择取决于大脑皮层连通的动态改变、或者是活动的特殊暂时模式的建立,它们都是在自上向下(任务独立)和自下向上(场景依赖)的控制之中的。
这里使用的模型建立在Koch 和Ullman等基于几个模型提出的第二生物合理框架结构上的(图一)。它和用来解释人类视觉搜索策略的所谓的“特征集成理论”是相关联的。视觉输入首先分解成一系列的图形特征图。然后在每个表中不同的空间位置为显著特征进行筛选,这样使得在环境中突出的局部位置得以保留下来。所有的特征图以一个纯粹的自下向上的方式的处理成为一个主要的“显著图”,它在整个视觉场景中对局部醒目性进行编码。在灵长类动物中,这样的特征图被认为放置在顶叶皮层中,还有各种视觉特征图位于丘脑的核心处。这个模型的显著图被赋予了内部动态,而这种内部动态形成了注意力偏移。因此这个模型描绘了完整一列自下向上的显著特征,并且没有为了转移注意要求任何一个自上向下的引导。在快速筛选中,这个框架结构针对少数感兴趣的图像目标进行更复杂和耗时的目标识别流程。听过了大量的对比方法。这种方法还可以拓展为“引导式搜索”,这是一种来自更高级皮层区域的反馈(比如关于被寻找的目标的知识)被用来权衡不同特征的重要性,高权值的特征才会被接纳进入更高处理水平的流程。
2 模型
模型以静态的彩色图像、分辨率通常为640×480的形式作为输入。运用二元高斯金字塔创建了九个空间区域,它们依次地通过低通滤波器。对输入图像进行二次采样,形成排列为1:1(0级)到1:256(8级)的8°的水平和垂直的图像采样。
每个特征都通过一系列的线性“中心包围”来计算,类似于视觉能容纳的区域(图一):典型神经元最敏感的会是整个视觉的空间的一个小的区域(中心),然而呈现在与中心点同轴的边界和弱对抗区域(边界)的刺激物抑制了神经元响应。这样的一个对局部空间不连续性十分敏感的结构非常适合检测与周围有明显差异的局部空间,而且这也是视网膜、外侧膝状体核和灵长类动物大脑视觉皮层的常规计算法则。中心包围是通过在精细和粗糙级别中的不同点的模型来实现的:这个中心点是一个在等级c∈{2,3,4}之中的像素,并且周围的像素点等级在s = c + δ, δ ∈{3, 4}.之中。在两个表之间是不同的横向等级(用“ϴ”表示小于)是通过插入更精细的等级并且点对点的相减得到的。运用包括c和δ=s-c在内的几个等级产生真实的多特征抽样,其中包含中心和周围区域不同的尺寸比率。
2.1早期视觉特征的抽样
在输入图像中,用r、g、b分别表示红、绿和蓝的颜色通道,并且图像亮度I是通过I=(r+g+b)/3得到的。这里的I用来创建高斯金字塔I(σ),其中σ∈[0..8]表示等级。为了从亮度中减弱色度,r、g、b通过I进行归一化。但是,因为色度变化在低光照下是不可感知的(所以因此是不显著的),归一化仅仅应用在I大于整个图像的最大值的1/10的地方(其他地方产生0值r,g,b)。四个广泛调整的颜色通道被创建:红色R=r-(g+b)/2;绿色G=g-(r+b)/2;蓝色B=b=(r+g)/2;黄色Y=(r+g)/2-|r-g|-b(负数清零)。四个高斯金字塔R(σ),G(σ),B(σ),Y(σ)通过这些颜色通道被创建。
“中心”精细等级c和“周围”粗糙等级s的差异产生特征图。第一个特征集合关系到亮度对比度,这在哺乳动物中通过神经元的敏感检测到亮环境中的黑中心、或者黑环境中的亮中心。这里,两种类型的的敏感度在一组六个图中同时被计算(运用一次矫正),其中,I(c,s),c∈{2,3,4},s=c+δ,δ∈{3,4}:
I(c,s)=|I(c)ϴI(s)| (1)
第二组表用类似的方法构造颜色通道,这在视觉皮层中描绘了所谓的“color-double-opponent”(CDO)系统:在它们可接收到范围内的中心,神经元被一种颜色刺激(例如,红色)并且被另外一种颜色抑制(例如,绿色),然而在中心之外却会体现出相反的现象。这样的空间和色彩的对立在人类视觉大脑皮层中有以下组合中:红/绿、绿/红、蓝/黄、黄/蓝。据此,表RG(c,s)在这个模型同时计算出来红/绿、绿/红两个对立组(2),同理表BY(c,s)表示蓝/黄、黄/蓝两个对立组合(3):
RG(c,s)=|(R(c)-G(c))ϴ(G(s)-R(s))| (2)
BY(c,s)=|(B(c)-Y(c))ϴ(Y(s)-B(s))| (3)
图像中位置的方向信息是通过利用方向加布金字塔从I中获得(I即为第一个特征图Intensity),其中σ∈[0..8]表示参数范围,θ∈{0°,45°,90°,135°}表示涉及到的方向。(Gabor滤波器是余弦栅格和2D高斯表面的产物,这个可部分可以约等于在灵长动物的定位选择神经系统中,视觉皮层接收信息的敏感度(脉冲响应);方向特征图,O(c,s,θ),编码为一个组,方向信息在中心区域和周边区域形成强烈的反差:
O(c,s,θ)=|O(c,θ)ϴO(s,θ)| (4)
总之,我们计算出了42特征图:六个表示亮度,12个表示颜色,还有24个表示方向;
2.2 显著图
显著图用来对在视野中的每个地方的显著特征用标量进行描绘,并接下来对所需呈现位置做出选择。多个特征图的结合提供了一个自下向上的输入方式,形成显著图,作为一个动态神经网络的模型。
在组合不同的特征图的一个困难是,它们用的是不同的动态范围和提取机制,所以它们代表的方式没有先验可比性,。此外,因为所有的42个特征图都要参与组合,极少数含有显著特征的图像可能会被标记为噪声、或者较弱显著特征的物体。
鉴于缺乏自顶向下的监督,我们提出一个表的归一化操作N(.),他能全局的促进具有较少的很强的活动峰值的表,相反也能抑制那些包含许多峰值响应的表(图二):
图二 归一化操作N(.)
N(.)操作包括:
1)、为了估计形式独立的振幅差异,归一化图中的值使其成为修正的等级[0...M];
2)、找到图中全局最大值M的位置和计算所有其他全局最大值的平均值m
3)、全局用(M-)乘以表
仅仅考虑局部活动的最大值比,所以N(.)与和表中“活动点”相关联的响应比较,且忽略均匀区域。把整个表中的最大值和全部的活动的平均值进行比较,得出对活跃的位置的和平均值有多大的差异。当这个差异值很大时,这个最活跃的位置就显现出来,并构成到显著图上去。当这个差异是比较小的,这个图没有独到的信息,并且是抑制的。在这个设计N(.)操作背后的生物学动机是它简约的取代皮质侧部的抑制机理,这个机理中相邻的特征通过细节和组织学上定义的连接来抑制其他区域[15]。
所有特征图联合成为三个“显著图”,在显著图的等级(σ=4)时,表示亮度(5),表示颜色(6),表示方向(7)。他们通过横向等级相加获得的,它们涵盖了每个图的等级下降到4,并且点对点相加:
关于方向,四个起媒介作用的图利用所给的θ,组合这六个特征图首先被创建,并且单独的与方向显著图相组合:
三个不同通道的创建以及、、和他们的个体归一化的动机是类似特征为显著性而激烈的竞争,不同的形式独立的贡献给显著特征图。这三个显著特征图归一化并总结作为显著图的输入S:
在任何所给的时间,显著图(SM)的最大值定义了最显著的图像位置,该位置注意力的焦点具有指向作用。我们现在能够简单地把最活跃的位置作为模型下一次出现的点。但是,在神经元的实现过程中,我们在第四级把SM建模成2D层次结构的集成和解散的神经元。这些模型神经元包含了一个单独的容器,该容器集成了通过突触输入传输电荷,也包含了一个渗漏的电导率和电压阈值。当达到阈值时候,一个典型的长钉形成,并且电容电荷清零。SM还会为生物学上似乎可信的2D“胜者生存”(WTA)神经网络在4级提供原料,这里突触在各个单元中相互作用确保仅仅这个最活跃的位置持续下来而其他位置被抑制。
在SM中的每个神经元从S中接受刺激性的输入并且都是独立的。电势位于SM神经元最跳跃的位子上,因此增加非常快(这些神经元被用作纯粹的积分器而不被释放)。每一个神经元激发他相应的WTA神经元。所有的WAT神经元也都独立的发展进化,直到某一个(胜者)第一个达到了阈值并且释放。这个触发三个同时的进程:
1)、这个FOA转变成为胜者神经元位置;
2)、全局的WTA抑制被触发后引起所有的WTA神经元的彻底抑制;
3)、在SM中,在FOA的尺寸和新位置的区域局部抑制被短暂的刺激;这不仅通过允许下一个显著特征的位置随后变成了胜者引起FOA的改变,而且阻止了FOA立刻返回先前注意力的位置。
这样一个“返回抑制”已经被人类视觉心理物理学论证了。为了使这个模型向随后的到当前的显著注意力位置空间附近的显著位置的跳跃有所倾斜,在SM一个小的激发短暂的刺激该模型。
既然我们没有模拟任何以后自上向下的注意力部分,所以FOA是一个简单的圆盘,它的半径修正为输入图像的高和宽两者之间的较小者的1/6.这个
模拟神经元的时不变性、电导率和击穿电压被选择,以便FOA从一个显著特征位置跳跃到下一个显著特征位置只需要大约只需要30-70ms(模拟时间),同时一个被注意的区域被抑制需要大约500-900ms(图三),正如研究心理物理学得到的结果一样。这些延迟的差异证明他是充裕去保证彻底浏览图像和阻止仅仅在有限的几个位置上发生循环。在我们的试验中,所有的参数都被修正,并且在整个图像研究中这个系统是稳定的。
图三:利用一副自然图像作为此操作的例子。平行特征抽样产生三个显著特征图,分别是颜色对照物(C)、亮度对照物(I)、方向对照物(O)。这些表联合组成显著特征图(SM)输入S。在上图中,最显著的的位置是橙色电话机箱,它在颜色对比度C变现的十分明显;这样它变成第一个注意力的位置(第92ms仿真时间)。在返回抑制技术在显著特征图中反馈抑制了这个位置之后,下一个显著特征位置成功被锁定。
2.3 和空间频率容量模型比较
Reinagel和Zador利用一个跟踪眼睛的设备沿着眼睛的浏览路径分析局部空间频率干扰,其中这个路径在人们自由查看灰度等级图像时形成的。他们发现在修正的位置上空间频率容量平均值意义重大的高于随机的位置。尽管眼睛轨迹能够不同于在意志力控制下的注意力轨迹,视觉注意力常被认为preocculomotor机制,它能强烈的影响自由视野。因此,研究我们的模型是否也能在线Reinagel和Zador的发现也变的有兴趣了起来。
我们构建一个简单的空间频率容量(SFC)的量度:在一个给定的位置上,对每个I(2)、R(2)、G(2)、B(2)和Y(2)取样取出来一个16×16的图像,然后对这每个小图像进行快速傅里叶变换(FFTs)。对于每个图像块儿,一个阈值用来计算不可忽视FFT系数;这个阈值和可感知的摩擦声(1%对照)的FFT振幅相吻合。SFC的衡量值是这五个相应的图像块的不可忽略系数的平均值。选择图像块儿的尺寸和比例使SFC量度对和我们模型的差不多的频率和分辨率比较敏感;而且,我们的SFC量度也在RGB通道和亮度中计算出来。利用这个量度,SFC表可以在4级的时候被创建,并且能够和显著特征图进行比较(图四)。
图四:(a)颜色图像的例子(b)响应的显著特征图的输入(c)空间频率容量(SFC)表;(d)输入显著特征图输入比他的最大值的98%大的位置(黄色圆圈),同时,那些SFC中的比他的最大值的98%大的图像块(红色方形)。由图中可以看出显著特征图对噪声非常具有鲁棒性,然而SFC则不能。
3 结果和讨论
尽管显著特征图的概念在FOA模型中被广泛的应用,微小的细节常常能够给出解释和提供动态性能。这里我们检验特征采样结算、表联和策略和显著特征图暂时属性都是如何贡献于整个系统的运行。
3.1 普通运行模式
为了确保正常的运行,这个模型进行了大量图片的测试;例如,按照对比度依次兑减的顺序,展示了几个有相同形状的目标,但有着不同对比度的背景的图片。这种模型被证明对于这种图片(图五)有着良好的鲁棒性,尤其是对于噪声的特性(比如它的颜色)没有和目标的主特点产生直接冲突的图片。
图5. 检测性能中噪声的影响,以768×512的场景,其中的目标(两个人)主要以其强烈的色彩对比产生显著效果。平均值±S.E。发现目标之前的错误检测显示为噪声密度为噪声50实例功能。该系统对没有和目标主特点产生直接冲突的图片有良好的鲁棒性(左;强度噪声和色彩目标)。当噪声具和目标性质类似的特征时,它就会损害目标的显著性,系统则会首先照顾到其它特比较突出特征(这里,强度的粗尺度变化)的对象。
该模型能够再现人类在一些弹出任务[7]中的表现行为,使用图2所示类型的图像。当一个目标从通过其独特的性质和周围的干扰因素区分出来(如图2),颜色,强度或大小不同,它总是在首要显示的位置,不管干扰项的数目如何。反之,当目标仅仅由于特点的结合从干扰项中区分出来(例如,它是在红色垂直柱和绿色水平柱的混合阵列中唯一一个红色的垂直柱),找到目标的必要搜索时间随着干扰项的数量线性增长。这两个结果在人类[7]得到了广泛的观察,接下来在第3.2节中加以讨论。
我们还测试了真实图像的模型,从自然的户外场景到艺术绘画,使用N(.)来归一化特征图(图3和[17])。用许多这样的图像,难以客观地评价模型,因为没有客观参考可用于比较,观察者们也许也会就哪个区域最为显著产生分歧。然而,在所研究的所有图像中,大部分显示出的区域都是显著的目标,如面部,旗帜,人,建筑物,或车辆。
对模型预测以本地的SFC的所述量度进行比较,以一个类似于Reinagel和Zador[18]的实验中,使用与凸交通标志(90张图像),一个红色苏打罐(104张图像),或者在车辆的紧急自然场景三角形符号(64张图像)。类似于Reinagel和扎多尔的调查结果,在参表示区域中,其SFC比平均SFC明显高很多,通过在第八显示区域从在首要显示区域2.5±0.05下降至1.6±0.05的事实。虽然这个结果并不一定表示人眼的注视和模型的注意力轨迹之间的相似性,表明该模型和人类一样,被吸引到图像中“信息的”位置。根据普遍假设,具有越丰富的光谱内容的区域,可以提供的信息就越多。对于大部分图像来说,SFC图类似于显著图(例如,图4.1)。然而,这两种图分析图像时,在照明和色彩(例如,由于斑点噪声)方面有强烈的差异,尽管这些区域均表现出高SFC值,他们因为他们的均匀性(图4.2和图4.3 )呈现出较低的显著性。在这样的图像中,显著图往往会与我们主观感觉到的显著的比例更加一致,对于258张分析的图像,所表现区域的SFC值明显低于其最高SFC值,由第一表现区域的0.90±0.02下降到第八表现区域的0.55±0.05:虽然所显示的模型SFC值很高,它们和最高SFC的区域相比较而言,就显得不重要了。这大约可以结论性地说明,显著点不只是一个区域SFC的测量方法。这种利用空间特点竞争进行计算的模型,可以主观地抓获明显高于纯粹的区域SFC测量。
3.2 强度和极限
我们提出了一个架构和组件模仿早期灵长类动物视觉特性的模型。尽管它结构简单、特征提取机制为前馈方式,该模型能够在复杂的自然场景表现出色。例如,它可以迅速检测各种形状(圆形,三角形,正方形,矩形),颜色(红,蓝,白,橙,黑色),和纹理(字母标记,箭头,条纹,圆)的显著交通标志,虽然它被设计的目的并非如此。这种优秀的表现更加坚固了一个想法,那就是一个独特的著图,从早期的视觉过程接收输入,可以有效地引导灵长动物自下而上的注意力[4],[10],[5],[8 ]。从一个计算角度来看,这种方法的主要优势在于它基于大规模相似的实践,不仅在耗费计算的早期特征提取阶段,还在于注意力集中系统。比以前的基于广泛的放松技巧[5]模型更进一步的是,我们的架构可以很容易地允许在专用硬件进行实时操作。
该模型预期性能的类型关键取决于一个因素:只有对象特征的特征图中的至少一个得以表达,才能导致他的显现,即,快速检测独立于干扰对象的数目[7]。没有修改前期注意特征提取的步骤,我们的模型无法检测出特征的连接性。虽然我们的系统会立即检测出由其独特的尺寸,强度,颜色,或方向与周围环境区分出来的目标(我们已经实现了,因为他们已经很好地表征初级视觉皮层的属性),但是它无法检测还未实现的显著目标类型(例如,T路口或行尾字符,那些具体的神经探测器的存在仍有争议)。为了简单起见,我们也没有用特征图实现任何复发机制,因此,不能再现轮廓填充和闭合,这对于一些类型的人眼识别[19]是至关重要的。此外,目前,我们的模型不包含任何大细胞运动通道,而这正是人类识别显著特征中发挥强有力作用的地方[5]。
一个鉴定的模型组件是N(.)的归一化,它在任何情况下都为计算显著特点提供了一种通用机制。通过模型执行所产生的显着特征度量,即使往往与区域SFC相关,更接近人类所分辨的显著性,因为它执行了显着区域之间的空间竞争。我们对N(.)前馈实现比以前提出的迭代计划[5]更快,更简单。从神经元上讲,在条纹和纹外皮层[15]细胞非经典接受区域,空间竞争与已经观察的N(.)具有类似的效果。
总之,我们已经提出了显著性驱动的焦点视觉注意的一个概念简单的计算模型。以生物洞察力作为其结构的指导,再现一些灵长类动物的视觉系统的性能被证明是非常效率的。这种方法对目标检测的效率主要取决于实现的特征类型。这里提出的框架能够通过随后专用特征图的实施,很容易地适应任意任务。
致谢
我们感谢Werner Ritter和Daimler-Benz的交通标志图像,以及Pietro Perona和审稿者们很好的建议。
这项研究是美国国家科学基金会,加州理工学院中心的神经形态工程学和美国海军研究办公室支持。
参考资料
[1] J.K. Tsotsos, S.M. Culhane, W.Y.K. Wai, Y.H. Lai, N. Davis, and F.
Nuflo, “Modelling Visual Attention via Selective Tuning,” Artificial
Intelligence, vol. 78, no. 1-2, pp. 507–545, Oct. 1995.
[2] E. Niebur and C. Koch, “Computational Architectures for Attention,”
R. Parasuraman, ed., The Attentive Brain, pp. 163–186. Cambridge,
Mass.: MIT Press, 1998.
[3] B.A. Olshausen, C.H. Anderson, and D.C. Van Essen, “A Neurobiological
Model of Visual Attention and Invariant Pattern Recognition
Based on Dynamic Routing of Information,” J. Neuroscience,
vol. 13, no. 11, pp. 4,700–4,719, Nov. 1993.
[4] C. Koch and S. Ullman, “Shifts in Selective Visual Attention: Towards
the Underlying Neural Circuitry,” Human Neurobiology,
vol. 4, pp. 219–227, 1985.
[5] R. Milanese, S. Gil, and T. Pun, “Attentive Mechanisms for Dynamic
and Static Scene Analysis,” Optical Eng., vol. 34, no. 8,
pp. 2,428–2,434, Aug. 1995.
[6] S. Baluja and D.A. Pomerleau, “Expectation-Based Selective Attention
for Visual Monitoring and Control of a Robot Vehicle,” Robotics
and Autonomous Systems, vol. 22, no. 3-4, pp. 329–344, Dec. 1997.
[7] A.M. Treisman and G. Gelade, “A Feature-Integration Theory of
Attention,” Cognitive Psychology, vol. 12, no. 1, pp. 97–136, Jan. 1980.
[8] J.P. Gottlieb, M. Kusunoki, and M.E. Goldberg, “The Representation
of Visual Salience in Monkey Parietal Cortex,” Nature, vol. 391,
no. 6,666, pp. 481-484, Jan. 1998.
[9] D.L. Robinson and S.E. Peterson, “The Pulvinar and Visual Salience,”
Trends in Neurosciences, vol. 15, no. 4, pp. 127–132, Apr. 1992.
[10] J.M. Wolfe, “Guided Search 2.0: A Revised Model of Visual
Search,” Psychonomic Bull. Rev., vol. 1, pp. 202–238, 1994.
[11] H. Greenspan, S. Belongie, R. Goodman, P. Perona, S. Rakshit, and
C.H. Anderson, “Overcomplete Steerable Pyramid Filters and
Rotation Invariance,” Proc. IEEE Computer Vision and Pattern Recognition,
pp. 222-228, Seattle, Wash., June 1994.
[12] A.G. Leventhal, The Neural Basis of Visual Function: Vision and Visual
Dysfunction, vol. 4. Boca Raton, Fla.: CRC Press, 1991.
[13] S. Engel, X. Zhang, and B. Wandell, “Colour Tuning in Human
Visual Cortex Measured With Functional Magnetic Resonance
Imaging,” Nature, vol. 388, no. 6,637, pp. 68–71, July 1997.
[14] C. Koch, Biophysics of Computation: Information Processing in Single
Neurons. New York: Oxford Univ. Press, 1998.
[15] M.W. Cannon and S.C. Fullenkamp, “A Model for Inhibitory Lateral
Interaction Effects in Perceived Contrast,” Vision Res., vol. 36,
no. 8, pp. 1,115–1,125, Apr. 1996.
[16] M.I. Posner and Y. Cohen, “Components of Visual Orienting,”
H. Bouma and D.G. Bouwhuis, eds., Attention and Performance,
vol. 10, pp. 531–556. Hilldale, N.J.: Erlbaum, 1984.
[17] The C++ implementation of the model and numerous examples of
attentional predictions on natural and synthetic images can be
retrieved from http://www.klab.caltech.edu/~itti/attention/.
[18] P. Reinagel and A.M. Zador, “The Effect of Gaze on Natural Scene
Statistics,” Neural Information and Coding Workshop, Snowbird,
Utah, 16-20 Mar. 1997.
[19] I. Kovacs and B. Julesz, “A Closed Curve Is Much More Than an
Incomplete One: Effect of Closure in Figure-Ground Segmentation,”
Proc. Nat’l Academy of Sciences, U.S.A., vol. 90, no. 16, pp. 7,495–
7,497, Aug. 1993.