【谷歌翻译】【TIP17】Video Saliency Detection via Spatial-Temporal Fusion and Low-Rank Coherency Diffusion

cited: 6

摘要 

本文提出了一种基于时空显着性融合和低秩一致性引导显着扩散的视频显着性检测新方法。与传统方法形成鲜明对比的是,它们以逐帧方式局部地进行显着性检测,并且容易产生不正确的低级显着图,为了克服现有的困难,本文提出将颜色显着性基于全局运动线索以分批方式进行。并且我们还提出了低秩一致性引导的时空显着性扩散以保证显着性图的时间平滑性。同时,还设计了一系列显着性提升策略,以进一步提高显着性准确度。首先,将原始的长期视频序列等分成许多短期帧批次,并且将各个视频批次的运动线索在时间上集成和扩散以促进颜色显着性的计算。然后,根据获得的显着性线索,将批间显着性先验模型化,以指导低级显着性融合。之后,将原始颜色信息和融合低层显着性都视为低秩一致性线索,这些线索被用作指导空间 - 时间显着性扩散 - 借助于作为替代的附加置换矩阵等级选择策略。因此,它可以保证显着图的时间一致性的鲁棒性,并进一步提高计算显着性图的准确性。此外,我们对五个公共基准进行了广泛的实验,并对我们的方法和16种最先进的技术进行了全面的定量评估。所有结果都证明了我们的方法在精度,可靠性,稳健性和多功能性方面的优越性。

I. I NTRODUCTION AND M OTIVATION

视频显着性检测的目的是在给定的视频序列中定位最吸引眼球的物体,这对许多下游应用(如视频重建[1],视频对象跟踪[2]和视频表达[3])非常有价值。 与近年来取得巨大成功的图像显着性检测不同,视频显着性是一个相对较新的课题。 与仅在空间域上的图像显着性检测相比,视频运动信息的入侵是使这项任务具有挑战性的关键因素。 目前,如何正确开发和利用时空信息已成为视频显着领域公认的研究趋势。 在这里,我们将简要介绍与视频显着性检测相关的最新方法。

给定一个静态图像,其显着性是最吸引人注意的最显眼的内容。经过多年广泛的研究工作,人们已经达成共识,即显着性计算的合理核心是“对比度”[4]。也就是说,物体与其周围环境越不相同,其显着程度越高。虽然近年来已经提出了各种显著目标检测方法,但是这些最先进的方法的主要区别通常在于两个方面:特征空间的定义[5],[6]和对比计算[4],[7]。事实上,尽管通过引入更复杂和更具体的显着性机制(例如先验[8],约束[9],仿生学线索[10]等),报告的检测准确性已经逐渐增加,但严重不良案例(完全与实际情况相反)比以往任何时候都更频繁地发生(详见实验部分)。因此,运动线索引导的低级显着性融合对于鲁棒性视频显着性检测更为理想,而不是天真地将最先进的方法的显着性结果用作低级显着性线索。

显着运动检测的目的是将定位在给定的视频序列中的运动对象,这与视频显着性检测看似相似。显着运动检测的关键合理性是“建模”,其目的是提取背景外观并将残差(在已建立的背景模型和当前视频帧之间)作为显着运动检测结果。事实上,建模驱动的方法具有双重效应。首先,它需要很长的学习/更新周期才能建立稳定的背景模型,这很容易导致短期视频序列的性能不佳。其次,虽然各种区域建模解决方案[11,12]可以集成以处理相机移动(例如相机抖动),但基于建模的方法似乎只适用于静止视频。具体来说,近年来已经提出了几种基于低秩分析的显着运动检测方法,其可以实现最先进的性能[13] - [15]。然而,这些方法主要基于以下假设:在各种帧级预处理(例如,仿射变换,背景追踪等)之后,输入视频序列将相对固定,并且因此它可能容易引入额外的错误。因此,对于新设计的低秩分析方法有着强烈的期望,因此无论视频长度如何,它都可以同时适应静止和非静止视频。

事实上,与自顶向下的显着运动检测方法不同,视频显着性方法通常使用自下而上的图像显着性作为基本显着性线索,这可以很好地处理非静态视频中的显着性检测。然而,静止视频的检测性能低于基于低秩分析的显着运动检测方法[14] [12]。同时,由于运动信息可以被视为一种附加的可信显着性线索来促进视频显着性检测,因此许多最先进的视频显着性方法倾向于将颜色显着性与运动显着性融合。然而,这些方法所采用的融合过程[3],[16] - [18]在时间上过于局部(即以逐帧的方式)以获得可靠的低水平显着性,并且缺乏细微的方式当运动显着性与颜色显着性相反时解决它。而且,几乎所有现有的视频显着性方法都忽略了这样一个事实,即获得的显着图应该保持时间平滑性,这可以作为进一步提高检测精度的一个重要限制条件。最近,有些方法[19,20]甚至考虑了全局时间线索来计算鲁棒低层显着性,然而,随后的能量最小化框架,其目的是利用时间尺度上的显着一致性,很容易引起不正确的低级显着性的累积误差,从而导致大量的错误报警检测。因此,设计一个适当的解决方案以保证时间显着性一致性,同时足够强健以限制精度劣化至关重要。

为了解决上述局限性,我们的研究工作集中在设计一种视频显着性检测方法,该方法对于静态(它应该优于基于最先进的基于低秩分析的显着运动检测方法)和非平稳视频都有极好的性能。与传统视频显着性方法,采用最先进的图像显着性检测结果作为基本显着性线索,形成鲜明对比的是,我们重新考虑了最直接的局部对比度作为低层显着性,而不涉及高层次的先验或限制。并且将时空梯度图集成到颜色对比度计算中以避免空洞效应。同时,也可以将可视为时间层次全局线索的外观/背景建模引入颜色显着性与运动显着性的融合。具体来说,本文的主要贡献可概括如下:

•我们提出了一种新颖的时空梯度定义来指导对比度计算,它可以在前景物体周围分配高显着性值,但同时避免顽固的空心效应。 

•我们制定了一系列显着性调整策略,以指导颜色显着性和运动显着性的融合,在精度和鲁棒性方面超越了以往工作采用的传统融合解决方案

我们建议探索时空低秩一致性来构建跨帧超像素间的时间显着性相关性,这可以保证所得到的视频显着图的时间平滑度。

我们利用时间平滑性进一步提高显着性准确性,方法是基于构建的时间显着性对应关系的“一对一”时空显着性扩散,其比传统的,不受约束的“多对多”的情况更好。

II. B ACKGROUND AND R ELATED W ORKS

A. Salient Motion Detection Methods

由于显着运动检测方法最初是为固定视频监视而设计的,因此几乎所有的显著运动检测方法都利用基于建模的框架。从最早的高斯模型(如单高斯模型[21],高斯混合模型(GMM)[22],扩展的GMM模型[23])到基于当前结构拓扑的建模解决方案[11],大多数方法把已建立的背景模型和当前视频帧之间的残差作为显着运动线索。虽然类高斯的建模方法可以很好地处理背景变化,但是他们的孤立的像素级建模方法由于其处理突然的相机移动的缓慢适应能力而倾向于经常遇到大量虚假警报检测(例如,相机抖动,快速动态背景等)。因此,提出了纹理敏感或结构敏感的[11],[12],[24]特征表示,为了扩大类间特征距离(即,背景与前景移动物体之间的特征距离),同时缩短类内(背景或前景)距离。同时,还提出了像光流一样的时间运动检测器[25]来抑制鬼影效应,这种情况在间歇性物体移动情况下可以经常观察到。此外,为了抑制由动态背景引起的虚假警报检测,[14]提出了一种以粗到细的方式检测显着对象的多级低秩解决方案。为了使基于建模的显着运动检测方法适应非平稳视频,[15]采用帧级仿射配准,[13]采用高级背景跟踪作为预处理过程以获得相对平稳短期视频序列。然而,因为这些基于建模的方法通常需要长周期的视频帧来逐渐学习背景模型,所以当输入视频序列仅具有有限的帧时,顽固挑战依然存在。

B. Video Saliency Detection Methods

视频显着性检测是从视频中提取最独特的与运动相关的显着对象。最先进的视频显着性检测方法大致可以分为两类:基于融合的方法和基于空间 - 时间对比的方法。由于运动线索可以很容易地从光流方法中获得,所以基于融合的方法主要集中在颜色显着性和运动显着性的结合上。 Rahtu等人[26]建议使用条件随机场(CRF)来整合运动线索和颜色显着性。同样,方等人[17]提出使用基于熵的不确定性权重来合并空间显着性和时间显着性。刘等人 [16]借助空间显着性和时间显着性之间的相互一致性来指导融合过程。尽管基于融合的方法可以根据空间或时间显着性线索来选择最可信的显着性线索,但当空间显着性或时间显着性不正确时,故障情况仍然经常发生。与基于融合的方法不同,基于空间 - 时间对比的方法通常以空间 - 时间方式计算低级显着线索。例如,Seo等人[27]提出在预定义的时空环境中计算基于对比度的显着性。 Fu等 [28]提出估计时间对应关系,指导空间显着性线索的计算,以聚类方式。同样,周等人[3]提出用基于区域的时空方式计算多尺度显着性。虽然这些方法可以实现比大多数图像显着性方法好得多的显着性检测性能,但是由于逐帧显着性计算,所获得的显着性图通常具有不良的时间一致性。另外,Zhong等人[29]建议利用连续视频帧之间的时空信息来构建基于光流的他们新设计的关注模型,充分利用运动连续性的优势来消除虚警检测。同样,在基于低级显着性线索的图模型中,Kim等[30]建议在连续的视频帧中重新开始随机行走的静止状态,以捕捉真实的视频显着性,这可以充分尊重时空信息的连续性。最近,王等人[19],[20]建议使用基于运动线索的测地距离(或梯度流)作为低层显着性,并采用全局显着能量函数来保证最终显着图的时间平滑度。然而,它们的全局显着能量函数太全球化,不能准确地沿时间轴扩散显着性,因此,容易积累不正确的低级显着性,最终导致虚警视频显着性检测。


VI. C ONCLUSION AND F UTURE W ORK

在本文中,我们提出了一种新颖的视频显着性检测方法,该方法可以产生高精度的显着图,同时保持时间显着性一致。 我们的方法涉及几个新颖的技术元素,包括:(1)运动线索引导的颜色对比计算,它可以自动地为前景显着物体分配高显着值; (2)基于建模的低级显着性融合和扩散,保证了互补性地利用颜色和运动显着性线索来产生高精度低水平显着性; (3)基于低秩一致性的空间 - 时间显着性扩散和提升,从时间范围的角度引发内在视频显着性检测。 此外,综合实验和与最先进方法的广泛比较证明了我们的方法在准确性和可靠性方面的独特优势。

至于我们近期的工作,我们特别感兴趣的是重新考虑低阶一致性引导的运动线索,以改进背景提取技术,预计这将在视频监控应用中克服几个顽固的困难(无论是静态视频还是非静态PZT相机) 包括长周期间歇运动,周围环境变化缓慢,变化剧烈,低帧率视频中的显着运动检测等。同时,概括我们的关键思想以促进建模 在复杂环境中的非平稳场景下基于变化的检测也值得我们立即进行研究。


引用文献分析:

[3] F. Zhou, S. B. Kang, and M. F. Michael, “Time-mapping using space-time saliency,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit.,Jun. 2014, pp. 3358–3365. 【CVPR14】【34】

[12] P. L. St-Charles, G. A. Bilodeau, and R. Bergevin, “SuBSENSE: Auniversal change detection method with local adaptive sensitivity,” IEEETrans. Image Process., vol. 24, no. 1, pp. 359–373, Jan. 2015.【TIP15】【 185】

[14] Z. Gao, L.-F. Cheong, and Y.-X. Wang, “Block-sparse RPCA for salient motion detection,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 36,no. 10, pp. 1975–1987, Oct. 2014. 【TPAMI14】【 53】

[16] Z. Liu, X. Zhang, S. Luo, and O. Le Meur, “Superpixel-based spatiotemporal saliency detection,” IEEE Trans. Circuits Syst. Video Technol.,vol. 24, no. 9, pp. 1522–1540, Sep. 2014. 【TCSVT14】【76 】

[17] Y. Fang, Z. Wang, W. Lin, and Z. Fang, “Video saliency incorporating spatiotemporal cues and uncertainty weighting,” IEEE Trans. ImageProcess., vol. 23, no. 9, pp. 3910–3921, Sep. 2014. 【TIP14】【74】

[18] Q. Wang, S. Li, H. Qin, and A. Hao, “Robust multi-modal medical image fusion via anisotropic heat diffusion guided low-rank structural analysis,” Inf. Fusion, vol. 26, pp. 103–121, Nov. 2015. 【Information Fusion 15】【13】

[19] W. Wang, J. Shen, and F. Porikli, “Saliency-aware geodesic video object segmentation,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2015, pp. 3395–3402. 【CVPR15】【103】

 [20] W. Wang, J. Shen, and L. Shao, “Consistent video saliency using local gradient flow optimization and global refinement,” IEEE Trans. Image Process., vol. 24, no. 11, pp. 4185–4196, Nov. 2015.【TIP15】【40】

[26] E. Rahtu, J. Kannala, M. Salo, and J. Heikkila, “Segmenting salient objects from images and videos,” in Proc. Eur. Conf. Comput. Vis., 2010, pp. 366–379.【ECCV10】【387】

[27] H. J. Seo and P. Milanfar, “Static and space-time visual saliency detection by self-resemblance,” J. Vis., vol. 9, no. 12, pp. 1–27, 2009.【Journal of Vision09】【503】

 [28] H. Fu, X. Cao, and Z. Tu, “Cluster-based co-saliency detection,” IEEE Trans. Image Process., vol. 22, no. 10, pp. 3766–3778, Oct. 2013.【TIP13】【164】


[11] L. Dong, S. Kaneko, M. Hashimoto, K. Iwata, X. Zhao, and Y. Satoh,“Robust object detection in severe imaging conditions using co-occurrence background model,” Int. J. Optomechatron., vol. 8, no. 1,pp. 14–29, 20
【International Journal of Optomechatronics14 】【6】

[12]

[13]C. Chen, S. Li, H. Qin, and A. Hao, “Robust salient motion detection in non-stationary videos via novel integrated strategies of spatio-temporal coherency clues and low-rank analysis,” Pattern Recognit., vol. 52, pp. 410–432, Apr. 2016.【Pattern Recognition16】【11】

[14]

[15]X. Zhou, C. Yang, and W. Yu, “Moving object detection by detecting contiguous outliers in the low-rank representation,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 35, no. 3, pp. 597–610, Mar. 2013.【TPAMI13】【319】

[21] S. Huwer and H. Niemann, “Adaptive change detection for real-time surveillance applications,” in Proc. IEEE Int. Workshop Vis. Surveill., Jul. 2000, pp. 37–46. IEEE International Workshop on Visual Surveillance00【196】

[22] C. Stauffer and W. E. L. Grimson, “Learning patterns of activity using real-time tracking,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 22, no. 8, pp. 747–757, Aug. 2000.【TPAMI00】【4278】

 [23] S. Varadarajan, P. Miller, and H. Zhou, “Spatial mixture of Gaussians for dynamic background modelling,” in Proc. IEEE Conf. Adv. Video Signal Based Surveill., Aug. 2013, pp. 63–68.【Conference on Advanced Video and Signal Based Surveillance13】【46】 

[24] G. A. Bilodeau, J.-P. Jodoin, and N. Saunier, “Change detection in feature space using local binary similarity patterns,” in Proc. Int. Conf. Comput. Robot Vis., 2013, pp. 106–112. 【CRV13】【52】

[25] R. Wang, F. Bunyak, G. Seetharaman, and K. Palaniappan, “Static and moving object detection using flux tensor with split Gaussian models,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. Workshops, Jun. 2014, pp. 420–424.【CVPR14】【119】

你可能感兴趣的:(【谷歌翻译】【TIP17】Video Saliency Detection via Spatial-Temporal Fusion and Low-Rank Coherency Diffusion)