关于video content-based copy detection近些年的研究进展

这几天整理了最近10年video copy detection领域发表在各种会议、期刊上面的主要文章,大略的读了一遍,下面是主要脉络的梳理。

        首先是1999年Stanford的一篇report P.Indyk, G. Iyengar, and N. Shivakumar. Finding pirated video sequences onthe internet. Technical report, Stanford University, 1999.  这篇文章使用基于shot边界的时序指纹为特征,结合LSH技术进行检索,由于提取特征过于简单没有考虑到视频帧本身的图像信息,故对于整段视频具有良好的效果,但是对于比较短的视频片段或者仅有少量shot的检索效果较差。另外,这篇文章指明了copy detectionCBCD)系统的基本构架,商业应用前景等等,算是该领域早期的文章了。

         2002年IBM Watson实验室采用全局特征进行拷贝检测。A. Hampapur and R. Bolle. Comparison ofsequence matching techniques for video copy detection. In Conferenceon Storage and Retrieval for Media Databases, pages 194–201, 2002. 

该文章基于视频的motion,Ordinal,color等特征,对于small tranformation如:分辨率、illumination shifts、display formats的变化,具有良好的鲁棒性,而且算法非常高效。但是对于如zooming, cropping, picture in picture则效果不佳。

         2003年,法国INA与INAIR发表了一篇基于局部描述符的文章。A.Joly, C. Frélicot, and O. Buisson, “Robust content-based videocopy identification in a large reference database,” in Proc.Int. Conf. Image and Video Retrieval, 2003, pp. 414–424该方法提取Harris interest points detector作为特征,此后的copy detection文章大多使用该局部特征。虽然sift在object recognition上具有最佳的表现,但是该方法并不适用于视频,首先128维的特征向量开销过大,而且sift对于图像的变化并不稳定,这样对于位移不明显的tracking来说效果不佳。

2006年同样是法国的INA以及INAIR学者采用局部特征做为指纹,开发出ViCopT系统,在各项评测中该系统的表现非常好,所以很值得我们学习。 J.Law-To, O. Buisson, V. Gouet-Brunet, and N. Boujemaa. Robust votingalgorithm based on labels of behavior for video copy detection. InACM Multimedia, MM’06, 2006  此该文章首次采用interest points 来估计trajectory,并以此作为特征,这样就考虑了视频的时间因素。另外,文章还对于points的behavior进行label,将其划分为background 以及motion, 这样可以结合起来更加精准的确定视频的拷贝边界。在检索方面,该方法采用了probabilistic filtering rules,而不是其它文章常用的KNN,作者声称该方法可以最大限度的保证召回率。系统采用asymmetric technique, 对于query可以任意的选择frame的采样周期以及兴趣点数量,这样提高了系统的灵活性。 在voting阶段,通过trajectory特征,采用基于几何模型的配准方法,得到最后精确的结果。采用上述这些复杂的方法,该算法声称可以得到real-time的效果(时间开销大约是实时视频时长的1.5倍),这不得不令人惊叹。而且在算法准确率召回率评测中,在保证95%准确率的情况下,召回率可以达到82%。

         最后是2010年法国INAIR在ECCV上的文章 Compact videodescription for copy detection with precise temporal alignment 文章的亮点在于索引的组织形式以及对于视频按照结构层级进行compact coding。检索过程同样采用常规的KNN方法,voting阶段采用Hough transform进行temporal alignment。在Trecvid 08上测试的结果得分为0.973,而当年的前三名得分分别为0.952,0.858,0.846. 在进行大规模检索实验时发现,在数据库视频时长达到1000小时后AP曲线产生了显著的下滑结果不到60%。AP=0.53 for 2316 hours video, 4.6G RAM for index 208 million frames.

从发展上看,copy detection研究的主力机构是法国的INA与INAIR。CBCD系统基本遵循这样的框架:

1.       Extract frame low-level feature

2.       Define the final description

3.       Retrieval based on KNN, Hash, or the other index tech

4.       Voting based on geometry model

5.       Post processing

对于非常简单的拷贝情况,几乎最简单的拷贝检测方法就可以取得非常好的效果,并且效率也很高。该技术可以用于商业广告的检测中。用于长度的因素,如Temporal ordinal measurement所使用的全局特征要比局部特征速度快,但是其对于zooming, cropping, 以及picture in picture的鲁棒性较差。在大规模的检索拷贝中,可以适当的考虑全局特征,但是使用ViCop之类的方法将肯定会使算法的效果得到很大的提升。

大多数的文章在检索中都是用线性方法KNN而没有采用更加高效的hash算法,我没有进行更加深入的分析,所以尚不清楚采用hash算法的问题在哪里。这里猜测KNN似乎更加有利于提升系统的召回率。

鉴于不同的方法在不同的情形下的表现不同,所以拷贝检测系统应该充分的考虑到使用的环境。故建立一个贴近实际应用的benchmark还是非常有意义的。对于Internet上面的视频具有如下特点:变换的种类较多,拷贝片段的长短不一,数据量极大,更新速度快。所以,理想的检测系统应该能够快速的更新索引,产生尽量少的索引数据,有高效快速的检索算法,能够容忍各种复杂的变换,能够精确的确定拷贝的边界,在保证极高准确率的情况下努力提升召回率。

你可能感兴趣的:(算法,video,processing,reference,alignment,behavior)