基于内容的视频分析中关键帧提取和目标分割的融合
宋小目,IEEE成员,范国梁,IEEE高级成员
摘要:关键帧提取和目标分割通常是分离独立执行的,这是由于它们处于不同的语义层面并且涉及到不同的特征。在本文中,我们通过为这两个过程构造一个统一的特征空间来实现关键帧提取和目标分割,这里将关键帧提取看成是在基于混合高斯模型视频建模背景下为目标分割进行的特征选择过程。值得一提的是这里引入两个基于分歧的标准到关键帧提取中。其中一个将关键帧提取定义为在混合高斯模型组件中引入最大配对组内分歧,另一个则最大限度的利用那些显示帧内平均密度变化的相对分歧。这里提出的方法可以为目标分割提取出有代表性的关键帧,同时关键帧中一些令人感兴趣的特征也会被讨论到。本文就为基于内容的视频分析提供一个独一无二的范例。
关键词:聚类分歧,特征选择,高斯混合模型,关键帧提取,目标分割
1. 引言
如何填补低层次特征和高层次概念之间的语义鸿沟已经是基于内容的视频分析中长期存在的问题了(文献[1]-[3])。在本文中,我们将在融合学习两种视频分析任务中着重关注这个问题,这两个任务就是关键帧提取和目标分割。关键帧就是那些对理解视频内容非常重要的帧,它的定义比较主观。关键帧与运动、目标或事件有关。目标通常指的是具有同类特征(例如颜色,运动)的区域,或者是有意义的客观世界的实体,这些实体可能是由一个或多个区域构成(文献[4])。在本文中提到的目标指的是前者。通常关键帧提取和目标分割是使用不同的特征分离独立执行的,低层次颜色和运动特征常常用于关键帧的提取(文献[5]),这对于时间敏感的应用来说在计算上效率非常高的。提取出来的关键帧一般都指出了特征空间中有意义的改变,并且特征空间具有有限的语义。如果关键帧可以暗示某些与目标有关的行为或事件的话,我们就认为这些关键帧在语义上是有意义的。监督式的方法通常通过并入某些模板或领域内的信息(文献[2],[3]例如消息,运动等等)来丰富关键帧的语义。如果在关键帧提取中包含目标信息的话,那么非监督式的处理也能够提取出在语义上有意义的关键帧(文献[1],[6])。尽管具有更大的挑战性,但是目标分割较关键帧提取在视频数据方面可以提供更好的解释性和可操作性。在文献[7]中,大多数目标分割方法都被归为三类:空间优先性分割,时间优先性分割和空时混合分割,其中空时混合分割在公众中吸引越来越多的注意力(文献[8]-[10])。空时混合视频分割与人类视觉特性是相一致的,都可以同时在时间和空间上识别显著的结构(文献[11])。文献[8]中提出用Mean-Shift聚类方法在空间和时间上分割目标。文献[9]用混合高斯模型来作为空时混合视频的描述。文献[10]中建议使用图形分割理论的方法来进行空时混合视频建模。
如果这两个过程联合起来考虑会有令人感兴趣的情况出现。例如当目标在特征空间中被描绘成聚类时,聚类的空时关系就会暗示某些目标行为或事件,比如离开与接近,出现与消失,扩张与收缩等等,同时提取到的关键帧可能包含这些目标行为。文献[1]中指出,通常在分割区域的位置提取关键帧,这个地方目标混合在一起。文献[6]中指出用形状特征来提取包含人体姿势改变的关键帧。此外需要注意的是,在基于混合高斯模型的视频建模环境下关键帧或许可以减少目标分割的困难(文献[12]),这里首次选择基于颜色直方图作为关键帧的初始设置,并且该初始设置在目标分割中被用于估计混合高斯模型,并且分割的结果和受训的高斯混合模型将进一步用于完善初始的关键帧。这个方法可以大大降低计算量和提高视频分割的鲁棒性。由于关键帧提取和目标分割是在不同特征空间中和不同的标准下独立执行的(文献[12])。该方法被称为“组合的”方法。
本文通过扩展文献[12]先前所做的工作提出一种融合关键帧提取和目标分割的方法。这种方法就是在统一的特征空间中将关键帧提取构想成为目标分割的特征选择过程。在基于混合高斯模型的视频建模中(文献[9],[13]),视频序列由空时特征聚类表征,这些集群由多元的混合高斯模型描述。在混合高斯模型中高斯分量间的可分离性是由集群分歧估计的,引起最大集群分离性的那些帧就被提取出来作为关键帧。这两种分歧标准使用如下:最大平均组内K-L距离和最大相对分歧,其中最大相对分歧定义为每个相对类条件密度和均值间的平均距离(文献[14])。与之前的基于高斯混合模型的视频分割方法相比(文献[9],[12],[13]),具有大的集群分歧的关键帧有利于基于高斯混合模型的视频建模并且可以提供更好的鲁棒性和同性质的目标分割结果。更有趣的是,由于关键帧提取受基于分歧的聚类标准支配,提取出来的关键帧很可能包含某些目标行为或事件的信息,这些信息往往都是由那些空时聚类表示的。这里提出的方法和文献[9],[12],[13]中提到的都具有一个主要的局限性,那就是高斯混合模型不足以处理不同低水平特征(例如颜色和运动)的混合目标。不过这只是早期视觉的第一步,通过包含基于区域的特征就可以进一步与互补方法结合起来,从而产生更多在语义上有意义的结果(文献[4],[15])。本文主要的目的就是要通过寻找用于混合高斯模型估计的最优或次优的关键帧集合来提高目标分割的性能,这里关键帧是副产物。本文是针对基于内容的视频分析新工具的初始研究,这些研究或许可以为MPEG-4/7标准引入一些新的帧或目标的描述符和函数。
2. 融合关键帧提取和目标分割
上面已经集中对关键帧提取和目标分割进行讨论了。我们首先简单的回顾一下几个相关的方法。文献[9]提出一种用于空时视频建模的概率框架,这里在空时特征空间中用高斯“blob”表征目标(同性质的区域),该空间包含颜色(L,a,b),时间(t),坐标(x和y)。用M阶高斯混合模型对具有M个目标的视频进行建模。用EM算法来估计模型参数,用MDL标准来寻找合适的M值。经过高斯混合模型估计之后,通过MAP分类将视频分割成M个空时块。文献[9]提出用分段执行来处理非线性和非凸的运动模型。这种方法主要的瓶颈就是具有很高的计算负荷量,因为在混合高斯模型估计时要涉及到所有的视频帧。
文献[12]提出一种融合关键帧提取和目标分割的方法,用该方法来提高高斯混合模型估计的效率和鲁棒性。首先利用逐帧的16×8二维色调和饱和度的颜色直方图来提取得到初始关键帧(文献[5]),并用得到的关键帧估计高斯混合模型。目标分割之后,每个初始的关键帧都要用高斯混合模型进行建模,这里实际上是用高斯混合模型对关键帧进行修正。这种方法大幅度的减少了计算量,同时通过包含许多不同的关键帧的紧凑特征集提高了模型估计的鲁棒性。另外,基于高斯混合模型的关键帧修正可能会得到更多的紧凑的关键帧。这种融合的方法带来三个有趣的问题:1)在高斯混合模型估计或目标分割方面如何保证提取到关键帧是最佳的?2)我们可以同时使关键帧提取和目标分割最优化吗?3)如果问题2)的答案是肯定的话,那么提取到的关键帧是否有在语义上有用的信息呢(比如目标的行为)?在本文中,我们将主要关注这些问题,具体是通过提出一种融合关键帧提取和目标分割的方法来探索两种之间可能的联系和协同关系。
2.1问题描述
与用不同特征执行关键帧提取和目标分割相反,本文提出利用统一的特征空间来实现它们,如图1所示。
图1 使用统一的特征空间的例子:输入视频镜头有三个主要的目标
在这个图中,N帧的视频镜头包含三个主要的目标,这三个目标在特征空间中分别由聚类表征。通常,一个镜头中的数个帧表征一个空间和时间上连续的行为,并且共享公共的视觉和与语义有关的特征。因此就存在极大的冗余。另外那些可能随机出现在帧边界处的表示噪声和无意义的目标的不相关的异常值增加了特征空间中集群的重叠部分。冗余性和不相干性降低了统计建模的效率,因此可以通过去除冗余、不相干的数据和特征来提高建模的性能,换句话说可以通过选择最紧密相关的数据和特征来进行训练学习处理(文献[17])。在基于高斯混合模型视频分割中,可以通过选择更相关的关键帧进行视频建模,例如将关键帧提取构想成目标分割的特征选择过程。
在文献[18]中已经就特征选择方法进行集中讨论。给定一个初始候选特征集合
,特征选择主要的目的就是从中选择一个子集以便与分类性能有关的准则判别函数可以优化为:
(1)
选择一个适当的是很重要的。一种常用的准则就是选择特征来近似真实的密度而不是去提取最大差别的特征。尽管希望这个准则可以在不同的等级间产生较好的差别,但是这个假设并不总是有充分根据的,同时对于鲁棒性分级,文献[19]中提出基于分歧的特征选择准则。接下来我们将为特征选择引入两个基于分歧的准则,然后在此基础上得到新的融合关键帧提取和目标分割的方法。
2.2最大平均组内Kullback Leibler 距离(MAIKLD)
K-L距离(KLD)可以度量为聚类建模的两个高斯分量的距离或相异性。给定由M个高斯组件表征的M个聚类,平均组内KLD(AIKLD)定义如下:
(2)
这里是两个高斯函数和的KLD距离,。理想情况下,AKLD越大,聚类间的独立性就越大。由于关键帧提取被构想为特征选择过程,因此希望提取出具有最大平均组内集群分歧的关键帧。假设是具有N帧的原始视频镜头,这个镜头由具有基数的集合表示。再假设是的任一具有基数的子集。如果镜头中有M个目标,那么目标函数就定义为
(3)
这里是在MAIKLD方面的最佳子集。根据文献[20],在最小贝叶斯误差意义上说MAIKLD是最佳的。如果使用0-1分类代价函数,就会产生最大后验概率估计。因此等式(3)的最佳解决方式会得到最佳的关键帧集合,这些关键帧可以使得目标分割的差错率最小。穷举搜索可以保证得到最佳的,不过对于大的,这是计算昂贵且不切实际的,因为需要试验个帧子集。因此次佳的但是计算量上更有效的解决方法将更为实际。这里使用文献[21]中提到的确定性特征选择方法,该方法叫做连续前向浮动选择(SFFS),并利用连续前向选择(SFS)方法对SFFS进行初始化(文献[18])。当N不是非常大的话,SFFS可以找到最佳的。本文中的关键帧都是从的候选关键帧中提取出的。高斯混合模型估计包含MDL方面的最佳估计后,高斯函数和的KLD将由下式近似计算得到:
这里是所有待测候选关键帧的像素特征向量,表示第i个高斯组件的参数。然后利用式(2)计算AIKLD。这个搜索过程如下:(1)首先给定空集,n是的基数,即,且n的初始值为0;(2)使用SFS算法产生具有最大AIKLD的两个候选关键帧的组合,并得到;(3)搜索一个在时具有最大AIKLD的候选关键帧,并把搜索到的加入集合中,同时令n=n+1;(4)如果n>2,就从中去除一个候选关键帧并对剩下的候选关键帧计算AIKLD,然后继续(5),否则的话回到(3);(5)确定去除一个候选关键帧后AIKLD是否增加。如果答案是肯定的话,就令n=n-1,然后回到(4),否则回到(3)。
当n达到一个预定义的值时或在反复出现给定的值后,搜索就会停止。除了比文献[9]使用所有帧效率更高外,该方法还有两个主要的优势:1)可以提取出在MAIKLD方面最优或次优的关键帧用于模型估计,与用颜色直方图提取出的关键帧相比,这些关键帧可以为基于高斯混合模型的目标分割提供更好的可辨别性(文献[12]);2)该算法比较灵活且几乎没有任何限制。不过有些问题还需要进一步考虑,首先是当很大的时候SFFS就无效了;其次,在关键帧提取前的基于MDL的高斯混合模型估计对时间敏感。有一个可供选择的方法就是执行基于高阶高斯混合模型的SFFS,并且基于MDL的高斯混合模型估计只对关键帧执行。但是如果基于高阶高斯混合模型的话,视频就会分段过多,从而导致更多的聚类源于同个语义目标。为了增加同一目标中聚类间的分歧,MAIKLD允许帧具有更多的异常值,这些异常值常导致遭受关键帧。不过要从待测的候选集中去除多余的候选关键帧是不可能的,为了降低计算量,我们提出另外一种基于分歧的准则。
2.3最大相对分歧
文献[14]提出最大相对分歧(MMD)准则来进行有效的基于最大熵原理的特征选择,这是要在最小化信息冗余时维持输入行为的信息的最大化。在分类的背景下,该方法往往选择那些特征和类标签间互信息量最大的特征(文献[14])。如果将最大熵原理运用到本文,那么目标函数就可以写成
(4)
这里是关键帧子集X和分类标签Y={1,2,...,M}间的互信息量:
。
考虑到I(X,Y)=H(Y)-H(Y|X),这里H(Y)是分类标签的熵。H(Y|X)是条件熵,有关贝叶斯误差的下界和H(Y|X)的联系来源于文献[14]。这个关系表明最小化H(Y|X)(最大熵原理)等价于最小化贝叶斯误差的下界。I(X,Y)可以如文献[14]写成:
(5)
这里,且。称为相对分歧(MD),表示平均密度方差。文献[14]的解释表明,如果特征间的互信息量不受分类标签影响的话,那么I(X,Y)就可以用MD值的累加来近似,如。这样一来最大的MI就变成了MMD。正如文献[14]总结的,这个条件来自于目前对图形统计学的研究,它可以表明一些图形特征间的样式属性结构也遵从一般的独立于分类标签的统计学规则。这些特征通过各种生物学上的图形变换提取出来,比如小波变换。虽然这个条件并不总是严格成立,但至少它表明MMD在最小贝叶斯误差方面是近似最优的。
如果把MMD应用到关键帧提取中,那么具有最大MD值的帧将被提取作为关键帧。类似于MAIKLD,MMD关键帧提取是在初始高斯混合模型估计之后执行。不过MAIKLD需要测试不同的候选关键帧组合,而MMD只考虑每个帧的分歧忽略了交互帧的依赖性。候选关键帧的MD值可以如下近似计算:
这里是所有的像素特征向量,具有最大MD值的帧被选作关键帧。可以预定义,或自适应确定一个MD值的门限。我们使用所有候选关键帧的平均MD值作为门限值,对于MD值大于门限的任何候选关键帧都被选作关键帧。
2.4提出算法
以上联合方法的概述如图2所示。
图2 本文提出的算法的流程图
输入的候选关键帧要么是一个镜头的所有帧,要么是最初由颜色直方图选择出来的关键帧(文献[5],[12])。颜色特征(Y,u,v),空间位置x-y,时间t一起组成统一的特征空间。用由EM算法和MDL准则估计的高斯混合模型对输入的视频进行建模。初始建模之后,利用MAIKLD或MMD指导关键帧的提取。提取出来的关键帧用于对高斯混合模型的重估计。即使进行了初始的高斯混合模型估计,但是关键帧提取和模型重估计仍然是分离独立执行的,通过解释它们在统一的特征空间中的相互影响可以看出整个过程是统一的。与文献[9]使用所有帧的方法或使用文献[12]从颜色直方图提取关键帧的方法相比,我们期望本文提出的方法不仅可以通过最小化特征冗余来提高计算效率,而且可以通过降低特征不相干性来增强视频建模的鲁棒性。
正如之前提到的,MAIKLD提取出具有最大聚类分歧的关键帧,并通过计算一组候选关键帧的AIKLD来考虑聚类的的统计特性,但是通过假设帧独立对每个帧估计MD值,同时利用MMD选择那些具有最大MD值的作为关键帧。因此就可以选择出不同的关键帧,尽管都是由贝叶斯误差限定下界。在基于高斯混合模型视频建模的背景下,MAIKLD较MMD可以提取出更多有判别力的关键帧,因为平均密度方差没有必要增大聚类分歧或降低聚类间的重叠。而MMD冒着忽略帧间附属性质的风险只考虑每个帧的聚类分歧。尽管如此,MMD在计算上仍然比MAIKLD具有更高的效率,因为不需要组合搜索。
2.5关键帧特征
图3 空时特征空间中的两个聚类
到此为止我们已经讨论了第二节提出的前两个问题,现在将就基于新方法提取出的关键帧的特征继续研究第三个问题。图3显示了特征空间中的两个聚类,该特征空间由空间(x-y),时间(t)以及两个时间片(帧A和帧B)定义,这两个时间片分别处于t=a和t=b的两个聚类的空间位置,从而使得整个特征空间被分成三个部分。两个聚类当它们在区域II(阴影区域)的x-y平面部分重叠时是空间最靠近的。如果聚类分别与两个实体有关,那么实体在区域II的帧中也是空间临近的,而在区域I或III的帧中则是远离的。通过理解MAIKLD或MMD用于关键帧提取的原理,我们可以确定低层次特征和高层次概念之间的联系MAIKLD与最小化贝叶斯误差是等价的,这是由特征空间中的聚类重叠引起的。为了最小化贝叶斯误差,聚类分歧应该最大化。因此MAIKLD往往在聚类具有最小重叠的地方提取关键帧,例如图3的区域I和区域III。当应用MMD时,每个帧的MD值都要计算。平均密度具有充分大的差异的任何帧或换句话说聚类分散在x-y平面的任何帧将被提取作为关键帧。
翻译原文:Joint Key-Frame Extraction and Object Segmentation for Content-Based Video Analysis
作者:Xiaomu Song, Member, IEEE, and Guoliang Fan, Senior Member, IEEE