最近正在研究目标跟踪,看英文文献太容易走神了,所以就把文献给翻译了出来,可能翻译的比较生硬,不喜勿喷,如有问题欢迎交流。
跟踪方法可以分为三类:基特征跟踪、基于轮廓跟踪、基于区域跟踪。在区域跟踪算法分类中,这几年区域跟踪算法利用直方图或其他非参数的方法进行描述(例如核参数)非常流行,最具影响力的方法可能就是meanshift算法了。
本文作者解决了两个问题(空间信息和遮挡),通过使用部分或裂片来代替模板。之后我们首先讨论第一个问题—快速搜索定位,给一个跟踪模板,我们使用这个模板的多个矩形区域的直方图代替。通过计算目标帧的碎片的直方图,我们获得了一个碎片的投票图来描述目标的可能位置,之后对投票图进行合并,以此来获得更具有鲁棒性的方式。因为我们使用了碎片之间的空间关系,所以空间信息被利用了。当目标被遮挡时,投票图会出现一个奇异点,利用我们合并投票图的方法,我们依然能够准确定位目标的位置。
本文提出的 基于片段跟踪规则,与之前的算法在以下几方面有所不同:
给予碎片模板PT和相应图像碎片PI(x,y),利用两个碎片的相似性定位目标位置(x,y)。如果d(Q,P)是计算碎片Q和碎片P的相似性,则定义
当(x,y)在假想的范围内,我们得到VPT(,)它是与模板碎片PT相对应的投票地图。
有很多比较两个直方图的方法,最简单的比较方法是比较相应的bins。例如,一个可能使用chi-square或把直方图认为成矢量,然后对其归一化计算两个直方图的不同。Kolmogorov-smironov比较直方图的方法是通过建立每个直方图的累积分布函数,比较这两个函数。由于对测量量化到bins,使得bin-wise方法对bin附近的不同进行了平滑。
一个更吸引人的方法是Earth Mover's Distance(EMD),在这种方法中bins的实际差异也被考虑了。它的思想是计算从第一个直方图到第二个直方图必须要移动bins的概率。所以bins的差异被使用了:例如在灰度中需要移动的概率至少是0.1从[16,32)bin 到[128,144)bin,然后移动到[32,47)bin。在第一个实例中,移动概率是被需要的,因为在分布上是不同的,在第二个示例中它可能是很简单的量化了错误。这是一种简单的线性程序的变换问题,这个问题的基础是三角的,所以这个问题可以被高效的解决。文献[20]对这个方法给予了更详细的介绍。
我们对两个相似的计算进行了实验,第一个是原始的计算方法,假设直方图是矢量的,只是计算他们标准差。第二种是EMD计算方法。对于一个灰度图像,我们使用16bin。EMD计算方法是非常快并且对于姿态变换也没问题。对于彩色直方图,bin的数量很大(每个通道8bins,总共就要有512bins),使用EMD我们选取K=10bins,利用最大的计数对它们进行归一化,然后使用EMD。我们使用被Rubner[19]改进的EMD。图2显示了一个片段的例子(例子中我们使用灰度信息),我们计算的片段中心周围所有的vote map,向上30像素或向下20像素或向左或向右。图3显示vote map使用原始计算方法和EMD计算的结果。标记越黑的地方是直方图越相似的地方。EMD表面比较平滑,与原始的计算方法相比有一个最小的边界值。
我们可以简单地求vote map的和,然后寻找含有最小值的位置(vote map计算碎片的不同)。当出现遮挡时,遮挡对于求和产生了一个奇异值,导致错误估计。换句话 ,我们应该使用一个更强大的估计方法能够应对遮挡或其他原因导致的奇异点。
一种方法是对奇异点进行定边界:
T是阈值。如果我们采用概率的视角来应对处理过程,通过变换vote map 到概率map(例如设定Lp(x,y)=K*exp(-a * Vp(x,y)),这种方法与把奇异点密度归一化然后加到真正的密度值中是等同的。C(;)最小化与获取最有可能估计的最大值获取的位置是等同的,但是不能让奇异点达到0.
然而,我们发现对于阈值T的选择直接导致结果的很大不同,一种不同的方法是使用LMedS-type估计。对于每一个点(x,y)我们获得VP(x,y)的值,我们选择第Q个具有最小的分数值:
参数Q更直观:它可能是碎片数量的最大值,这就是我们总期望获取线性参数的特征值。例如,如果我们保证遮挡至少能看到目标的四分之一,则我们将选择Q为碎片数量的25%。
一旦积分直方图数据机构被计算完,获取区域直方图就非常简单了。因此估计当前目标的位置也相应的简单了——通过简单的比较两个直方图。
正像之前介绍的,应用积分直方图在文献[18]中应用过。我们扩展了这种方法应用于基于部分的积分直方图。
下面的离散逼近格式可以替代连续的核权值,看图4,如果我们想获取矩形区域R的权重直方图,我们可以定义一个其内的矩形R1,用R减R1就可以获得环形R-R1的计数。这些计数和R1的统计数可以使用不同的权值,合并之后就是R的权重直方图。当然了,一个附加的内部矩形R2也可以被使用等等。
通过文献[7]中介绍,这种方法有一些局限性。例如,如果被跟踪的目标颜色一致,则目标有一个缩小的趋势。当目标被遮挡,并且目标颜色与被遮挡物颜色一致,我们得到的结果值是目标被缩小了,并且确定它的位置在未遮挡的部分附近。应用我们的方法,我们也能得到一个合理的计数值通过保持目标在正确的尺寸,并且确定它在合适的位置。然而,也不能保证合并的vote map会比部分vote map产生更好的统计数。一个完整的处理该问题的方法是当前工作的范围。
我们使用水平和垂直的碎片如图5所示,这垂直的碎片是模板高的一半,模板宽的十分之一。水平碎片定义也是一个相同的方法,我们总共有36个碎片(模板中碎片的大小可稍微改变),我们对这些碎片的选择是随意的,我们尽力使用它并寻找它。在讨论中我们又回到了这个问题。
搜索半径是距离之前目标7像素的位置,模板在第一帧被固定了,不更新。在公式(3)中我们使用Q的25%。设定的这些参数在所有的视频序列中都是固定的。前两个视频显示了跟踪的鲁棒性(脸和女人)。每五帧我们人工的标记真的地面,对我们跟踪的错误进行画框,对meanshift的跟踪结果进行标记。在这两个实验中,我们跟踪的方法不会受遮挡的影响,然而meanshift跟踪会漂移走。图6和7显示了遵守ground truth的错误。图8显示了初始化模板和一些后续的帧序列。对女人视频序列的最后一帧进行标记(第二行),可以看到使用空间信息的例子(也可以看图表题)。
此外,我们也用一块碎片含有整个模板进行跟踪实验,结果失败了(这个例子在文献[18]中也有描述)。
图9是下一个视频序列—生活房间。显示了姿势改变的例子,当跟踪的女人转过她的头meanshif跟踪算法漂移了,当被遮挡时目标被跟丢了。我们的跟踪对这种情况具有鲁棒性。
图10我们显示了三个序列更多的跟踪例子,在这些跟踪序列中我们只标记我们的跟踪结果。前两组视频来自CAVIAR数据库,第一个是遮挡,第二个显示目标尺寸具有较大改变,第三个视频又是遮挡。利用这些我们可以证明我们的跟踪怎样使用空间信息(在基于直方图方法中他一般会被跟丢),这两个人在全局上具有相似的直方图信息(半黑半白),我们的跟踪方法知道白色的像素是在目标的上半部分,所以当两个人走的很近的时候,他还能跟上不会漂移。
没有积分直方图的高效的数据结构也就不能计算出每个碎片的vote map,换句话说,不使用碎片规则,对于遮挡和姿态变换也不会有这么好的跟踪效果。对于下一步工作还有很多要做,第一个问题就是模板更新,我们想要避免遮挡被加入模板中,使用多个相似计数值的碎片可能解决这个问题。第二个问题是当使用模块大小时部分与完全困境解析在[7]之前被描述了,这个问题在部分遮挡下更明显。最后,我们也考虑不连通的矩形片段,并选用最能代表跟踪目标的片段。