TLD跟踪系统最大的特点就在于能对锁定的目标进行不断的学习,以获取目标最新的外观特征,从而及时完善跟踪,以达到最佳的状态。也就是说,开始时只提供一帧静止的目标图像,但随着目标的不断运动,系统能持续不断地进行探测,获知目标在角度、距离、景深等方面的改变,并实时识别,经过一段时间的学习之后,目标就再也无法躲过。
TLD技术有三部分组成,即跟踪器、学习过程和检测器。TLD技术采用跟踪和检测相结合的策略,是一种自适应的、可靠的跟踪技术。TLD技术中,跟踪器和检测器并行运行,二者所产生的结果都参与学习过程,学习后的模型又反作用于跟踪器和检测器,对其进行实时更新,从而保证了即使在目标外观发生变化的情况下,也能够被持续跟踪。
跟踪器
TLD跟踪器采用重叠块跟踪策略,单块跟踪使用Lucas-Kanade光流法。TLD在跟踪前需要指定待跟踪的目标,由一个矩形框标出。最终整体目标的运动取所有局部块移动的中值,这种局部跟踪策略可以解决局部遮挡的问题。
学习过程
TLD的学习过程是建立在在线模型(online model)的基础上。在线模型是一个大小为15×15的图像块的集合,这些图像块来自跟踪器和检查器所得的结果,初始的在线模型为起始跟踪时指定的待跟踪的目标图像。
在线模型是一个动态模型,它随视频序列增长或减小。在线模型的发展有两个事件来驱动,分别为增长事件和修剪事件。由于在实际中,来自环境和目标本身等多因素的影响,使目标的外观不断发生变化,这使得由跟踪器预测产生的目标图像会包含更多其它感兴趣的因素。如果我们把跟踪轨迹上所有目标图像看成一个特征空间,那么随着视频序列的推进,由跟踪器所致的特征空间将不断增大,这就是所说的增长事件。为了防止增长事件带来的杂质(其他非目标图像)影响跟踪效果,采用了与之相对的修剪事件来平衡。修剪事件就是用来去除增长事件所致的杂质。由此,两事件的相互作用促使在线模型一直保持与当前的跟踪目标相一致。
由增长事件带来的特征空间的扩张来自于跟踪器,即从处于跟踪轨迹上的目标图像中选择合适的样本,并以此来更新在线模型。有三种选择策略,具体如下。
· 与起始待跟踪目标图像相似的图像块,均被加入到在线模型;
· 如果当前帧的跟踪目标图像与前一帧的相似,则将当前的跟踪结果图像加入到在线模型;
· 计算跟踪轨迹上的目标图像到在线模型间的距离,选择具有特定模式的目标图像,即起初目标图像与在线模型的距离较小,随之距离逐渐增大,而后距离又恢复成较小状态。循环检验是否存在这种模式,并将该模式内的目标图像加入到在线模型。
增长事件的特征选择方式,保证了在线模型始终紧随跟踪目标的最新状态,避免因模型更新不实时所导致的跟踪丢失。其中最后一种选择策略也是TLD技术的特色之一,它体现了自适应跟踪的特性。当跟踪发生漂移时,跟踪器会自动适应背景,而不会很突然地转移到跟踪目标上。
修剪事件假设每帧只有一个目标,当跟踪器和检测器都认可目标位置时,剩余的检测图像就被认为是错误样本,从在线模型中删除。
在线模型中的样本为TLD的学习过程提供了素材。另外,TLD在训练生成分类器(随机森林)的过程中,采用了两种约束:P约束和N约束。P约束规定与跟踪轨迹上的目标图像距离近的图像块为正样本;反之,为负样本,即为N约束。PN约束降低了分类器的错误率,在一定的范围内,其错误率趋近于零。
检测器
TLD技术设计了一个快速、可靠的检测器,它为跟踪器提供了必要的支持。当跟踪器所得的结果失效时,需要用检测器的结果来补充纠正,并且对跟踪器重新初始化。具体做法如下。
· 对于每帧同时运行跟踪器、检测器,跟踪器预测出一个目标位置信息,而检测器则可能检出多幅图像;
· 决定目标的最终位置时,优先考虑跟踪器所得的结果,即如果跟踪到的图像与最初的目标图像相似度大于某阈值,就接受该跟踪结果;否则,将从检测器的结果中,选用与最初目标相似度最大的图像作为跟踪结果;
· 如果为第二步骤中的后者,那么此时更新跟踪器的最初目标模型,用现选用的跟踪结果替换原有的目标模型,同时,删除以前模型中的样本,以新样本重新开始。
检测器是由在线模型中的样本经训练学习生成的随机森林分类器。其选取的特征为区域的边缘方向,称之为2bitBP特征,它具有不受光线干扰的特性。特征通过量化,共有4种可能的编码。对于给定的区域,其特征编码是唯一的。多尺度的特征计算可以采用积分图像的方法。
将每一个图形块都用众多的2bitBP特征来表示,并把这些特征分成同大小的不同的组,每一组代表了图像块外观的不同表示。用于检测的分类器采用随机森林的形式。随机森林由树组成,而每棵树是由一个特征组构造而成。树的每个特征都作为一个决策结点。
随机森林通过增长事件和修剪事件完成在线更新和演化。开始时,每棵树由最初目标模板的特征组构建,都只有一个“枝”。随着增长事件对正样本的选取,随机森林也不断加入新的“枝”;修剪事件则相反,它会去掉随机森林中不用的“枝”。这种实时的检测器采用扫描窗口的策略:按照位置和尺度扫描输入帧,对每个子窗口应用分类器判断是否属于目标图像。
TLD技术巧妙地把跟踪器、检测器和学习过程结合在一起,共同实现目标的跟踪。