论文提出了一个实用的多目标追踪算法,算法在线更新、实时性好。在算法中,目标检测的质量是影响追踪效果的一个关键因素。尽管只是简单的结合了Kalman滤波追踪和匈牙利指派算法,本文依然实现了一个接近于state-of-art的在线追踪算法。另外,由于本文的算法复杂度低,追踪器可以实现260Hz的追踪,比其他state-of-art的追踪器要快20倍左右。
论文提出了一种基于检测实现的多目标追踪的框架,在算法中,逐帧进行目标检测,以bounding box展现检测结果。算法目标是实现在线追踪,只是检测前一帧和当前帧。另外一个重点是实现了实时的目标追踪,在大量的车流中实现了实时的行人追踪。
多目标追踪问题可以被看成是数据关联问题,目的是在视频帧序列中进行跨帧检测结果的关联。为了解决数据相关的过程,追踪器使用了多种方法对运动过程和运动目标的外观特征进行建模。
本文作者首先复现了成熟的数据关联算法,包括多假设追踪算法(MHT)和联合概率的数据关联算法(JPDA)。再次,检测质量对追踪效果具有关键的影响。作者还发现了追踪算法和处理速度之间很难取得平衡。下面的Fig 1 表明了作者提取的算法兼顾了效果和效率。
遵循“奥卡姆剃刀”–越简单越有效的原理,作者没有在目标追踪过程中使用任何的目标外观特征,而仅是使用检测框的位置和大小进行目标的运动估计和数据关联。另外,也没有考虑遮挡问题。也没有通过目标的外观特征进行目标重识别,作者一切的核心就是围绕处理速度要快,要能够实时应用。
作者使用CNN进行目标检测,使用kalman滤波进行目标运动状态估计,使用匈牙利匹配算法进行位置匹配。文章主要关注行人目标的追踪。
代码:https://github.com/abewley/sort
论文的核心关注点是目标检测、将目标当前帧的位置信息传递到未来帧中、将当前检测框与已存在的目标进行关联、管理正在追踪的目标的生命周期。
使用faster rcnn做目标检测。用的是在voc数据集上的预训练模型,只关注置信度大于0.5的行人目标。
实验结果表明检测性能对追踪性能影响很大。下图说明了同一个追踪算法中替换效果更好的检测算法后会带来性能的提升。
作者近似目标的帧间运动为和其他物体及相机运动无关的线性运动。每一个目标的状态可以表示为:
x = [ u , v , s , r , u ˙ , v ˙ , s ˙ ] T x = [u,v,s,r,\dot u,\dot v,\dot s]^T x=[u,v,s,r,u˙,v˙,s˙]T
u , v u,v u,v表示目标的中心坐标, s s s表示目标的大小面积, r r r表示目标的长宽比,长宽比需要保持不变。
当进行检测框和目标的关联时,用检测框位置对目标位置进行更新,用卡尔曼滤波来估计目标的运动信息。若没有检测框信息,则使用线性模型进行位置预测。
作者使用匈牙利指派算法进行数据关联,使用的cost矩阵为原有目标在当前帧中的预测位置和当前帧目标检测框之间的IOU。当然小于指定IOU阈值的指派结果是无效的。
作者发现使用IOU能够解决目标的短时被遮挡问题。这是因为目标被遮挡时,检测到了遮挡物,没有检测到原有目标,假设把遮挡物和原有目标进行了关联。那么在遮挡结束后,因为在相近大小的目标IOU往往较大,因此很快就可以恢复正确的关联。这是建立在遮挡物面积大于目标的基础上的。
当检测到某个目标和所有已有目标预测结果的检测框之间的IOU都小于了指定阈值时认为出现了新的待追踪目标,使用检测框信息初始化新目标的位置信息,速度设置为0,设置速度的方差值很大,表示很大的不确定性。新的追踪目标需要经历一段待定时间去和检测结果进行关联以累计出现新目标的置信度,这可以有效防止目标检测的虚警造成的新追踪目标误创建。
如果连续 T l o s t T_{lost} Tlost帧没有实现已追踪目标预测位置和检测框的IOU匹配,则认为目标消失。实验中设置 T l o s t = 1 T_{lost} = 1 Tlost=1,原因有二,一是匀速运动假设不合理,二是作者主要关注短时目标追踪。另外,尽早删除已丢失的目标有助于提升追踪效率。这样,目标的ID肯定频繁切换。
实验使用MOT challenge(https://motchallenge.net/) 的评价标准。
作者提出的SORT的MOTA接近最高,更高的NOMT复杂度高且是offline追踪;但SORT的ID sw很高。
SORT兼顾了效果和速度,作者认为实用性高。
使用faster rcnn检测,匀速运动模型,kalman滤波预测状态,基于检测框和预测框的IOU的匈牙利指派进行关联,实现了一个快速的MOT算法。在当时看来效果还可以,但这么频繁的ID sw,现在看还是不实用啊,不过论文思想值得学习。