多目标跟踪--统一跟踪框架论文解读

商汤等新出的多目标跟踪论文Multi-Object Tracking with Multiple Cues and Switcher-Aware Classification。该论文提出了一个融入单目标跟踪网络、ReID网络和数据关联的统一多目标跟踪(MOT)框架。单目标跟踪网络借鉴目前在VOT领域中的最新研究成果Siamese-RPN 用于捕获短期线索有助于补偿检测器由于物体遮挡造成的漏检,解决跟丢问题;ReID 网络用于提取长期线索(提取并累积辨别性的表观特征)避免发生遮挡时的严重错误,解决跟飘问题;而在数据关联中提出了切换器感知分类方法(SAC,switcher-aware classification)以有效的方式组合长短期线索,解决ID 切换问题。统一框架如下图:
多目标跟踪--统一跟踪框架论文解读_第1张图片
该论文提出的统一框架针对多目标跟踪中的难题对症下药,在MOT17中基于该方法的改进确实取得了最佳排名,刷榜的存在:
多目标跟踪--统一跟踪框架论文解读_第2张图片
下面详细解读自认为该文最大的创新之处,数据关联阶段提出的解决方案。对于当前帧,检测器的结果定义为 D d e t D_{det} Ddet;各轨迹通过Siamese-RPN得到当前帧的预测定义为 D t r a c k D_{track} Dtrack;各轨迹分别维护通过ReID 网络(基础网络为GoogLeNet Inception-v4)累计的K个最优历史表观特征,定义为 { A i } i = 1 K \{A_i\}_{i=1}^K {Ai}i=1K,注意文中利用Resnet-18网络来计算最优的度量(输出0~1值,训练其实就是一个二分类器,正样本为与ground truth交并比大于0.6,其余为负样本);而检测结果对应的表观特征定义为 A d e t A_{det} Adet

有了上述定义,短期线索通过交并比定义为:
f s ( D t r a c k , A d e t ) = I o U ( D t r a c k , D d e t ) f_s(D_{track},A_{det})=IoU(D_{track},D_{det}) fs(Dtrack,Adet)=IoU(Dtrack,Ddet)
长期线索通过余弦距离度量,下面以某一轨迹X为例计算:
f l X = { f l ( { A i X } , A d e t ) ∣ f l ( x , y ) = x T y ∣ x ∣ ∣ y ∣ } i = 1 K f_l^X=\{f_l(\{A_i^X\},A_{det}) |f_l(x,y)=\frac{x^Ty}{|x||y|}\}_{i=1}^K flX={fl({AiX},Adet)fl(x,y)=xyxTy}i=1K
通过上述公式计算,某一轨迹与某一检测结果的长短期线索为K+1维向量记为 Γ X , D \Gamma_{X,D} ΓX,D。文中提到ID切换大概率发生在物体间出现大面积重叠或遮挡时,这说明与当前目标最大重叠的另一个目标最可能是会进行潜在的ID切换。对于轨迹X来说,其潜在的ID切换器 Λ \Lambda Λ定义为:
Λ = arg ⁡ max ⁡ Y I o U ( X , Y ) \Lambda=\arg\max \limits_Y IoU(X,Y) Λ=argYmaxIoU(X,Y)
也就说,我们在考虑检测结果与轨迹进行关联时,不但与相关轨迹计算相似度还要与此轨迹的潜在切换器进行计算。假设 Γ X , D \Gamma_{X,D} ΓX,D为轨迹X与检测的线索向量,则 Γ Λ , D \Gamma_{\Lambda,D} ΓΛ,D为潜在切换器与检测的线索向量。将这两部分向量拼接起来喂如分类器(regularized Newton boosting decision tree)得到分类结果成为轨迹X与检测的度量。这样每一个track与每一个检测都会参与这样的计算,并最终构造一个二分图(注意经典的SORT二分图构造的权重只是检测与预测间的iou,而Deep SORT二分图的权重是框间的马氏距离和表观特征的余弦距离,而这里二分图的权重是SWC分类器的输出结果),并利用minimumcost-network-flow算法找到track与detection间的最佳匹配(注意这里没有采用通常的匈牙利算法和KM算法)。那么对于SWC分类器的训练,正样本的构造则是将ground truth与其真正关联的有效轨迹组合成的特征 { Γ X , D , Γ Λ , D } \{\Gamma_{X,D},\Gamma_{\Lambda,D}\} {ΓX,D,ΓΛ,D},而负样本的构造则将正样本中的真正关联的轨迹换成别的轨迹或轨迹与其它ground truth的融合。

实验结果是很惊艳的,作者对比了各个组件对跟踪性能的影响,并可视化了对ID切换的效果:
多目标跟踪--统一跟踪框架论文解读_第3张图片
多目标跟踪--统一跟踪框架论文解读_第4张图片

这种考虑潜在切换器影响的关联策略让我想起CVPR18中处理密集行人检测的难题。该论文(Repulsion Loss: Detecting Pedestrians in a Crowd)提出RepLoss损失函数,优化解决密集遮挡造成的错检。我们知道在当前最优的检测框架中,损失函数往往只考虑缩小 proposal 和 groundtruth box 之间的差距(通过一些距离度量进行测量,比如 Smooth_L1 或者 IoU)。但是这种损失函数的设计在密集遮挡的检测中将显著增加行人定位的难度。检测器很难检测出被遮挡的人,即使能检测出后续的NMS也会抑制。这样的问题促使作者在设计边界框回归损失时,考虑周围紧邻物体的影响增加额外的惩罚,提出了Repulsion Loss(RepLoss)。

RepLoss包括 3 个组件,表示为:其中 L_Attr 是吸引项,需要预测框靠近其指定目标;L_RepGT 和 L_RepBox 是排斥项,分别需要预测框远离周遭其他的 groundtruth 物体和其他指定目标不同的预测框。具体而言,每一个 proposal 不仅要靠近其真正的ground truth,还要远离与真正ground truth最紧邻的其它 groundtruth 即倾向于与非目标 groundtruth 物体重叠,更要排斥来自不同指定目标的 proposal以降低 NMS 之后不同回归目标的边界框合并为一的概率。

你可能感兴趣的:(多目标跟踪--统一跟踪框架论文解读)