【2D多目标跟踪】Quasi-Dense Similarity Learning for Multiple Object Tracking阅读笔记

1、为什么要做这个研究(理论走向和目前缺陷) ?
之前的2D MOT里只用gt样本训练(基本沿用reid的训练所用的损失)embedding特征(记为reid特征)。但是GT样本是稀疏的,没有充分利用大量准gt样本的多样性,如果能有一堆正样本和负样本参与训练优化的话,这样可能会使提取的embedding特征更具备判别性。
2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?
作者提出一种利用纯reid 特征而无位置、运动信息的多目标跟踪方法,核心改进有如下几点:
1)训练reid feature时,多个正样本和多个负样本同时参与计算损失。利用rpn网路产生的roi,根据roi和gt的iou>0.7就认为是正样本roi,iou<0.5时认为是负样本roi。这样在前后帧的(关键帧和参考帧)图片中,和具有同一个id的gt的正样本之间会计算损失,同时关键帧的正样本和参考帧的负样本之间也会计算损失。具体损失函数如下:
【2D多目标跟踪】Quasi-Dense Similarity Learning for Multiple Object Tracking阅读笔记_第1张图片

v代表关键帧的正样本roi的reid特征,k-代表参考帧的负样本的reid特征,k+代表参考帧的正样本的reid特征。
2) 只用reid特征匹配完成前后帧目标关联,但是 目标特征和当前检测的最终特征相似度 = 目标跟踪和当前检测的特征相似度/目标跟踪和所有检测的特征相似度之和 + 目标跟踪和当前检测的特征相似度/所有跟踪和当前检测的特征相似度之和。公式表达:
在这里插入图片描述
作者称之为Bi-directional softmax,这样计算的相似度矩阵在利用贪心算法完成求解即可。3)其他一些小操作:NMS时比如产生的检测做NMS时并不是在同一个类内进行的,而是所有类别同时进行,以及无跟踪匹配的高分检测也会先保留一帧。这是为了避免不同类别的检测位于同一个位置时,如果只进行类内NMS,那么这两个检测的reid特征可能相似度很大。一个新出现的得分很高检测,如果它并没有和任何跟踪匹配上(大概率是误检),也会把它保留下来作为候选跟踪参与和后续检测的匹配,但是只保留一帧,如果下一帧的检测并没有和这个候选跟踪匹配上的话,就直接丢掉了。
3、发现了什么(总结结果,补充和理论的关系)?
效果不错,BDD100k数据集上top 1.方法也比较简单,但是好像现在已经被bytetrack超了。而且,2D多目标跟踪对自动驾驶领域帮助不大,但是3D多目标跟踪往往基于点云来做,reid特征做匹配跟位置运动信息比的话差的不是一点半点。如果可以把2D的表观特征优势和3D的位置运动信息结合起来,或许对3D MOT会有更大的帮助。

整个pipeline图示:
【2D多目标跟踪】Quasi-Dense Similarity Learning for Multiple Object Tracking阅读笔记_第2张图片

你可能感兴趣的:(自动驾驶,目标跟踪,自动驾驶)