©PaperWeekly 原创 · 作者|黄飘
单位|华中科技大学硕士生
研究方向|多目标跟踪
Siamese Track-RCNN
论文题目:Multiple Object Tracking with Siamese Track-RCNN
作者团队:亚马逊云服务识别实验室
论文链接:https://arxiv.org/abs/2004.07786
这篇论文的思路很直接,其更多的创新还是还是基于 SOT 任务中的孪生结构和 MOT 中的联合检测和跟踪的框架,将 SOT、Detection 和 ReID 利用多任务分支的方式合并为一个整体框架。
论文的整体其实通过上图就能猜到:
SOT 分支,作者借助 GOTURN 的 SOT 孪生结构,基于上一帧目标位置在当前帧扩展区域进行搜索,这里与原始 SOT 任务不同的是:预测的是目标相对位移,而不是响应图,并且预测的分类信息中的前景背景信息,作者解释成目标是否可见,这一点在 MOT 数据集中存在目标可视度的标注。但是这里依旧是对每个目标做了一次 SOT,所以不得不用 GOTURN 这类效率高的网络;
Detection 分支,这个很简单,我之前的多篇博客已经介绍过了, 这里作者采用的就是就是 Tractor++ 的框架;
ReID 分支,这里仅仅是使用了共享特征,通过 triplet loss 进行训练。
总的来说,论文思路就是让多个任务共享特征。效果如下:
ArTIST
论文标题:ArTIST: Autoregressive Trajectory Inpainting and Scoring for Tracking
作者团队:澳大利亚国立大学机器视觉中心&EPFL CVLab
论文链接:https://arxiv.org/abs/2004.07482
通过我们之前对于联合检测和跟踪的框架的讨论,我们可以知道的是这类框架效果好的本质在于检测器的性能,主要体现在跟踪精度上,进而影响 ID Sw.。
但是如果不结合运动和表观等其他信息的话,ID Sw. 和 FP 会大大增加,这篇论文就是从运动信息从层面对 Tracktor++ 进行了改进。
上图是对比 Tracktor++ 对于遮挡的鲁棒性,论文框架如下:
从公式我们大致可以理解为对于每个即将加入跟踪轨迹的候选框,通过条件概率模型计算其属于该轨迹的概率。从图中我们能看到的是作者采用的框架式基于 LSTM 的,并且这里面涉及到了目标位置和形状的回归估计。
从论文中作者介绍的来看,作者通过 K-means 的方式得到了 K 类运动模式 (△x,△y,△w,△h),由此得到近似最优的运动估计。
如上图所示,对于每个目标(假设有 n 个),都会存在 k 种运动模型和 m 种可能的观测框,也就是每一次都要进行 nkm 次估计,利用概率模型选择最优的估计。这一步作者称之为 Tracklet Scoring。
然后考虑到目标丢失所造成了轨迹缺失,作者直接采用丢失之前的运动模式进行估计,称之为 Tracklet inplainting。
当然,最后还是通过匈牙利算法进行了数据关联。所以这篇文章的创新点就在于基于 LSTM 的离散运动状态估计。效果如下:
这里提一下,上面一栏是不基于图像信息的算法。
SQE
论文标题:SQE: a Self Quality Evaluation Metric for Parameters Optimization in Multi-Object Tracking
作者团队:清华大学 & 旷视
论文链接:https://arxiv.org/abs/2004.07472
这篇论文我觉得很有意思,作者团队设计了一种不需要 GT 的 MOT 评价指标 SQE,借此可以实现与原始评价体系相近的结果,这对于现实场景中的算法调优很有帮助。
在看这篇论文之前我们可以自己先思考一下,在计算 MOT 相关的评价指标时,一般分为跟踪精度和跟踪轨迹一致性,对于跟踪精度而言,如果没有 GT,无法估计。而对于跟踪轨迹的一致性,原始方式是通过 GT 计算跟踪轨迹中的 ID 变换情况,这一点可以近似估计。
这篇论文就是通过分析相同身份目标和不同身份目标之间的特征距离来估计ID的变换情况的,可是问题在于常规 MOT 任务中也有很多利用 ReID 来实现这种效果的,但是如何保证这里的估计一定准确呢?我们具体看论文:
作者首先分析了同一条轨迹内部的特征距离,可以看到 ID1 的轨迹中由于不存在其他身份的轨迹段,所以距离分布单一,而 ID2 中由于存在其他身份轨迹片段,所以存在了两种距离分布。
而对于不同轨迹之间的特征距离,因为 ID1 和 ID2 轨迹中目标身份全无交集,所以也只存在一种距离分布,而 ID2 和 ID3 中存在轨迹交互,所以存在两种距离分布。
为了度量上面所说的距离分布,作者引入了高斯混合模型,由于描述目标特征,距离度量模式采用欧氏距离:
借助目标特征的高斯混合模型和欧氏距离公式,得到了距离分布模型如上图所示,并且特征距离标准化后服从卡方分布,这一点有点类似于马氏距离,具体可以去看我前面介绍 Kalman 滤波器相关的文章。
当然,作者也说了,由于是采用的统计信息提到了均值和方差,另外 ReID 特征各个维度并不是独立,所以分布假设也会存在一定误差。
为了验证这种方式的效果,作者做了相关实验:
可以看到,对于同一身份的目标,无论其位于同一条轨迹还是不同轨迹,其大多数的距离分布都偏向于均值较小的部分。而不同身份的轨迹之间则是大多服从均值大的距离分布。
评价指标公式和算法如下:
其中 n 表示轨迹数量,L 表示轨迹平均长度,对于轨迹内部,FP 的判定是轨迹长度小于一定阈值和轨迹内距离分布标准差大于一定阈值。对于 dif,这里我理解是轨迹内身份变化程度,作者通过计算 2- 高斯混合模型的均值距离来判定是否存在多个身份。
对于轨迹之间,如果特征距离分布均值存在不同两种分布,则说明两条轨迹存在交叉,即 sim 误差增加。
在实验环节,作者采用的是 ReID 领域经典的 PCB 算法,感觉好像是直接用 PCB 进行多目标跟踪。
可以看到,随着 ReID 阈值的调整,IDF1 和 SQE 的值变化情况接近
要注意的是上面的 ReID 阈值是根据 SQE 评价指标提前设好的,而不是根据 GT 结果调整的,可以看到两种度量方式的差异接近。
[1] Multiple Object Tracking with Siamese Track-RCNN.
[2] ArTIST: Autoregressive Trajectory Inpainting and Scoring for Tracking.
[3] SQE: a Self Quality Evaluation Metric for Parameters Optimization in Multi-Object Tracking.
点击以下标题查看更多往期内容:
变分推断(Variational Inference)最新进展简述
变分自编码器VAE:原来是这么一回事
图神经网络三剑客:GCN、GAT与GraphSAGE
如何快速理解马尔科夫链蒙特卡洛法?
深度学习预训练模型可解释性概览
ICLR 2020:从去噪自编码器到生成模型
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
???? 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
???? 投稿邮箱:
• 投稿邮箱:[email protected]
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。