【论文阅读】CVPR2018: Features for Multi-Target Multi-Camera Tracking and Re-Identification

目录

    • 本文的主要贡献
    • 多目标多相机追踪(MTMCT)和行人再识别(Re-ID)的关系
      • 两者的区别
      • 两者的联系
    • 模型的流程
    • 论文结论

这篇文章是由杜克大学Ergys Ristani, Carlo Tomasi完成,在CVPR2018上被收录,原文链接为: https://arxiv.org/abs/1803.10859。
在CSDN上已经有大神给出这篇非常好的翻译了,因此我不再赘述原文内容,大家可以移步 Features for Multi-Target Multi-Camera Tracking and Re-Identification。本文只回顾一下论文的最核心内容。

本文的主要贡献

1、提出一种自适应的Triplet loss方法,与固定权重的方法相比,在准确率和效率方面均有提升.
2、提出一种可以更好的提取特征的难例挖掘方法
3、关于tracking和ranking的准确度之间的关系,提出新的见解
4、在现有数据集上分别检测MTMCT和Re-ID的有关性能

多目标多相机追踪(MTMCT)和行人再识别(Re-ID)的关系

两者的区别

MTMCT是在来自多个相机的视频中追踪多个行人,在人群分析,运动员姿势识别等领域均有非常广泛的应用,它比较的是分类性能。而Re-Id是从一个图片库里检索出与查询图片相似的任务,给出一个相似程度的排序,比较的是排列性能。

两者的联系

对于MTMCT的loss而言,任何两个身份相同特征之间的最大距离都要小于任何两个不同的特征之间的最小距离,在同一种身份和不同种身份的距离就称为间隔margin。

对于Re-ID的loss而言,对于任意一张查询图片a,图片a与身份相同的特征之间的最大距离要小于图片a与身份不同的特征之间的最小距离。因此,对于任意给定的查询图片,我们可以得到正确的特征排列。

因此, 由0-MTMCT loss我们可以得到0-reid loss,但是反之不成立。

模型的流程

为了实现MTMCT的相关性能,文章设计了下列流程。
【论文阅读】CVPR2018: Features for Multi-Target Multi-Camera Tracking and Re-Identification_第1张图片
对于给定的视频流(video streams),首先用行人检测器对视频进行处理,从中提取相应的边界框Bbox。为了进行轨迹推断,特征提取器要从观测中提取运动特征和外观特征。将这些特征将转换成相关性并用相关聚类优化的方式打上标签。最后做一些后处理的工作:对缺失值进行插值处理,去除低置信度的轨迹。

论文结论

我们使用了一个实值,自适应权重的triplet损失,联合能够混合困难和随机个体的新的困难个体挖掘技术,获得了外观特征。无论是使用IDF1,MOTA或者rank1分数衡量在MTMCT和Re-ID上都达到了最先进的表现。

我们的实验也说明了Re-ID的rank-1分数改变与追踪准确率的IDF1准确率改变之间的关系。这两种表现度量一开始就是线性相关的,但是一旦rank-1分数一旦足够好就会产生产生对于正确信号的关联,这种依赖就会饱和。

我们期待能够引进新的大规模数据集来进一步验证我们的想法。

你可能感兴趣的:(【论文阅读】CVPR2018: Features for Multi-Target Multi-Camera Tracking and Re-Identification)