MOTS: Multi-Object Tracking and Segmentation论文学习

三个创新点:

①一个密集型像素标记的跟踪数据集(同时用于视频跟踪与分割的基于KITTI和MOTChallenge的数据集,使用半自动注释过程为两个现有跟踪数据集创建密集的像素级注释)

②一种多目标跟踪的度量指标

③一种新的基线方法,该方法联合处理检测、跟踪和分割与单一卷积网络

文章中的文章贡献翻译为:

(1)基于流行的KITTI和MOTChallenge数据集,提供了两个具有时间一致性对象实例分段的新数据集,用于训练和评估处理MOTS任务的方法。

(2)提出了一种新的软多目标跟踪与分割精度(sMOTSA)测量方法,该方法可以同时评估新任务的各个方面。

(3)将TrackR-CNN作为一种基线方法,将其与已有的工作进行比较,并将其与检测、跟踪和分割相结合。

(4)验证了新数据集对像素级多目标跟踪器端到端训练的有效性。

构造数据集的目的:

用于训练和评估实例分割模型的数据集通常不提供关于视频数据的注释; 用于多对象跟踪的公共数据集只提供对象的边框。这些可能太粗糙,例如,当对象被部分遮挡,使得其边界框包含来自其他对象的信息多于来自自身的信息。如下图,而逐像素分割掩码则能够精确定位。

                                          MOTS: Multi-Object Tracking and Segmentation论文学习_第1张图片

半自动标注:

其实就是通过训练好的模型检测目标,输出包含目标类别和位置的txt文件,然后再将其转换为xml文件,最后再使用标注工具进行完善。当然,前提是模型的精度越高越好,如果检测结果不准确,就会增加工作量,导致无法使用。

 

数据集

为视频中每个对象的每一帧注释像素掩码是一项极其耗时的任务。因此,这种数据的可用性非常有限。我们不知道MOTS任务的任何现有数据集。但是,也有一些带有MOT注释的数据集,即,边界框级别标注的跟踪数据,但这样的数据集缺少分割的mask。因此,我们的标注过程为两个MOT数据集中的边界框添加分割的mask。总的来说,我们注释了65,213个分割掩码。这个大小使得该数据集对于培训和评估现代基于学习的技术是可行的。

半自动标注程序:通过分割掩码扩展边界框级标注。我们使用卷积网络从包围框中自动生成分割掩码,然后使用手动多边形标注进行校正。每次跟踪使用手动注释作为额外的培训数据对初始网络进行微调。通过迭代生成和纠正掩码的过程,直到达到所有标注掩码的像素级精度。

       边界框转化为分段的掩码,使用一个基于DeepLabv3的fully-convolutional refine网络,这个网络接受边界框指定的输入图像的裁剪图像作为输入,并添加一个小的上下文区域,以及一个额外的输入通道,该输入通道将边界框编码为掩码。基于这些线索,refine网络预测给定框的分割掩码。refine网络在COCO和Mapillary上进行预训练,然后对目标数据集手工创建的分割掩码进行训练。

MOTS: Multi-Object Tracking and Segmentation论文学习_第2张图片

 

 

 

你可能感兴趣的:(MOTS: Multi-Object Tracking and Segmentation论文学习)