我们已经生活在一个被摄像头和视频包围的世界里,从手机、汽车、无人机到各类监控设备,随处可见摄像头的“身影”。据前瞻产业研究院2020年的报告分析,预计到2025年全球摄像头镜头的出货量将超过120亿颗。
面对海量的摄像头及其产生的视频素材,如何利用具有深度学习功能的 AI 技术,高效、智能地处理、挖掘信息,已成为一项非常有价值的课题。
视频目标跟踪技术(也称为:目标跟踪、视觉跟踪),作为计算机视觉领域中基础的、重要的研究方向之一,可广泛应用在交通管理、安防监控、自动驾驶、机器人、体育赛事转播等领域,其已成为一大研究热点。
图源:网络
● 根据跟踪的目标数量,目标跟踪任务可分为单目标跟踪(SOT)和多目标跟踪(MOT);
● 根据背景状态,可分为静态背景下的目标跟踪和动态背景下的目标跟踪;
● 根据摄像头数量,可分为单摄像头跟踪和多摄像头跟踪;
● 根据任务计算类型,可分为在线跟踪、离线跟踪;
更多分类可参考下图:
目标跟踪纵览(图源:参考资料[1])
其中,多目标跟踪作为计算机视觉中的一项中级任务,仍然是一项具有挑战性的任务,因为它需要同时解决目标检测、轨迹估计、数据关联和重识别问题。另外它也是许多高级任务的基础,如姿态估计、动作识别和行为分析等。
让我们一起来看看。
多目标跟踪与单目标跟踪是一组相对的概念。
单目标跟踪是指,在视频的初始帧画面上框出单个目标,预测后续帧中该目标的大小与位置。该目标始终位于视场中,并且对目标种类无限制。
单目标跟踪示意(图源:网络)
而多目标跟踪是在事先不知道目标数量的情况下,对视频中的行人、汽车、动物等多个目标进行检测并赋予ID进行轨迹跟踪。不同的目标拥有不同的ID,以便实现后续的轨迹预测、精准查找等工作。[2]
多目跟踪示意(图源:网络)
多目标跟踪主要分为以下四个步骤:[3]
1. 对象初始化
首先对各个视频帧中的新出现的对象进行建模,即对象初始化;
2. 检测与特征提取
其次根据建立的模型进行对象检测,获得初始对象序列的特征;
3. 相似度计算
根据得到的特征,在后续帧中重复寻找目标对象进行相似度度量;
4. 数据关联
根据相似度度量结果对目标进行关联,获得一系列的对象轨迹。
相对于单目标跟踪,多目标跟踪面临着更加复杂的问题包括频繁的遮挡、轨迹的管理、相似的外观和多目标间的相互影响。
在实际的应用场景中,需要面对存在的各种复杂变化(以行人跟踪为例):
1. 目标自身的变化
目标的颜色变化(行人的衣服颜色变化),目标的尺度变化(离摄像头的远近)和目标的形态变化(行人的站立、蹲与躺)等。
2. 外界环境的变化
光线明暗的变化、目标所处环境的多样性、目标的消失与出现和目标的遮挡问题。
这些复杂变化会影响跟踪对象与背景环境的区分度,从而进一步影响多目标跟踪算法的跟踪效果和结果的好坏,所以需要恰当地处理这些变化来提高多目标跟踪的准确性。
目前多目标跟踪领域的重要基准是MOTChallenge,作为上传并公布多目标跟踪方法研究成果的公共平台,其拥有最大的公开行人跟踪数据集。[4]
其提供的数据集包括:MOT 15、MOT 16、 MOT 17、MOT 20,这些数据集都提供了训练集的标注,训练集与测试集的检测,以及数据集的目标检测结果,主要侧重于密集场景下行人跟踪任务。
MOT系列数据集的视频序列及其主要属性(图源:参考资料[4])
另外还有近几年出的TAO数据集,是一个类似COCO的多样化的MOT数据集,其中包含2907个不同环境的高清视频,平均长度半分钟,包含833个类别,比现有的数据集高出一个数量级。
OpenDataLab平台已经上架了多目标跟踪(MOT)系列数据集,提供了丰富的数据集信息、流畅的下载速度,快来体验吧!
https://opendatalab.com/MOT15
https://opendatalab.com/MOT16
https://opendatalab.com/MOT17
https://opendatalab.com/MOT20
https://opendatalab.com/TAO
参考资料:
[1]https://arxiv.org/abs/1912.00535
[2]https://www.bilibili.com/read/cv12115742
[3]文成宇. 复杂场景行人的多目标跟踪方法[D].中国矿业大学,2021.
[4]徐涛,马克,刘才华. 基于深度学习的行人多目标跟踪方法[J]. 吉林大学学报(工学版),2021,51(01):27-38.
更多数据集上架动态、更全面的数据集内容解读、最牛大佬在线答疑、最活跃的同行圈子……欢迎添加微信opendatalab_yunying 加入OpenDataLab官方交流群。