目标跟踪基础

目标跟踪

  • 基本概念
    • 名称
    • 任务和难点
  • 数据集
    • 目标跟踪数据集
  • 算法
    • 两大类跟踪算法
    • 算法框架
  • 多目标跟踪
    • 难点

基本概念

名称

(1)任务
多目标跟踪(MOT)
单个对象跟踪(SOT)
(2)数据集

(3)算法

任务和难点

(1)目标跟踪的任务
目前的目标跟踪的通常任务是,在视频的第一帧给定一个目标的矩形框,然后后续这个矩形框紧跟着要跟踪的物体。不过,目标跟踪与计算机视觉中的图像识别,分割,检测是分不开的,通常跟踪是这些分割检测的最后一步。
(2)目标跟踪的难点
通常目标跟踪面临几大难点:物体变形,亮度变化,快速移动,背景干扰覆盖等,通常不规则的变化都是目标跟踪的难点,这也是在工业上未得到使用而需要解决的问题。其中最主要的三个难题分别是目标背景的变化、物体本身的变化光照强度变化

数据集

目标跟踪数据集

  • VOT Challenge
  • OTB数据集(OTB50 和OTB 100)

补: 行为检测数据集
行人检测( Pedestrian Detection) 是计算机视觉领域内应用比较广泛和比较热门的算法,一般会与行人跟踪,行人重识别等技术进行结合,来对区域内的行人进行检测识别跟踪,广泛应用于安防,零售等领域。由于行人的外观易受穿着、尺度、遮挡、姿态和视角等影响,行人检测也具有一定的挑战性。

  • 行人检测数据集汇总(持续更新)

算法

两大类跟踪算法

目前公认的跟踪算法按照是否需要检测过程的参与,可以将其分为两类,一类是生成式,另一类是判别式,这和机器学习算法的分类有相似之处。

生成式算法通过描述目标的表观特征,处理当前帧与下一帧的关系。主要包括稀疏编码(sparse coding)、在线密度估计(online density estimation)等。它的缺点是过于关注目标本身,忽略背景信息,容易产生漂移现象。

判别式算法区分目标和背景,表现比生成式算法更为鲁棒,目前也是更为流行的研究方向。它包括目标的检测和跟踪,常被称为tracking by detection目标检测指对于图像而言找出目标物体的位置,而目标跟踪对于视频而言在每时每刻都能够找出物体的位置,检测是跟踪的基础,目标检测是初始化目标,目标跟踪是连续估计目标状态。常见的算法包括多示例学习方法(multiple instance learning)、结构SVM(structured SVM)等。此外,大多数深度学习的算法也属于判别式方法。

算法框架

对于一个完整的目标跟踪流程来说,算法框架通常由检测窗口的选择分类器的设计特征的设计这三个来逐步进化的。

检测窗口:滑动窗口(穷举法)——>区域候选法
特征的设计:选用的特征提取算法包括Harris,Haar,SIFT,HOG
分类器的设计:分类器则选用的是 SVM,Adaboost,决策树等算法(把待检测区域分为目标或者非目标)

目标跟踪算法从传统的自行设计特征和分类器,向着现在的基于深度学习的端到端(end to end)算法发展。
深度学习不需要自己设计特征,它可以自己在数据中学习到目标的特征,同时也有自己的分类器,也就是说将寻找特征和分类结合在一起。深度学习的效果也是非常的好,在最近的图像比赛中,冠军都是使用深度学习来实现的。目前的深度学习算法包括R-CNN,Fast R-CNN,Faster R-CNN等深度分类方法,也包括 YOLO(you only look once) 和 SSD(single shot multibox) 等深度回归方法。

除了通用的跟踪算法外,还有对于特定物体的跟踪,例如人脸检测行人检测等。除了单目标跟踪外,还有多目标跟踪,对多个目标持续的进行跟踪,目前也已经有针对多目标跟踪的赛事MOT,这也使得跟踪算法正在快速发展。

多目标跟踪

难点

多目标跟踪 (MOT) 是计算机视觉领域中的重要任务,当前最优的方法通常使用两个单独的模型:首先用检测模型定位图像中目标的边界框位置,然后用关联模型对每个边界框提取重识别 (Re-identification, Re-ID) 特征,并根据这些特征定义的特定度量将边界框与现有的一个跟踪结果联结起来。

参考:

  1. 行人检测数据集汇总(持续更新)
  2. 目标跟踪入门了解
  3. 检测、重识别为啥很难一步到位?华中科技大、微软深入挖掘,新方法实现新SOTA

你可能感兴趣的:(深度学习(DL),计算机视觉(CV))