论文阅读:Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking——OC-SORT

前言

文章的一作是曹金坤,作者同时还是《TransTrack: Multiple Object Tracking with Transformer》的二作。
文章:https://arxiv.org/pdf/2203.14360.pdf
代码:https://github.com/noahcao/OC_SORT
本文为论文阅读记录,本人才疏学浅,应该有错误的认识,希望读者能在评论区帮助我改正错误。
文章提出了一种用于多目标跟踪的算法Obeservation-Centric SORT(OC-SORT),以解决多目标跟踪中模型对目标重叠、非线性运动的敏感和需要高帧率视频的问题。OC-SORT保持了简单、在线、实时的特点,却在目标重叠和非线性运动时具有鲁棒性。
文章检测部分采用的是yolo x,不作过多介绍,我们的重点是作者提出的三种算法。

Introduction

作者回顾了SORT和识别中的三个限制问题,并针对这些问题提出了三种解决算法。

一、3个问题

首先作者回顾了SORT中的三个限制问题:

1估计噪声

虽然检测目标的移动可以近似为线性模型,但是使用高帧率数据增大系统了对状态噪声的敏感性。具体地说,在高帧率视频的连续帧之间,物体位移的噪声可能与实际物体位移的大小相同,就会导致使用卡尔曼滤波器估计物体的速度时存在较大的方差。即用卡尔曼滤波器计算先验估计 X t ∣ t − 1 X_{t|t-1} Xtt1帽时,因为噪音的问题,先验误差协方差矩阵 P t ∣ t − 1 P_{t|t-1} Ptt1特别大,而使得先验估计和真实情况差很远。
预测

2误差积累

由于检测中目标的遮挡或非线性运动,当没有新的检测框与现有轨迹匹配时,对象状态噪声会进一步累积。作者证明了在这种情况下,卡尔曼滤波器对目标位置估计的误差累积是关于时间的平方。例如,MOT17上靠近摄像头的行人大小约为50×300像素。但是,即使假设位置估计的方差在1个像素左右,10帧遮挡也可以将最终位置估计的偏移累积为对象大小的一倍。

3以估计为中心

SORT是以目标估计为中心的,所以非常依赖卡尔曼滤波器的的估计,而检测的结果只作为辅助。但是随着目标检测算法的发展,作者认为检测的结果比卡尔曼滤波器的估计结果更加准确,所以在mot中应该更加以检测为中心。

二、3种解决算法:

1.OOS:Observation-centric Online Smoothing

OOS旨在减少由于检测目标缺少造成的误差积累,在将非活动轨迹与检测到的目标重新关联的框架中,首先为该对象构建一条虚拟轨迹,从跟踪丢失之前的最后一个检测开始,到新匹配到检测结束。沿着这个虚拟轨迹,平滑卡尔曼滤波器参数,以获得更好的目标位置估计。
最后一次观测到的轨迹记录为 Z t 1 Z_{t1} Zt1,再次链接到的轨迹记录为 Z t 2 Z_{t2} Zt2,于是虚拟的轨迹记为:虚拟轨迹
沿着这个虚拟轨迹,可以从t1时的状态开始,通过在预测阶段,预测等式和协方差 P t ∣ t − 1 P_{t|t-1} Ptt1矩阵:
预测
和更新阶段,卡尔曼增益 k t k_{t} kt,后验估计和更新协方差矩阵 P t ∣ t P_{t|t} Ptt更新等式:
论文阅读:Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking——OC-SORT_第1张图片
来回交替反向检查卡尔曼滤波器的参数,使得误差积累的现象不在发生。
更新的状态估计方程:
更新后验估计

2.Observation-Centric Momentum(OCM)

线性运动模型假定速度方向一致。然而,由于物体的非线性运动和状态噪声,这种假设往往不成立。但在很短时间内,运动轨迹可以近似为线性,但噪声的存在阻止利用速度方向的一致性。于是作者提出了OCM——一种降低噪声的方法,并将速度一致性(动量)项添加到成本矩阵中。给定N条存在的轨迹和M个检测框,关联成本为:
OCM
伪码:论文阅读:Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking——OC-SORT_第2张图片

即将速度方向带入到IOU度量矩阵中。X帽为目标的估计状态矩阵, Z为检测的状态矩阵,V是包含由之前两次时差观测值计算的现有轨迹的方向。 C I o u ( , ) C_{Iou}( , ) CIou(,)计算负对检测框和预测值之间的IoU值, C v C_{v} Cv 计算轨迹的方向和由轨迹的历史检测和新检测形成的方向,λ是权重因子。该方法使用与轨迹相关的检测值进行方向计算,以避免估计状态下的误差累积,我们可以自己权衡观测点之间的时间差。在线性运动模型下,噪声大小与两个观测点的时间差成正比。在很短的时间间隔内,轨迹可以近似看成线性的,所以时间差不能太大。

3.Observation-Centric Recovery(OCR)

由于检测器的不可靠,检测物体发生重叠和非线性运动,常常发生轨迹中断。从以观察为中心的角度来看,将SORT扩展到非线性以恢复丢失的目标的保守降级是检查目标最后的轨迹位置。从直观的角度来看,这类似于Re-id一个之前没有轨迹的物体,其位置可以被视为服从高斯分布,其最后一次出现的位置作为均值,方差随着其丢失时间的增加而增加。由于全局最优只能通过精确的非线性假设和全局赋值来实现。作者提出OCR,恢复轨迹依赖于检测值而不是错误的估计值。当轨迹丢失后检测目标再出现时,直接将丢失轨迹时检测值和重新出现的检测值相关联以恢复轨迹。
OCR伪码:论文阅读:Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking——OC-SORT_第3张图片

OCSORT伪码:论文阅读:Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking——OC-SORT_第4张图片

Benchmark Performance

时间:2022.4.24
论文阅读:Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking——OC-SORT_第5张图片

你可能感兴趣的:(目标跟踪,人工智能,计算机视觉)