DyGLIP:跨摄像头多目标跟踪的动态图模型

DyGLIP: A Dynamic Graph Model with Link Prediction for Accurate Multi-Camera Multiple Object Tracking
本文为阅读论文时做的翻译,还没有良好的习惯,随便看看就好

原文链接

CVPR2021DYGLIP

新的MC-MOT framework,对关联的performance 有提升,跟注意力机制有关

相关工作

与单摄像头相比,MC-MOT再契合度上面更有挑战

  • 时空条件限制:
    • 使用Gaussian Mixture Model估计摄像头的关联度
    • 转化位最小费用的图论问题
  • 在视野重合中的3D 匹配:可以解决2D匹配的一些限制
  • 较为普通的方法:
    • 全局目标以及轨迹 矩阵分解
    • 相关聚类方法 解决ID分配的任务
    • ID聚类 重排列

本文工作

假设每个单摄像头都用现成的MOT算法,对于未被分配的轨迹,大多的MOT都做不好因为仅仅使用特征向量来进行匹配已知的关联集合。
本文提出动态图的方法
在未分配之前,动态图和新节点的连接是不确定的
e ( i ) e(i) e(i)为物体在不同摄像头的特征参数

自注意力机制在动态图中的应用

  • 结构化注意力层
    不仅考虑到嵌入的特征信息,而且也考虑到摄像头的信息

h v i t = L l = 1 L  Concat  [ ∑ v j ∈ V ( t ) α i j l conv ⁡ 1 × 1 l ( e v j t ) ) ] \left.\mathbf{h}_{v_{i}}^{t}=\underset{l=1}{L} \underset{\text { Concat }}{L}\left[\sum_{v_{j} \in \mathcal{V}^{(t)}} \alpha_{i j}^{l} \operatorname{conv}_{1 \times 1}^{l}\left(\mathbf{e}_{v_{j}}^{t}\right)\right)\right] hvit=l=1L Concat L vjV(t)αijlconv1×1l(evjt)
注意力参数
α i j l = exp ⁡ ( σ ( W i j T [ conv ⁡ 1 × 1 l ( e v i t ) ∥ conv ⁡ 1 × 1 l ( e v j t ) ] ) ) ∑ v k ∈ V ( t ) exp ⁡ ( σ ( W k j T [ conv ⁡ 1 × 1 l ( e v k t ) ∥ conv ⁡ 1 × 1 l ( e v j t ) ] ) ) \alpha_{i j}^{l}=\frac{\exp \left(\sigma\left(\mathbf{W}_{i j}^{T}\left[\operatorname{conv}_{1 \times 1}^{l}\left(\mathbf{e}_{v_{i}}^{t}\right) \| \operatorname{conv}_{1 \times 1}^{l}\left(\mathbf{e}_{v_{j}}^{t}\right)\right]\right)\right)}{\sum_{v_{k} \in \mathcal{V}(t)} \exp \left(\sigma\left(\mathbf{W}_{k j}^{T}\left[\operatorname{conv}_{1 \times 1}^{l}\left(\mathbf{e}_{v_{k}}^{t}\right) \| \operatorname{conv}_{1 \times 1}^{l}\left(\mathbf{e}_{v_{j}}^{t}\right)\right]\right)\right)} αijl=vkV(t)exp(σ(WkjT[conv1×1l(evkt)conv1×1l(evjt)]))exp(σ(WijT[conv1×1l(evit)conv1×1l(evjt)]))

  • 暂时性注意力层
    加入时间信息,然后编解码
    z e ( l ) = atth ⁡ ( l ) ( Q , K , V ) = softmax ⁡ ( Q K T D Z + M ) V \mathbf{z}_{e}^{(l)}=\operatorname{atth}^{(l)}(\mathbf{Q}, \mathbf{K}, \mathbf{V})=\operatorname{softmax}\left(\frac{\mathbf{Q} \mathbf{K}^{T}}{\sqrt{D_{Z}}}+\mathbf{M}\right) \mathbf{V} ze(l)=atth(l)(Q,K,V)=softmax(DZ QKT+M)V
    queries
    Q = X W Q Q=XW_Q Q=XWQ
    K = X W K K=XW_K K=XWK
    V = X W V V=XW_V V=XWV

模型学习

结构化的信息和暂时性的信息都要用

总结

比eletrcitity取得了更好的效果,MOTA提升较大,行人和车都能用

读者评论

没怎么看懂,应该是利用transformer的idea做的关联,单摄像头还是用的deepSORT。动态图的idea还是非常impressive的,没时间写博客了就这样吧。

你可能感兴趣的:(目标跟踪,人工智能,计算机视觉)