随记(9):CVPR2021关于Tracking的论文速读(3)-终

赶在放假前读完了

Rotation Equivariant Siamese Networks for Tracking
    1.认为CNN本质是平移等变的,并不是为了处理旋转问题而设计的。所以本文致力于解决视觉目标跟踪中的“旋转”问题。
    2.提出旋转等变暹罗网络(细节是包含可控滤波器的组等变卷积层)
    3.根据overview展示,是将不同旋转角度的样本分别输入分支的卷积网络,生成的特征图在后阶段融合并进行Group Max Pooling的过程

Seeing Behind Objects for 3D Multi-Object Tracking in RGB-D Sequences
    1.是基于RGB-D视频序列的多目标跟踪任务
    2.作者们认为拥有目标的完整几何形状有助于跟踪
    3.有点类似于一个三维重建任务,从一系列RGB-D帧中,学习预测完整的目标从而推导出6DoF进而用来跟踪
    4.基于TSDF和CNN

Siamese Natural Language Tracker: Tracking by Natural Language Descriptions with Siamese Trackers
    1.说实话,这着实震惊到我了,基于自然语言处理的视觉跟踪任务,这个题目我都看不懂
    2.学视觉的我怎么感觉有必要补充一下自然语言处理的知识

SiamMOT: Siamese Multi-Object Tracking
    1.提出一个基于区域(region-based)的暹罗多目标跟踪网络SiamMOT。SiamMOT包括一个运动模型,该模型估计实例在两个帧之间的移动,以便检测到的实例相关联。
    2.基于暹罗网络的跟踪任务倒是常见,但本文做了一个比较棒的实验:为了探索运动建模如何影响其跟踪能力,提出了暹罗跟踪器的两种变体,一种隐式建模运动,另一种显式建模
    3.表明了MOT运动建模的重要性

STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in Motion with Neural Rendering
    1.自监督
    2.对multi-view RGB视频帧中具有刚性运动的动态场景进行自监督跟踪和重建
    3.是基于神经辐射场(NeRF)的工作

STMTrack: Template-free Visual Tracking with Space-time Memory Networks
    1.也是基于暹罗网络的工作
    2.利用时空网络的记忆功能,即使用一种更新机制利用目标丰富的历史信息预测目标状态
    3.另外还通过计算像素级的相似性来定位目标

TesseTrack: End-to-End Learnable Multi-Person Articulated 3D Pose Tracking
    1.首先,来自多个摄像头的视频帧各自通过共享的 HRNet 来计算检测和 3D 姿态跟踪所需的特征。 
    2.其中HRNet 的最后一层通过 3D 卷积回归到人类 3D 边界框的中心。
    3.其余每个分支都与 HRNet 最后一层相结合,以创建一个称为 tesseract 的时空管道。 可学习的 3D 跟踪框架,通过使用时空的行人描述符随时间推移进行人员关联。 
    4.最后,相关的描述符通过反卷积层来推断 3D 姿态。

There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge
    1.声音(sound)的固有属跟踪性可以提供有价值的信息,用来目标检测与
    2.是一个分支网络的多模态信息处理工作

Towards More Flexible and Accurate Object Tracking with Natural Language: Algorithms and Benchmark
    又一篇与NLP交叉的论文

Track to Detect and Segment: An Online Multi-Object Tracker
    1.大多数在线多目标跟踪器在没有任何跟踪输入的情况下在神经网络中独立执行目标检测。 
    2.本文提出了一种新的在线联合检测和跟踪模型 TraDeS(TRAck to DEtect and Segment),利用跟踪线索来辅助端到端检测。 
    3.TraDeS通过成本量推断目标跟踪偏移,用于传播先前的目标特征以改进当前的目标检测和分割。
    4.倒是比较有新意:把跟踪产生的信息反馈给检测部分

Track, Check, Repeat: An EM Approach to Unsupervised Tracking
    1.一篇大杂烩
    2.RGB-D、估计光流和相机运动分割目标作为伪标签、通过数据增强学习到一个2D和3D的检测器、最大值期望、集合一致性约束

Tracking Pedestrian Heads in Dense Crowd
    1.建议在密集行人检测任务中只检测头部
    2.创造了密集人群头部数据集
    3.并提出一个新的度量IDEucl和一个基线模型HeadHunter

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking
    1.这篇论文也比较有意思
    2.整体框架是类似于暹罗网络
    3.分支是首先两个图像分别进入两个CNN,两个CNN共享权重,之后CNN输出再分别进入两个Transformer,其中的信息流是Encoder到Decoder
    4.再接一层卷积相应跟踪

Transformer Tracking
    很显然是基于Trs的工作
    引入了ECA和CFA模块
    ECA模块多头自注意力基于残差的优化形式
    CFA模块是多头交叉注意力和FFN基于残差的优化形式
 

你可能感兴趣的:(磕磕绊绊)