siamfc++自己学习笔记

  1. SiamFC++:通过目标估计指南实现正确和精确的视觉跟踪
  2. 实验方法:我们通过引入分类和目标状态估计分支(G1)、无歧义分类得分(G2)、无先验知识跟踪(G3)和估计质量得分(G4)来设计我们的全卷积暹罗跟踪器++(暹罗FC++)。
  3. 基准测试(OTB2015、VOT2018、LaSOT、GOT-10k、TrackingNet)
  4. 两者对比:SiamRPN++由于锚对象不匹配而失败,而我们的SiamFC++通过对象之间的直接匹配而成功。
  5. 跟踪问题可以被视为分类任务和估计任务的组合(Danelljan等人,2019年)。第一个任务旨在通过分类提供一个稳健的目标粗略位置。第二个任务是估计一个精确的目标状态,通常用一个边界框来表示。之前的第二个任务的3类方法:第一类,包括判别相关滤波器(DCF) (Henriques等,2014;Bolme等人(2010年)和SiamFC (Bertinetto等人,2016年)采用了不准确的残酷多尺度检验(Danelljan等人,2019年)和低效率检验(Li等人,2018年a)。此外,先前的假设,即目标比例/比率在相邻帧中以固定速率变化,在现实中通常不成立。对于第二类,ATOM (Danelljan等人,2019)通过渐变ARXiv:1911.06188 v4[cs]迭代细化多个初始边界框。CV]2 2020年4月上升到估计目标包围盒(蒋等2018),这产生了精度上的显著提高。然而,这种目标估计方法不仅带来了沉重的计算负担,而且还带来了许多需要仔细调整的附加超参数(例如,初始箱的数量、初始箱的分布)。第三类是暹罗追踪器家族(李等2018a朱等2018;李等人(2019),其通过引入区域建议网络(RPN)来执行精确且有效的目标状态估计(任等人,2015)。然而,预定义的锚点设置不仅引入了严重妨碍鲁棒性的模糊相似性评分(参见第4节),而且还需要访问数据分布的先验信息,这显然违背了通用对象跟踪的精神。
  6. 该论文提出的高性能通用目标跟踪设计的指导原则:
    G1:分类和状态估计的分解跟踪器应该执行两个子任务:分类和状态估计。
    G2:无歧义评分分类评分应直接表示目标存在的置信度得分,在“视场”内,即对应像素的子窗口内,而不是像锚点框那样的预定义设置。
    G3:无先验知识的跟踪方法应该是无先验知识的,如尺度/比例分布,这是由通用目标跟踪的精神(黄,赵,黄2018)提出的。现有方法普遍存在对数据分布先验知识的依赖,这阻碍了泛化能力。
    G4:评估质量评估如先前研究所示,直接使用分类置信度进行包围盒选择将导致性能退化。应当使用独立于分类的估计质量分数,如在关于目标检测和跟踪的许多先前研究中一样。
    第二个分支(如ATOM和DiMP)惊人的准确性很大程度上来自于这一准则。而其他人仍然忽略它,为进一步提高估计精度留下了空间。
    7.基于上者提出基于全卷积siamese trackers的SiamFC++方法:其中特征图的每个像素由于其全卷积特性而直接对应于搜索图像上的每个平移子窗口。我们添加了一个回归头,用于精确的目标估计,与分类头(G1)并行。由于预定义的锚定设置被移除,关于目标比例/比率分布的匹配模糊度(G2)和先验知识(G3)也被移除。最后,在G4之后,在高质量的特权包围盒中增加一个估计质量评估分支。我们的贡献可以概括为三个方面:1 .通过识别跟踪的独特特性,我们为现代跟踪器设计设计了一套实用的目标状态估计准则。2.我们设计了一个简单但强大的暹罗FC++跟踪器,应用了我们提出的指导方针。广泛的实验和全面的分析证明了我们提出的指导方针的有效性。3.我们的方法在五个具有挑战性的基准上取得了最先进的结果。
    8.现代跟踪器可分为3个分支:
    包括DCF和Siamfc使用多尺度检验来估计目标尺度。具体而言,通过将搜索块重新缩放成多个尺度并组装小批量缩放图像,该算法挑选对应于最高分类分数的尺度作为当前帧中的预测目标尺度。(缺:这种策略从根本上是有限的,因为包围盒估计本质上是一项具有挑战性的任务,需要对物体的姿态有高水平的理解)
    受DCF和IoU-Net (Jiang等人,2018)的启发,ATOM (Danelljan等人,2019)通过顺序分类和估计来跟踪目标。通过分类获得的目标的粗略初始位置被迭代地细化以用于精确的框估计。每帧边界框的多次随机初始化和迭代细化中的多次反向传播大大降低了ATOM的速度。这种方法显著提高了精度,但也带来了沉重的计算负担。此外,原子引入了许多需要仔细调整的额外超参数。
    9.另一个分支,命名为SiamRPN及其后续作品(李等2018a朱等2018;李等人(2019)在暹罗网络之后附加了一个区域建议网络,实现了以前没有看到的准确性。RPN回归预定义定位框和目标位置之间的位置偏移和大小差异。然而,RPN结构更适合于需要高召回率的目标检测,而在视觉跟踪中,应该只跟踪一个目标。此外,锚盒和对象之间的模糊匹配严重阻碍了鲁棒性
    10.大多数最先进的现代探测器,即基于锚的探测器,都采用了RPN结构和锚箱设置(Ren等人,2015;Liu等人,2016;Li等人,2018b)。基于锚定的检测器将预定义的方案(称为锚定)分类为正补丁或负补丁,并使用额外的偏移回归来优化边界框位置的预测。然而,锚箱引入的超参数(例如锚箱的比例/比率)对最终精度有很大影响,需要启发式调整(Cai和Vasconcelos 2018;Tian等人2019)。研究人员尝试了各种方法来设计无锚检测器,如预测物体中心附近点的边界框(Redmon等人,2016;Huang等人,2015),或检测和分组边界框的一对角(Law和Deng,2018)。在本文中,我们展示了一个基于精心设计的目标状态估计指南的简单管道(Huang et al.2015;Yu et al.2016;Tian et al.2019)可以实现最先进的跟踪性能。
    SiamFC框架由用于特征提取的暹罗子网络和用于分类和回归的区域建议子网络组成。
    11.暹罗网络是离线训练和在线评估的,以便在更大的SearchImage中定位模板映像。暹罗网络由两个分支组成。TemplateBranch将第一帧中的目标面片作为输入(表示为asz),而SearchBranch将当前帧作为输入(表示为asx)。暹罗主干在两个分支之间共享参数,在InputZandx上执行相同的转换,以将它们嵌入到公共特征空间中,用于后续任务。在嵌入空间中对模板补丁和搜索补丁进行互相关
    12.我们实现了两个具有不同主干架构的跟踪器版本:一个采用先前文献(Bertinetototettal.2016)中修改过的AlexNet版本,表示DASSIAMFC AlexNet,另一个使用GoogLeNet(Szegdy等人2015),表示为SiamFC-GoogLeNet。
    数据集:培训数据我们采用ILSVRC-VID/DET(Russakovsky et al.2015)、COCO(Lin et al.2014)、Y Outubeb(Real et al.2017)、LaSOT(Fan et al.2019)和GOT-10k(Huang、Zhao和Huang 2018)作为我们的基本培训集。对于图像数据集(COCO/ImagenetDET),我们通过引入负对(Zhu等人,2018)来生成训练样本,作为训练样本的一部分,以增强识别模型干扰因素的能力。作为数据增强技术,我们在搜索图像上按照均匀分布执行随机移位和缩放。
    13.我们发现SiamRPN跟踪器及其系列并未完全遵循我们提出的指南(G2)SiamRPN的分类分数代表锚和对象之间的相似性,而不是模板对象和搜索图像中的对象之间的相似性,这可能导致匹配模糊;•(G3)预设锚箱的设计需要事先了解目标尺寸和比率的分布情况;•(G4)目标状态估计的选择没有考虑估计质量。

你可能感兴趣的:(目标跟踪,开发语言)