阅读笔记 Dense Feature Aggregation and Pruning for RGBT Tracking

论文标题

Dense Feature Aggregation and Pruning for RGBT Tracking

背景介绍

在给定初始groundtruth的情况下,RGBT跟踪是利用RGB和热红外信息在连续帧中跟踪特定的实例。由于它能够利用多模态互补的特性,收到越来越多的关注,但仍有很多问题需要解决,其中如何有效融合RGB和热红外源是提高跟踪性能的核心因素,目前还没有很好地解决。

论文解读

浅层特征能够编码目标的外观和空间细节,有利于实现目标的精确定位,而深层特征能够更有效地捕捉目标语义,能够有效地识别目标类别。
为了充分利用深层特征,我们的方法以一种密集的方式递归聚合所有层的特征。

网络结构

阅读笔记 Dense Feature Aggregation and Pruning for RGBT Tracking_第1张图片

网络组成:一个全卷积密集特征聚合模块、一个特征剪枝模块、三个全连接层,做二值分类问题。
骨干网络选择更轻量级的VGG_M网络。
与MDNet相比,去掉了conv2层后面的最大池化,采用速率为3的扩张卷积,提取具有高空间分辨率的密集特征。
特征聚合模块用来聚合两个模态的所有特征。提出的聚合块是通过1x1卷积,然后进行非线性(ReLU)和归一化(LRN)操作来实现的,在这里插入图片描述
设B(·)表示特征的聚合操作,特征聚合可以表示成

在这里插入图片描述
其中σ为非线性激活,Wi和 b分别为卷积中的权值和偏置。局部响应归一化(Local Response Normalization, LRN)是一个归一化函数,x表示聚合块的输入。
特征剪枝模块用来减少噪声干扰,通过剪枝对聚集的特征进行选择。
我们的目的是将冗余和噪声特征剔除,并将最具判别性的特征保留到某一目标上,使其更有效的定位。通过这种方法,增强了有效特征表示的学习,抑制了无用的特征。
具体做法是在相邻的两个卷积层之间使用信道dropout,使用全局平均池(GAP)、加权随机选择(WRS)和随机数生成(RNG)的运算来选择部分信道实现正则化。此外RNG操作会增加特征选择的随机性,因此我们省略了RNG操作。
考虑到用GAP代替全连通层(FC)来解决卷积神经网络中FC层参数过拟合和过多的问题,同时利用GAP可以使卷积神经网络具有良好的定位能力,因此,在本文中,我们使用GAP来获取每个特征通道的激活状态:
在这里插入图片描述
W和H为feature map的宽度和高度。Xc表示第c通道的特征图。
我们没有直接使用score来进行信道选择,而是采用了一种更有效的算法WRS:
在这里插入图片描述
rc是信道c的随机数。
剪枝算法:
阅读笔记 Dense Feature Aggregation and Pruning for RGBT Tracking_第2张图片
其中M = N∗wrs_ratio, N是信道数,wrs_ratio是一个参数,指示在WRS之后选择了多少个信道。
最后,通过三个全连接层和softmax交叉熵损失对优化后的特征进行分类。

训练模型

首先,我们使用VGG-M网络[的预训练模型初始化前三个卷积层的参数。全连接层参数则随机初始化。然后,我们用随机梯度下降(SGD)算法对整个网络进行训练。
在每次迭代中,每个视频序列中随机选取8帧,构造出mini-batch。在每一帧中抽取32个正样本和96个负样本,得到256个正数据和768个负数据。当IoU与地面真值边界盒的重叠率大于0.7时,视为正样本,当负样本小于0.5时,视为负样本。
对于K个训练序列的多域学习,我们使用softmax交叉熵损失对网络进行100个epoch的训练。
从RGBT234数据集上随机选取77个视频序列进行网络训练,在GTOT数据集上进行测试。在另一个实验中,我们在GTOT数据集的所有50个视频序列上训练我们的网络,并在RGBT234数据集上测试它。

测试模型

在跟踪中,领域特定层(最后一层fc)的K个分支被每个测试序列的单个分支替换。此外,还去掉了特征剪枝模块。
在跟踪和在线微调过程中,我们修正了卷积滤波器w1,w2,w3,并微调了全连接层w4,w5,w6,因为卷积层具有通用的跟踪信息,而全连接层具有视频特定的知识。
给定带有目标对象groundtruth的第一帧-pair,绘制500个正样本(IOU大于0.7)和5000个负样本(IOU小于0.5),用10次迭代训练新分支。
给定第t帧,我们从之前的跟踪结果z t−1 *的高斯分布中绘制一组候选{z i t},

其中高斯函数的均值设为z t−1 *= (a t−1,b t−1,s t−1),协方差设为diag{0.09r^2,0.09r ^2,0.25}。}。(a,b)和s分别表示位置和规模,r为(a t-1,b t-1)的均值。对于第i个候选的z i t,我们使用训练的网络分别计算它的正和负得分为f + (z i t)和f − (z i t)。当前帧的目标位置为:
在这里插入图片描述
其中N为候选数。采用边界框回归技术[37]来提高目标定位精度。边界框回归器只在第一帧进行训练,以避免其他帧潜在的不可靠性。如果估计的目标状态是足够可靠的,即f + (z ∗ t) > 0.5,我们使用回归模型调整目标位置.

实验

数据集
GTOT包括50对对齐的RGBT视频对,共约15K帧。对每一帧对都用groundtruth包围框标注.
RGBT234数据集是从RGBT210数据集扩展而来的大规模RGBT跟踪数据集。它包含234个RGBT视频,每个视频有一个RGB视频和一个Thremal视频。其总帧数达到23.4万帧左右,最长的视频pair帧数达到8000帧。

参数
每个样本被调整为107 × 107作为网络的输入。在训练网络时,我们将卷积层和全连接层的学习速率分别设置为0.0001和0.001。在跟踪阶段,卷积层没有更新,fc4-fc5的学习速率为0.0001,fc6的学习速率为0.001。设重量衰减为0.0005,动量为0.9。在测试序列的初始框架中,我们训练完全连接的层进行10次迭代。特别地,我们设置了一个梯度阈值clip_дradient为100。
评价指标
我们使用了两个广泛使用的指标——准确率(PR)和成功率(SR)来评估RGBT跟踪性能。PR是输出位置在给定的groundtruth阈值距离内的帧的百分比。SR的比例是重叠的成功的帧数大于一个阈值。通过改变阈值,可以得到SR曲线。
Baseline
我们的baseline是MDNet,在我们的实验中,我们将MDNet扩展为两种形式。一种是直接cat两种模式的数据通道,形成6个通道的输入数据,然后输入原来的MDNet算法进行跟踪,命名为MDNet+RGBT1。另一种方法是分别提取两种模式的卷积特征,并在conv3上将两种模式的特征映射cat起来,命名为MDNet+RGBT2。
从表2的实验结果可以看出,MDNet+RGBT2明显差于MDNet, MDNet+RGBT1也没有明显优于MDNet,甚至PR得分也没有明显优于MDNet。
有两个可能的原因。1)直接连接两个模态数据不能有效利用模态之间的互补信息。2)可能会引入冗余特征和噪声干扰。这些验证了直接简单的连接两个模态数据并没有达到很好的跟踪性能,也验证了我们密集特征聚合和剪枝的有效性。

实验结果

基于属性的PR/SR分数(%)在RGBT234数据集上针对8个rgbbt跟踪器。最佳和次之的结果分别是红色和绿色。
阅读笔记 Dense Feature Aggregation and Pruning for RGBT Tracking_第3张图片

GTOT数据集的评价曲线。PR/SR的代表分数见图例。为了清晰,我们分别在(a)和(b)中分离RGB和RGBT跟踪器。
阅读笔记 Dense Feature Aggregation and Pruning for RGBT Tracking_第4张图片
阅读笔记 Dense Feature Aggregation and Pruning for RGBT Tracking_第5张图片
RGBT234数据集上的评价曲线。PR/SR的代表分数见图例。为了清晰,我们分别在(a)和(b)中分离RGB和RGBT跟踪器。
阅读笔记 Dense Feature Aggregation and Pruning for RGBT Tracking_第6张图片
阅读笔记 Dense Feature Aggregation and Pruning for RGBT Tracking_第7张图片

在GTOT和RGBT234数据集上采用不同的实现策略,我们的方法对MDNet的性能。
在这里插入图片描述

在RGBT234数据集上评估我们的DAPNet及其变体的结果。
在这里插入图片描述

你可能感兴趣的:(机器学习,计算机视觉,深度学习)