CVPR-2021-SwinTrack: A Simple and Strong Baseline for Transformer Tracking 阅读笔记

论文地址:
https://arxiv.org/abs/2112.00995
代码地址:
https://github.com/LitingLin/SwinTrack

SwinTrack与TransT、Stark等混合模型不同,是一个完全基于注意力的Transformer跟踪算法。SwinTrack使用Transformer进行特征提取和特征融合,允许目标对象和搜索区域之间的完全交互以进行跟踪。

SwinTrack的整体网络架构:
CVPR-2021-SwinTrack: A Simple and Strong Baseline for Transformer Tracking 阅读笔记_第1张图片
SwinTrack的体系结构由基于Transformer的特征提取基于Transformer的特征融合预测头三部分组成。基于Transformer的特征提取与以往基于卷积神经网络的骨架不同,但在这个地方存在隐式的孪生网络结构,因为这个Transformer骨架是权重共享的。基于Transformer的特征融合部分实际上也是取代互相关操作的作用,需要注意的是在输入该模块之前首先进行了一个concatenation的操作。

Why concatenated attention?
转换器是序列到序列模型,转换器自然可以接受多模态数据作为输入。与基于交叉注意的融合相比,基于连接的融合可以通过操作组合来节省计算操作,并通过权重共享来减少模型参数。

Why not an end-to-end architecture?
许多基于Transformerbased的模型具有端到端的架构,这意味着该模型直接预测任务的目标,而无需任何后处理步骤。然而,在我们的测试中,端到端模型仍然不适用于我们的任务。在我们的实验中,当应用变换器类型的解码器来直接预测目标对象的边界框时,该模型需要长得多的时间来收敛,并且具有较差的跟踪性能。我们选择的解码器可以在三个方面帮助提高性能:通过预测响应图,我们可以将候选选择任务卸载到手动设计的后处理步骤。通过密集预测,我们可以为模型提供更丰富的监督信号,从而加快训练过程。此外,我们可以使用更多的领域知识来帮助提高跟踪性能,如在响应图上应用Hanning惩罚窗口来引入平滑移动假设。

Why not a target query-based decoder?(没有像DETR一样在解码器处输入搜索图片)
实验中我们还发现传统的变换解码器很难恢复2D位置信息。

你可能感兴趣的:(文献阅读,目标跟踪,深度学习,transformer,计算机视觉)