论文代码
论文地址
这篇论文发表在CVOR2021会议,主要是用于行人搜索任务。
(本文代表个人对论文的见解,仅用于学术交流)
目录
引言
方法
AFA模块(Aligned Feature Aggregation)
三元组辅助的在线样本匹配损失(Triplet-Aided Online Instance Matching Loss)
实验
数据集:
实验细节:
实验结果:
与类似方法的比较:
总结:
行人搜索结合了检测和重识别任务,通过定位及识别真实环境获取的图像进行人员搜索。
目前主要的行人检测及重识别通常是两步,先检测行人并标记锚框,然后再对已标记的图像进行重识别。两步的方法其实会增加一些开销,如果能够将其结合并对上级任务有相应的反馈,应该能够大大提升搜索效率和准确性。
作者提出了 Feature-Aligned Person Search Network (AlignPS) 采用特征聚合模块(aligned feature aggregation module)用于行人搜索任务。既然是anchor方法,应该主要是效率和速度的提升吧。结构简单,速度快。
这篇文章将行人检测和重识别两个独立的任务结合到统一的框架同时检测和识别。
目前主要框架分为以下几类:
a: 两步的方法,分别检测和重识别--首先检测和定位,然后裁剪图像用于重识别
b: 在同一个框架中端到端的方法。首先采用roi去检测框中的特征,然后通过检测和重识别共享特征。两个任务可以同时优化 ( one-step two-stage models)。
以上两种方法存在的问题:复杂度高,参数敏感性(anchor 的数量以及尺寸)
采用特征金字塔可能存在比例错位;缺少ROI对齐,无法确定区域;两个子任务的协调。
c: 该论文提出的方法,以RE-ID任务为首要原则,1:通过 deformable convolution and feature fusion重构金字塔的某些模块,克服区域和尺度错位问题;2:作者优化了RE-ID的检测和训练过程
论文的基础框架来自论文FCOS论文链接,该论文学习有利于re-id任务的特征进而用于person search任务。图2 为模型框架
优点:能够同时定位图像中的多个人(金字塔不同尺度的特征捕捉能力)
特征层次:
AFA模块聚合提取的多层次特征,re-id特征来自AFA模块的输出
检测:
采用FCOS(上文提到的那个检测方法的检测头)
检测头包含两个分支,第一个分支预测回归偏移量和中心度评分,第二个分支进行前景/背景分类
最后,AFA输出特征图上的每个位置都将与一个带有分类和居中得分的边界框相关联,并进行re-id特征嵌入。
FPN论文链接学习不同层次的特征(本文设计了三个层次特征的对齐):
尺度对齐:多尺度特征能够提取多个层次的特征,但是在re-id任务中存在特征不匹配的问题。基于此,该论文只基于AFA模块单一的层进行预测。从最大的输出特征映射中生成特征,主要是权衡两个任务的关系。
局部对齐:在AFA输出的特征感受野较大,能够捕获整个图像的信息。对于无锚框架,边框可能存在误差,背景信息也会影响到RE-ID任务的性能。该论文提出了三个角度解决此类问题:1*1的conv层替换为3*3可变形conv层;特征的“和”操作替换为“拼接操作”;FPN网络输出层的3*3conv层替换为3*3可变形conv层。作者提出的是无锚模型,以上三种主要解决区域错位的问题。
任务对齐:之前的行人搜索框架都是检测后再生成re-id任务的特征用于重识别。再这两个任务中,re-id的特征在行人搜索方面起了很大的作用,能够影响整体的性能。在该论文中,作者选择“re-id first”原则对齐两个任务。主要有两点考虑:目前的检测框架已经日趋成熟,性能强大,因此,re-id特征的判别性更为重要;该结构不需要额外的层生成re-id特征,提升了搜索效率。
OIM将有标记的特征中心存储在查找表中,其中包含L个D维向量。循环队列包含Q个未标记身份的特征。每次迭代中,基于标签为i的输入特征x ,OIM所示计算x和查找表和循环队列中所有特征的相似度。其中x属于i的概率可以通过以下公式进行计算:
OIM的目标是最小化期望负对数似然(expected negative log-likelihood):
该损失有两个局限性:输入特征主要与查找表和循环队列中的特征进行距离度量,特征之间没有相似度计算;对数似然损失没有给出特征对之间的显示距离度量。作者提出了一个特殊设计的triplet loss。针对每个输入的图像,采用中心采样策略:
对于each person,当前人中心周围的特征作为正样本,该损失主要是将同一个人的特征向量彼此接近,不同人的特征向量尽可能的拉开距离。同时,标记人员的特征应该与查找表相应个体特征的距离相近,与不同个体的特征远离。
CUHK-SYSU:包含18184张图片,共有8432个ID信息和96143个bounding box。这些图像来自两种数据源(真实的街拍和电影/电视),涵盖了不同的场景,包括不同的视角、照明、分辨率和遮挡。训练集:11206张图像共5532个ID信息;测试集:6978张图像共2900个查询人员。采用gallery size为100.
PRW:图像由大学校园里的六台静态摄像机采集。从视频中采样图像,总共包含11,816个视频帧。共有932个ID信息和43110个bounding box。训练集:5704张图像共482个ID信息。测试集:6112张图像共2057个ID信息。
骨干网络为resnet-50,batch size为4,采用SGD 优化器。初始学习率为0.001,在16和22个epoch下降十倍,共24个epoch。该方法采用多尺度训练策略,图像的长边从667随机调整到2000,使用零填充来拟合不同分辨率的图像。
baseline:主要是在FCOS模型上增加了re-id head 和detection head ,作者提供了不同对齐策略的条形图:
此外,作者给出了不同的对齐方式对结果的影响,并提供了表格分析:
1:尺度对齐
该论文采用了来自不同层次AFA的特征图,并在表1中提供结果。共评估了P3、P4和P5的特征,步长分别为8、16和32。可以发现,大尺度特征P_3能够获得较好的结果。
2:区域对齐
验证可变形卷积的效果:
3:任务对齐
了解两个子任务的不同配置如何影响整个任务以及应该更多关注哪个子任务很重要。为此,作者设计了几个结构来比较不同的训练方案(如图6所示)
4:损失函数
采用不同损失函数时框架的性能,直接使用三重损耗会带来轻微的改善
5:可变形卷积模块的作用
在骨干网中插入可变形卷积对该的框架有积极的影响。然而,骨干网中可变形转换层的贡献不如文中AFA模块中的可变形转换层显著
Results on CUHK-SYSU and PRW:
运行时间:
Qualitative Results:
该文提出了无锚模型用于人员搜索
通过统一的一步模型联合处理检测和重识别任务
特征聚合模块从三个方面对齐了特征,解决了规模、区域和任务不对齐的问题
实验证明结果优于其他方法,并且运行速度也具有优势。