Person Search论文——《Query-guided End-to-End Person Search》CVPR 2019笔记

1.论文主要思想

这篇论文是以《Joint Detection and Identification Feature Learning for Person Search》作为baseline进行改进的。在保持baseline中joint detection and re-id的方法基础上,本文方法将query guided person search这一思想贯彻始终,提出了QSSE-Net,QRPN,QSimNet三种子网络以实现利用query辅助搜索的想法。

2.实验结果

Person Search论文——《Query-guided End-to-End Person Search》CVPR 2019笔记_第1张图片

上表中是Person search中各种方法在CUHK-SYSU数据集上的表现对比,虚线上的方法将图片的短边resize到了600,虚线下方的方法将图片的短边resize到了900。对比最后两行可以看到QEEPS在OIM基础上的提升。

Person Search论文——《Query-guided End-to-End Person Search》CVPR 2019笔记_第2张图片

上表中是各方法在PRW/PRW mini中的对比,虚线上方为PRW,虚线下方为PRW mini。由于基于query-based的方法每次前传都需要将 [query, gallery] pair送入网络中处理,若有n个query和m个可能出现target的gallery,则网络需要前传n * m次而非n + m次,而PRW相对于CUHK-SYSU,每个query对应了更多的Bbox(36.8PRW v.s 2.8CUHK-SYSU),因此本文团队在PRW的基础上,抽取了30个query和所有的galery组成PRW mini,采取合适方法保持难度的同时降低evaluation的时间消耗。

3.模型结构和方法

3.1模型结构

Person Search论文——《Query-guided End-to-End Person Search》CVPR 2019笔记_第3张图片

模型结构如上,采取了Siamese network(孪生网络),在处理gallery时也同时将query也送入网络,辅助gallery feature maps的提取(通过QSSE模块),然后在原有RPN的基础上增加了QRPN更好的proposal ROI,在最后匹配query ID feature和Proposal ID feature时加入了QSim-Net来帮助匹配。

3.2 QSSE模块

Person Search论文——《Query-guided End-to-End Person Search》CVPR 2019笔记_第4张图片

首先来看QSSE-Net是如何work的。

QSSE是在SE(Squeeze-and-Excitation)的基础上提出的。SE的前传过程是将Residual block中通过Residual部分的feature首先通过Global Average Pooling将feture的每个通道变为size 1 * 1,整个feature map变为1 * 1 * C的tensor,然后通过全连接层FC1将维度C变为C/r,经过ReLu,再经过FC2将C/r还原为C,再经过Sigmoid,最终得到1 * 1 * C的tensor。将这个tensor作为权重,与Residual部分的输出做channel wise的乘积,调整feature map每个通道的权重,所谓Scale操作。最后将Scale的结果与Residual的输入相加作为SE模块的输出。

QSSE是如何work的呢?其实是将SE做了类似孪生网络的设计,Residual的输出经过GAP后进行拼接得到1 * 1 * 2C的tensor,FC1将其调整为2C/r,FC2重新调整为C(注意是C而非2C,以便与query和gallery各自Scale)。

在BaseNet部分中,经过多次QSSE block作为BaseNet的输出。

3.3 QRPN模块

Person Search论文——《Query-guided End-to-End Person Search》CVPR 2019笔记_第5张图片

QRPN模块中,首先对普通特征网络提取得到的Query feature map做ROI Pooling,然对其应用SE网络,得到1 * 1 *C的向量,再用该向量对BaseNet得到的Gallery feature map进行scale操作,然后送入后续的普通RPN。

原文中对Bbox Proposal这一步的叙述是,QRPN得到类似相似度的分数,普通RPN得到Bbox包围的是object的分数,二者相加作为最终的分数,以此为依据进行NMS非极大值抑制,然后对剩下的Bbox进行regression完成Bbox Proposal。

3.4 QSimNet模块

Person Search论文——《Query-guided End-to-End Person Search》CVPR 2019笔记_第6张图片

在OIM中对Query feature和Gallery上的proposal的feature计算余弦相似的及基础上,本文还加入了QSimNet,计算二者的相似度。过程是首先计算二者的L2距离(按维度相减再平方),然后应用Batch Normalization,通过全连接层,以及Softmax,最终得到query和gallery上的proposal的相似度得分。

你可能感兴趣的:(计算机视觉)