论文阅读9 | COCAS:一个大规模换装的行人重识别数据集

论文:COCAS: A Large-Scale Clothes Changing Person Dataset for Re-identification

出处:CVPR 2020

文章目录

  • 1. 创新点
  • 2. 摘要
  • 3. 引言
  • 4. COCAS数据集
  • 5. 研究方法
    • 5.1 网络结构
    • 5.2 损失函数
    • 5.3 模型训练

1. 创新点

(1)定义了一种换衣服的问题,其中query由人物图像和服装模板组成。
(2)建立了一种新的名为COCAS的大规模数据集。
(3)提出了BC-Net,可以分离与衣服相关和不想关的信息,通过提供目标图像的衣服模板,使换衣服的问题成为可行。

2. 摘要

据我们所知 ,现存的ReID数据集都是假设相同的人穿着相同的衣服,并不符合实际场景。本文为解决行人更换衣服的ReID问题,提出了一种新颖的换装数据集COCAS,数据集包含了多个穿着不同衣服的相同身份的图像。COCAS总共包含了来自5,266人的62,382张身体图像。在COCAS的基础上,我们引入了一个新的换衣问题设置,其中查询图像包括一个衣服模板和一个穿着另一件衣服的行人图像。此外,我们还提出了一个双分支网络(BC-Net),可以有效地集成生物识别特征和服装特征来进行重新识别。

3. 引言

当行人更换衣服后,传统reid识别不出来的原因包括:

① 这些模型是对穿着相同衣服的身份进行训练。服装的外观被认为是模型的一种鉴别特征。
② 面部和体型等生物特征太弱,无法学习,因为它们只占身体图像的一小部分。如果只利用不清楚的人脸和体型信息,该模型很难应用于大规模的行人图像集上。

因此,本文提出了一个简单且使用的换装识别设置,如下图所示。具体的,目标图像由衣服模板图像和穿着其他衣服的同一人的图像搜索得到。例如,为了寻找失踪的孩子,家庭只需要提供一张丢失的孩子最近的照片和一张孩子目前所穿的衣服的照片。

论文阅读9 | COCAS:一个大规模换装的行人重识别数据集_第1张图片
COCAS数据集,总共包含了来自5,266人的62,382张身体图像,每个人都有5张∼25张图片和2张∼3件衣服。对于每个person,将他穿着一种衣服的图像移动到gallery中,作为目标图像;然后从网上找一个与之相似的衣服作为模板;所有剩余的图像都被放到query中。

BC-Net,使用带有两个分支的BC-Net,来解决换装reid的问题。一个分支提取人的生物特征,如脸、体型和发型;另一个分支提取衣服特征。query图像利用分支的服装模板来更好地匹配目标图像,而目标图像使用一个服装检测模块从自身获取服装的图像贴片。

4. COCAS数据集

COCAS(Clothes Changing Persion Set)数据集是一个大规模的同一个人有不同衣服的benchmark。它包含5266个身份,每个身份平均有12张图像。图像采集在多个不同的场景(30台摄像机),包括不同的照明条件(室内和室外)和不同的遮挡条件。

与其他数据集的比较:
在这里插入图片描述
数据采集:

拍摄来自几个商品交易市场,在室内和室外放置了30台相机。我们招募了不介意在数据集中出现的人,承诺模糊面部区域的个人隐私)。因为有些人每天都来到市场,并且数据在不同的4天收集,所以能够获得穿着不同衣服的相同身份的行人。可以通过人类解析模型LIP从人物图像中剪下衣服,并在互联网上搜索相应的服装模板。

行人关联

根据收集好的数据,如何将穿着不同的衣服的同一行人联系起来是非常重要的。关联一共有四个步骤:① Person Clustering,基于re-id特征对相似的人的图像进行聚类,并手动删除聚类中不同人的异常值图像。② Face Detection,我们从每个类别中选择一个图像作为anchor图像,并从anchor图像中检测人脸图像。③ Face Retrieval,我们通过FaceNet,对每个anchor提取面部特征,然后对于每个anchor选择出前k个相似的图像。④ Manually Annotation,我们可视化与anchor图像对应k张身体图像,并手动选择真正匹配的邻近图像。对于每个人,我们选择2或3种不同的衣服,每种类型的衣服都有2张∼5张图片。一种衣服的图像被移动到gallary作为目标图像,而其他类型的则作为查询图像。
论文阅读9 | COCAS:一个大规模换装的行人重识别数据集_第2张图片
隐私保护

我们模糊所选身体图像的特定区域,以保护个人信息,包括人脸、时间和位置。更详细地说,MTCNN被用于获取人脸的边框,并采用LIP分隔背景和主体区域。然后,我们应用高斯滤波器来模糊面部和背景区域,我们称之为模糊版本的COCAS。实验表明,如果我们使用模糊版本的COCAS,性能将会下降一点,但我们相信仍然很有价值。这是因为,因为人脸不可能总是清晰的,背景不应该是重新识别问题的一个区别因素。

数据集内的数据变化:

室内或者室外(光照条件不同)、有两件或者三件不同的衣服、遮挡情况的严重程度。

数据集分区:
论文阅读9 | COCAS:一个大规模换装的行人重识别数据集_第3张图片
实验协议的定义如下。2800人的图像用于训练,其余2466人的图像用于测试。在测试中,我们从2466人中选取15985幅图像作为查询图像,并将其余12378幅图像作为目标图像,形成测试集库。我们用查询图像和服装模板来搜索目标图像。由于query图像在图库集中有多个目标图像,而CMC(累积匹配特征)曲线只能反映最相似的目标图像的检索精度,所以我们补充使用能反映整体排名性能的MAP(平均平均精度)作为评测指标。

5. 研究方法

直观上来看,query图像中的生物特征和服装模板的外观有助于搜索目标图像。因此,本文提出了两个分支的Biometric-Clothes Network(BC-Net):一个分支提取人的生物特征,另一个分支提取衣服特征。生物特征分支以人物图像作为输入,并使用掩模模块来更好地利用衣服无关的信息。服装特征分支以衣服图像、服装模板或检测到的服装补丁作为输入,生成服装特征。最后结合生物特征特征和服装特征。

5.1 网络结构

BC-Net的整体结构如下图所示:
论文阅读9 | COCAS:一个大规模换装的行人重识别数据集_第4张图片
生物特征分支:① 以行人图像Ip作为输入,采用ResNet50作为骨干,生成特征图Ap(H×W ×D);② 为了更好地利用人体更特定区域的服装无关特征,进一步设计了一个掩模模块,该模块旨在强调生物特征,抑制衣服和背景特征。为了获取掩模Mp(H×W×1),首先将Ap由三个1×1卷积层简化为n通道特征映射,然后将每个特征映射由一个Softmax函数标准化。使用沿着通道的max-pooling将n通道特征图简化为1通道特征图,产生掩模。最后Ap和Mp逐个元素运算,③ 经过平均池化后得到fB。如下,Apk◦Mp是特征图的第k个通道映射,fBk是fB的第k个元素。
在这里插入图片描述
衣服特征分支:由于我们的设置不提供目标图像的服装模板,但是我们还希望使用同一网络处理查询图像和目标图像,因此附加了一个服装检测器(Clothes Detector)。服装检测器基于 Faster RCNN,它从目标图像中预测衣服的边界框。服装模板图像或检测到的图像都被调整到相同的大小,并作为输入Ic送入分支。经过resnet50和平均池化输出fC。

两分支结合:使用一个线性投影将fB和fC连接起来,形成f,具体如下:
在这里插入图片描述

5.2 损失函数

在训练样本时,同时使用了ID损失和三元组损失。第n个训练样本由In={Ipn,Icn}表示,它由一个人体图像和一个服装图像组成。对于query,服装图像是描述目标图像中衣服的服装模板;而对于target图像,服装图像是从自身检测到的衣服图像贴片。

组合特征fn可以视为描述目标图像的特征,因此对组合特征采用传统的ID损失,可以充分利用ID信息来监督组合特征。如果第n个图像属于第l个人,yn,l=1,否则yn,l=0。
在这里插入图片描述
三元组损失:Ia是一个anchor,Ib和Ia具有相同身份,而Ic和Ia来自不同的身份。
在这里插入图片描述
综上,得到总损失:
在这里插入图片描述
除此之外,为了更好的学习生物特征,此外,我们还增加了一个ID损失,由LfB表示。

5.3 模型训练

在BC-Net中,分别训练服装检测器和特征提取器。
服装检测器是基于Faster RCNN的,我们没有手动注释服装边界框,而是使用了LIP,一个有效的人类解析模型。针对训练集中的每一幅图像,我们利用LIP制作服装mask,然后计算左上角和右下角的两个坐标作为真值边界框。

你可能感兴趣的:(跨模态行人重识别,python,计算机视觉)