参考论文:https://arxiv.org/abs/1901.07474
行人属性识别(Pedestrian Attribute Recognition,PAR),目的是从输入图像中挖掘行人的属性信息,如图1所示。
行人属性识别挖掘得到的是行人的高层语义信息,这些信息和低层特征不同,对视角变换和成像条件的变化比较鲁棒。计算机视觉领域的很多算法,如ReID和行人检测,都会集成行人的属性信息以提升算法的鲁棒性。虽然,RAP领域已经有了很多的研究成果,但因为视角、光线、分辨率等因素的影响,它仍然是一个很有挑战性的领域。
早期的行人属性识别领域主要用的是手工设计的低层特征,如HOG、SIFT,再结合分类算法SVM和条件随机场(CRF),这些算法在实际应用中的效果不理想。近年来,随着深度学习的发展,也出现了很多的基于深度学习的RAP算法。作者写作本文的目的就是对RAP领域进行一次全面的梳理,作者尝试分析的问题主要有:
行人属性识别,一般都会预先设置一个属性列表,RAP算法的目的就是从一张输入图像中找到图像中的人具有预置属性列表中的哪些属性。
影响RAP效果的关键因素:
难点:RAP中不同类别的属性所属的粒度不同,如发型、颜色、帽子、眼睛等信息只是局部图像块的低层属性信息,而年龄、性别等信息却是全局的高层语义信息。并且,在视角、光线等信息变化时,采样到的图像变化可能很大,但这些属性信息却不会改变。如何从一张输入图像中提取出不同尺度的特征完成对应属性的判别及提升属性判别的鲁棒性,是RAP的难点所在。
PETA:来自于10个小的行人重识别数据集,19000张图像,分辨率从17 * 39 到 169 * 365,来自于8705个人,61个二分类属性和4个多分类属性。该数据集的缺点是对同一个人的不同图像标注完全相同的属性,即便在某些区域不可见的情况下,依然保持属性不变(如在鞋子被遮挡的情况下,仍然对该图像标注了鞋子的信息),目前用到该数据集的时候,都是从中选取35个属性:
。
PARSE27K:来自于8段城市场景下移动摄像机拍摄的视频,27000张图像,每幅图像标注10个属性,8个是二分类属性,某个属性缺失时标注为N/A。
RAP:41585图像,分辨率从36 * 92 到 344 * 554,72个属性(69个二分类属性,3个多分类属性),RAP数据集还针对行人拍摄位置进行了不同viewpoint的分类和不同行人遮挡部位的分类,并在其论文中详细介绍了不同拍摄视角和不同遮挡部位对行人属性识别带来的影响。
以下关于RAP的描述参考自:https://blog.csdn.net/pancongpcc/article/details/96269608
其样本的viewpoint和occlusion分布如下所示:
对不同身体部分的标注和一些属性标注示例如下:
RAP-2.0:采集自720P的室内监控场景,2589个人的84928幅图像,分辨率从33*81到415 * 583,属性标签和RAP一致。
HAT:9344幅图像,27个属性。
RK-100K:来自于598个室外监控视频,100000幅图像,分辨率50*100到758 * 454,目前最大的RAP数据集,26个属性。
WIDER:13789幅图像,每幅图像都包含多个人,平均每幅图像标注了4个行人,共57524个行人,每个行人14个属性。
Market1501-attribute:清华门口一个市场的六个相机拍摄的视频,1501个人的32668个标注框。每一个标注的人至少在两个相机中出现过。每个图像标注了27个属性。
DukeMTMC-attribute:1812个人的34183幅图像,每个人23个属性。
CRP:来自于7个视频的27454幅图像,标注了四类属性,分别是年龄、性别、体型和衣服类型。
CAD:1856幅图像,每幅图像标注了26个衣服的属性。
ROC曲线:计算每个属性类别的分类召回率和FPR,召回率是指正确检测到的正例占所有正例的比例,FPR是被误认为是正例的负例数量占所有负例的比例。根据recall和FPR可以绘制ROC曲线,并可以进一步计算AUC。
mean Accuracy:计算每个属性正负样本的分类准确率,对所有属性取平均得到mA。
L是属性的数量, T P i TP_i TPi和 T N i TN_i TNi是正确分类的正例和负例的数量, P i P_i Pi和 N i N_i Ni是正例和负例的全部数量。
example-based 标准:
N是样本数量, Y i Y_i Yi是第i个样本标注为正类的标签, f ( x ) f(x) f(x)表示第i个样本预测为正类的标签。
PAR既属于多任务学习,也属于多标签学习。
不同的子任务间可能存在关联关系,多任务联合学习可以共享数据集,改善模型效果。多任务学习一般共享特征网络,但对每一个任务应用一个单独的网络。PAR属于多任务学习,并且不同的子任务之间存在一定的关联,比如年龄和衣物类型之间往往存在关联。
多任务学习有两种,分为Hard和Left两种。Hard如上图左图所示,使用一个共享的卷积网络提取特征,对各个子任务使用单独的小网络进行分类判别。Soft如上图右图所示,针对每个任务进行单独训练,但通过正则化手段限制各任务的参数比较接近。Hard是常用的多任务学习方式。
推荐论文:An overview of multi-task learning in deep neural networks