行人属性识别:HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis

参考文献:https://arxiv.org/abs/1709.09930
代码实现:https://github.com/xh-liu/HydraPlus-Net
包括理解!

HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis

摘要

行人分析在智能视频监控中起着至关重要的作用,是以安全为中心的计算机视觉系统的关键组成部分。尽管卷积神经网络在从图像中学习判别力特征方面有着显著的优势,但是对于细粒度任务,行人综合特征的学习仍然是一个有待解决的问题。在本研究中,我们提出一种新的基于注意力的深层神经网络,称为HydraPlus-Net (HP-net),它可以将多层注意图多方向地反馈到不同的特征层。从所提出的HP-net中学习到的attentive深度特征具有独特的优点:(1)该模型能够从低层到语义层捕获多个attentions图;(2)探索了attentive特征图的多尺度选择性,丰富了行人图像的最终特征表示。通过对行人属性识别和人的再识别两个任务的分析,验证了所提出的HP-net在行人分析中的有效性和通用性。实验结果表明,在不同的数据集上,HP-net的性能优于目前最先进的方法。
理解:文章中的注意图和注意特征图是不一样的,注意图相当于注意mask,而注意特征图等于注意mask乘以输入特征)

1 引言

由于对智能视频监控和心理社会行为研究的不断需求,行人分析是一个长期的研究课题。特别是,随着近年来计算机视觉领域对深度卷积神经网络的研究日益增多,在行人分析中的应用也越来越多,如行人属性识别、人的再识别等,在现代监控系统中得到了显著的改进和实际应用。然而,行人图像特征表示的学习作为这些应用的骨干,仍然面临着严峻的挑战,需要深入的研究。

大多数传统的深度结构都没有提取出与高层全局特征互补的细节和局部特征,这对于行人分析中的细粒度任务尤其有效。例如,如图1(a)所示,如果在头发和肩膀周围没有提取语义特征,则很难区分两个实例,同样在图1(c)中,如果我们想要检测属性“calling”,有效特征应该位于小尺度头肩区域内。然而现有研究只提取全局特征[13,24,30],对位置感知语义模式很难有效提取。此外,众所周知,多层特征有助于完成不同的视觉任务[21,6],在行人分析中也出现了类似的现象,如图1(b)所示的属性“服装stride”应该从低层特征中推断出来,而图1(d)中的属性“性别”则是通过对整个行人图像的语义理解来判断的。与以往主要生成全局特征表示的方法不同,本文提出的特征表示方法encodes了多层特征模式以及全局和局部信息的融合,具有潜在的多层行人属性识别和人的再识别能力。
行人属性识别:HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis_第1张图片
针对目前行人分析方法的不足,我们尝试用一个多方向网络HydraPlus-Net来解决行人分析的一般特征学习范式,该网络的提出是为了更好地通过单个行人图像的多层特征利用全局和局部信息。具体地说,我们提出了一个多向注意(multi-directional attention,MDA)模块,该模块从网络中的多个层(3个)提取注意图形成多个(3个)注意特征图(理解:从3个层分别提取注意图,每个注意图再乘以3个特征形成3个注意特征图,一共9个注意特征图)。由于注意图是从不同的语义层提取出来的,它们自然地模拟出同一行人图像在不同层的视觉模式。此外,利用同一注意图对多层特征进行过滤(理解:就是乘以多层特征),可以有效地融合来自某一局部注意分布的多层特征。将MDA应用于网络的不同层后,将多层注意特征图融合在一起,形成最终的特征表示。

本文框架以行人分析任务中的行人属性识别和人的再识别(ReID)为评价对象,其中,行人属性识别的重点是为每个行人图像分配一组属性标签,而ReID是将一个人的图像与多个摄像机和/或时间镜头相关联。虽然行人属性识别和ReID关注输入行人图像的不同方面,但是这两个任务可以通过学习相似的特征表示来解决,因为它们与相似的语义特征具有内在的相关性,一个任务的成功将提高另一个任务的性能。与现有的方法相比,我们的框架在大多数数据集上都达到了最先进的性能。

这项工作的贡献有三方面:
• 针对行人分析的细粒度任务,提出了一种基于多方向注意模块的HydraPlus-Net(HP-net),用于训练多层次、多尺度的attention-strengthened特征。
• 从行人属性识别和人的再识别两个方面对HP-Net进行了综合评价,与以前的方法相比,已经取得了显著的改进,达到了最先进的性能。
• 一个新的大规模行人属性数据集(PA-100K数据集)是收集到的场景最为多样,样本和实例数量最多的最新数据集。PA-100K数据集比以前的数据集信息量更大,有助于完成各种行人分析任务。

2 相关工作

• Attention models。在计算机视觉中,注意模型已经被应用于诸如图像字幕生成[34]、视觉问答[18,33]和目标检测[2]等任务中。Mnih等人[20] ,Xiao等人[32]探索了网络对图像或特征图某一区域的hard注意,与强化算法[28]训练的不可微hard注意相比,加权特征映射的soft注意是可微的,可以通过反向传播进行训练。Chen等人[4] 介绍了注意多尺度特征,Zagoruyko等人[35]利用注意进行知识转移。本文设计了一个多方向注意网络来更好地表达行人特征,并将其应用于行人属性识别和再识别任务中。据我们所知,这是在上述两项任务中采用注意概念的第一项工作。

• 行人属性识别。行人属性识别在视频监控系统中有着广阔的应用前景,近年来成为一个重要的研究课题。卷积神经网络在行人属性识别方面取得了很大的成功,Sudowe等人[24]和Li等人[13] 提出联合训练多个属性可以提高属性识别的性能。先前的工作也研究了在属性识别中利用姿势和身体部位信息的有效性,Zhang等人[37]提出了一种姿态对齐网络来捕获姿态归一化的外观差异。与以往的研究不同,我们提出了一种注意结构,这种注意结构可以在不预先了解身体部位或姿势的情况下,注意到重要区域并对齐身体部位。

• 人的再识别。特征提取和度量学习[12,17]是人的再识别的两个主要组成部分。图像分类中深度学习的成功激发了对ReID的大量研究[5,16,30,29,26,23,25,15,31],Li等人[16]提出filter pairing neural network(FPNN)联合处理错位、变换、遮挡和背景杂波,Cheng等人[5] 提出了一种基于多通道基于parts的CNN,从输入图像中学习人体特征。本文主要针对特征提取和余弦距离直接用于度量学习,此外我们的通道中使用了注意masks定位能够更好地描述每个个体的判别力区域。

3 HydraPlus-Net结构

HydraPlus network(HP-net)的设计动机是从多个层提取多尺度特征,这样不仅可以捕获输入图像的全局和局部contents,而且可以用不同层的语义组合特征。如图2所示,HP-Net由两部分组成,一部分是主网络(M-net),即一个简单的CNN结构;另一部分是注意特征网络(AF-net),包括应用于不同语义层的多方向注意模块(MDA)的多个分支,除了添加的MDA模块外,M-net和AF-net共享相同的基本卷积架构。它们的输出被连接起来(疑问:以什么样的方式连接起来?通道拼接还是通道相加等等),然后通过全局平均池(global average pooling,GAP)和全连接(FC)层进行融合,最终输出可以为行人属性识别或人再识别的特征向量。原则上,任何一种CNN结构都可以用来构建HP-Net,但是在我们的实现中,我们基于inception v2架构设计了一个新的端到端模型[10],因为它在与图像相关的一般识别任务中具有优异的性能。如图2所示,所提出框架的每个网络包含多个low-level卷积层,并且后面跟着三个inception块。该模型看似简单,但并不简单,因为它实现了所有必需的能力,并将它们结合在一起以提高识别能力。
行人属性识别:HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis_第2张图片

3.1 Attentive Feature Network

图2中的注意特征网络(AF-net)由三个分支组成,这些分支由多方向注意模块(MDA)增强,即 F ( α i ) , i ∈ Ω = F(α ^i),i∈Ω= F(αi)iΩ={ 1 , 2 , 3 1,2,3 1,2,3},其中 α i α^i αi是由黑实线标记的inception块 i i i的输出特征生成的注意图,并应用于虚线中第 k t h k^{th} kth块( k ∈ Ω = k∈Ω= kΩ={ 1 , 2 , 3 1,2,3 123})的输出。对于每个MDA模块,有一个注意力生成环节和三个注意力特征构建环节。不同MDA模块从不同inception块生成注意图,然后乘以不同层的特征图,生成多层注意特征图。MDA模块的 F ( α 2 ) F(α^2) F(α2)示例如图3所示,每个AF-Net分支的主流网络被初始化为M-Net,因此注意图近似地提取了M-Net提取的相似特征。
行人属性识别:HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis_第3张图片
众所周知,从不同块学习到的注意图在尺度和细节结构上是不同的。例如,来自更高块(例如 α 3 α^3 α3)的注意图往往更粗糙,但通常会找出像 α 3 α^3 α3这样的语义区域来突出图4(a)中的手提包。但是,来自较低块(例如 α 1 α^1 α1)通常响应于局部特征模式,并且能够捕捉诸如边缘和纹理之类的详细局部信息,如图4(a)中所示的示例。因此,如果通过MDA模块来融合多层的注意特征,我们就可以使输出特征在不同的语义层上收集信息,从而提供更多的选择性表示。此外,MDA模块不同于传统的基于注意的模型[21,34],该模型的注意图在同一块inception产生,并将注意图应用于相邻的3个inception块,如图3中具有不同颜色线所示。将一个单一的注意图应用于多个块,自然地让融合的特征在相同的空间分布内编码多层信息,如第4.2节所示。

更具体地说,对于给定的inception块 i i i,其输出特征映射表示为 F i ∈ R C × H × W F^i∈R^{C×H×W} FiRC×H×W,具有宽度W、高度H和C通道。注意图 α i α^i αi F i F^i Fi经1×1 conv层产生,随后有BN和ReLU激活功能,记为
在这里插入图片描述
其中 L L L表示注意图的通道,在本文中我们修正了两个任务的 L = 8 L=8 L=8inception块 k k k的注意特征图是元素乘法
在这里插入图片描述
随后在MDA模块的最后,每个注意特征图 F l i , k F_l^{i,k} Fli,k L L L个注意特征图连接起来作为最终的特征表示。我们在图3中可视化了MDA模块 F ( α 2 ) F(α^2) F(α2)的详细结构,从inception块2生成 α 2 α^2 α2,然后应用于由 k ∈ Ω = k∈Ω= kΩ={ 1 , 2 , 3 1,2,3 123}索引的特征图,如图3(b)所示。注意,我们更喜欢ReLU激活函数而不是sigmoid函数来约束注意图,从而使注意区域获得更多的权重,并且注意图的对比度被放大。第4节给出了更多的例子和分析,以说明MDA的有效性。

3.2. HP-Net Stage-wise Training

我们以阶段性的方式训练HP-net。首先训练一个简单的M-net来学习行人的基本特征,然后M-net被复制三次,用相邻的MDA模块构建AF-net,每个模块都遵循图3所示的框架。由于每个MDA模块由三个分支组成,其中注意图屏蔽了相邻的inception块,因此在每个分支中,我们只在注意操作attention operated块之后微调这些块。在对AF-net中的三个MDA模块分别进行微调后,对M-net和AF-net进行了修正,并对剩余的GAP和FC层进行了训练。将交叉熵损失 L a t t L_{att} Latt应用于行人属性识别,将softmax损失用于人的再识别,以最小化不同任务定义的损失。

4 Attentive Deep Features的消融实验

HP-net的优点是能够同时学习多层注意和多尺度注意特征,实现行人图像的综合特征表示。为了更好地理解这些优点,我们通过定性可视化和定量比较来分析网络中每个组件的有效性。

4.1 多层注意图

行人属性识别:HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis_第4张图片
The level of attention maps。图4(a)展示了三层注意图的比较示例(即起始块 i ∈ Ω = i∈Ω= iΩ={ 1 , 2 , 3 1,2,3 123})的输出。我们观察到,earlier层 i = 1 i=1 i=1的注意图更倾向于捕捉边缘或纹理等低级模式,而higher层 i = 2 或 3 i=2或3 i=23的注意图更倾向于捕捉与特定对象(如手提包)或人类身份对应的语义视觉模式。

The quantity of attention maps。大多数先前的研究[34,21]仅仅证明了基于注意的模型在有限的通道数(即 L = 1 或 2 L=1或2 L=12)下的有效性。在这项研究中,我们探讨了一个注意模型在多样性和一致性方面的潜在表现。(理解:对于大多数注意力机制,注意图的通道是1)

• 注意通道多样性。图4(b)展示了由两个摄像机拍摄的单个行人的两幅图像,以及 α 3 α^3 α3 L = 8 L=8 L8个注意通道。从原始图像上看,由于背景杂乱、光照变化、视角变化等造成的类内变化较大,很难对这些图像进行区分,但从一个层上多个注意通道的辨别定位能力来看,不同的注意区域可以分别捕捉得到整个特征。与单个注意通道相比,多个注意通道的多样性丰富了特征表达,提高了准确分析行人属性和身份的机会。
• 注意通道一致性。我们还观察到,在不同输入样本上生成的一个注意图可能在空间域中具有相似地分布,因为它们突出了行人的相同语义部分。尽管有不同的行人,如图4(b-c)所示,他们的注意通道 α 3 3 α_3^3 α33捕获头肩区域,注意通道 α 5 3 α_5^3 α53推断背景区域。由于注意图的一致性通常与显著目标相关联,因此这些注意图的选择性对于识别行人至关重要。

4.2 多向注意特征

除了多层注意图的优点外,该方法的有效性还取决于新的transition方案。例如,图5(b)中的行人在右耳附近持有一部手机,而这部手机既不能被lower层 i = 2 i=2 i2的特征图 F 2 F^2 F2直接捕捉,也不能被注意特征图 F 8 2 , 2 F_8^{2,2} F82,2直接捕捉。令人惊讶的是,借助于更高层次的注意图 α 8 3 α_8^3 α83,注意特征图 F 8 3 , 2 F_8^{3,2} F83,2可以精确地关注手机周围的区域。另一方面, high-level注意图 α 3 3 α_3^3 α33可能无法捕捉与“上装模式”等属性相关的低级视觉模式。例如,图5(a)中所示的注意图 α 3 3 α_3^3 α33没有指出T恤上的局部图案,而相反, low-level的注意图 α 3 1 α_3^1 α31得到了反映这些纹理图案的 F 3 1 , 1 F_3^{1,1} F31,1
行人属性识别:HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis_第5张图片

4.3 Component分析

行人属性识别:HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis_第6张图片
我们还演示了与完整的AF-net相比,丢弃部分注意模块或连接的情况。例如,图6(a)比较VIPeR数据集[8]上具有六种典型配置的行人重识别,底部显示的橙色条表示整个AF-net的性能,而黄色条表示M-net,M-net被认为是没有注意模块的基线模型。其余四条配置为:

• 蓝色:每个分支都有na¨ıve注意模块。在AF-net的每一个分支中,应用na¨ıve注意模块提取注意特征 F i , i , i ∈ Ω = F^{i,i}, i ∈ Ω= Fi,i,i={ 1 , 2 , 3 1, 2, 3 1,2,3}。
• 青色:放弃middle-level注意图和注意特征。我们抛弃了inception块2的注意图和注意特征,即删去 F 2 , k F^{2,k} F2,k F i , 2 , ∀ i , k ∈ F^{i,2},∀i, k ∈ Fi,2,i,k { 1 , 2 , 3 1, 2, 3 1,2,3}。
• 紫色:修剪一根分枝。它放弃了第一个MDA模块 F ( α 1 ) F(α^1) F(α1)
• 浅紫色:修剪两根分枝。前两个MDA模块 F ( α 1 ) F(α^1) F(α1) F ( α 2 ) F(α^2) F(α2)被抛弃。

实验结果清楚地证明,减少MDA模块数量或减少模块内部的连接都会降低系统的性能,并且这些注意模块相互补充产生综合的特征表示,从而获得更高的准确度。图6(b-c)所示的具有前5个识别结果的两个例子进一步证明了整个AF-net的每个组成部分的有效性和必要性,完整的网络优于na¨ıve注意模块(图6(b))和单个MDA模块(图6(c))。

5 行人属性识别

我们在两个公共数据集上对HP-net进行了评估,比较了最新的方法。此外,我们还提出了一个新的大规模行人属性数据集PA-100K,它具有更大的场景多样性和样本量。

5.1 PA-100K数据集

大多数现有的开放行人属性数据集[7,14]只包含有限数量的场景(最多26个),注释行人不超过50000个。为了进一步评价该方法的通用性,我们构建了一个新的大规模行人属性数据集PA-100K,该数据集包含598个场景的10万个行人图像,为行人属性识别提供了一个更好的综合数据集,据我们所知,它是迄今为止最大的行人属性识别数据集。我们将PA-100K数据集与表1中其他两个公开可用的数据集进行了比较。
行人属性识别:HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis_第7张图片
PETA数据集[7]中一个人的样本仅通过随机选取一个样本图像进行一次注释,所有一个人的图像共享相同的属性注释,即使其中一些熟悉不可见。另一个限制是整个数据集随机划分训练集、验证集和测试集,没有考虑人在图像中的身份,这导致了不同集合中一个人的图像分配不均衡。在RAP数据集[14]中,具有受控照明条件的高质量室内图像的方差比无约束真实场景下的低得多,此外一些属性甚至高度不平衡。

PA-100K数据集在数量和多样性上都超过了以前的数据集,如表1所示。我们定义了26个常用属性,包括性别、年龄等全局属性,以及手提包、手机、上装等局部属性。PA-100K数据集是由真实的室外监控摄像机采集的图像构建的,具有较大的挑战性。与现有的数据集不同,该方法是通过对监控视频中的帧进行采样来采集图像,这为基于视频的属性识别和帧级行人质量估计等应用奠定了基础。对每幅图像中的所有行人和废弃行人进行模糊或极低分辨率(低于50×100)的标注。整个数据集随机分成训练集、验证集和测试集,比例为8:1:1。在监控视频中,一个人的样本是沿着其轨迹提取的,然后随机分配给其中一组样本,在这种情况下,PA-100K数据集确保独立于该人的身份来学习属性。所有这些集合都保证有26个属性的正和负。注意,基于轨迹的分区比在PETA数据集中随机混淆图像的分区更公平。

在接下来的实验中,我们采用了五个评价标准,包括基于标签的平均准确度(mA),以及四个基于实例的度量,即accuracy,、precision、召回率和F1得分。为了解决不平衡类的问题,我们采用了文献[13]引入的加权交叉熵损失函数。

5 与其他先进方法的比较

在上述三个数据集中,我们定量和定性地比较了所提出的方法与现有技术方法的性能,以下比较分别在不同的数据集上保持与现有技术相同的设置。

定量评估。我们在表2中列出了RAP、PETA和PA-100K数据集上每种方法的结果,选取六种参考方法与所提出的模型进行比较。前三种模型分别基于人工特征(ELF-mm[9,22])和深度学习特征(FC7-mm和FC6-mm)的支持向量机分类器,ACN[24]和DeepMar[13]是CNN的模型,通过联合训练多个属性获得了良好的性能。
行人属性识别:HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis_第8张图片
基线M-net和提出的最终模型明显优于最新方法。我们还对每个属性的性能感兴趣,图7中的条形图显示了DeepMar和HP-net所有属性的平均精度(mA)重叠直方图,根据这些方法之间在一个属性处的较大mA,条按降序排序。我们发现,叠加直方图的包络线总是由HP-net提供,并且相对于DeepMar具有显著的性能增益,并且在需要细粒度定位的属性(如眼镜和手提包)上非常优越。
行人属性识别:HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis_第9张图片
定性评估。除了表2中的定量结果外,我们还对示例行人图像进行了定性评估。如图7中的示例所示,来自RAP数据集的样本图像及其注意图展示了所学习的注意图的可局部化性。特别是在第一张图片中,注意图同时突出了两个包。我们还注意到一个关于属性“talking”的失败案例,这个属性与某个区域无关,但需要对整个图像进行全局理解。

对于PA-100K数据集,我们在图8中显示了几个示例行人图像的属性识别结果,条形图表示预测概率。虽然一个属性的概率并不直接意味着它的实际识别可信度,但它们揭示了不同方法的区别能力,因为较低的概率对应于模糊性或难以正确预测一个属性。所提出的HP-net能够可靠地预测这些基于区域的显著性属性,如“眼镜”、“背包”、“帽子”、“短裤”和“手提”。
行人属性识别:HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis_第10张图片

6 人的重识别

在人的重识别方面,我们对三个公开的数据集用几种参考方法对HP-net进行了定量和定性的评估。

7 结论

本文提出了一种新的深度结构HydraPlus网络和一种新的多方向注意机制。大量的消融研究和实验评估表明,HP-net能够有效地学习行人分析中细粒度任务的多层次、多尺度注意特征表示,如行人属性识别和人的再识别。最后,引入了一个新的大规模属性数据集PA-100K,方便了各种行人分析任务。

你可能感兴趣的:(行人属性识别)