AANet_Attribute_Attention_Network_for_Person_Re-Identifications

AANet: Attribute Attention Network for Person Re-Identifications

基于属性注意网络的人员再识别

1.摘要

​ 这篇文章提出了一种新的体系结构——属性注意网络(AANet),它将人的属性和属性注意集成到一个分类框架中来解决人的重识别(Re-ID)问题。许多人的重识别模型通常使用人体部位或人体姿态等语义线索来提高重识别的性能。然而,属性信息通常是不被利用的。**提出的AANet利用了使用身体部位的基线模型,并将关键属性信息集成在一个统一的学习框架中。AANet由global person ID task,a part detection task,a crucial attribute detection task组成。通过估计单个属性的类响应,并将他们组合成属性注意图(AAM),构造了一个很强的区分性表示。**在DukeMTMC-Reid数据集上,提出的AANet算法在MAP和Rank-1精度上分别比最好的ResNet-50算法提高3.36%和3.12%的性能[22]。在DukeMTMC-Reid数据集上,AANet算法比最好的ResNet-50算法提高3.36%和3.12%的Rank-1精度。在Market1501数据集上,经过重新排序,AANet获得了92.38%的MAP和95.10%的Rank-1准确率,比另一种使用ResNet-152的最新方法[13]的MAP准确率和Rank-1准确率分别高出1.42%和0.47%。此外,AANET可以执行人员属性预测(例如,性别、头发长度、服装长度等),并定位查询图像中的属性。

什么是属性信息?举例?

衣服颜色、头发、背包等基于物理外观的信息。

属性并非预先定义作为辅助训练,是通过分顶中底层提取局部特征的方式让网络学习到该区域的属性,用于后续的辅助预测。

AANet的三部分分别是什么样的?

AANet的三部分为GFN,PFN,AFN,其中GFN执行全局图像级ID分类,PFN在分类任务之前检测并提取定位的身体部位,AFN将人物属性用于分类任务,并生成在身份分类中其关键作用的属性注意图(AAM)

AAM的组成方式是什么?

2.结论

​ 本文提出了一种新的体系结构,将衣服颜色、头发、背包等基于物理外观的属性融入到基于分类的人员重识别的框架中,提出的属性注意网络(AANet)采用端到端联合学习多任务损失融合的同方差不确定性学习。所得到的网络在多个基准数据集上的性能优于现有的最先进的Re-ID方法。

什么是同方差不确定学习?

3.方法

AANet_Attribute_Attention_Network_for_Person_Re-Identifications_第1张图片

**概述:**基于ResNet-50体系结构的骨干网络输出特征图X,该特征图X被转发给三个任务,即全局特征网络(GFN),局部特征网络(PFN),属性特征网络(AFN),这三个任务的输出结合使用同方差不确定性学习来预测个人身份。

GFN:执行全局图像级ID分类

PFN:在分类任务之前检测并提取定位的身体部位

AFN:将人物属性用于分类任务,并生成在身份分类中其关键作用的属性注意图(AAM)

AANet_Attribute_Attention_Network_for_Person_Re-Identifications_第2张图片

**GFN:**将骨干网络提取的卷积特征图X作为输入提供给全局平均池化层GAP,随后是将维度降到V,1,1,然后再通过线性变换到C,1,1

AAM Classifier起什么作用?

CAM是什么?

Learning Deep Features for Discriminative Localization,2016 CVPR

是一种即使网络仅在图像级标签上训练也能定位区分图像区域的技术

AANet_Attribute_Attention_Network_for_Person_Re-Identifications_第3张图片

**PFN:**使用与GFN中相同的人员ID标签对身体部位进行ID分类,身体部分检测器将卷积特征图X分成六个水平部分,并估计相应的感兴趣的区域(ROIs),这是通过识别X中的峰值激活区来实现的。

AANet_Attribute_Attention_Network_for_Person_Re-Identifications_第4张图片

**AFN:**分为两个子任务:属性分类和属性注意图(AAM)生成。属性分类任务对个人属性进行分类,第二个子任务利用第一个子任务的输出,为每个属性生成类激活图(CAM);CAM是一种即使网络仅在图像级标签上训练也能定位区分图像区域的技术。**属性分类子任务:**先通过卷积降维,将Z,H,W维度的特征图X降维到V,H,W,然后,将特征划分为三个不同的集合,即顶部、中间和底部特征映射,每个集合负责从各自的局部区域提取特征。这种基于部分的建模可以减少背景杂波,提高分类精度,不同的部分侧重不同的属性,例如,顶部特征映射用于捕捉帽子、头发、袖子和上衣颜色等特征,来自身体下半部的特征在顶层特征映射中被忽略。这些特征集合通过GAP平均合并后,在V层得到4个特征向量:全局向量、顶部向量、中间向量、底部向量,得到12个属性,12个是因为数据集中注释了12个属性。**属性注意图生成子任务:**CAM的输出表示属性的图像区域,然后作为AAM的输入,**AAM的生成过程:通过最大值操作合并各个类别特定的激活区,并执行自适应阈值,阈值过程去除了有时出现在类特点激活区内的一些背景区域。**AAM在定位属性信息不同的区域时更具特异性。

AANet_Attribute_Attention_Network_for_Person_Re-Identifications_第5张图片

损失计算:

多任务损失函数定义为:

AANet_Attribute_Attention_Network_for_Person_Re-Identifications_第6张图片

Lg,Lp,La和Laa分别表示全局、局部、属性和属性注意力损失

4.实验

Lg,Lp,La和Laa分别表示全局、局部、属性和属性注意力损失

你可能感兴趣的:(深度学习,计算机视觉,人工智能)