参考旷视研究院推文【传送门】
Introduction
(1)Motivation:
遮挡行人重识别(Occluded Person ReID)更具有挑战性:
① 受到遮挡的影响,图像的判别信息更少,更容易匹配到错误的行人;
② 基于身体部位之间的特征信息做匹配虽然有效,但在被遮挡的情况下难以进行严格的部位对齐。
当前提出的针对遮挡或具体部位的ReID方法,基本只是考虑了特征学习和对齐的一阶信息,比如预先定义的区域、姿态、行人解析。
(2)Contribution:
图1(b)Vanilla方法:提取关键点区域的局部特征,并假设所有关键点准确且局部特征对齐良好。在这里,所有三个阶段(特征提取、对齐、匹配)都依赖于关键点的一阶信息,鲁棒性不强。
图1(c)作者方法:在特征学习阶段,通过将一张图像的一组局部特征视为图(graph)的节点(node)来学习关系信息。通过在图中传递信息,因关键点被遮挡而导致的无意义特征问题,可以通过其相邻的有意义的特征进行改善。在对齐阶段,使用图匹配算法(graph matching)来学习鲁棒的对齐能力。这种方法除了能用点到点的对应关系进行对齐外,它还能对边到边的对应关系进行建模
作者提出了一个联合建模高阶关系和人体拓扑信息的新框架,如下图所示:
① 一阶语义模块(S):首先利用CNN backbone学习特征图,用人体关键点估计模型来学习关键点,然后,提取对应关键点的语义信息;
② 高阶关系模块(R):人们将习得的图像语义特征看作图的节点,然后提出了一个方向自适应的图卷积层(ADGC/Adaptive-Direction Graph Convolutional)层来学习和传递边缘特征信息。ADGC层可以自动决定每个边的方向和度。从而促进语义特征的信息传递,抑制无意义和噪声特征的传递。最后,学习到的节点包含语义和关系信息。
③ 高阶人类拓扑模块(T):提出一个跨图嵌入对齐(CGEA/cross-graph embedded-alignment)层。它以两个图(graph)作为输入,利用图匹配策略学习其之间节点的对应关系,然后将学习到的对应关系视为邻接矩阵来传递信息。正因如此,相关联的特征才能被增强,对齐信息才能被嵌入到特征中去。最后,为了避免强行一对一对齐的情况,研究员会通过将两个图映射到到一个logit模型并用一个验证损失进行监督来预测其相似性。
The Proposed Method
(1)语义特征提取:
假设行人图片为 x,获取特征map为,关键点map为,两者通过外积计算,并进行全局平均池化,获得局部语义特征和全局特征:
训练损失的计算:
表示第 k 个关键点的置信度,且。用表示属于正确id的概率,表示正样本对之间的距离,损失函数为:
(2)高阶关系学习:
采用了图卷积(graph convolutional network,GCN)【传送门】来建模高阶关系信息。在GCN中,不同关键点区域的语义特征被视为节点。通过在节点之间传递信息,一阶语义信息(节点特征)和高阶特征(边特征)都可以被照顾到。虽然如此,被遮挡的ReID还是存在一个问题,即被遮挡区域的特征经常是无意义甚至噪声干扰。当在这些特征再图中进行传递时,甚至可能带来更多噪声,对被遮挡ReID产生副作用。 因此,研究员新提出了一个方向自适应的图卷积层(Adaptive Directed Graph Convolutional Layer,ADGC),用它来动态学习信息传递的方向和degree。借助它,研究员可以自动抑制无意义特征信息,促进有效语义特征信息的传递。
① ADGC:
作者用局部特征和全局特征的差异度来评估权重,差异小的局部特征更有意义(也就是说偏离全局特征的关节点可能是被遮挡的或者是噪声),由此得到一个边的权重矩阵,用于控制信息的传递,图卷积计算为:
② 损失函数:
采用分类损失和三元组损失,类似上文:
③ 相似度度量:
给出两张行人图片(x1,x2),关系信息特征分别为:、,相似度为:
(3)高阶人类拓扑学习:
一种简单的对齐策略是直接去匹配同样关键点之间的特征。然而这种一阶对齐策略并不能应对异常值,特别是当画面人物有大面积遮挡的情况。 相反,图匹配策略(graph matching)可以自然地将人体拓扑的高阶信息也考虑进去。但它只能学习一对一的对应关系,导致这种硬对齐策略对于异常值仍然十分敏感,性能容易受到干扰。为此,研究员提出了一个跨图的嵌入对齐层,它不仅能够充分利用经图匹配算法习得的人体拓扑信息,还能避免来自一对一对齐的干扰。
① 图匹配【18年的深度学习图匹配论文:传送门】(没有深究,待学习):
假设两张图片、对应得到的两张图为、,图匹配的目标是学习一个匹配矩阵,元素表示两个图的对应节点和的匹配程度,还考虑到了边的二阶相似度,元素表示两个图的对应边和,最终的优化目标为:
② 跨图的嵌入对齐层(CGEA):
两张图的节点特征为:和,通过全连接层和ReLU层,得到两个隐藏层特征和,通过图匹配模块得到关联矩阵。对其层的计算如下:
最后由多个CGEA级联得到此模块,即:
③ 相似度度量:
④ 损失函数 :
(4)训练:
总损失函数:
相似度评估:
Experiments