论文阅读(二)ICCV2021:Learning to Know Where to See: A Visibility-Aware Approach for Occluded Person Re-id

养成每天读文献的好习惯,随手一记,欢迎大家讨论指正~

论文:Learning to Know Where to See: A Visibility-Aware Approach for Occluded Person Re-identification,主要在文献Pose-Guided Feature Alignment for Occluded Person Re-Identification上进行改进

一、问题

1. 稀疏的姿态关键点会影响性能,姿态关键点多了又会引入噪声,造成估计误差。

2. 姿态估计模型和行人重识别任务的数据集存在一定差距

二、论文框架

论文阅读(二)ICCV2021:Learning to Know Where to See: A Visibility-Aware Approach for Occluded Person Re-id_第1张图片

文章主要的模块有两个,部分标签生成器(Part Label Generator)和区域可见度鉴别器(Region Visibility Discriminator),下面分别介绍下每个模块的具体实现细节。

1)部分标签生成器

首先利用姿态估计模型估计人体关键点,每个关键点会有置信度得分,再将标注好关键点的图片划分为N个部分,根据冗余投票策略判断N个部分的可见性(0为不可见,即遮挡,1为可见)。具体的做法如下:

论文阅读(二)ICCV2021:Learning to Know Where to See: A Visibility-Aware Approach for Occluded Person Re-id_第2张图片

j为第j个关键点, s_j 为关键点置信度得分,当置信度得分大于等于阈值\lambda(超参数 )时,投票权重 w_j为1,否则为0。计算每个部分的投票权重之和,表示为 T_i( i=1,...,N ),当 T_i大于等于阈值W(超参数)时,标签为1(可见),否则为0(不可见)。

2)区域可见度鉴别器

区域可见度鉴别器由上面生成的部分标签(ground truth)优化。区域可见度鉴别器将划分后的部分特征映射为可见性分数,具体如下图,红框部分是区域可见度鉴别器的构成

论文阅读(二)ICCV2021:Learning to Know Where to See: A Visibility-Aware Approach for Occluded Person Re-id_第3张图片

​三、损失计算

采用的是ReID中最常用的ID loss和Triplet loss。其中 Triplet loss公式如下:

​其中 f_a,f_p,f_n 分别代表锚点、正样本和负样本,这里的距离D没有采用传统的欧几里得距离或者余弦距离。由于遮挡的存在,计算全局的距离显然是不合理的,因此作者沿用了之前文献的做法,只计算可见部分的距离,再加上一个全局距离,具体公式如下:

l_i代表可见度得分, x_i 代表part特征,F是全局特征。q代表query,g代表gallery,D代表余弦距离或者欧几里得距离。

总的损失包括全局特征的ID loss,N个局部特征的ID loss和Triplet loss,可见度得分和部分标签间的ID loss以及区域可见度鉴别器的Triplet loss。公式如下:

你可能感兴趣的:(论文阅读,计算机视觉)