论文阅读:G-RMI:Towards accurate multi-person pose estimation in the wild——2017CVPR

PS:仅作为自己阅读论文的记录,如有错误,欢迎留言交流

2017CVPR, top-down中关键点检测基石,有许多基础思路,本文提出的基于关键点的NMS在后面的自上而下的文章中被普遍应用
论文阅读:G-RMI:Towards accurate multi-person pose estimation in the wild——2017CVPR_第1张图片

贡献点:

1、 提出了一个top-down方法,分为两个阶段,第一检测人体,使用Faster RCNN;第二阶段使用全卷积 ResNet预测每个关键点的热力图和偏移量
2、 引入了一种新的融合过程来获得高度定位的关键点预测,将heatmap和offset做一个融合得到精确关节点位置(热力图和偏移场的生成方法)
3、 提出了基于关键点OKS的NMS,以及基于关键点的置信度得分估计(姿态重打分)

主要方法、思想:

人体检测

使用空洞卷积代替的ResNet-101作为Faster RCNN的backbone,输出步长改为8像素;backbone先在COCO的80个类别数据集上进行训练,但只在 person类别的bounding box进行fine tune

姿态估计

对于每个空间位置,首先预测它是否在关键点附近,然后预测二维局部偏移量,以获得更精准的估计

图片裁剪

首先扩展人体检测器返回的box的长宽,以满足固定长宽比,使得裁剪图像不扭曲

热图和偏移预测

将融合分成了二分类和2D回归两个问题,具体的:
论文阅读:G-RMI:Towards accurate multi-person pose estimation in the wild——2017CVPR_第2张图片

  • 首先,计算每个位置和关键点的概率,两点距离小于R,概率=1;最终生成K个热图,每个位置和关键点转换为独立解决的二分类问题,得到每个位置的概率hk(xj)
  • 预测每个位置和关键点的距离,得到偏移向量,转换为回归问题,得到Fk(xj)
  • 最终结合成以下每个位置j与关键点i的激活图:
    在这里插入图片描述

模型训练

  • 模型使用两个卷积输出头,一个是通过sigmoid函数产生的热力图;并且为了加速,在ResNet第50层使用了中间监督;一个是偏移回归的输出,模型惩罚预测输出与真实值的difference
  • 模型训练,最重要的考虑是在计算热力图损失时,如何处理图像裁剪后仍存在多人。当计算中间层的热图损失时,作者排除了背景人关键点周围盘中的贡献。当计算最后一层的热图损失时,我们只将前景人关键点周围盘内视为正的,而将其他一切视为负的(还不知具体如何确定前景背景??具体再到代码中查找

姿态重打分

测试时,考虑每个关键点的置信度得分,最大化每个关键点位置,平均化关键点产生最终的姿态检测检测分数

基于OKS的NMS

提出基于OKS的NMS,把关键点考虑在内,代替了原来的标准的NMS

借鉴博客:
https://blog.csdn.net/weixin_41665360/article/details/91432434

你可能感兴趣的:(姿态估计论文,计算机视觉)