论文阅读:《Associative Embedding:End-to-End Learning for Joint Detection and Grouping》

概述

论文提出了一种single-stage,end-to-end的关节点检测和分组方法,这不同于以往的multi-stage的关节点检测方法,在MPII和COCO数据集上达到新的state-of-the-art的效果,超越最近的Mask RCNN和Google GMI。从人体姿态估计方法上属于bottom-up的方法,即先检测关节点,再对关节点进行分组。在COCO测试集上mAP达到0.655。

尽管论文声称的结果是很好的,但是rejected by ICCV 2017。

关节点检测

关节点检测使用的ECCV 2016的单人姿态估计的网络stacked hourglass,在其上做了一些修改,在每一次下采样时增加输出通道的个数,同时individual layers的残差模型改为3*3的卷积结构,其他结构不变。

关节点分组

使用stacked hourglass网络的输出是对每一个pixel预测detection score,从单人到多人的姿态估计就是将heatmap由单个点的激活,到多个点的激活,从而检测出多个关节点。

引入一个新的“tag”heatmap,用于对每一个pixel打上标签,标签相近的关节点认为是属于同一个人的,这样完成对关节点的分类。如果有m个关节点,就会有2m个通道,其中m个用于检测,m个用于分组标签。

Loss

Prediction loss+grouping loss,其中prediction loss和之前的hourglass相同;grouping loss由两部分组成,一是单个人的K个关节点之间的关联尽可能小,为了保证之后的tag相似,二是多个人之间的关节点平均关联尽可能大,为了区分不同人的tag,grouping loss由两部分组合而成。

你可能感兴趣的:(人体姿态估计)