极简笔记 Cascaded Pyramid Network for Multi-Person Pose Estimation

Cascaded Pyramid Network for Multi-Person Pose Estimation

论文地址:https://arxiv.org/abs/1711.07319
旷视COCO Challenge 2017人体姿态估计冠军论文

文章核心提出一种使用自上而下的多人关键点估计方法。先利用mask-rcnn的detection结构检测人体(FPN+ROIAlign),之后利用GlobalNet+RefineNet结构对单人目标回归人体关键点。
极简笔记 Cascaded Pyramid Network for Multi-Person Pose Estimation_第1张图片

上图为网络架构,GlobalNet本质是一个类似FPN的架构,但是在上采样部分中,每个element-wise add之前作者多加了一个1x1卷积。之后算不同尺度feature map和关键点响应图的L2 loss(和FPN一样,算P2-P5层的loss)

接下来是RefineNet,把前面GlobalNet骨架网络的P2-P5层拿出来(论文这部分写的有歧义,说是C2-C5,但是看了源码后发现是类似FPN的P2-P5),经过不同次数的bottleneck之后concatenate。前面concatenate之后再经过一个bottleneck回归到关键点响应图。但是与前面的L2 loss不同,这里计算loss使用online hard mining方法,训练时只动态回传loss较大的几个channel。可以理解成前面的loss算真实可见的关键点响应,后面的loss利用全局信息回归遮挡的关键点响应。

该网络以ResNet50作为骨架网络在8卡Titan上要训练1.5天。利用ResNet-Inception作为骨架网络,在COCO test-dev数据集上取得了极好的效果,远超CMU-Pose(也就是OpenPose)和Mask-RCNN。也在COCO Challenge 2017人体姿态估计项目上获得冠军。
极简笔记 Cascaded Pyramid Network for Multi-Person Pose Estimation_第2张图片
极简笔记 Cascaded Pyramid Network for Multi-Person Pose Estimation_第3张图片
论文源码:https://github.com/chenyilun95/tf-cpn

你可能感兴趣的:(极简笔记)