Pose Proposal Networks 论文解析


简介

首先附上论文地址:Pose Proposal Networks
作者:日本柯尼卡美能达公司的関井大気(Taiki SEKII)
文章结合了 YOLO 和 CMU 的 OpenPose,实现了近200帧的多人实时姿态估计

Experimental results on the MPII Multi-Person benchmark confirm that our method achieves 72.8% mAP comparable to state-of-the-art bottom-up approaches while its total runtime using a GeForce GTX1080Ti card reaches up to 5.6 ms (180 FPS)


文章亮点 —— pose proposal network (PPN)

采用了YOLO目标检测的思想,将人体姿态检测看作是一个目标检测问题,对人体部位不再采用 pixel-wise(像素级别) 的检测,而是采用 grid-wise(网格级别) 来得到人体部位的feature map,其中利用一个 single-shot CNN 网络同时对身体关节和肢体(limb)来进行检测,然后采用类似OpenPose中的PAF分析方法来得到完整的人体姿态

PPN Fig1.png

本文之所以能够达到如此流畅的速度,就是因为采用了YOLO的检测方法,这里简单介绍一下YOLO算法的思想

YOLO整体思想:将输入图片分成 S×Sgrid(网格) ,每个网格预测 Bbounding boxes和这些网格的 confidence scores ,每个 bounding boxes 包含5个预测值 : 和 ,同时每个 grid cell 又会预测 (所有类别数) 个目标在当前gird cell中的概率

YOLO Fig2.png

经过特殊设计的Loss函数:

YOLO Loss.png

Pose Proposal Networks

Body Parts Detection(身体关节点检测)

PPN Fig2.png

首先将输入图像分割为个 grid cell ,生成一系列的 bounding boxes :   
    
                
              

—— 预测的一系列 Regional Proposal ( i 个grid cell 对 k+1 个parts进行预测)
—— gird cell 的个数
—— 要检测的目标数, is the number of parts, 代表一个完整的人
—— 二进制随机变量
—— grid cell 负责检测肢体部位的概率, 如果ground truth bounding box of k 的中心落在第个grid cell中,则第个grid cell就负责肢体的检测
—— 第个cell预测的第个bounding box与ground truth的 IoU
—— bounding box的中心相对于grid cell的边界的距离,并根据对应网格归一化[0-1]之间
—— bounding box的宽、高,根据图像的尺寸归一化[0-1]之间


Limbs Detection(肢体部位检测)

同时每个grid cell也会对肢体(limbs)进行检测:

PPN Fig34.png


—— 代表能被检测到的肢体,表示关节的连接是肢体的概率
—— 二进制随机变量
—— 第个grid cell的位置
—— 文中假设位于的肢体仅能到达以为中心的 区域

Loss函数设计:

PPN Loss.png

—— 第个单元格是否负责第个part的检测 (0,1)变量

最终,CNN输出维张量,6代表的6个参数,前面提到过

你可能感兴趣的:(Pose Proposal Networks 论文解析)