Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 阅读笔记

CVPR 2017

Code: https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation

摘要

论文提出一个高效的检测一张图片中的多个人的姿态的方法,该方法使用非参数的方法(Part Affinity Fields)来学习将图像中的每个人的各个部位连接为一个整体。

该结构对全局上下文进行编码,自下而上的解析方式来同时获取高的精度和实时检测;

简介

推断图像中多个人的姿态,存在一系列的挑战:

1.每张图像中待检测人体的个数不确定

2.人体之间的遮挡使得将各个关键点连接为一个整体比较困难

3.检测时间随着图像中人数的增加而增加,很难达到实时检测

检测方法分类:

Top-down :

首先进行人体检测,然后对检测出的人体进行姿态估计;

缺点:1.人体检测失败,则姿态估计就失败

           2.检测时间与检测人体个数成比例,很难做到实时

Bottom-up :

2.方法

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 阅读笔记_第1张图片

首先.通过前馈网络同时生成一系列的 身体部位的2D confidence maps S(如图b)和身体部位的亲和力的2D vector fields L(如图c)

然后.通过推断方式将confidence maps S和 affinities fields生成图像中所有人的关键点(如图d)

2.1同时检测和关联

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 阅读笔记_第2张图片

网络结构由两个分支组成:

一个生成confidence maps S;

另一个生成affinities fields L;

首先,通过卷积神经网络(VGG-19,,初始化网络,并进行微调)生成一系列特征图F;

然后,通过构建的网络生成一系列S1和L1,

接下来每个阶段的输入,都是前一阶段的输出St-1、Lt-1和特征图F的组合

每阶段的两个分支都对应不同的损失函数(L2 loss):

通过损失函数加权来解决一些数据集未对所有的人进行标注的问题;

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 阅读笔记_第3张图片

2.2 confidence maps标签(生成关键点标签)

首先生成个人confidence maps:(高斯函数)(每一个人的一个部位关键点对应一个波峰)

:人体k的身体部位j的位置

P:      σ:控制波峰的宽度

然后,生成confidence maps标签

2.3 affinities fields标签(将关键点通过可靠的方法连接为本该属于的人体中)

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 阅读笔记_第4张图片

 关键点方向向量:

为单位向量

关键点应该落在身体部位内(通过以下公式限定)

:身体部位l的像素宽度;:身体部位的长度

将k个人在位置p的非零向量求平均,作为标签

2.4使用PAFs进行多人解析

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 阅读笔记_第5张图片

通过NMS获取affinities fields的离散集合;一张图片有多个人,所以对于每个身体部位有多个候选点;

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 阅读笔记_第6张图片

 

你可能感兴趣的:(论文笔记,姿态识别)