A simple yet effective baseline for 3d human pose estimation

A simple yet effective baseline for 3d human pose estimation

主要工作

在以往的人体3D关键点检测的方法中,主要有两种,一种是构造end-to-end的网络,直接实现输入普通图像,输出人体3D关键点;另一种是首先使用2D关键点检测的方法,检测出2D的关键点,然后使用匹配对对齐的方式构造出3D关键点。

这篇文章的工作非常简单,但是也非常的有用。其主要工作就是构造一个网络,实现2D人体关键点到3D关键点的映射。实际上,2D关键点到3D关键点的映射,就是一个回归过程,而现在使用神经网络构造回归器是非常容易的,因此很容易想到使用训练一个神经网络,实现回归过程。因为作者的方法比较简单,所以作者自己也说这是一个baseline。具体的:

  1. 构造了一个高效的2D转关键点转3D关键点的 神经网络

实现细节

网络结构

A simple yet effective baseline for 3d human pose estimation_第1张图片

作者借鉴了如上图所示的Resnet residual结构,作者称之为block,每个block中有两个全连接层(Linear),每个全连接层后面都跟着batch normalization、ReLU、Dropout层。

除此之外,作者还在block前,加了一个全连接层,用来将输入的16*2的关节点升维到1024维,同样的,在网络最后也加了一个全连接层,用来将1024维的数据降维到16*3

在网络中,block的数量可多可少,这里作者一共使用了两个block。

网络输入和输出

输入: 2D关节点的坐标,16*2表示的是16个关节点,每个关节点的坐标是二维的

输出:3D关节点的坐标, 16*3

训练细节

训练数据: Human3.6M: http://vision.imar.ro/human3.6m/description.php

训练参数: Epoch=200, Adam,batch_size=64,weight init=Kaiming initialization, lr=0.001

你可能感兴趣的:(A simple yet effective baseline for 3d human pose estimation)