阅读笔记——DeepPose: Human Pose Estimation via Deep Neural Networks

目录

    • 概述
    • 方法
    • 数据集
    • 指标及效果

概述

DeepPose 2014 年由谷歌的研究人员提出,是最先将神经网络应用在人体姿态估计和关键点定位方面的论文。

如下图所示,关键点定位中存在一些问题:

  • 一些关键点可能很小或者几乎不可见;
  • 关键点可能被遮挡,这时候它的位置只能靠猜测;
  • 不同部位的关键点可能发生混淆等。
    阅读笔记——DeepPose: Human Pose Estimation via Deep Neural Networks_第1张图片

方法

DeepPose 直接回归关键点坐标,为了提高回归精度,首先基于人体 box 框对关键点坐标进行归一化:

在这里插入图片描述

模型结构方面如下图所示,使用 5 个卷积层和两个全连层,最后对于 k 个关键点输出 2k 个坐标值。为了获得更高的定位精度,使用多个网络进行级联,将前一阶段的网络预测输出附近图像截取出来,输入后一阶段网络获取更精细化的定位坐标值。

阅读笔记——DeepPose: Human Pose Estimation via Deep Neural Networks_第2张图片

损失函数方面使用预测值和标注值之间的 L2 距离作为损失。

数据集

数据集方面使用 FLIC(Frames Labeled In Cinema) 和 LSP(Leeds Sports Dataset) 数据集。FLIC 是一个好莱坞电影数据集,包含 4000 张训练图像和 1000 张测试图像,标注了 10 个上半身关键点。LSP 数据集包含 11000 张训练图像和 1000 张测试图像,标注了 14 个全身关键点。

指标及效果

通过叠加多阶段模型,在当时获得了最高的关键点定位精度。当然随着关键点定位方法的发展,有许多新的方法被提出,DeepPose 可以被当做一个背景知识做了解,实际应用还是应该选用更先进的关键点定位方法。

阅读笔记——DeepPose: Human Pose Estimation via Deep Neural Networks_第3张图片

你可能感兴趣的:(深度学习,关键点检测,计算机视觉,深度学习)