每周论文精读01——3D Human Pose Estimation with 2D Marginal Heatmaps

论文精读——3D Human Pose Estimation with 2D Marginal Heatmaps

进入新一个学期的学习,预期从本周开始每周都会有一篇文章的精读,这对我来说将会是一个不小的挑战,废话不多说,开始第一篇!!

文章来源

题目:3D Human Pose Estimation with 2D Marginal Heatmaps

引用:Nibali A , He Z , Morgan S , et al. 3D Human Pose Estimation with 2D Marginal Heatmaps[J]. 2018.

链接&下载地址:
百度学术:https://xueshu.baidu.com/usercenter/paper/show?paperid=2d39d0c29f867cad98b9e885b53dfe11
下载地址:https://arxiv.org/abs/1806.01484v2 (网址后面直接+.pdf 就是下载地址哦)

论文我也已经下载好上传到了CSDN中,可以点下方直接下载:

》》》论文连接《《《

一些相关连接

3D human pose 重要论文分类(持续更新)

3D人体姿态估计笔记

文章简介

内容简介:

3D Human Pose Estimation with 2D Marginal Heatmaps
基于二维边缘热图的三维人体姿态估计

从单目RGB图像数据中自动确定三维人体姿态是一个具有挑战性的问题。输入的二维特性导致内在的歧义,这使得推断深度特别困难。最近,研究人员已经证明,深度神经网络灵活的统计建模能力足以以合理的精度进行此类推断。然而,许多模型使用的坐标输出技术是内存密集型的、不可微的和/或在空间上不能很好地推广。我们提出了一种改进的三维坐标预测方法,通过预测二维边缘热图,避免了上述缺点。我们的结果模型,MargiPose,产生视觉上一致的热图,同时保持可微性。我们还能够在公开的3D人体姿势估计数据上实现最先进的精度。
(上面这段是摘要翻译)

主要贡献:

文章翻译

摘要:

从单目RGB图像数据中自动确定三维人体姿态是一个具有挑战性的问题。输入的二维性质导致固有的歧义,这使得推断深度特别困难。最近,研究人员已经证明,深度神经网络的灵活统计建模能力足以以合理的精度做出这样的推断。然而,这些模型中的许多使用坐标输出技术,这是内存密集型的,不可微的,和/或没有很好地空间概括。我们提出了对三维坐标预测的改进,通过在增强的软argmax方案下预测2D边缘热图来避免上述不良特征。我们的最终模型“边缘姿态”在保持可区分性的同时,产生了视觉上连贯的热图。我们还能够在公开可用的3D人体姿态估计数据上实现最先进的精度。

内容总结&关键点提炼

关键词:

3D Human Pose Estimation
soft-argmax

可以理解为 argmax可以寻找最大值,但是不可导,所以通过
soft-argmax事实上就是归一化过后的向量乘以索引值向量

softmax、argmax、softargmax
1)softmax:

输入为向量,输出为值为0-1之间的向量,和为1。在分类任务中作为概率出现在交叉熵损失函数中。

import numpy as np
data=np.array([0.1, 0.3, 0.6, 2.1 ,0.55])
np.exp(data)/np.sum(np.exp(data)) # softmax
array([ 0.07795756, 0.09521758, 0.12853029, 0.57603278, 0.12226179])

2)argmax:为了得到一个向量中最大值所处的位置,我们利用此函数。但是这个函数不可导,所以无法计算其梯度。然而我们可以利用软化的max函数来计算,就是softmax。利用softmax,我们可以得到每个元素正则化后的值。此向量()分布)的

此时最大值所处的坐标期望即为:

np.sum(np.exp(data)/np.sum(np.exp(data)) * np.array([0,1,2,3,4])) # E = p*index
2.5694236670240085。而最大之所在的位置应该是3。

3)softargmax:从上面看到位置计算不够准确,一个原因就是最大值的概率不够大,或者说增大相对最大值而减弱其他值的影响就可以得到更加准确的位置坐标。

softargmax:

可以看到,上式与softmax的期望只有一个差别,即给向量的每个元素乘以beta。

d = data*10 # beta=10
array([ 1. , 3. , 6. , 21. , 5.5])

np.sum(np.exp(d)/np.sum(np.exp(d)) *np.array([0,1,2,3,4]))
2.9999998429934758
可见此时输出的坐标为2.99,即为3,且这种寻找极值所在位置(坐标)的方法是可微的。常用于图像特征点位置的提取。

此外,LIFT原文3.5节提到:softargmax作为非极大值抑制NMS的可微分版本。就是说可以利用softargmax来替代NMS。
https://blog.csdn.net/weixin_30732825/article/details/95751652?ops_request_misc=&request_id=&biz_id=102&utm_term=soft-argmax&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduweb~default-6-95751652.pc_search_result_no_baidu_js

heatmap

Georgios Pavlakos, Xiaowei Zhou, Konstantinos G. Derpanis, Kostas Daniilidis. Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose. CVPR, 2017.
每周论文精读01——3D Human Pose Estimation with 2D Marginal Heatmaps_第1张图片
如上图,人体姿态估计按输出结果的形式可以分成两种,对于前者而言,我们期望得到的是精确的坐标值(x, y);而对于后者而言,我们期望得到对应的热点图谱,用这个热点图谱的响应值来反映人体的不同部位,也就是说,不同部位获得的响应应该是不同的,对于感兴趣的区域(例如头部),需要返回一个较高的响应,而其它部位则响应相对较低。
采用回归的方式来解决人体姿态识别问题,效果并不理想。其主要原因有两方面:一方面是人体运动比较灵活,另一方面,回归模型的可扩展性较差,比较难于扩展到不定量的人体姿态识别问题中。因此,目前大家普遍使用的过渡处理方法是将其看作检测问题,从而获得一张热点图谱。

实验验证明直接输出坐标不如监督热点图
————————————————
原文链接:https://blog.csdn.net/qq_36893052/article/details/79932765

优点:一定意义上缓解了量化精度损失问题,可以直接学习热点图和位置坐标,学习的目标更直接。网络可以直接输出所需目标,一体化程度高。

Marginal heatmaps
axis permutation
Human3.6M和 MPI-INF-3DHP
PCK(正确关键点的百分比 )、MPJPE(每个关节位置误差的平均值 )和 AUC(曲线下面积 )
Ablative study

文章梳理

文章整体1

题目:3D Human Pose Estimation with 2D Marginal Heatmaps
翻译:基于二维边缘热图的三维人体姿态估计

文章作者:Aiden Nibali; Zhen He; Stuart Morgan ;Luke Prendergast
La Trobe University, Australia 拉筹伯大学

文章来源:WACV 2019 (文章写于2018年)

文章整体2

主要贡献:

在这里插入图片描述

提出模型网络: MargiPose

主要成就: 目前在 数据集:MPI-INF-3DHP 的3D人体位姿估计 上表现排名第一 每周论文精读01——3D Human Pose Estimation with 2D Marginal Heatmaps_第2张图片

问题描述:人体三维姿态估计问题

人体姿态估计(Human Pose Estimation)也称为人体关键点检测(Human Keypoints Detection
人体位姿估计问题:分为2D为人体位姿估计(在平面内 ) 和3D人体位姿估计(立体空间中)

Image vs. Video:对于Video,除了人体姿态估计算法外,要增加对于关键点的Tracking(追踪)的研究。

Top-down vs. Bottom-up 以上为深度学习方法中两个主要的研究思路。

Top-down首先利用目标检测算法检测出单个人,然后对proposal进行关键点的检测。这种方法一般具有较高的准确率但是处理速度较低。
Bottom-up首先检测出测试图像中所有的关键点信息,然后分配给单个的人,这种方法一般准确率较差,但处理速度较快。

网络基本属性:

输入:
图像格式 : RGB or RGBD? RGB
连续性: 图像 or 视频 ? 图像
估计目标: 单人 or 多人 单人
视角: 单目 or 多视角? 单目

输出: 2D姿态 or 3D姿态? 3D姿态

文章核心内容介绍

网络结构1

创新点1

数据集介绍

Human3.6M和 MPI-INF-3DHP

Human3.6M(2014)
Ionescu C , Papava D , Olaru V , et al. Human3.6M: Large Scale Datasets and Predictive Methods for 3D Human Sensing in Natural Environments[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 36(7):1325-1339.
2014年发布的数据集
由11名演员在17个场景下拍摄的360万个3D人体姿势和相应的图像(由视频提取),每种配置的像素级17个身体部位标签,
每周论文精读01——3D Human Pose Estimation with 2D Marginal Heatmaps_第3张图片

每周论文精读01——3D Human Pose Estimation with 2D Marginal Heatmaps_第4张图片

MPI-INF-3DHP (2017)

每周论文精读01——3D Human Pose Estimation with 2D Marginal Heatmaps_第5张图片
3D人体姿势估计数据集,包含受约束的室内场景和复杂的室外场景。它记录了从14个摄像机视图执行8个活动的8位演员。它由从14个摄像机捕获的> 1.3M帧组成 使用了17关键点骨架
Mehta D , Rhodin H , Casas D , et al. Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision[J]. 2017:506-516.

评估指标介绍

考虑的主要指标是
PCK(percentage of correct keypoints 正确关键点的百分比):果预测关节与ground truth之间的距离在特定阈值内,则检测到的关节被认为是正确的
每周论文精读01——3D Human Pose Estimation with 2D Marginal Heatmaps_第6张图片

MPJPE(mean per joint position error 每个关节位置的平均误差):网络输出的关节点坐标与ground truth的平均欧式距(通常转换到相机坐标)

AUC(area under curve曲线下面积)衡量二分类模型优劣的一种评价指标
每周论文精读01——3D Human Pose Estimation with 2D Marginal Heatmaps_第7张图片

在本文中:
PCK测量ground truth150mm内预测位置的百分比。MPJPE测量预测位置和ground truth位置之间的平均距离,单位为毫米。AUC测量阈值范围(0-150mm)内的平均PCK。

总结

进步:

局限性:
1.是针对单人且无遮挡状态下的,可结合多人的分割任务进行拓展
2.尽管在 MPI-INF-3DHP 数据集上表现出色,但在其他数据集上的表现不佳,鲁棒性不是很强

参考与链接

文献引用:
[1] Nibali A , He Z , Morgan S , et al. 3D Human Pose Estimation with 2D Marginal Heatmaps[J]. 2018.

下载地址:
https://arxiv.org/abs/1806.01484v2

开源代码:
https://github.com/anibali/margipose

性能比较(paper with code):
https://www.paperswithcode.com/paper/3d-human-pose-estimation-with-2d-marginal

想法&心得感悟

你可能感兴趣的:(精读笔记,深度学习,计算机视觉,python,linux,神经网络)