手势识别2020(二)HandVoxNet

《HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose Estimation from a Single Depth Map》论文解读

  • Abstract
  • 1. Introduction
  • 2. Method Overview
  • 3. The Proposed HandVoxNet Approach
  • 4. Result

手势识别2020(二)HandVoxNet_第1张图片
原文:HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose Estimation from a Single Depth Map
收录:CVPR2020


Abstract

       本文实现从单张深度图里来进行3D手部姿态估计,当前好多方法则是从2D深度图直接回归3D hand meshes,这样不好之处在:因为透视失真使得复原后的图形存在人工痕迹,即便往网络中嵌入一个真实统计手模型(例如 MANO),也会出现同样的问题。
 

       在弱监督学习下,HandVoxNet 输入一个3D体素化深度图,并依赖于两个手形表示( hand shape representations),第一个是3D体素化手形(3D voxelized grid of the shape) ,它是准确的,但不保持mesh的拓扑结构和mesh的顶点数量;第二种则是3D手部表面(3D hand surface ),其精度较低,但不受第一种表示的限制。结合这两种表示的优点,将 手的表面体素化的手形 结合起来。


1. Introduction

手势识别2020(二)HandVoxNet_第2张图片

       从单张深度图同时估计3D手部姿态和形状是一个新兴的计算机视觉问题,它比姿态估计更具挑战性,由于手形状多样、遮挡、高自由度(DOF)和自相似性,对真实图像进行形状标注非常困难。密集的3D手网格比稀疏的3D节点表示效果更丰富

       V2V-PoseNet 是第一个通过使用深度图的3D体素化网格来估计3D关节点热图,且避免透视失真,然而通过直接回归网格顶点的3D热图来做到形状估计,发现在实践中是不可行的。

       之前也说到,本文使用两种表示,第一个表示是 体素化网格的手形表示。通过一个体素到体素(voxel-to-voxel)网络,实现将体素化深度图和体素化形状之间建立一对一的映射。第二种表示则是体素到面( voxel-to-surface )网络来估计手表面。


 
主要贡献:

  • 基于体素的手的形状和姿态估计方法有以下组成部分:
    (i)Voxel-to-voxel 3D CNN-based network;
    (ii)Voxel-to-surface 3D CNN-based network;
    (iii)3D CNN-based voxelized depth map synthesizers;
    (iv)Hand shape registration components.
  • 提出一种新的深度图体素化网格3D数据增强策略。

2. Method Overview

手势识别2020(二)HandVoxNet_第3张图片
       如上图所示,输入单张深度图,目标就是估计出 N N N维3D手部关节点坐标 J ∈ R 3 × N   ( i . e . , 3 D   p o s e ) \mathcal{J\in R}^{3\times N}\ (i.e., 3D \ pose) JR3×N (i.e.,3D pose) 以及 K=1193维3D顶点坐标 V ∈ R 3 × K   ( i . e . , 3 D   s h a p e ) \mathcal{V\in R}^{3\times K}\ (i.e., 3D \ shape) VR3×K (i.e.,3D shape),首先将输入的深度图转化为体素化网格,即: V D   ( s i z e = 88 × 88 × 88 ) V_{D}\ (size=88\times 88\times 88) VD (size=88×88×88),通过 V2V-PoseNet 直接估计3D关节点热图 { H j } j = 1 N   ( s i z e = 44 × 44 × 44 ) \mathcal{\{H_{j}\}}_{j=1}^{N}\ (size=44\times 44\times 44) {Hj}j=1N (size=44×44×44),这个关节点热图也是体素化网格,然后将 V D V_{D} VD resize to V D ′ V_{D}' VD,其中 V D ′ V_{D}' VD 大小为 44 × 44 × 44 44\times 44\times 44 44×44×44,最后将两者结合在一起,用 I S \mathcal{I}_{S} IS 来表示。

       通过 V2V-ShapeNet 之后得到的 Voxelized Shape V ^ S   ( s i z e = 64 × 64 × 64 ) \mathcal{\hat{V}_{S}}\ (size=64\times 64\times 64) V^S (size=64×64×64)V2V-SynNetS2V-SynNet 重建 V D ′ V_{D}' VD,并在训练中作为监督,测试时就去除掉。


3. The Proposed HandVoxNet Approach

  • Voxelized Shape Estimation
           它允许网络以最小化透视失真机会的方式来估计形状,V2V-ShapeNet 可以看作是3D形状解码器:
    在这里插入图片描述
           上式中,p(·)是解码分布,解码器不断学习,使得重构的体素化手形 V ^ S \mathcal{\hat{V}_{S}} V^S 尽可能接近体素化手形GT值 V S \mathcal{V_{S}} VSV2V-ShapeNet 直接估计体素化形状中每个体素的概率,表明它是否是背景(i.e.,0)或是形状体素(i.e.,1),体素化形状重建的每体素的 二元交叉熵损失 表示如下:
    在这里插入图片描述
           由于没有对真实手形的注释,因此要有效地学习真正的手形,弱监督是必不可少的,V2V-SynNet 从估计的体素化形状中合成体素化深度图。给出了用于体素化深度图重建的单体素二元交叉熵损失Lv VD:
    在这里插入图片描述

  • Shape Surface Estimation
           为了便于 Shape Registration ,手部姿态的表面形状应该要和体素化形状相似,这样才能匹配合成。和之前一样,V2S-Net 的输入也是 I S \mathcal{I}_{S} IS ,损失函数则是 standard Euclidean loss:
    在这里插入图片描述 S2V-Net的损失函数 L V D s \mathcal{L}_{V_{D}}^{s} LVDs 类似等式(3)。

  • Shape Registration
    在测试时,对于real dataset使用 NRGA,对于合成数据则使用 DispVoxNets

  • Total Loss
    在这里插入图片描述


4. Result

手势识别2020(二)HandVoxNet_第4张图片
手势识别2020(二)HandVoxNet_第5张图片

你可能感兴趣的:(图像处理)