[CVPR2021]LASR: Learning Articulated Shape Reconstruction from a Monocular Video

标题:LASR: Learning Articulated Shape Reconstruction from a Monocular Video

链接:https://arxiv.org/pdf/2105.02976

本文做的是基于视频的3D重建。特色之处在于不需要初始模板,而是直接从一个球形来拟合最终形状。

模型结构

[CVPR2021]LASR: Learning Articulated Shape Reconstruction from a Monocular Video_第1张图片

与其他模型一样,作者也是将3D重建分解为三个部分,即形状预测,动作预测,相机参数预测。

动作预测

首先假设我们已经有了3D物体模型,那怎么让这个物体随着视频动起来呢?最简单的方案就是每帧都对每个顶点预测一个位移量,但是这样计算量太大。因此作者使用LBS来表达物体的动作,即将所有的顶点都绑定到某几个骨骼上,通过骨骼运动带动顶点运动。

但使用LBS的时候还有一个问题就是每个顶点针对骨骼点都有一个蒙皮权重,这个计算量仍然很大。因此作者将模型的蒙皮权重拟合到一个混合高斯分布中去,通过控制混合高斯分布的均值方差来控制整个权重的分布。作者说这有助于进一步减少计算量和平滑运动动作。这里每个高斯分布的均值都是由k-means聚类获得的。

形状&相机预测

由于作者不使用人工模板做初始化,因此针对每个视频的初始模板都是一个球。这里作者通过剪影损失,光流损失,纹理损失和感知损失分别优化形状的重建。值得一提的是,不同于之前的模型直接优化3D模型的参数,这里作者使用了resnet18来拟合从图像到参数的这个过程,来增强其泛化性。

剪影损失:图像的剪影标注与物体的渲染结果算L2损失

光流损失:针对邻近的两帧,使用光流检测器检测视频中的光流,再检测两帧模型渲染结果之间的光流,计算两个光流间的L2损失

纹理损失:直接在像素颜色层面上约束图像与渲染结果

感知损失:类似于纹理损失,只是这里比较的是alexnet提取出的特征。

平滑先验:使用laplacian对网格表面做平滑约束

ARAP约束:要求形变时保留局部细节

形变约束:要求形变量越小越好

弱对称约束:要求顶点和骨骼点沿着对称面两边尽量一致

最后,在形变时作者还参考point2mesh,使用了从粗糙到精细的重建方案,在重建过程中顶点数和骨骼数都会一步步增多。具体效果如下图所示

[CVPR2021]LASR: Learning Articulated Shape Reconstruction from a Monocular Video_第2张图片

你可能感兴趣的:(3D物体重建,论文阅读,计算机视觉,人工智能,深度学习)