【虚拟试衣论文笔记】M3D-VTON: A Monocular-to-3D Virtual Try-On Network

【虚拟试衣论文笔记】M3D-VTON: A Monocular-to-3D Virtual Try-On Network_第1张图片

论文地址:
项目地址:https://github.com/fyviezhao/M3D-VTON

【虚拟试衣论文笔记】M3D-VTON: A Monocular-to-3D Virtual Try-On Network_第2张图片本文提出了一种 Monocular-to-3D Virtual Try-On Network (M3D-VTON) 的多姿态图像虚拟试衣方法,兼顾了2D与3D方法的优点。主要是利用所提出的 Monocular Prediction Module (MPM) 从图像中估计目标人体分割图、深度图来同时获得2D与3D的辅助信息,并且通过 Depth Refinement Module (DRM) 加强深度信息,从而指导最终的合成。

整体架构

【虚拟试衣论文笔记】M3D-VTON: A Monocular-to-3D Virtual Try-On Network_第3张图片
M3D-VTON包含3个主要模块:

  1. Monocular Prediction Module(MPM)
    该模块利用单个网络实现以下三个目的:1)回归TPS变换的参数;2)预测与店内服装相适应的条件人体分割;3)估计全身深度图;与一般的方法不同,MPM首先利用一种新的自适应仿射变换将店内服装变换到合适的尺寸和位置,再进行非刚性TPS变形。
  2. Depth Refinement Module(DRM)
    联合使用估计深度图、翘曲服装、非目标身体部位和图像梯度信息来增强深度图中的几何细节。DRM引入了深度梯度损耗,以便更好地利用输入中的高频细节。
  3. Texture Fusion Module(TFM)
    利用2D信息(例如,扭曲的衣服)和3D信息(例如,估计的全身深度)来合成试穿纹理。给定经过优化的2D试穿纹理和精细的身体深度贴图,M3D-VTON获得彩色点云并重建最终的纹理3D虚拟试穿网格。

Monocular Prediction Module(MPM)

如 Figure.2 所示,该模块有3个分支:

  1. Clothing Warping Branch
    服装扭曲分支的骨干采用CP-VTON提出的几何匹配模块。但由于店内服装和人物躯干手臂部分有尺寸差异,直接估计θ并存在困难,因此,通过应用JPPNet得到的人体分割图,并设计一个自适应预对准步骤(实际上是一个仿射变换),以便在进行TPS转换之前将C转换到适当的位置和大小。
  2. Conditional Segmentation Estimation Branch
    条件分割估计分支的目标是估计穿着所需衣服的人体分割图,从而为纹理融合模块提供修复指导。来自服装编码器Ec和人物编码器Ea的特征被连接在一起,并被送到分割解码器Ds以生成有条件的人体分割图S。在训练期间,使用像素级交叉熵。
  3. Depth Estimation Branch
    深度估计分支旨在估计参考人物的基本3D形状。采用双深度形式表示3D形状,即对应于3D人体表示的各个侧面的前深度图和后深度图。在这个分支中,连接的特征映射由深度解码器ZT进行上采样,以生成前后深度。

Depth Refinement Module(DRM)

上个模块估计的深度图无法捕捉几何细节(例如,衣服的细节、面部特征)的原因有两个:

  1. MPM的输入缺少对描绘衣服褶皱至关重要的扭曲衣服;
  2. MPMT中使用的L1深度损失用于惩罚估计深度图和真实深度图之间的低频差异,因此会产生过度平滑的深度结果。

为了添加高频深度细节,作者提出了深度细化模块(DRM),进一步利用扭曲衣服Cw和保留的人物部分Ip中的亮度变化来细化初始深度图。具体来说,在Cw和Ip上应用Sobel算子以获得图像梯度,表示亮度的变化,并将其与梯度图像连接起来。

随后Ig、Cw、I和初始深度图被发送到一个类似于UNet结构的生成器,以生成细化深度图。

在训练期间,提出了两种特殊的损失,使网络能够捕捉高频细节:

  1. 将普通的L1深度损失替换为Log-L1版本,加重惩罚闭合点,引导关注复杂的局部细节。
  2. 引入深度梯度损失(利用sober算子),来进一步加强深度估计和捕捉几何细节,特别是在相邻身体部边界处。该损失也会优化对xy轴产生效果。

Texture Fusion Module(TFM)

TFM将保留的人物Ip、扭曲的衣服Cw、预测分割S和初始正面深度Dif作为输入,并生成一个粗略的试穿结果和一个融合Mask。

在额外的深度信息的指导下,TFM能够更精确地合成试穿结果,即使是在具有挑战性的自遮挡情况下。融合Mas用于将粗略试穿结果和扭曲服装融合到细化的试穿结果中。
TFM的训练使用了感知损失Lperc、试穿结果间的L1损失以及Mask间的L1损失。

最后,可以反投影从DRM中获得的前、后视图深度图,以获得3D点云,并使用screened Poisson reconstruction对其进行三角化[25]。由于试穿结果在空间上与深度图对齐,因此3D点云可以直接用于为网格的正面着色。对于背部纹理,首先使用快速匹配方法修复试穿图像,用周围的头发颜色填充面部区域,然后镜像修复后的“背部”视图图像,对网格背面进行纹理处理。

你可能感兴趣的:(论文阅读,计算机视觉,深度学习,机器学习)