【虚拟试衣论文笔记】C-VTON: Context-Driven Image-Based Virtual Try-On Network

论文地址:https://openaccess.thecvf.com/content/WACV2022/papers/Fele_C-VTON_Context-Driven_Image-Based_Virtual_Try-On_Network_WACV_2022_paper.pdf
项目地址:https://github.com/benquick123/C-VTON

【虚拟试衣论文笔记】C-VTON: Context-Driven Image-Based Virtual Try-On Network_第1张图片
作者提出了一个上下文驱动的虚拟试穿网络 (C-VTON),即使在具有挑战性的姿势配置和存在自我遮挡的情况下,也能令人信服地将选定的服装区域转移到目标对象。
C-VTON 的核心步骤有两个:

  1. 几何匹配部分,利用提出的身体部位几何匹配器(BPGM)可以有效地将目标服装与输入图像中的人的姿势对齐;
  2. 虚拟试衣合成部分,上下文感知生成器(CAG)在合成最终结果时利用各种类型的上下文信息试穿结果。

C-VTON 在 VITON 和 MPV 数据集的严格实验中进行评估,并与文献中的最先进技术进行比较。实验结果表明,所提出的方法能够产生照片般逼真和视觉上令人信服的结果,并且显着改进了现有的最新技术。

The Body-Part Geometric Matcher (BPGM)

【虚拟试衣论文笔记】C-VTON: Context-Driven Image-Based Virtual Try-On Network_第2张图片

与其他利用与clothing-agnostic 复杂人物表示方法不同,BPGM 仅依赖于**身体部位分割(DensePose)**来预测TPS参数,DensePose是一种包含25个通道(分别代表不同身体部位)的人体语义分割模型。
BPGM的架构采用了CP-VTON中GMM的结构,包含两个编码器分别用来编码DensePose和in-shop服装C,之后对编码的特征进行L2正则化后进行Correlation经过回归层的到预测的TPS参数θ。

BPGM使用了3种损失函数来进行模型训练:

  1. 目标形状损失(Lshp):鼓励变形过程将目标服装呈现为与主体 I 的姿势相匹配的形状
  1. 外观损失(Lapp):迫使身体区域内扭曲的衣服 Cw 的视觉外观尽可能与输入图像 I 相似
  1. 感知损失(Lvgg):确保目标服装及其变形版本在身体区域内包含相同的语义内容
【虚拟试衣论文笔记】C-VTON: Context-Driven Image-Based Virtual Try-On Network_第3张图片

其中Lshp计算扭曲后的Mask和reference的目标部分的Mask之间的L1 Loss,而Lapp和Lvgg计算DensePose躯干部分的扭曲后服装和原始图像之间的L1 Loss及VGG Loss。

The Context-Aware Generator (CAG)

【虚拟试衣论文笔记】C-VTON: Context-Driven Image-Based Virtual Try-On Network_第4张图片

CAG由一系列 ResNet 块和 (2×) 上采样层组成,并增加了本文所提出的上下文感知标准化 (CAN) 操作。 CAN 层旨在有效地利用来自图像上下文的信息。如图 4(a) 所示,这是在不同的分辨率下完成的,以确保生成器的激活在不同的粒度级别上进行空间归一化,以及关于目标语义布局和合成输出所需外观的信息是在整个生成器中有效传播。
每个 ResNet 块都有两个输入:图像上下文和来自前一个模型层的激活图。而生成器的第一个 ResNet 块对两个输入都使用最小分辨率(8×6 像素)的图像上下文。
如图4(b)所示,ResNet 块由一系列批量归一化和卷积层组成,并且重复两次,CAN 操作在卷积层之前可以表示为:

CAG的训练用到了4个损失,其中有感知损失 (Lper) 鼓励生成器在语义方面产生尽可能接近参考输入图像的虚拟试穿结果,其他3个损失分别由三个辨别器定义,Dseg用于保证其通过预测分割图分布来生成逼真的身体部位,Dmatch旨在鼓励生成器通过预测目标服装 C 是否对应于 I 或 Ic 中所穿的服装来将输出图像与所需的目标服装合成,Dptc通过关注基于分割图从固定位置采样的局部补丁的外观来产生损失。

你可能感兴趣的:(论文阅读,pytorch,计算机视觉,深度学习)