DragGAN论文阅读

文章目录

  • 摘要
  • 问题
  • 3. 算法:
    • 3.1 基于点的交互式操作
    • 3.2 运动监督
    • 3.3 点跟踪
  • 4. 实验
    • 4.1 质量评估
    • 4.2 量化评估
    • 4.3 讨论
  • 结论

论文: 《Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold》
github: https://github.com/XingangPan/DragGAN

摘要

用户想要灵活控制姿态、形状、表情以及生成目标布局。现有方法:GAN通过有标定训练集实现、或者先验3D模型,这缺少灵活度、精确度及泛化性。本文提出DragGAN,主要包括两部分:
1、基于特征的运动监督,驱动点运动到目标位置;
2、点跟踪方法利用生成器特征定位点。
即使对一些有挑战场景,比如遮挡

问题

DragGAN主要解决两个问题:

  1. 移动点到目标位置;
  2. 跟踪点的位置;

DragGAN基于观点:
GAN的特征空间具有足够区分度,可用于运动监督以及精确点跟踪。

3. 算法:

3.1 基于点的交互式操作

图像控制流程如图2所示,对于依据隐向量 w w w及GAN生成图片 I I I,用户可输入一系列处理点 p i p_i pi记忆对应目标点 t i t_i ti,目标是移动图中目标,使得处理点的语义位置达到对应目标点。
如图2,优化过程分为两步:运动监督及点跟踪。强制处理点移动到目标点的损失函数用于优化隐向量 w w w,得到新的隐向量 w ‘ w‘ w及新图片 I ’ I’ I,每次优化仅运动一小步,具体步长是不清楚的,因此需要通过跟踪模块,更新处理点位置。这个过程持续30-200轮迭代。
DragGAN论文阅读_第1张图片

3.2 运动监督

DragGAN论文阅读_第2张图片

作者提出运动监督损失不依赖于额外的神经网络,由于生成器中间特征已经具有差异性,作者选取StyleGAN2第六个block的特征,作者将其resize到与输出图片尺寸一致。如图3,移动处理点 p p p t t t,损失函数如式1,
在这里插入图片描述

DragGAN论文阅读_第3张图片

二值mask M用于保证保证feimask区域不变;隐向量 w w w可在 W W W空间优化也可在 W + W+ W+空间优化, W + W+ W+空间更易在离群数据上操纵, W + W+ W+表示StyleGAN2各个层使用不同隐向量 w w w W W W表示各个层使用相同隐向量 w w w。实验发现图像空间属性受 w w w前六层影响,因此只更新 w w w的前六层。

3.3 点跟踪

通过运动监督模块更新 w w w w ‘ w‘ w,得到新特征图 F ’ F’ F,新图片 I ‘ I‘ I,但无法提供处理点在新图 I ’ I’ I中位置,点跟踪用于更新处理点 p p p。常规点跟踪方案为光流或粒子视频方法,但是不够高效或者产生累计误差,尤其是在GAN生成伪影时。
作者认为GAN的特征捕获稠密点一致性信息,因此可通过最邻近搜寻寻找处理点,如式2,
在这里插入图片描述
在这里插入图片描述

4. 实验

4.1 质量评估

图4作者比较DragGAN与UserControllableLT,DragGAN结果更加自然,移动更加准确;

图6作者与PIPs、RAFT比较点跟踪方法,作者所提方法更加准确。
DragGAN论文阅读_第4张图片

**真实图片操纵。**通过反向GAN编码真实图片至StyleGAN的隐空间,也可操纵真实图像,如图5、13
DragGAN论文阅读_第5张图片

4.2 量化评估

人脸操纵。
作者通过StyleGAN生成两人脸,利用现有工具预测人脸关键点,通过DragGAN将图1人脸关键点迁移至图2人脸关键点位置,计算迁移后图片人脸关键点与图2中人脸关键点距离,以此为评估指标。结果如表1,可视化结果如图7。
DragGAN论文阅读_第6张图片
DragGAN论文阅读_第7张图片

成对图像重构。
作者利用StyleGAN生成图片 I 1 I_1 I1 I 2 I_2 I2,在光流区域随机采样32个点作为用户输入 U U U,目标为利用 I 1 I_1 I1 U U U重构 I 2 I_2 I2,量化结果如表2所示。
DragGAN论文阅读_第8张图片

消融实验
作者比较不同层特征对运动监督、点跟踪的影响,如图3所示,StyleGAN第6个block特征表现最佳。
DragGAN论文阅读_第9张图片

4.3 讨论

图8展示可移动区域mask的影响。
DragGAN论文阅读_第10张图片
图9展示OOD数据的图像操纵。
DragGAN论文阅读_第11张图片

限制:
图14a展示一些限制,对于一些偏离训练集分布的姿态容易产生伪影。
如图14b、c,对于一些缺少结构信息信息的处理点,跟踪时会出现偏移。
DragGAN论文阅读_第12张图片

结论

作者提出DragGAN,一种交互式基于点的图像编辑方法,可以依据用户输入操纵图像。这归因于两点:
a. 隐向量优化模块,将处理点移动至目标点;
b. 点跟踪模块准确跟踪处理点轨迹。
DragGAN超越现有基于GAN的图像操纵方法,同时开拓新方向,利用生成先验进行图像操纵。

你可能感兴趣的:(论文详解,数据生成,跨模态,论文阅读,DragGAN,AIGC)