论文笔记- Geometry-Aware Symmetric Domain Adaptation for Monocular Depth Estimation

  • 论文信息

  • 代码链接

    • https://github.com/sshan-zhao/GASDA
  • 论文主要贡献

    • 域适应网络用于单目深度估计,可以生成高质量的图像风格迁移结果和深度估计结果
    • 利用合成标注数据和真实双目立体数据的几何约束关系的组合,训练的单目深度估计网络能够提高性能
    • 在 KITTI 数据集的结果证明了方法的有效性,在 Make3D 数据集的结果证明了方法的泛化性能
  • 论文要点翻译

    • 摘要

      • 有监督深度估计取得的进展和高精确性,但是依赖大量真实标注的深度图像,而真实标注的深度图像往往难以采集,利用非监督方法的深度估计在性能上无法满足真实需要,如何解决合成场景数据到真实场景数据的迁移时研究目标之一
      • 但是这些方法没有注意到目标 domain 的自然场景图像具有的几何特性,而这些几何特性会影响到深度估计的准确性,基于这些观察,本文提出具有几何特性的对称的域转换网络,GASDA,以此联合利用合成数据的深度图像和真实数据的几何特性约束
      • 通过训练两个图像风格迁移网络和深度估计网络,模型达到更好的图像风格迁移效果,而且能够估计高质量的深度图
      • 实验结果显示,提出方法与 SOTA 方法获取相似的性能
    • 引言

      • MDE 在计算机视觉领域的广泛应用
      • DCNN 在 MDE 中的广泛应用,非监督方法对大量标注的深度图像的需求,而标注图像往往难以采集,为了解决这些问题,非监督方法通过使用基于几何的线索,用于在训练中不使用标注数据进行训练,然而,这些方法带来的问题主要是比较模糊、光照特性变化、遮盖问题难以解决等
      • 比起真实数据,合成数据更容易获取其深度图,因此,现有的一些方法利用合成数据做视觉任务,但是由于合成数据和真实数据之间存在 domain shift,因此这些方法难以完美泛化到真实数据场景
      • 为了解决问题,一些方法通常利用 domain adaptation 解决数据 domain 之间的差异性,现有的工作中,【2,26,59】使用合成数据,通过 domain adaptation 已经达到了较好的性能,这些方法通过域风格转换在 domain 之间变换,但是由于缺乏成对数据,所以除了风格变化还带来了一些没有预想到的性能损失,而非监督信号往往能带来一些额外的约束,因此同时使用合成数据和真实数据用于生成深度图可能会有较好的效果
      • 本文的 GASDA 用于带有几何特性的对称域适应网络,网络由两个部分组成,即对称的域风格转换网络和深度估计网络组成。受到 CycleGAN 启发,GASDA 利用几何一致性将真实-合成和合成-真实两条线的风格转换进行耦合,并基于双目立体图像的几何约束用于耦合的训练,网络同时利用合成标注数据和双目立体图像数据训练,能够充分利用合成场景数据和真实场景数据,最终模型能够在保留图像几何特性的形况下进行图像风格转换,最终得到更好的深度预测性能
    • 相关工作

      • 单目深度估计:作用和典型应用,概率图模型和非参数方法的应用及其局限,典型的监督学习 DCNN 方法在深度估计中的应用及其局限(标注数据需求)、典型的自监督、非监督方法的典型应用
      • 域适应:模型的泛化性能的解决,通过 MMD 方法等提高,以及将域适应网络方法用于单目深度估计的典型网络,【2】的两阶段网络,首先利用转换器将自然场景图像转为合成数据,合成数据被用于有监督地训练单目深度估计网络,然后利用这个网络估计实际的深度(读者注:这里其实做出了两个场景深度图数据分布相似的假设),【26】的网络,提出内容正则化,解决模式崩塌的问题,【59】提出 T2Net ;这些方法忽略了图像的几何特性,受到这些方法的启示,本文提出 GASDA
    • 方法

      • 模型概览:给定有 N 个合成的图像-深度对的训练集, { ( x s i , y s i ) } i = 1 N \{(x_s^i,y_s^i)\}_{i=1}^N {(xsi,ysi)}i=1N,目标在于在此基础上学习深度估计网络,且该网络能较好地泛化到真实场景的数据场景,但是保证这种泛化特性是较难做到的,主要原因在于不同数据 domain 之间的 shift
      • 本文使用的方法,利用双目立体图像提供的几何约束,提出了具有几何特性的对称域适应网络,GASDA 由两个部分组成,分别是风格迁移网络和单目深度估计网络
      • 与之前的方法不同,GASDA 同时考虑真实到合成和合成到真实两条主线的风格转换,对应训练两个深度估计网络分别用于真实深度估计与合成深度估计,分别对原有的合成数据 X s X_s Xs 估计深度得到 f s ( X s ) f_s(X_s) fs(Xs) ,对合成数据转换得到的伪真实数据 G x 2 t ( X s ) G_{x2t}(X_s) Gx2t(Xs) 估计深度得到 f t ( G x 2 t ( X s ) ) f_t(G_{x2t}(X_s)) ft(Gx2t(Xs)),这个过程通过监督学习的方式进行训练,两个模型进行互补,因为 s 数据是较为干净的合成数据,而 t 数据是生成的有噪声、模糊、毛躁的数据
      • 由于深度和场景的几何特性有关,因此域之间的场景的几何特性由于风格转换可能不一样,所以在 s 数据或者 t 数据上训练的网络可能在另一个数据上效果受限。为此,本文 GASDA 通过真实的双目立体图像对提供几何约束,用于训练中鼓励两个 F 网络能够捕获对应的真实或合成场景数据集中的几何结构特性
      • 此外,GASDA 引入了额外的深度一致损失用于约束两个 F 网络估计结果的局部一致性
    • 本文使用的 loss

      • 双向的风格迁移 loss

        风格转换中常用的 GAN 训练方法,该 loss 由生成器和判别器之间的对抗 loss 组成

      • 双向循环的循环一致性 loss

        两个方向的数据应当具有一致性,通过 L1 loss 将这种一致性进行形式化描述

      • 深度估计 loss

        主要通过估计结果与真实标注之间的 L1 距离进行描述

      • 几何一致性 loss

        SSIM 项和 L1 loss 的加权组合

      • 深度圆滑 loss

        利用梯度算子计算

      • 深度一致性 loss

        合成图像与其对应真实图像的深度图的一致性,利用 L1 loss 进行形式化描述

你可能感兴趣的:(计算机视觉,论文笔记,深度学习,计算机视觉,人工智能,深度学习)