Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video

Paper name

Unsupervised Scale-consistent Depth and Ego-motion
Learning from Monocular Video

Paper Reading Note

URL: https://arxiv.org/pdf/1908.10553.pdf

TL;DR

  • NIPS2019 文章,提出了 geometry consistency loss 解决无监督训练模型的 scale-inconsistent,以及 self-discovered mask 用于缓解运动目标和遮挡带来的影响,在没有增加太多训练复杂度的情况下有效提升模型精度,并且使得 VO 评测结果有大幅度的提升

Introduction

  • 【背景】深度估计无监督训练中存在着以下问题
    • 场景中的运动物体不符合静态场景假设
    • 深度的 scale-inconsistent(orb-slam 等传统的单目方案虽然也有 scale ambiguity 问题,但是预测是 globally scale-consistent),导致预测 pose 网络无法提供长时间视频序列的相机轨迹
  • 本文提出了以下方法解决上述问题:
    • geometry consistency loss 用于尺度一致性约束
    • induced self-discovered mask 用于处理运动目标和遮挡

Dataset/Algorithm/Model/Experiment Detail

Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video_第1张图片

实现方式

  • 整体训练损失为:
    在这里插入图片描述
    其中 L G C L_{GC} LGC 是 geometry consistency loss; L p M L_{p}^{M} LpM 代表通过 self-discovered mask 加权后的 photometric loss ; L s L_{s} Ls 代表平滑性损失

  • Geometry consistency loss:期望 Da 和 Db 能吻合成相同的 3D 场景结构
    在这里插入图片描述
    其中 D b a D_{b}^{a} Dba 是 Da warp 到图像平面 Ib 上的深度,需要和 Db’(Db 插值得到,因为 warping flow 不在 pixel grid 上,所以需要插值) 足够相似;通过两者之和进行 normalize 操作
    在这里插入图片描述
    对相邻帧之间的预测深度都进行一致性约束,由于 posenet 和 depthnet 在训练阶段的损失是耦合的,所以预测的 pose 也具备了 scale-consistent 属性

  • Self-discovered mask:通过上式中的 Ddiff 计算得到 mask,即深度不 inconsistent 的场景结构一般就代表着:动态目标、遮挡、不准确的预测,这些区域的 Ddiff 一般较大
    在这里插入图片描述
    该 mask 用于 re-weight photometric loss,使得 inconsistent 区域的 loss 权重变低,降低了运动物体、遮挡等区域对训练产生的不良影响
    在这里插入图片描述

实验结果

  • KITTI 深度估计评测结果,取得仅基于单目数据训练的 SOTA 效果,在 cityscape 数据集上预训练能大幅涨点
    Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video_第2张图片
  • VO 评测效果,一些子数据集上的效果优于 orb-slam
    Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video_第3张图片
  • VO 评测结果可视化(其中 zhou et al. 方法 scale-inconsistency 问题每帧都与 gt depth 对比计算了一个 scale,ours 方法计算的是全局 scale)
    Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video_第4张图片
  • 消融实验,和 monodepth2 不一致的是这里使用单尺度监督的结果会更好(作者怀疑是低分辨率下 photometric loss 不准)
    Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video_第5张图片
  • GC 能缓解过拟合
    Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video_第6张图片

Thoughts

  • 在没有使用额外的分割或光流网络解决运动物体和遮挡值得借鉴,也不会增加过多的训练计算复杂度
  • 尺度一致性在 vo 这里看起来十分重要

你可能感兴趣的:(paper_reading,深度学习,计算机视觉,自动驾驶)