Monodepth2口臭学习记录1

看不懂文章,先几把翻译一遍,浅读一下

摘要:每个像素的深度值真值数据的是很难大范围获取的。为了解决这一问题,自监督学习训练深度估计模型的方法有希望的可选项出现了。本文中,我们提出了一系列的提升,共同使深度图得到了数量上和质量上的提升,对比对比的自监督方法。

在自监督单目训练经常使用逐渐复杂的模型和损失函数,和图像形成模型,使得逐渐与有监督的模型相近,我们展示了一个令人惊讶的简单的模型,和设计好的选择 ,导致更好的预测。特别的,)(1)我们提出了一个最小重投影损失,设计用来好点解决遮挡问题(2)一个全分辨率的多范围的采样方法,减少了视觉artifacts(伪影?)(3)一个自动mask的损失来忽视反对相机运动假设的像素。我们单独的展示每个组件的效果,并且展示了高质量的,最先进的结果在KITTI数据集上。

1.介绍

我们尝试自动推断图像的密集深度,从一单个颜色输入图像种。估计绝对或者相对深度,而不带另一张图像一使用三角化,看起来有病(雀氏)。然而,人是可以在现实世界中导航和交互的,这使得我们假设看起来可以的深度估计对于全新的场景。

产生高质量深度来自颜色是有吸引力,因为不贵的补充雷达传感器使用在自动驾驶汽车中的,并使得单个图像应用在图像编辑和AR上。解决弹无监督单目深度估计对于下游的细任务也很牛逼。然而,收集大量且广泛的训练数据带有准的真值对于有监督学习来说,艰难的一批。作为一个可选项,几个近期的自监督方法显示可能用图像对或单目序列来做。【Unsupervised CNN for single view depth estimation: Geometry to the rescue[12]、Unsupervised monocular depth estimation with left-right consistency[15]、Unsupervised learning of depth and ego-motion fromvideo】。

在两种无监督方法种,单目序列更有吸引力,但是自己也有问题,因为模型需要估计自我运动在暂时的图像对之间,这就经典的涉及到训练一个位姿估计网络需要优先的图像序列作为输入,然后输出相应的相机变换。相反的,使用深度双目数据训练使相机位姿估计成伟一个一次性线下定标,但是导致问题,相关于遮挡,和纹理复制的伪影(artifacts)[15]。

我们提出了三个架构和损失创新结合的,导致大提升在弹幕深度估计当使用单目视贫训练,图像对或者都有训练。(1)一个全新的表面匹配损失解决遮挡像素问题放生在当使用单目监督时。(2)一个去哪新的和简单的自动掩膜方法忽视像素哪里不相关相机运动被观察在单目训练中。(3)一个多尺度表面匹配损失that执行所有图像采样在输入分辨率,导致一个减少在深度artifacts(这是个啥?),。一块,这些贡献产生现在最牛逼的。

2.相关工作

我们复现模型,在测试期间,采用同一单张彩色图作为输入,并且预测深度of 每个像素作为输出。

2.1有监督深度估计

一张图像其实可以投影到很多深度。解决这个,深度学习方法学习彩色图和深度之间的关系。多种方法,比如结合本地预测【19,55】,非参数场景采样,通过端到端有监督学习被发掘,基于学习算法也在一些最好的双目估计和光流估计之中。【这里有很多文献,待会看看】

还有一种弱监督训练方法。已知物体大小【】,稀疏ordinal(顺序?)深度【】,有监督的外表匹配项【】,或者不成对的合成深度数据【】,这些仍然需要外加深度或者其他东西。合成训练数据可选项,但是并不琐碎生成拉凉的合成数据包含广泛的真实世界appearence和运动。近期的工作显示,传统的sfmpipeline可以生成稀疏的训练数据对于相机位姿和深度来说,其中跑sfm一般作为与学习方法不挂钩的预处理步骤。最近,【65】给予我们的模型通过提升带噪声的深度线索来自传统立体算法提升了深度图预测。

2.2自监督深度估计

没有深度真值的情况下,一个可选项是训练深度估计模型使用图像重建作为监督信号。这,模型利用一串图像作为输入,可以视立体图像对或者单目序列。通过将图像投影到福建的是叫上,模型利用最小重构误差来训练。

自监督的立体图像训练

自监督的一种形式来自于立体图像对。这里,合成的立体信号可选在训练期间,并且训练图像对之间的像素视差,一个网络可以被训练来执行单目深度估计任务在测试时。提出了如此一个模型使用离散化的深度来自去哪新的视觉合成问题。【12】延伸了这个方法通过预测连续的视差值,并且【15】通过使用左右深度一致性超娱乐同时期的监督方法。基于立体的方法已经被延展到使用半监督的数据,生成对抗网络,额外的一致性【50】,暂时的信息,和实时使用。

这个工作,我们站视细心的选择关于表面损失和图像分辨率我们可以使单目训练的性能比双目。更多,我们贡献之一,carries over to 双目训练,导致性能提升。

自监督单目训练

一个更少约束的形式属于自监督是用单目视频,其中连续暂时帧提供训练信号。此时,网络估计相机位姿在帧间和深度,这个是在有物体运动的情况下有挑战。估计的相机位姿仅仅需要在训练中帮助约束深度估计网络。

在第一个自监督方法,寻来你一个深度估计网络连带上位姿预测,为了应对非刚性场景运动,一个额外的运动解释mask允许模型无视违反刚性场景假设的特定区域。然而,他们模型的后面几代网上可用将这一项搞掉了,实现了更好的表现。有【41【启发,61提出了一个更加复杂的运动模型使用多运动任务,然而,这个还是没有完全评估,使得李姐其实用性更难了,【71】也奖运动刚分解成刚性和非刚性组成,使用深度和光流来解释物体运动。这种提升的光流估计,但是他们报告在联合训练光流和深度是每提升。在光流估计的环境中,【22】显示对模型occlusion有帮助。

最近的方法开始减小单目和夺目在深度估计之间的差距,【70】约束深度估计使其与表面法向量一致,【69】强制边缘一致性,【40】提出逼近几何基于匹配损失来鼓励暂时的深度一致性。【62】使用深度norm层来克服对小深度值的偏好来自于常用的深度平滑项【15】,【5】使用预先计算的实力分割掩膜对于已知的分类来帮助处理运动物体。

基于表面的损失

自监督训练通常依靠制造关于表面的假设,比如亮度一致性和物体表面材料行止比如琅勃表面,【15】显示包含基于局部结构的表面损失明显的提升了深度估计性能,对比于简单的成对像素偏差。【28】延伸了这个方法来包括一个误差fitting项,【43】研究了结合基于对抗的损失来鼓励现实样的合成图像。最后,收到72启发,73使用深度值之来训练表面匹配项。

3.方法

这里,我们描述我们的深度估计网络使。私用单个图像输入,输出深度图。首先我们复习一下关键idea在自监督训练为了单目深度估计之后,然后描述我们的弹幕深度估计网络和联合训练损失。

3.1自监督训练

自监督深度估计框架将学习问题搞成一个新颖的视觉合成,通过训练网络来预测图像的表面来自另一个图像的视点。通过约束网络来

文章就先看到这里,明天再看:D

你可能感兴趣的:(单目几把深度估计,计算机视觉)