每天一篇论文 Geometric Pretraining for Monocular Depth Estimation

Geometric Pretraining for Monocular Depth Estimation

摘要

ImageNet预训练网络已广泛用于单目深度估计的传递学习中。这些预训练网络经过分类损失训练,在分类损失中仅利用语义信息而忽略空间信息。但是,语义和空间信息对于每个像素的深度估计都很重要。在本文中,我们设计了一种新颖的自我监督的几何预训练任务,该任务可以使用未经校准的视频对单眼深度进行估算。设计的任务通过简单而有效的条件自动编码器-解码器结构将结构信息与输入视频解耦。使用来自互联网的几乎无限的视频,对网络进行了预训练,以捕获场景的各种结构,并可以使用校准后的图像轻松地将其转移到深度估计任务中。大量的实验来证明所提议的几何预训练网络在准确性,快速学习和泛化能力方面比ImageNet预训练网络更好。使用现有的学习方法,几何转移网络可以大幅度获得新的最新结果。经过预训练的网络将很快开源。

贡献

1.用互联网的视频来预训练模型,使其在语义和空间感知能力增强。
2.将预训练的模型转移到深度估计的实际任务之中。

方法

给定视频的两个相邻帧,两个帧之间的光学流动是由移动的摄像机和独立对象的运动引起的。 将D表示为源帧的深度图,并将K表示为相机固有矩阵。 表示摄像机和物体的运动

每天一篇论文 Geometric Pretraining for Monocular Depth Estimation_第1张图片
每天一篇论文 Geometric Pretraining for Monocular Depth Estimation_第2张图片
提出的几何预训练任务的核心是将结构信息与光学流分开。 利用条件编码器/解码器,使用基于来自两个图像的运动信息为条件的单个图像的结构信息来重建光学流。 通过压缩运动信息,结构编码器网络捕获运动不变的结构信息,从而可以正确估计光学流。
Loss
可以通过光度一致性假设来计算两个帧之间的光学流。 在预训练中,损失函数由一个光度项和一个平滑度项组成:
在这里插入图片描述
预训练数据集
KITTI CityScapes and YouTube videos
KITTI数据集和CityScapes数据集已经过仔细校准,但大小受到限制。 相反,在互联网上,有无数的汽车摄像头捕获的驾驶视频,没有任何校准或标签。 这些视频涵盖了世界各地的城市以及各种城市结构。 我们从YouTube总共下载了87个序列,并以10Hz采样了图像。 为了简化以下实验,我们提取了两个基于YouTube的大小不同的数据集。 较小的一个(D s)包含用于训练/测试的18k / 1k图像,较大的一个(D l)包含38k / 2.7k的三元组。 图3显示了提取的数据集的图像样本。 如图所示,提取的图像涵盖动态场景和各种结构(例如,图像中的汽车上的自行车)。
使用与训练模型与Monodepth2 结合
使用kitt的分割数据训练立体监督深度估计,使用zhou_split数据集分割训练单目或单目立体监督深度估计。为了评估训练网络的性能,我们遵循将深度值限制在80m的标准方法。在评估之前,将单目监督深度图按中值比例缩放,以校正单目序列中的未知比例。
使用几何预训练网络作为深度学习的初始化,比imagnet初始化模型具有更高的精度。为了克服预训练数据量小的缺点,可以采用二阶传递学习(imagnet→几何预训练→深度学习)。我们还以更高分辨率的几何预训练ResNet50作为编码器,地获得了最新的最新结果。
预训练的优点
与使用ImageNet预训练网络相比,使用几何预训练网络的镜头深度学习很少显示出优势。通过比较kc(蓝线)和kcd(黑线)的性能,发现随着预训练数据集规模的增加,少量镜头的学习能力提高。即使在预训练中没有KITTI数据集,使用internet图像预训练的网络d的性能也始终优于ImageNet预训练的网络。
每天一篇论文 Geometric Pretraining for Monocular Depth Estimation_第3张图片
每天一篇论文 Geometric Pretraining for Monocular Depth Estimation_第4张图片

你可能感兴趣的:(每天一篇论文 Geometric Pretraining for Monocular Depth Estimation)