单目图像深度估计 - SLAM辅助篇:MegaDepth


目录

  1. 入门篇:图像深度估计相关总结
  2. 应用篇:Learning to be a Depth Camera
  3. 尺度篇:Make3D
  4. 迁移篇:Depth Extraction from Video Using Non-parametric Sampling
  5. 深度篇:David Eigen
  6. 无监督篇:Left-Right Consistency & Ego Motion
  7. 相对深度篇:Depth in the Wild & Size to Depth
  8. SLAM辅助篇:MegaDepth
  9. 方法比较篇:Evaluation of CNN-based Methods

单目图像深度估计 - SLAM辅助篇:MegaDepth

今天的论文笔记是关于以下这篇Paper:
[1] MegaDepth-Learning Single-View Depth Prediction from Internet Photos, CVPR, 2018 [Project Page]
CVPR的单目深度估计论文有很多,粗略的看了一圈,决定写这篇。之前的博客里写到过说目前所有的计算机视觉相关的深度学习方法都有一个共同的问题——对数据集的依赖。在单目图像深度估计来看呢,就是基于室内数据集NYUDepth训练出来的模型在室外数据集KITTI、CitiScape里表现不好,反之亦然。与此同时,目前的数据集还存在很多其他不足比如场景单一(NYU),训练集规模小(Make3D),采样稀疏(KITTI)。
为了解决这些问题,作者提出一个全新的思路:

用来源于网络的多张景点图像通过建模算法进行三维建模,从而得到对应的深度预测值,通过对预测值进行一系列优化(如划分临时物体(如游客),根据语义分割将前景、背景和天空单列处理等),用优化后的数据训练深度预测网络,通过结合梯度、尺度不变和相对深度的loss进行网络训练。

总结的还不够精炼,我认为loss方面就是将现在比较流行的方法大杂烩了一下,更有创新的是作者利用网络图片的思路。
因为某一热门景点的照片,通过tag可以轻松的在网络上找到,而且照片来源的多样性保证了照片角度的丰富性,更适用于放在三维建模算法里进行建模,文章中用到的建模软件为COLMAP。面临的问题就是网络照片中的随机内容,比如景点照中的行人,甚至以景点为tag的自拍。

1. 数据集建立

首先在Flickr上收集Landmarks10K数据集中的地标对应的图片,然后用SfM(structure from motion)和MVS(multi-view stereo)方法进行3D建模,建模后获取到的是景点的模型和建模时使用的每张图片对应的深度图。
但得到的原始深度图有很多噪声点和异常值,因此要对深度图进行优化,优化分为以下两个步骤:

  1. 改进MVS算法,在每一步迭代时对比像素深度更改,限制只能进行小范围的更改,并且附加中值滤波去除不稳定的深度值。提出这个优化的原因是在COLMAP的MVS过程中,算法设计为了保证geometric consistency,因此对于一些存在前景比如游客的照片,在迭代的过程中会把前景深度同化成背景的深度,造成数据出错。
  2. 利用语义分割生成序列深度(相对深度)信息。

单目图像深度估计 - SLAM辅助篇:MegaDepth_第1张图片

具体解释一下第二个步骤。
由于multi-view stereo方法不擅长处理临时物体(行人、汽车)和难以建模的物体(杆、信号灯、天空区域),但这些难以识别的物体可以在语义上进行分割和提取。作者使用语义信息做了以下三个处理:

  1. Semantic filtering:去除MVS得到的不准确前景(foreground)深度信息。用PSPNet对图像进行语义分割,将像素分为前景(喷泉、雕塑、游客)、背景(建筑、塔、山)和天空三类。
  2. Euclidean vs. ordinal depth:以语义为标准对图片进行分类,划分为euclidean depth data和ordinal depth data。通过阈值判断在建模过程中重建的(reconstructed)像素的比例,大于30%的图片认为是有效的图片,可以用于进行Euclidean估计,这样可以排除自拍的照片,因为自拍中建筑物占比较小;
  3. Automatic ordinal depth labeling:利用语义标签自动标记前后深度序列信息。

单目图像深度估计 - SLAM辅助篇:MegaDepth_第2张图片

####2. Loss组成

文章的loss分为三个部分,分别是尺度不变loss,多尺度梯度loss和相对序数关系loss,公式如下:
单目图像深度估计 - SLAM辅助篇:MegaDepth_第3张图片

3. 总结和思考

这片文章找到了网络图片利用的一个突破口,网络图片的数量巨大,但是缺少对应的深度标签,由于深度网络对数据的依赖,有效的利用大量的网络数据可以提高预测模型的表现能力。但问题同样存在,因为深度估计建立在MVS等算法基础上,有了中间商赚差价导致最终的结果不能超过MVS生成的图像。

你可能感兴趣的:(单目图像深度估计,计算机视觉,算法,机器学习,人工智能,深度学习)