单目深度估计综述

综述

monoDepth(2017,Godard)
受DispNet的启发(DispNet受FlowNet的启发。FlowNet参考了全卷积网络FCN,没有全连接层)
自此以后的深度估计大都基于DispNet。

SfMLearner(2017,Zhou)
使用的是DispNet网络架构,这是一个带跳跃连接(skip connections)和多尺度边(multi-scale side)预测的编码器-解码器网络,后来的深度估计工作基本都采用这样的结构。DispNet预测的是视差,而视差和深度互为倒数,因此用来求深度。

vid2depth(2017,Mahjourian)
这篇文章的网络结构完全基于SfMLearner。

GeoNet(2018,Yin,商汤)
利用视频端到端地同时训练单目深度、光流、位姿估计网络。
DepthNet和ResFlowNet基于monoDepth,PoseNet来自Zhou。

Look Deeper into Depth: Monocular Depth Estimation with Semantic Booster and Attention-Driven Loss(2018,ECCV,Jiao,腾讯)

Towards Scene Understanding: Unsupervised Monocular Depth Estimation With Semantic-Aware Representation(2019,CVPR,无监督)
https://blog.csdn.net/qq_26697045/article/details/84796815

各种深度预测的网络
https://www.cnblogs.com/shepherd2015/p/10438564.html


下面的总结主要是我2019年初整理的文献

对于单目深度估计模型,目前主要分为基于回归/分类的监督模型,基于双目训练/视频序列的无监督模型,以及基于生成学习的图像风格迁移模型。

CVPR2018开始,单目深度估计的效果就已经达到了双目深度估计的效果,主要是监督模型。但是由于现有的数据集主要为KITTI、Cityscapes、NYU DepthV2等,其场景和相机都是固定的,从而导致监督学习下的模型无法适用于其他场景

对于GAN,其对于图像风格的迁移本身是一个很好的泛化点
但是深度估计问题中,像素点存在相对大小,因此必定涉及到回归,因此其必定是监督学习模型,所以泛化性能也不好

对于无监督模型,从理论上来讲,其泛化性能更好。那幺对于无监督模型,我们分两部分进行讨论,第一部分是利用双目视差进行训练的无监督模型,这里的无监督模型中包含有左右视图预测的监督信息,所以存在一定程度的局限性。以Monodepth为例
https://flashgene.com/archives/101503.html

论文和代码 汇总
https://github.com/sxfduter/monocular-depth-estimation
 

你可能感兴趣的:(2D转3D,深度学习,神经网络)