基于深度学习的单目图像深度估计总结

图像深度估计,是目前计算机视觉研究中的经典问题。深度图(Depth Map)表示每个像素在空间中的位置,是一种普遍的三维场景信息表达方式,广泛应用于自动驾驶、三维重建等方面。
基于深度学习的单目图像深度估计是本领域近几年的趋势。想把最近看的几篇论文做一下总结,主要是方便以后查看。

1.Depth Map Prediction from a Single Image using a Multi-Scale Deep Network-NIPS2014

基于深度学习的单目图像深度估计总结_第1张图片
这篇论文是第一篇基于深度学习做单目图像深度估计的文章。本文提出了一个Multi-Scale的深度神经网络用来解决深度预测的问题。通过对整幅图进行全局预测(Global Coarse-Scale Network)和局部调优(Local Fine-Scale Network),来获取单张图的深度图。

2.Unsupervised Monocular Depth Estimation With Left-Right Consistency-CVPR2017

基于深度学习的单目图像深度估计总结_第2张图片
本文采用无监督学习的方法来估计深度,基本思路是匹配好左右视图的像素,得到disparity map。根据得到的视差disparity,由d = bf/disparity,算出depth map。
本文是利用图像重建误差来最小化光度误差,虽可以得到很好地图像重建结果,但得到深度预测结果非常差。为了优化这个结果,作者采用Left-Right Consitency来优化。也就是以左视图为输入,以右视图为training中的监督真值,生成右侧对应的视图;然后又以左视图为监督真值,根据右视图生成左视图。最小化这两个过程的联合loss则可以得到一个很好的左右视图对应关系。最终网络得到一个四个scale大小的输出(disp1-disp4)。
Code:https://github.com/mrharicot/monodepth

3.Towards real-time unsupervised monocular depth estimation on CPU-IROS2018

基于深度学习的单目图像深度估计总结_第3张图片
这篇文章是在《Unsupervised Monocular Depth Estimation With Left-Right Consistency》的基础上提出了pydnet模块,为解决计算大量参数,在正向恢复时间需大量的内存,模型的实时性能只能在高端或耗电量大的gpu上可行的问题。这是第一种能够在cpu上实现这种性能的方法。
Code:https://github.com/mattpoggi/pydnet

4.Unsupervised Learning of Depth and Ego-Motion from Video-CVPR2017

基于深度学习的单目图像深度估计总结_第4张图片
这篇文章使用端到端的学习方法,以视图合成作为监督信号,提出一种基于视频序列的无监督学习框架,用于估计单目图像深度和相机运动。虽然效果不太好,但是在方法和适用性方面是很值得学习的。《Unsupervised Ego-Motion and Dense Depth Estimation with Monocular Video》这篇文章在zhou的基础上,提出了两个新的loss函数,效果有很大提升。
Code:https://github.com/tinghuiz/SfMLearner

5.Deep Ordinal Regression Network for Monocular Depth Estimation-CVPR2018

基于深度学习的单目图像深度估计总结_第5张图片这篇论文的思想是将深度估计建模为一个回归问题,网络框架是deeplab+序回归。网络框架部分是借鉴语义分割中经典的网络框架模型deeplabv2和pspnet思想。该方法具有较高的精度和较快的同步收敛速度,同时也能够捕捉多尺度信息。
目前在KITTI-depth prediction上排名第二,获得2018年“鲁棒视觉挑战”一等奖。
Code:https://github.com/hufu6371/DORN

6.Attention-based Context Aggregation Network for Monocular Depth Estimation-CVPR2019

基于深度学习的单目图像深度估计总结_第6张图片
这篇论文基本思想是把深度估计问题转换为分类问题(那么有一个问题就是:语义分割领域的框架是不是可以直接拿过来用???)。
网络框架分为三部分:
1.Encoder框架采用ResNet网络(能提取稠密特征,有较好的梯度传播能力),本文将原始ResNet中的block3和block4替换为2-膨胀残块和4-膨胀残块,有利于初始化预训练参数,保持subsequent特征图的尺度;
2.Decoder框架提出了新的CAM(Context Aggregation Module)模块,利用Self-attention和Image-Pooling分别提取并聚合图像级和像素级上下文信息;
3.提出了一种易于实现的Soft Ordinal Inference,与单纯的硬推理相比,该策略可以减少离散误差,生成更真实的深度图。
Code:https://github.com/miraiaroha/ACAN

7.Depth from Videos in the Wild:Unsupervised Monocular Depth Learning from Unknown Cameras-CVPR2019

这篇论文是今年四月份由谷歌AI与机器人实验室联合发布的最新研究结果,效果可媲美LiDAR。
基于深度学习的单目图像深度估计总结_第7张图片
这品论文提出了一种利用相邻视频帧间的一致性作为监控信号,同时从单目视频中学习深度、自我运动、物体运动和摄像机内参的新方法。主要贡献如下:
1.证明了可以用一种无监督的方式训练深度网络,并从视频本身预测出相机的内参(包括镜头畸变参数);
2.是第一个以几何方式从预测深度直接处理视频中的遮挡问题;
3.大大减少了处理场景中移动元素所需的语义理解量:只需要一个覆盖可能属于移动对象的像素的单个掩码,而不是分割移动对象的每个实例并跨帧跟踪它。
这篇文章还未公布源码,文章还需再更进一步的理解。

你可能感兴趣的:(基于深度学习的单目图像深度估计总结)