论文阅读笔记《Learning monocular depth estimation infusing traditional stereo knowledge》

网络名称:monoResMatch
论文来源:CVPR2019

核心思想

  本文提出一种自监督实现单目深度估计的网络,其思路也非常简单,将单目深度估计转化成立体匹配问题,再用立体匹配网络进行视差估计。整个网络结构包含以下几个部分:初级特征提取网络,初级视差估计网络,视差优化网络。初级特征提取网络是由一个简单的沙漏型结构构成的,对左图提取高纬度的特征图 F L 0 F^0_L FL0。初级视差估计网络则是一个带有跳跃连接的多尺度的沙漏型结构,输入左特征图 F L 0 F^0_L FL0输出多尺度的左视差图 d L 0..2 d^{0..2}_L dL0..2和一个虚拟的合成的右视角下的视差图 d R 0 d^{0}_R dR0。视差优化网络则是延续了CRL和iResNet的思路,采用残差学习的方式对初级视差图进行优化。利用右视角的视差图 d R 0 d^{0}_R dR0和左特征图 F L 0 F^0_L FL0,经Warp操作之后可获得合成的右特征图 F ~ R 0 \widetilde{F}^0_R F R0,在此基础上计算出误差图 e L e_L eL,再与初级视差图级联起来,输入到视差优化网络中输出不同尺度的视差图。文章还利用左右特征图构建了匹配代价卷,但并没有说明如何利用这一信息的。
论文阅读笔记《Learning monocular depth estimation infusing traditional stereo knowledge》_第1张图片
  本文是采用自监督训练的,也就是说不使用Groundtruth,为了训练网络,作者利用SGM算法获得视差图替代Groundtruth。损失函数分为初始部分和优化部分,分别计算初始视差图的误差和优化视差图的误差,初始部分对左右视差图都计算损失,优化部分只计算左视差图。具体损失函数由三个部分组成:图像重构损失,视差平滑损失和替代监督损失。图像重构损失就是比较左图,与由右图和视差图合成的左图之间的差别。视差平滑损失是利用边缘信息加权。代替监督损失就是利用SGM生成的视差图对网络输出的视差图进行训练。

创新点

  • 提出一种新型的自监督单目深度估计网络,将单目图片重构成双目特征信息,再按照立体匹配的方式获得精准的视差图
  • 利用SGM获取替代的groundtruth,用于实现自监督训练,并设计了相应的损失函数

总结

  这篇文章的思路和之前商汤的一篇文章很类似,都是将单目深度估计问题转化为双目立体匹配问题。但之前的文章是专门训练了一个网络用于合成右图,而在这篇文章中并没有专门对合成图像进行训练,不过仅通过左特征图能否获得准确的视差图甚至是右视角下的视差图,我还是不确定。而且文中提到的匹配代价卷并没有说明如何利用的。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。

你可能感兴趣的:(深度学习,#,立体匹配)