#今日论文推荐# CVPR 2022 | 阿里提出单目深度估计新SOTA方法:NeW CRFs

#今日论文推荐# CVPR 2022 | 阿里提出单目深度估计新SOTA方法:NeW CRFs

单目深度估计是从单张RGB图预测场景深度,是一个很具有挑战性的任务。现在做这个任务的方法大都是设计越来越复杂的网络来简单粗暴地回归深度图,但我们采取了一个更具可解释性的路子,就是使用优化方法中的条件随机场(CRFs)。由于CRFs的计算量很大,通常只会用于计算相邻节点的能量,而很难用于计算整个图模型中所有节点之间的能量。为了借助这种全连接CRFs的强大表征力,我们采取了一种折中的方法,即将整个图模型划分为一个个小窗口,在每个窗口里面进行全连接CRFs的计算,这样就可以大大减少计算量,使全连接CRFs在深度估计这一任务上成为了可能。同时,为了更好地在节点之间进行信息传递,我们利用多头注意力机制计算了多头能量函数,然后用网络将这个能量函数优化到一个精确的深度图。基于此,我们用视觉transformer作为encoder,神经窗口全连接条件随机场作为decoder,构建了一个bottom-up-top-down的网络架构,这个网络在KITTI、NYUv2上都取得了SOTA的性能,同时可以应用于全景图深度估计任务,在MatterPort3D上也取得了SOTA的性能。

单目深度估计是从单张RGB图预测场景深度,是一个很具有挑战性的任务。现在做这个任务的方法大都是设计越来越复杂的网络来简单粗暴地回归深度图,这使得这个任务变成了一个困难的拟合难题。
但是,在传统方法单目深度估计中,一些方法会利用马尔可夫随机场(MRFs)或者条件随机场(CRFs),来聚合观测信息,如颜色、纹理、位置等,利用这些信息和预测值来建立能量函数,迭代优化能量函数得到最终深度预测值。所以,在本文工作中,我们也想利用这样的优化思路来更好地估计深度。
不过,由于CRFs的计算量很大,通常只会用于计算相邻节点之间的势能,而很难用于计算整个图模型中所有节点之间的势能,以往的大部分方法也都是选择了邻节点CRFs。但是全连接CRFs会计算一张图模型里所有节点之间的信息交互,显然更加强大,所以在这个任务上,我们希望使用全连接CRFs而非临节点CRFs。
另一个问题是,我们希望构建一个可微分的神经CRFs,这样就可以将其嵌入到一个网络中,从而进行端到端的训练,这有利于整个网络的性能提升。但以往的很多方法,都是将CRFs作为一个后处理的模块,也就是无法嵌入到网络中进行端到端学习。
为了解决这两个问题,我们提出了神经窗口全连接条件随机场,Neural Window Fully-connected CRFs,然后基于此构建了一个bottom-up-top-down的网络,做到了高精度的单目深度估计,在各个数据集上达到了SOTA的性能。

论文题目:NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation
详细解读:https://www.aminer.cn/research_report/62cfc6c37cb68b460feaf696icon-default.png?t=M666https://www.aminer.cn/research_report/62cfc6c37cb68b460feaf696
AMiner链接:https://www.aminer.cn/?f=cs

你可能感兴趣的:(深度学习,大数据)