Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching(CVPR 2020)

作者:Wayne
链接:https://www.zhihu.com/question/379109637/answer/1083127862
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

文章:Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching​arxiv.org代码(已开源):Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching

方向:

3D重建,包括Multi-view stereo和Stereo matching。

主要解决的问题:

目前基于Deep learning的方法构建的3D Cost Volume需要3D卷积来做cost aggregation消耗显存非常大,为了节省内存一般最终输出的depth/disparity map限制为输入的1/4。

方法:

把模型中单一的Cost Volume的形式更换为一种级联的多个Cost Volume,并且越靠后阶段的Cost Volume其depth/disparity hypothesis越少(依靠前阶段预测的结果),空间分辨率越高(使用更高分辨率的2D特征来恢复更多细节)。

实验结果:

在MVS上,相对于MVSNet,我们到模型在DTU上精度提升25%,GPU Mem使用量降低50.6%,运行时间降低59.3%。在公开的benchmark上:DTU上性能排名第一,在Tank and Temples所有深度模型效果排名第一。在KITTI Stereo上使用我们Cascade Cost Volume的形式将GwcNet从 29名提升到17名。Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching(CVPR 2020)_第1张图片

链接:https://zhuanlan.zhihu.com/p/112626310

摘要:

深度多视角立体视觉(multi-view stereo, MVS)和立体匹配(stereo matching)通常采用构建三维代价体(3D cost volumes)来约束和回归深度或差异值。由于存储和时间消耗会随着代价体(cost volume)的分辨率的增加而三次方级的增加,所以目前已有的方法受限于大分辨率的输出。在这篇文章中,我们基于3D cost volume提出一个在存储和时间上高效的cost volume 方法来弥补现有MVS和stereo matching 方法的不足。首先,我们提出的cost volume 是建立在一个能在逐渐增加的合适的尺度上表达几何和周边信息特征金字塔(feature pyramid)。其次,我们可以通过前一阶段预测 出的结果来缩小深度值或者差异性的范围。随着逐渐增大的cost volume 的分辨率(resolution)和自适应调整的深度或差异性间隔(interval),提出模型的结果从粗糙到精细化(coarser to fine manner)。

我们将提出的cascade cost volume 应用到有代表性的MVS-Net,在DTU数据集上提升了23.1%,同时GPU memory 降低50.6%,运行时间降低了59.3%。提出的模型同时相比所有的深度方法在 Tanks and Temples 数据集比赛上排名第一。在其他有代表性的立体卷积网络(stereo CNNs)上的accuracy、run-time和GPU memory 统计结果也证明了提出模型的有效性。代码链接: github.com/alibaba/cascade-stereo。

你可能感兴趣的:(Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching(CVPR 2020))