Point-MVSNet

摘要

一种新颖的基于点的多视图立体(MVS)深度框架。与传统方法不同,该网络直接将目标场景处理为点云。
具体的流程为:

  1. 通过现有的深度学习网络得到一张粗略的深度图。
  2. 将深度图转换为点云,进行迭代来细化点云。
  3. 将3D几何先验和2D纹理融合成为特征增强点云。
  4. 处理特征增强点云以估计每个点的 3D 流(3D flow不知道是不是这样翻译)。

优势:与基于代价体的方法相比,基于点的架构的架构允许更高的准确性、更高的计算效率和更大的灵活性。

引言

和传统的MVS方法相比,基于深度学习的MVS重建的完整度和匹配的鲁棒性更高,因为深度学习方法能够利用场景全局语义信息,对于非朗伯体、遮挡、反光等区域能够更好的进行处理。但基于深度学习的内存消耗大。
Point-MVSNet采用了由粗到细的思想,通过迭代不断的提升精度
Point-MVSNet_第1张图片

网络

Point-MVSNet整体网络可分为两个部分,初始深度图估计、深度优化迭代
Point-MVSNet_第2张图片

1.初始深度图估计

采用MVSNet来预测深度图,具体流程参考MVSNet。构建参考图像 I 0 I_0 I0的深度图。
用较小的深度平面,和更小的代价体大小来减小在初始深度估计的内存消耗。本文中的内存消耗大小为MVSNet的1/20。

2.深度优化迭代

2.1特征增强点云

所谓的特征增强点云就是融合了2D特征信息和3D坐标信息的点。
2D的特征信息。为源图像 I i I_i Ii构建了一个三层的特征提取金字塔来提取特征,使用步长为2的2DCNN对特征图进行下采样,每层未进行下采样的特征图记为 F i = [ F i 1 , F i 2 , F i 3 ] F_i=[F_{i}^{1},F_{i}^{2},F_{i}^{3}] Fi=[Fi1,Fi2,Fi3]的。
3D特征信息。3D点的特征是多视图图像特征的方差和世界坐标系下归一化的点共同作用得出的。

已知源图像特征图和相机参数,将特征图反投影到参考图像相机视锥空间下,然后基于方差计算匹配代价。由于每层特征图的大小不一,所以需要相应的缩放相机的参数矩阵大小。对于第 j 层的金字塔特征,N 个视图的方差度量定义如下

将获取的图像特征与归一化 的点的坐标进行连接
> ![[Pasted image 20221111093925.png]]
C p C_p Cp就是增强点云,作为Pointflow的输入。

2.2 PointFlow

已知相机参数,将粗略的深度图反投影为参考相机视锥空间的3D点云。对于每个点,从N张图像中观察这个点的领域点,来估计这个点沿着参考相机方向与地面真值之间的位移。

假设点的生成
由于透视变换,2D特征图的上下文信息无法反应3D欧几里得空间的邻域点的距离。
对于深度图反投影得到的点P,我们沿着参考相机方向构建具有不同位移的假设点集 P ~ \tilde{P} P~.
其公式为: P ~ k = p + k s t , k = − m . . . m \tilde{P}_k=p+kst, k=-m...m P~k=p+kst,k=m...m其中s为位移大小,t为归一化的参考相机方向。
Point-MVSNet_第3张图片

边缘卷积
采用DGCNN方法来丰富相邻点之间的特征聚合,采用kNN算法,在点集上构建有向图,将局部几何结构用于点的特征传播。
![[Pasted image 20221111110135.png]]

C p ~ = { C p ~ 1 , . . . C p ~ n } C_{\tilde{p}}=\lbrace C_{\tilde{p}1},...C_{\tilde{p}n} \rbrace Cp~={Cp~1,...Cp~n} 表示特征增强点云
h ⊖ h_{\ominus} h ⊖ \ominus 可学习非线性函数
□ \Box 是通道对称聚合操作

流预测网络

输入:特征增强点云
输出:深度残差图

Point-MVSNet_第4张图片

该模块用三层的边缘卷积来聚合点集内不同尺度的点的特征,将包含点局部信息的输出进行连接,通过共享多层感知器来转换逐点的特征,通过softmax得到每个点云在假设点上的概率值,最后通过加权平均得到最后每个点预测点云的偏移量
在这里插入图片描述

迭代和上采样
对于输出的深度图可以采取上采样的方法进行迭代优化,每一轮迭代的深度间隔s可以缩小,来提高每次迭代的精度

3.损失函数

将问题视为回归问题,用L1损失函数来训练网络。所有迭代过程的深度预测图都被考虑在内。
在这里插入图片描述

其中 P v a l i d P_{valid} Pvalid表示有效的标签像素点集, l l l表示迭代的轮次, λ ( i ) \lambda^{(i)} λ(i)在训练过程中设置为1, i i i 表示不同的尺度。

4.实验结果

Point-MVSNet_第5张图片

Point-MVSNet_第6张图片

你可能感兴趣的:(论文阅读,人工智能,计算机视觉,深度学习)