AACVP-MVSNet理解

  • 一、网络结构
  • 二、基于自注意力的层次特征提取
  • 三、最粗分辨率(最低尺度)下的深度推断
  • 四、精细尺度下的深度残差估计
  • 五、Loss
  • 六、结果评估(DTU)

一、网络结构

AACVP-MVSNet:基于注意力感知代价体金字塔的多视图立体网络

创新点:
1)引入自注意力层提高特征提取能力,它可以捕获深度推理任务的重要信息;
2)引入了相似性度量来聚合参考图像和所有源图像之间的代价,而不是大多数现有MVS网络使用的基于方差的方法;
3)使用从粗到精的深度推断策略,实现了整体性能的提高。

AACVP-MVSNet理解_第1张图片

结构说明:
1)构建图像金字塔,根据图像尺度调整对应的输入内参矩阵,将其作为网络输入;
2)从最低尺度开始,进行特征提取(共享权重,并使用自注意力层)得到特征图,采用相似性度量的方法构建代价体(先利用假设的深度平面对所有特征图进行可微的单应性变换,构建各自的代价体,再进行聚合),再3D卷积正则化构建概率体,回归得到深度图和概率图;
3)在精细尺度上进行深度图优化,与步骤2)相似,但有两点不同:
①是利用低一尺度深度图的上采样,对当前尺度的深度平面进行假设;
②是回归得到的并不是深度图,而与低一尺度深度图的上采样的深度残差(偏差),即预测的是比之前得到的深度多了多少或少了多少。将预测的深度残差与上采样深度图逐元素相加,即得到当前尺度的深度图预测。
4)第0个尺度得到的深度图即为最终的深度图。

二、基于自注意力的层次特征提取

由八个卷积层和一个自注意力层构成

AACVP-MVSNet理解_第2张图片

自注意力层
AACVP-MVSNet理解_第3张图片
计算方式:
1.计算qij,kab,vab;
2.使用内积计算qij与kab间的相关性,并用softmax将相似性映射到(0,1)之间;
3.对步骤二得到的相似性值用vab进行加权;
4.重复1-3,将所有输出相加。
在这里插入图片描述
矩阵WQ沿所有通道提取xab处的信息,而矩阵WK用于xij周围的所有通道提取像素信息。因此,矩阵WQ和WK用于相似性测量。矩阵WV用作线性变换,进行从输入到输出的维度映射。

然而,上式不包含qij的位置信息,限制了视觉任务的表达能力。因此,引入位置信息嵌入过程以获得更好的结果。
在这里插入图片描述

三、最粗分辨率(最低尺度)下的深度推断

深度平面假设:
在这里插入图片描述
可微的单应性变换:
在这里插入图片描述
其中,大写L表示图像的级别,E表示单位矩阵。

代价体构建与聚合
1.对于每个源图像的特征图构建代价体
1)将源图像和参考图像特征图分别按通道拆分为G组;
2)对每一组,采用相似性函数分别计算参考图像特征图与源图像特征图(都经过单应性变换,变换到了深度为dm的平面)的相似度
在这里插入图片描述
假设源特征图的shape为(C,H,W),分组后(G,G/C,H,W),逐元素计算相似度后(G,H,W),计算完所有深度平面后为(M,G,H,W)。

2.代价体聚合:最终总成本量可计算为所有视图的平均相似性
在这里插入图片描述

深度图、概率图推理
AACVP-MVSNet理解_第4张图片
在这里插入图片描述

四、精细尺度下的深度残差估计

由最低分辨率输入图像得到的深度图质量有限。因此,在更精细的层次上进行优化,进行残差映射估计。

首先,根据低一尺度的深度图,对当前尺度的深度平面进行假设
AACVP-MVSNet理解_第5张图片
AACVP-MVSNet理解_第6张图片
Δdp=lp/M是深度间隔,rp=mΔdp表示深度残差
这里,将参考图像中的p(u,v)和源图像中的对应点投影到对象空间,并确定深度间隔Δdp为沿极线的两个相邻像素投影的距离。
同时,不需要对深度平面进行密集采样,因为图像中这些采样的3D点的投影太近,无法为深度推断提供额外信息。

五、Loss

同MVSNet,
1)采用L1范数
2)只计算深度有效区域有效
在这里插入图片描述

六、结果评估(DTU)

对于DTU是数据集:
训练:
1)在最粗略的尺度上设置了假设深度平面M=48,在其他尺度上根据经验设置了M=8。
2)在4块Nvidia GeForce RTX 2080Ti上进行训练,epoch=40,batch_size=36(每个GPU的最小批量大小为9)。
3)使用Adam优化器,初始学习率设置为1×10e-3,在第10、25、32epoch乘以0.5。
后处理:
遵循MVSNet的方法,将所有深度图融合成一个完整的深度图,并生成密集点云,由三个步骤组成:用于去除异常值的光度过滤、用于深度一致性测量的几何一致性过滤、深度融合处理将来自不同视图的深度图集成到统一的点云表示中。
准确性度量:
平均准确率(简称Acc)、平均完整性(简称Comp)和整体准确率(简称OA),其定义如下:
在这里插入图片描述
使用DTU数据集提供的官方MATLAB脚本计算准确度和完整性。

你可能感兴趣的:(MVS-DL,深度学习,计算机视觉,MVSNet,深度图,三维重建)