CVP-MVSNet

Cost Volume Pyramid Based Depth Inference for Multi-View Stereo:基于成本体积金字塔的多视图立体深度推断

CasMVSNet和CVPMVSNet一样是coarse-to-fine(粗略到精细)的网络框架,在低分辨率上搜索整个深度范围,不同的是,CasMVSNet用一个固定的搜索范围,在上采样深度图的时候,按照固定公式获得该层的深度范围以及间隔,来递减深度搜索的范围,而CVPMVSNet是通过获取source img的相邻像素投影的点来获得该层的假设深度。

本文以粗略到精细的方式构建成本体积金字塔,而不是以固定分辨率构建成本体积,可以产生紧凑、轻量级的网络,并且推断高分辨率深度图可以获得更好的重建结果。首先基于以图像的最粗分辨率在整个深度范围内对前平行平面进行均匀采样来构建cost volume。然后,给定当前的深度估计,在像素深度残差上迭代构造新的cost volume,以执行深度图细化。
基于对深度残差搜索范围和图像分辨率之间关系的详细分析,以粗略到精细的方式构建了成本-体积金字塔。
具体网络结构图
CVP-MVSNet_第1张图片

1、特征金字塔

设{Ii}(i=1~N)为其N个相邻源图像。假设{Ki,Ri,ti}Ni=0是所有视图的对应的相机内部、旋转矩阵和平移向量。我们的目标是从{Ii}Ni=0推断I0的深度图D。
首先使用CNN(即特征提取网络)获得第L级的特征表示。它由9个卷积层组成,每个卷积层后面都有一个漏整流线性单元(LeakyReLU),i=0表示原图,一共L+1层金字塔,所以最顶层(L+1)的尺寸是原图的H/2l×W/2l

2、代价体金字塔

构造用于深度推断的代价体(cost volume)。首先基于图像金字塔中最粗分辨率的图像和场景中前平行平面的均匀采样来构建用于粗略深度图估计的成本体积,也就是最顶层的特征图构建代价体,得到一个粗糙的深度图。然后,我们基于粗估计和深度残差假设迭代构造部分成本体积,以获得更高分辨率和精度的深度图。
1、得到顶层粗略深度图
假设在场景的参考视图处测量的深度范围从dmin到dmax。我们通过在整个深度范围内均匀采样M个正面平行平面来构建参考视图的成本体积。这部分操作与MVSNet类似,经过单应性变换,将源图像特征映射到参考图像空间中,计算方差得到代价体,构建粗略深度图。M是深度假设间隔(影像深度估计准确度的重要参数),F是特征维度

2、多尺度深度残差推断的成本体积
从第(l+1)级的给定深度估计Dl+1开始迭代,以获得下一级Dl的精细深度图,直到到达底层。先对Dl+1进行双三次插值得到Dl+1∗,再通过构建partial cost volume(部分代价体)回归得到residual depth map(残差深度图) ΔDl ,上一层的深度图 Dl=Dl+1∗+ΔDl

每个像素的当前深度估计p=(u,v)被定义为dp=Dl+1(u,v),设每个深度残差假设区间为∆dp=sp/M,其中sp表示p处的深度搜索范围,M表示采样深度残差的数量。对应的假设3D点与深度: Dl+1(u,v)+mΔdp
Dl+1(u,v)是这个点第一阶段得到的最粗糙深度经过插值后的结果,m 为一个深度剩余调整的范围(步长),Δdp​是平面的间隔。

3、深度图推断

使用图像中0.5像素距离作为平均深度采样间隔,也就是平面之间的距离。
为了确定每个像素当前深度估计周围的深度残差的局部搜索范围,首先将其3D点投影到源视图中,得到图中绿色的点,沿着极线的两个方向找到距离投影两个像素的点(蓝色和橙色的点),然后将这两个点反向投影到3D射线中。这两条光线与参考视图中的视觉光线的相交决定了当前级别上深度细化的搜索范围。下图中新的深度范围就是紫色箭头指向的深度范围。下图右侧根据新的深度范围,计算间隔、平面数得到一个cost volume pramid
CVP-MVSNet_第2张图片
下一步,采用3D卷积将cost volume pyramid正则化成概率体(probability volume)P,PL是绝对深度聚集来的, {Pl}l=0L−1​(0~L-1)是剩余深度聚集来的,剩余深度每次都是根据计算变化的。首先对PL 进行soft-argmax得到coarse depth map,上采样之后,迭代的加上 {Pl}(l=0~L−1)​ soft-argmax获取深度剩余,不断refine深度图。
在最高层中,每个像素p的深度估计被计算为在这里插入图片描述
计算下一级的更新深度为在这里插入图片描述
在这里插入图片描述
由此一步步的迭代计算,可以得到L=0的时候对应的深度图,即

4、损失函数

计算损失的时候也将ground truth depth变成了一个金字塔,每一层都做当前深度图与ground truth的损失的比较再相加。
在这里插入图片描述Ω 是具有地面真实测量值的有效像素集

Self-supervised Learning of Depth Inference for Multi-view Stereo:多视点立体视觉深度推理的自监督学习

该篇论文是CVPMVSNet作者提出的关于无监督网络的训练,将自监督融入到了MVS框架中,训练过程中分为两个部分,分别是无监督初始化和自监督训练。

1、提出了一种用于多视图深度估计的自监督学习框架。

2、从无监督学习网络中生成一组初始的伪深度标签,然后通过精心设计的网络提高其质量,以使用它们来监督网络,从而提高性能。

框架分为两个阶段:用于初始伪标签估计的无监督学习和用于自我训练的迭代伪标签细化

你可能感兴趣的:(mvsnet系列,计算机视觉,深度学习,人工智能)