首先是最基础的,Structure-from-Motion(SFM),SFM可以简单翻译成运动估计,是一种基于dui8序列图片进行三维重建的算法。简单来说就是是从运动中不同角度拍摄一个物体,这样就有多张物体不同时间的照片,使用这种照片来恢复物体的三维结构。跟SLAM里的visual odometry一样,需要估计出每帧图片到世界坐标系的R,t,然后根据图片重建点云。
算法的关键是就是特征匹配,求两张图片之间的R,T,然后反投影得到物体的三维点,最后将多个稀疏点云融合在一起。
然后是SFM常用的一种算法Bundle Adjustment(BA),光束调整,也就是这篇文章所做的
省去复杂的公式,BA做的也是特征匹配的工作,在不同视角的图像中选取特征点,然后将这些特征点之间进行匹配,理论上来说,在整个空间上,这些匹配点如果投影到世界坐标系应该尽可能的接近,比如两张图片中的特征点都是某个桌子的左下角,那么就算在图片上位置不同,经过R,t转回去也应该在空间上位置接近。这就是重投影误差,使用这种方式来优化R,t,同时也会优化特征点的位置。
BA往往做的是精细化建图(空间建图)的工作。
在这之前的BA都是用的传统数学方法来计算的特征匹配,这里引入了深度学习的东西,而DL这东西,最强大的地方就在于特征提取这项工作上,能减少异常值、增强几何能力之类的。这篇文章整个pipeline可微的,能同时估计每个像素的深度图和整体的pose
跟传统BA有些不同的是,整个框架的逻辑是同时估计每个像素的深度图还有camera的pose,并且把这种framework称为feature-metric BA。然后也是去优化这个光度误差
在这里,d是点qj的深度图,这里也就是重投影了,把点根据预测的深度重投影到三维空间中,Tb是第i个camere的预测pose,π是投影函数。这里将以距离为优化目标的光度误差换成了特征目标,F是feature encoder。总的来说,这里最小化的就是图像上原特征点和特征点投影之后的点之间的特征差,设计上感觉类似于传统的VGG LOSS。
整个框架的overwivew↑,输入是一个图像序列,然后用DRN-54作encoder去进行feature encode。这里的DRN-54是膨胀残留网络,记得之前有记到过,总的来说这里就是选了一个适合图像的Encoder
然后对这些特征使用一个特征金字塔(FPN),也就是图上的橙色部分将得到的feature输入BA层
所以,首先是看看这里的FPN的构造
这里的构造向目标检测里的FPN看齐,也就是多scale的方式,这里的C指的是前面DRN encoder中的不同卷积层的输出,这里做的就是把这些不同卷积层(不同stride来获得不同程度的感受野)得到的特征,进行融合,方式就是FPN的方式,这里就不赘述了,就是conv得到当前特征,然后upsamling和下一个尺度的特征进行融合后再conv。
这里展示了一下FPN的效果
主要是为了说明这种缓和特征对后续BA优化也就是LM优化的好处,但这并不是重点。
回到overview,在FPN特征的同时,这里还用DRN得到的特征去进行一个decode,得到逐点对应的深度图,也就是图上的红色部分
在这里,为了减少开销,假设D是逐像素的深度图,如果图像是h×w的,那么D就是h×w的,目标是预测每个像素的深度值,因为参数过多(h×w个优化结果)而导致训练困难,所以这里采用的B是128个h×w的矩阵(由网络计算得出的),将这里的B视为每个像素可能的深度图,然后再用一个线性权重W来融合这128个图,得到聚合后的逐点特征。在这里,B是通过网络得到的,而w是通过BA层进行优化的。也就是说,主要是通过控制128个基础深度图之间的权重来计算深度图。
这样就可以将开始的那个式子具体写成
最后就是这里最重要的一个部分,BA layer
目的就是通过优化前面提到的式
来同时优化camera的pose和generator得到的深度图(优化线性权重W),按照传统的BA原则,这里应该是使用 Levenberg‑Marquardt (LM)来进行优化,但是传统的LM是不可微的,文章里列举了两个原因
简单来说就两点,因为LM优化需要用到if-else来判断迭代终止条件和改变优化参数,而if-else这个在网络里的话就是不可微的,即不能端到端训练的。而这篇文章则解决了这两个问题。
首先是第一个,迭代终止问题,直接固定一个迭代次数,不去进行判断,到点即停。第二个则是针对这个参数λ的,不去使用算法原来的方式改变,而是构造了一个MLP进行预测
这里展示了LM层的单次迭代,F是前面FPN,X是当前迭代的解(上一个迭代的输出或者初始化的值),希望通过LM层输出的是解的差值ΔX,然后更新X。值得一提的是,这里的解并不是一个简单的结果,而是前面FPN得到的多尺度特征图
文中介绍了一下整个流程
简单来说,就是利用FPN对X进行encode,然后计算前面类似VGG LOSS的那个公式。然后分为上下两条线,上面线路得到误差E之后,计算雅各比矩阵J,然后计算黑塞矩阵H,计算对角矩阵D。下面线路先对所有像素GAP(global average pooling)后用MLP预测前面说不可微的参数λ。
最后上下两条路线各自得到了E J H D λ,融合得到迭代ΔX
然后使用标准LM迭代来更新解X,这里的g(Xk-1,F)其实就是这里LM层求的ΔX,◦运算是参数的更新函数,在结构上表示为深度图上深度值的直接加法和SE(3)pose的更新。
最后是训练网络的LOSS,整体是端到端的
有监督pose的
和监督深度图的berHu Loss(Huber的反向,下面是huber)
归纳一下,可以看到整体网络是同时优化pose和深度图,所以用了这两个对应的LOSS来进行训练。整个结构中有三个属于DL的部分,encoder、depth generator、FPN,BA里的MLP。首先是比较简单的深度,这里用端到端的BA预测一个线性权重,来线性聚合generator生成的多个基础深度图,所以这两个部分都得到了训练(得到深度图后就可以把图像投影到3D去了)。然后是pose,这里是通过迭代求解SE(3),通过监督SE(3)的差值来优化FPN和encoder。
scannet上配准效果的对比,demon是一个同时进行深度估计和运动估计的baseline《DeMoN: Depth and Motion Network for Learning Monocular Stereo》,这里是把BANet之类的作为后处理来进行精化
KITTI上全程轨迹精度的对比
1.使用端到端的方法来实现visual的BA,构造了个看起来很有趣的BA layer来解决可微的问题,理论来说,有了这个BA层,就可以实现各种模态的BA