Deep Global-Relative Networks for End-to-End 6-DoF Visual Localization and Odometry阅读笔记

文章是在《Deep Auxiliary Learning for Visual Localization and Odometry》 这篇文章的基础上改进的,目前这篇文章还没看,先把他的改进版看了,总是感觉怪怪的。
进入正题,Deep Global-Relative Networks for End-to-End 6-DoF Visual Localization and Odometry这篇文章是云智科技和北航的杰作。文章的出发点是尽管深度学习在VO领域的应用已经很广泛,但是在长时间的机器人导航过程中,他们仍然不能解决漂移问题(drift problem),针对这个问题,作者在Valada的文章的基础上进行了改进。作者认为相对子网络主要是为了平滑VO路线,而设计全局子网络可以解决漂移问题。基于此,作者提出Cross Transformation Constraints(CTC)和Mean Square Error (MSE)来训练网络。
Introduction部分就不写了,写本文的创新点:
1>,通过连接提取特征的CNN网络和回归相对及全居位姿RCNN类型的子网络和全连接网络(Fully-connected fusion layers (FCFL))来得到全局和相对位姿。
2>,在训练策略方面,先用一系列RGB图片训练CNN和相对位姿估计网络,之后再用不同场景的图片把整个网络一起训练。
3>,作者设计了两种不同的损失函数来提高网络的准确度。为了训练相对位姿子网络,用CTC来训练达到局部调整的目的,文章中作者说,这个损失函数类似于 Local Bundle Adjustment in traditional vSLAM system,或者 windowed optimization,可以理解为局部调整或者局部优化,小范围的回环检测。之后用CTC和MSE来训练整个网络。
4>,就是在两个数据集上进行评价,证明了本文所提网络的效果为state-of-the-art。
文章所提的网络具体是什么样子,一看图便知,包括子网络 Deep Global-Relative Networks for End-to-End 6-DoF Visual Localization and Odometry阅读笔记_第1张图片
具体介绍下,CNN1为ResNet-50S的前四部分,作为特征提取网络。而子网络RCNN1是ResNet-50S的第5部分接着两个LSTM,其作用是计算相对位姿,LSTM的结构和DeepVO里的结构一致。RCNN2网络的输入为CNN1的输出,而RCNN1的输入为相邻两幅图片的CNNN1输出。而混合全连接网络就是混合相对和全局网络来提升网络的准确度。
接下来看一下作者提出的损失函数,文中用了一小节来讲解。
首先,假设有有五张连续的图片, F = (I 0 ,I 1 ,I 2 ,I 3 ,I 4 ),P i =
(Q i ,T i ) is a 6-DoF predicted pose,就是位姿变换矩阵,五张图片之间的变换关系有 [P 01 ,P 12 ,P 23 ,P 34 ,P 02 ,P 24 ,P 04 ],其中,P01代表图片从0到1的变换矩阵,其他的以此类推。理论上,预测的变换矩阵等于实际的变换矩阵,如下式,
在这里插入图片描述
其中,戴帽子的P0(数学公式不会敲)为机器人所在真实位置。所以,误差就会产生,
Deep Global-Relative Networks for End-to-End 6-DoF Visual Localization and Odometry阅读笔记_第2张图片
计算使用的是均方误差,整合起来就是
在这里插入图片描述
上式称为相对损失函数,N为具体的样本数量,联合全局损失函数,可写为
在这里插入图片描述
作者就是利用这个损失函数来训练网络,使局部的几个样本的位置转换误差最小,从而减小漂移。
在训练策略方面,先用一些列图片训练CNN1和RCNN1,损失函数为相对损失函数。之后在训练RCNN2,利用不同的场景来训练。
作者利用 7-Scenes(室内)和KITTI(室外)来训练和评价本文所提的网络,训练集和测试集的划分依照原始的划分原则。评价时所提到的L-VO3网络暂时还没看到所以就暂时不提。最终实验结果如下图,
Deep Global-Relative Networks for End-to-End 6-DoF Visual Localization and Odometry阅读笔记_第3张图片
可以看到,本文所提的网络整体效果都要优于DeepVO和L-VO3,但是在累计误差方面要略逊于L-VO3,作者的解释为缺乏相对应的数据导致网络的训练不够。
最后作者还进行了消融学习,比较了CNN加RCNN1和CNN加RCNN2,最终结果显示不如复合的好。作者还验证了所选的序列长度,及计算相对误差时的连续图片数量。

你可能感兴趣的:(视觉里程计)