Beyond Tracking:Selecting Memory and Refining Poses for Deep Visual Odometry学习笔记

Beyond Tracking:Selecting Memory and Refining Poses for Deep Visual Odometry学习笔记

论文链接:https://arxiv.org/abs/1904.01892

  • 主要模块:encoder、trackingremembering(memory)refining

整体结构:

Beyond Tracking:Selecting Memory and Refining Poses for Deep Visual Odometry学习笔记_第1张图片

encoder:
  • 输入RGB图像序列,CNN共有9个卷积层
    -设计了基于光流的编码器,预测了两幅图像之间的光流
Tracking:
  • 包括序列建模和相对位姿估计
  • Tracking模块使用的是ConvLSTM.(带卷积的LSTM)
    相对运动可以直接从配对图像中恢复。 但是由于短基线带来的几何不确定性,直接估计容易导致误差积累。可以通过引入更多的历史信息来减轻。 根据继承累积的知识,用每个时刻LSTM的输出来估计姿态。
  • 使用LS TM对图像序列进行建模时,,DeepVO[31]和ESP-VO[32]使用的标准LS TM单元需要一维向量作为输入,其中忽略特征的空间结构。 本文中使用ConvLSTM单元,RNN中采用了带有卷积的LSTM,以保持视觉线索的空间公式,并增强记忆更多知识的能力。
Remembering:
  • 建立存储模块Memory
  • 原因:LSTM并不能超长时间保存时序信息
  • 建立全局的位姿: 在不同的时间点显式地存储递归单元的隐藏状态,以延长时间跨度
  • 将整个序列上的所有隐藏状态存储起来,zhi选取关键状态。
  • 目的:来优化之前估计的位姿
Refining:
  • 通过深度对齐来将相对位姿转换为绝对位姿。
  • 分为两部分:
    a.时间-空间注意机制:将内存中的每个元素按照相对全局的重要性重新分配权重。此处的输入为三维张量,保留空间和时间信息。
    b.绝对位姿估计
  • 使用ConvLSTM:使先前改进后的输出再通过一个ConvLSTM来改进为绝对位姿。
总结:

文章没有全看懂,很多地方不理解。
但是文中提到了很多关于端到端视觉里程计的好文章(2. Related Works)
Beyond Tracking:Selecting Memory and Refining Poses for Deep Visual Odometry学习笔记_第2张图片
Beyond Tracking:Selecting Memory and Refining Poses for Deep Visual Odometry学习笔记_第3张图片

你可能感兴趣的:(Beyond Tracking:Selecting Memory and Refining Poses for Deep Visual Odometry学习笔记)