PoseNet学习笔记

PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocation

基于深度学习方法对相机进行6自由度位姿估计的开创性论文

摘要

提出了一个鲁棒且实时的六自由度相机重定位系统。没有用额外的工程处理以及图估计,仅仅将单独的RGB图像输入到端到端的卷积神经网络中,就能预测回归出相机位姿。借助迁移学习的方法,使其可以对不同光照,不同运动模糊,不同相机内参鲁棒。

两大创新点

  • 使用迁移学习,从识别问题迁移到重定位问题 (在imageNet上当分类器去预训练)
  • 使用structure from motion 方法(sfm)来从视频帧中获取标签(相机位姿)

两大基本工作

  • 使用卷积神经网络来进行相机位姿的回归(包括上述两大创新点)
  • 关于如何理解网络的表现 我们表明:系统学习去计算特征向量(便于被映射到位姿的特征向量)

相关工作

  • 关于定位有两类方法:metric-based and appearance-based
  • metric-based的方法对相机的姿态做连续的估计,然后给出一个较好的初始估计
  • appearance-based的方法借助对一定数目的离散定位分类来提供粗略的估计。之前的研究有使用sift特征的方法
  • convnets也是appearance-based的方法。 提供一些定位标签,网络对其进行分类。文中的方法结合了上述方法的长处,不需要建图,不需要初始姿态估计,不需要连续姿态估计。

网络模型

p是网络输出的位姿向量,x是相机的三维坐标,q是相机的三个旋转角,上述参数可表示为公式: p = [x,q]

同时学习坐标与角度

  • 提出了一个新颖的损失函数
    损失函数
    其中β是一个尺度因子,用于使坐标损失与角度损失近似相等
    *作者发现,单独训练坐标损失与角度损失的话效果不好,因为这两者之间是高度耦合的,应该放在一起训练。

架构

  • 使用当时最优秀的网络模型googleNet (现在有更优的网络基本结构可以替换)
    • Replace all three softmax classifiers with affine regressors. The softmax layers were removed and each final
      fully connected layer was modified to output a pose
      vector of 7-dimensions representing position (3) and
      orientation
    • Insert another fully connected layer before the final regressor of feature size 2048. This was to form a localization feature vector which may then be explored for
      generalisation
    • At test time we also normalize the quaternion orientation vector to unit length

Dataset

  • 借助stf方法去获取相机标签
  • 采集了两个数据集 ,在每个场景拍摄高清晰度图像,以2HZ的频率进行采样,然后输入到sfm方法中

实验

你可能感兴趣的:(深度学习)