视觉SLAM笔记第一篇:概述

目录

    • 视觉SLAM笔记第一篇:概述
      • 1. 引言
      • 2. 什么是视觉SLAM?
      • 鸣谢

视觉SLAM笔记第一篇:概述

1. 引言

SLAM的全称是同时定位与建图(Simultaneous localization and mapping),是机器人在未知环境进行(室内或室外)定位的重要手段,也用于进行三维重建,比如稀疏-半稠密重建和稠密重建。SLAM应用的领域很多,比如手持定位设备、自动驾驶的定位和增强现实技术(Augmented Reality)。视觉SLAM是利用计算机视觉技术实现SLAM的一种应用技术。

学习(视觉)SLAM需要照顾到理论和实践两者,既要充分掌握基础理论知识,必要的情况下要手动推导一些公式,也要重视工程实践,只有在实践的基础上才能实现深层的理解。

常见的参考课本或资料有:

  • 视觉SLAM十四讲:从理论到实践 - 第二版
  • Multiple View Geometry in Computer Vision, 2nd Edition
  • State Estimation for Robotics

2. 什么是视觉SLAM?

机器人的自主运动面临两个问题,一是“我在哪里”,二是“周围环境是什么样子”,前者表示的是定位问题,而后者表示的是建图(建立地图)的问题。定位与建图在一起代表了机器人对自身和对外在的理解,是一个“内外兼修”的过程。定位与建图又是相互关联和相辅相成的,准确的定位需要精确的地图作为依据,精确的地图则来自准确的定位。

机器人和外界环境的交互需要传感器作为媒介,就好像人体的感官,不同的传感器也在实现机器人不同的感知功能。常见的传感器有相机、激光雷达、声波雷达和惯性测量单元(IMU)等等。

传感器还可以根据其测量内容分为内质的和外质的两种。顾名思义,内质的传感器用来感受和测量机器人本体的信息,比如加速度计、陀螺仪和编码器等,而外质的传感器用来测量外界的信息,比如相机、激光、导轨和词条等。

传感器的应用不同程度地受到环境的限制。比如GPS需要处在能接收到卫星信号的环境,磁条和导轨则需要能预先安装在所处环境中。相比之下,激光雷达和相机等携带式传感器具有比较自由和较少限制的优势。

相机

相机是一种以一定速率采集图像和视频的传感器,可以分为单目(Monocular)相机双目(Stereo)相机(立体相机)深度相机以及其他特殊用途的相机(全景相机Event Camera)。

相机以二维投影形式记录了三维世界的信息,在这个过程中牺牲了一个维度的信息,也就是距离信息。

简单说一说各类相机的区别:单目相机没有深度细信息,需要借助其他手段来估计深度;双目相机可以通过两个摄像头的视差来计算深度;RGB-D相机则可以通过物理的手段来测量深度。

视觉SLAM作为利用摄像头和计算机视觉方法来实现SLAM的方法,一般划分为以下四个阶段和任务:

  • 前端:视觉里程计(Visual Odometry)
  • 后端:优化(Optimizaiton)
  • 回环(Loop Closing)
  • 建图(Mapping)

这也是一个标准的视觉SLAM框架。以流程图的方式来表示,如下图:

视觉SLAM笔记第一篇:概述_第1张图片

前端视觉里程计

作为前端的视觉里程计的任务是估计相邻时刻相机的运动,或者简单来说是两个图像的相对运动,可以采用的方法有特征点法直接法。

后端优化器

作为后端的优化器负责从带有噪声的数据中估计最优轨迹和地图,也就是得到最大后验概率估计,采用的方法有滤波器图优化

回环检测

回环检测是检测相机是否到达过之前的某个位置,一旦发现时间上不连续的两帧图像上有相同的或者重叠的特征,则可以计算图像间相似性并进行全局校正,从而减小误差。需要使用的工具有词袋模型。

视觉SLAM笔记第一篇:概述_第2张图片

建图

建立地图,可用于机器人的导航、规划、通讯、交互和可视化。地图按形式可以分为度量地图和拓扑地图,按照数据特点可以分为稀疏地图和稠密地图。

视觉SLAM笔记第一篇:概述_第3张图片

鸣谢

深蓝学院 - 视觉SLAM

你可能感兴趣的:(SLAM)