SLAM、三维重建,语义相关数据集大全

作者朱尊杰,公众号:计算机视觉life,编辑成员

一 主要针对自动驾驶:

1.KITTI数据集:

http://www.cvlibs.net/datasets/kitti/index.php(RGB+Lidar+GPS+IMU)

  • KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像 (stereo),光流 (optical flow),视觉里程计(visual odometry),3D物体检测 (object detection) 和 3D跟踪 (tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。
  • Andreas Geiger and Philip Lenz and Raquel Urtasun, Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite, CVPR’12, cited by 3000+
  • 该数据集论文共8页,主要由三部分组成:Introduction、Challenges and Methodolgy、Evaluation:
    • Introduction:列一下相关的开源数据集;说明自己做这个数据集的原因(现有数据集都过分简单,严格限制路况从而没有包含现实路上的实际情况等);介绍自己数据集的采集方式、包含的内容等;
    • Challenges and Methodolgy:主要写了数据采集会遇到的问题以及要做的所有事情。如,传感 setup;标定方式;groundtruth怎么获取;如何选取好的数据作为benchmark;评价标准。
    • Experimental Evaluation:将state-of-the-art的系统在自己的数据集上跑结果&对比&分析。

2.Oxford数据集 :

http://robotcar-dataset.robots.ox.ac.uk/datasets/(RGB+Lidar+GPS+IMU)

  • 自动驾驶数据集。对牛津的一部分连续的道路进行了上百次数据采集,收集到了多种天气行人和交通情况下的数据,也有建筑和道路施工时的数据,总的数据长度达1000小时以上。
  • W. Maddern, G. Pascoe, C. Linegar and P. Newman, “1 Year, 1000km: The Oxford RobotCar Dataset” The International Journal of Robotics Research (IJRR), 2016. cited by 200+

3.其余自动驾驶相关数据集有:

  • Cityscape, Comma.ai, BDDV, TORCS, Udacity, GTA, CARLA, Carcraft

二 包含Depth的SLAM与三维重建数据集:

1.ASL Kinect数据集

[http://projects.asl.ethz.ch/datasets/doku.php](https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets)

​ 由Kinect采集的包含三种不同难度的27个序列,GT得自Vicon,采集场景如下:

SLAM、三维重建,语义相关数据集大全_第1张图片

  • F. Pomerleau, S. Magnenat, F. Colas, M. Liu, R. Siegwart, “Tracking a Depth Camera: Parameter Exploration for Fast ICP”, IROS 2011, cited 91
  • 论文主要内容:开源了一个基于ROS的模块化的ICP库,可以快速的测试不同变种ICP的参数和性能; 然后开源自己采集的这个数据集,并在该数据集的基础上做实验,考虑了depth的噪声,采集频率,FOV等因素对ICP的影响。

2.ASL RGB-D 数据集

http://projects.asl.ethz.ch/datasets/doku.phpid=kmavvisualinertialdatasets#downloads

  • 就一个序列,但是其论文主要是提出一个系统,不是将开源数据集作为贡献。数据集:RGB-D,轨迹的GT来自Vicon,并用Lidar得到场景结构的GT(点云)

  • Helen Oleynikova, Zachary Taylor, Marius Fehr, Juan Nieto, and Roland Siegwart, “Voxblox: Building 3D Signed Distance Fields for Planning”, IROS’17, cited 40

  • 这篇论文主要做的问题是机器人路径规划需要的建图:是用 Euclidean Signed Distance Fields (ESDFs) 而非 Octomap(路径规划常用地图)来建立四轴飞行器优化路径需要的地图;他们的主要贡献是提出方法使得在飞行器上基于CPU能实时地完成从建立的TSDF图中提取ESDF并完成路径规划。

3.TUM RGB-D:

http://vision.in.tum.de/data/datasets/rgbd-dataset/download

  • 数据集包含一些室内的序列,在不同的纹理下,不同的光照和不同的结构条件,从Kinect传感器采集到的数据中分别去评估物体的重建和SLAM/视觉里程计的性能。但是这个数据集还是没有完整的IMU。
  • J. Sturm and N. Engelhard and F. Endres and W. Burgard and D. Cremers,A Benchmark for the Evaluation of RGB-D SLAM Systems, IROS’12, cited 1200+

4.ICL-NUIM:

http://www.doc.ic.ac.uk/~ahanda/VaFRIC/iclnuim.html

  • 虚拟数据集,但是没有IMU。该集旨在对RGB-D、视觉测距和SLAM算法进行基准测试。两个不同的场景(起居室和办公室场景)提供了基本事实。客厅具有3D表面地面实况以及深度图和相机姿势,用于标记相机轨迹而且还用于重建。办公室场景仅带有轨迹数据,并且没有任何明确的3D模型。
  • A. Handa and T. Whelan and J.B. McDonald and A.J. Davison, A Benchmark for {RGB-D} Visual Odometry, {3D} Reconstruction and {SLAM} ,ICRA‘14,cited 340

5.VaFRIC:

http://www.doc.ic.ac.uk/~ahanda/VaFRIC/index.html

  • 虚拟数据集,没有IMU。ICL-NUIM的同一个团队,这个数据集只有一个目的,测试不同曝光时间对相机跟踪的影响,我的想法的萌芽。网站有提供一些做虚拟数据集的方法

  • A. Handa and R. A. Newcombe and A. Angeli and A. J. Davison, Real-Time Camera Tracking: When Is High Frame-Rate Best? , ECCV’12 , cited 100+

三 不含Depth的SLAM数据集:

1.ASL EuRoC:

http://projects.asl.ethz.ch/datasets/doku.phpid=kmavvisualinertialdatasets

  • 双目RGB+IMU,GT来自于Vicon和Lidar,EuRoC。数据集包含11个双目序列,这些序列是由微型飞行器在两个不同的房间和一个大型工业环境中飞行时记录下来的。提供两种类型的数据集: 第一个包含来自Leica多站的三维位置地面真值,并着重于视觉惯性的评估SLAM算法在一个真实的工业场景。
  • M. Burri, J. Nikolic, P. Gohl, T. Schneider, J. Rehder, S. Omari, M. Achtelik and R. Siegwart, The EuRoC micro aerial vehicle datasets, (IJRR’16 ) cited 258
  • IJRR是机器人顶刊,SCI一区,该论文应该是约稿。论文分三部分:1. 传感器的组装以及坐标的设定;2. 所采集数据集的细节描述以及如何使用;3. 如何标定传感器以及GT。

2.TUM VI banchmark:

http://vision.in.tum.de/data/datasets/visual-inertial-dataset (fisheye+IMU)

  • Schubert, D.Goll, T.Demmel, N.Usenko, V. Stuckler, J.& Cremers, D. (2018). The TUM VI Benchmark for Evaluating Visual-Inertial Odometry. IROS’18
  • 开源做的非常好,给的信息非常详细,但公开的比较晚,有上一个工作在了,所以这个工作的引用还上不去。

3.TUM monoVO:

http://vision.in.tum.de/data/datasets/mono-dataset (fisheye-only)

  • A Photometrically Calibrated Benchmark For Monocular Visual Odometry (J. Engel, V. Usenko and D. Cremers), arXiv16
  • 论文没有正式发表,主要写了光度标定校准等的方法以及与一些开源数据集的比对。该数据集很少人用,主要是给他们自己的DVO用。

4.TUM LSD :

  • Large-Scale Direct SLAM for Omnidirectional Cameras (D. Caruso, J. Engel and D. Cremers), In International Conference on Intelligent Robots and Systems (IROS), 2015. cited 100+

四 包含语义的数据集:

1.NYU:

http://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html

  • kinect采集的主要针对语义分割的数据集。RGB-D序列+手标label
  • Nathan Silberman, Pushmeet Kohli, Derek Hoiem, Rob Fergus, Indoor Segmentation and Support Inference from RGBD Images,ECCV’12

2.Matterport 3D:

http://niessner.github.io/Matterport/

  • 用18对RGB-D图像生成全景图, 主要做语义分割,有90个场景
  • Chang, Angel and Dai, Angela and Funkhouser, Thomas and Halber, Maciej and Niessner, Matthias and Savva, Manolis and Song, Shuran and Zeng, Andy and Zhang, Yinda, Matterport3D: Learning from RGB-D Data in Indoor Environments, 3DV’17

3.ScanNet:

http://www.scan-net.org/#code-and-data

  • 作者Angela Dai在BundleFusion后的下一个工作。是真实世界数据集,主要针对语义分割。数据集的生成方式是通过利用BundleFusion将不同用户基于structure io采集的RGB-D序列重建成场景三维模型,在模型的基础上打语义标签,然后再将语义信息重投影回每张图片上生成图像的语义GT。
  • Dai, Angela and Chang, Angel X. and Savva, Manolis and Halber, Maciej and Funkhouser, Thomas and Niener, Matthias, ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes,CVPR’17

4.InteriorNet:

http://interiornet.org/

  • 目前发现的唯一一个同时包含RGB-D-IMU的(虚拟)数据集。有非常多的场景,做的也非常专业,提供了语义标签,fisheye,模拟了快速相机运动以及图像模糊。遗憾的是数据集还没有开放下载。

  • Wenbin Li and Sajad Saeedi and John McCormac and Ronald Clark and Dimos Tzoumanikas and Qing Ye and Yuzhong Huang and Rui Tang and Stefan Leutenegger, InteriorNet: Mega-scale Multi-sensor Photo-realistic Indoor Scenes Dataset, British Machine Vision Conference (BMVC) 2018

5.Stanford 2D-3D-Semantics:

http://buildingparser.stanford.edu/dataset.html

  • 提供大尺度场景的三维以及语义信息,是由采集的全景图生成,数据集主要是拿来做Building Parsing的。

Gibson+Environment

  • 提供大量真实场景的三维模型,包含纹理、几何以及语义,以此来模拟训练移动机器人的感知能力(AI系统)

5.Stanford 2D-3D-Semantics:

http://buildingparser.stanford.edu/dataset.html

  • 提供大尺度场景的三维以及语义信息,是由采集的全景图生成,数据集主要是拿来做Building Parsing的。

Gibson+Environment

  • 提供大量真实场景的三维模型,包含纹理、几何以及语义,以此来模拟训练移动机器人的感知能力(AI系统)

6.SUNCG:

http://sscnet.cs.princeton.edu/

  • 用虚拟场景渲染单个视角的彩色深度和语义,主要拿来做基于单帧图像的语义场景修复。

  • Shuran Song, Fisher Yu, Andy Zeng, Angel X. Chang, Manolis Savva, Thomas Funkhouser,Semantic Scene Completion from a Single Depth Image,CVPR 2017

6.SUNCG:

http://sscnet.cs.princeton.edu/

  • 用虚拟场景渲染单个视角的彩色深度和语义,主要拿来做基于单帧图像的语义场景修复。

  • Shuran Song, Fisher Yu, Andy Zeng, Angel X. Chang, Manolis Savva, Thomas Funkhouser,Semantic Scene Completion from a Single Depth Image,CVPR 2017

推荐阅读

如何从零开始系统化学习视觉SLAM?
从零开始一起学习SLAM | 为什么要学SLAM?
从零开始一起学习SLAM | 学习SLAM到底需要学什么?
从零开始一起学习SLAM | SLAM有什么用?
从零开始一起学习SLAM | C++新特性要不要学?
从零开始一起学习SLAM | 为什么要用齐次坐标?
从零开始一起学习SLAM | 三维空间刚体的旋转
从零开始一起学习SLAM | 为啥需要李群与李代数?
从零开始一起学习SLAM | 相机成像模型
从零开始一起学习SLAM | 不推公式,如何真正理解对极约束?
从零开始一起学习SLAM | 神奇的单应矩阵
从零开始一起学习SLAM | 你好,点云
从零开始一起学习SLAM | 给点云加个滤网
从零开始一起学习SLAM | 点云平滑法线估计
从零开始一起学习SLAM | 点云到网格的进化
从零开始一起学习SLAM | 理解图优化,一步步带你看懂g2o代码
从零开始一起学习SLAM | 掌握g2o顶点编程套路
从零开始一起学习SLAM | 掌握g2o边的代码套路
零基础小白,如何入门计算机视觉?
SLAM领域牛人、牛实验室、牛研究成果梳理
我用MATLAB撸了一个2D LiDAR SLAM
可视化理解四元数,愿你不再掉头发
最近一年语义SLAM有哪些代表性工作?
视觉SLAM技术综述
汇总 | VIO、激光SLAM相关论文分类集锦
研究SLAM,对编程的要求有多高?
2018年SLAM、三维视觉方向求职经验分享
2018年SLAM、三维视觉方向求职经验分享
深度学习遇到SLAM | 如何评价基于深度学习的DeepVO,VINet,VidLoc?
视觉SLAM关键方法总结
SLAM方向公众号、知乎、博客上有哪些大V可以关注?
SLAM实验室
SLAM方向国内有哪些优秀公司?
SLAM面试常见问题

你可能感兴趣的:(计算机视觉,视觉SLAM)