「Self-driving: KITTI」KITTI数据集简介

背景

KITTI数据集建立前,前人的实验在米德尔伯里等既定基准上排名靠前的方法在从实验室转移到现实世界时表现低于平均水平。 除了向社区提供具现实世界数据以减少实验偏差,KITTI在补充现有基准的情况下,形成了一个新颖且具有挑战性的计算机视觉基准。

KITTI数据集涵盖的任务包括:立体视觉、光流、视觉里程计量、3D目标检测和3D跟踪。使用的传感器包括:两个高分辨率彩色相机和灰度视频相机、激光雷达、GPS系统。KITTI在中型城市卡尔斯鲁厄、农村地区和高速公路上行驶中收集。 每张图像最多可以看到 15 辆汽车和 30 名行人。

除了提供原始格式的所有数据,KITTI还为每个任务提供了基准。 对于每个基准还提供了一个评估指标和评估网站。

KITTI数据集任务分类

  • 立体
  • 光流
  • 场景流
  • 深度
  • 里程计量
  • 目标检测
  • 跟踪
  • 道路
  • 语义

传感器配置细节

  • GPS/IMU: OXTS RT 3003
  • Lidar: Velodyne HDL-64E
  • 灰度相机(1.4 Megapixels): Point Grey Flea 2 (FL2-14S3M-C)
  • 彩色相机(1.4 Megapixels): Point Grey Flea 2 (FL2-14S3C-C)
  • 各式镜头(4-8 mm): Edmund Optics NT59-917

其中,激光雷达的频率为10帧/秒,每次循环大约捕捉100k个点,水平像素为64,点云数据格式是在激光雷达坐标系下的(x, y, z, ρ)分别表示点在激光雷达坐标下的坐标(x, y, z)和点的反射强度,;相机安装在与地平面大致水平,使用libdc’s 格式、模式7对相机图像剪裁成1382x512,由于修正的原因使得图像略小;相机快门时间最快2ms,且使用激光雷达触发相机拍摄,因此相机频率与激光雷达频率持平。

整个传感器的部署和各传感器坐标系朝向如下图:
「Self-driving: KITTI」KITTI数据集简介_第1张图片

3D目标检测

可用数据

整个3D目标检测基准包括7481张训练图像和7518张测试图像,以及其各自对应的点云数据。这些图像中一共包含了80256个已标注的目标对象。在评估方面,数据集计算的是准确度-召回率的曲线,此外,为了对各个方法进行排名,还计算了平均准确率。

可供下载的数据包括:

  1. 左方彩色相机图像
  2. 右方彩色相机图像
  3. 左方彩色相机3个时间前的帧
  4. 右方彩色相机3个时间前的帧
  5. 点云数据
  6. 对应传感器的相机标定数据
  7. 数据集的训练标签
  8. 目标开发工具箱代码(包括3D目标检测和鸟瞰试图评估代码)
  9. 预训练的LSVM基础模型,网络结构是LSVM-MDPM-sv和LSVM-MDPM-us的网络结构
  10. 训练和测试的检测对象参考数据
  11. 将KITTI数据转化成PASCAL VOC格式的代码
  12. KITTI,KITTI tracking,Pascal VOC,Udacity,CrowAI和AUTTI格式相互转化的代码

评估细节

其中,对3D目标检测性能评估,使用的是PASCAL用于2D目标检测的标准

远距离目标检测结果根据bbox在图像上的高度进行过滤;只要目标出现在图像中并被标注,那么目标在dont car区域不会被标注为假正例。评估方法并不关心图像上没有出现而被忽略掉的检测结果,因为这些检测结果可能提高假正例的数量。

对于汽车的3D检测,要求重叠率超过70%,而对于行人和自行车骑手则指要求bbox重叠超过50%。根据程度划分为三类:

  • 简单类:bbox最小高度为40像素,最大重叠范围:完全可见,最大截断比例为15%
  • 中等类:bbox最小高度为25像素,最大重叠范围:部分可见,最大截断比例为30%
  • 困难类:bbox最小高度为25像素,最大重叠范围:不容察觉,最大截断比例为50%

检测类别

  • 汽车
  • 行人
  • 自行车手

你可能感兴趣的:(Self-driving,自动驾驶,计算机视觉,人工智能)