一、计算机视觉数据集收集
1. Kitty数据集
数据链接:http://www.cvlibs.net/datasets/kitti/
主要应用方向:用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。
数据说明:
(1)数据集概述https://blog.csdn.net/solomon1558/article/details/70173223。
1)评测核心:计算机视觉技术在车载环境下的性能。
2)描述数据集的论文:
(a)Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite
(b)Vision meets Robotics: The KITTI Dataset
(2)涵盖场景:包含市区、乡村和高速公路等场景采集的真实图像数据,
每张图像涵盖车辆15+、行人30+。
(3)数据集组成:389对立体图像和光流图
39.2km视觉测距序列
200k+ 3D标注物体的图像
以10Hz的频率采样
(4)标签分类:
1)大类:’Road’, ’City’, ’Residential’, ’Campus’ 和 ’Person’
2)对于3D物体检测:car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram、misc。使用激光雷达的坐标系,标签存储于date_drive_tracklets.xml(date表示日期,drive表示序列号),每条标注包含(所属类别,3D尺寸(height,weight和length))
(5)评估方法:
1)对于立体图像和光流,依据disparity与end-point error计算得到平均错误像素数目
2)对于数据测距和SLAM任务,根据轨迹终点的误差进行评估。传统的方法同时考虑平移和旋转的误差。
————————————————
2. Oxford RobotCar数据集
数据链接:https://www.cityscapes-dataset.com/
主要应用方向:自动驾驶视觉场景分析
数据说明:
(1) 数据集概述
1)评测核心:旨在建立长期自治的自动驾驶数据集
2)描述数据集的论文:Year, 1000km: The Oxford RobotCar Dataset,http://robotcar-dataset.robots.ox.ac.uk/images/robotcar_ijrr.pdf
2)http://ori.ox.ac.uk/publications/包含研究发表的内容和各类数据集
(2) 涵盖场景:牛津大学校园内路测,1010.64公里,时长一年半。在各种天气条件下收集数据,包括大雨,夜间,阳光直射和积雪,也包含施工路段行驶场景。
(3) 数据集组成:
1)数据存储格式:图像数据以8位Bayer的PNG格式存储,可通过MATLAB的demosaic转换为RGB,激光雷达数据以双精度浮点型二进制格式存储,GPS和INS以ASCII格式存储,时间戳timestamp单位为毫秒。
(4)评估方法:使用自动驾驶感知类评价方法。
3. Cityscape数据集(目前公认最具权威性和专业性图像语义分割评测集之一)
一个面向城市道路街景语义理解的数据集
数据链接:https://www.cityscapes-dataset.com/
主要应用方向:图像语义分割(像素分割、实例分割)
数据说明:
(1)数据集概述
1)评测核心:评价像素级分割和实例级分割能力
2)描述数据集的论文:https://arxiv.org/pdf/1604.01685.pdf
(2)涵盖场景:50个城市不同情况下的街景,以及30类物体标注
(3)数据集组成
5000张精细标注的图像、20000张粗略标注的图像、30类标注物体
(4)标签分类:30类标注物体
(5)评估方法:用PASCAL VOC标准的 intersection-over-union (IoU)得分来对算法性能进行评价。
4. Comma.ai数据集(核心方法为CNN)
数据链接:https://github.com/commaai/research
主要应用方向: 图像识别
数据说明:
(1)数据集概述
1)评测核心:
2)描述数据集的论文: https://github.com/commaai/research
https://arxiv.org/abs/1608.01230
(2)涵盖场景:高速公路视频数据
(3)数据集组成
包括10个可变大小的视频片段,以20 Hz的频率记录;
记录了一些测量值,如汽车速度,加速度,转向角,GPS坐标,陀螺仪角度。这些测量值将转换为统一的100 Hz,
5. Udacity数据集(目标检测数据集)
数据链接:https://github.com/udacity/self-driving-car/tree/master/datasets
主要应用方向: 目标检测、自动驾驶
数据说明:
(1)数据集概述
1)评测核心:检测目标检测任务性能
2)描述数据集的论文:https://github.com/udacity/self-driving-car/tree/master/annotations
(2)涵盖场景:
(3)数据集组成
除了车辆拍摄的图像以外,还包括车辆本身的属性和参数信息,例如经纬度、制动器、油门、转向度、转速。
数据组成:左上角、右下角坐标,图片名,类别
(4)评估方法:感知类算法评价指标
6. BDDV数据集
Berkeley的大规模自动驾驶视频数据集
数据链接:http://data-bdd.berkeley.edu/#video
主要应用方向:
数据说明:
(1)数据集概述
1)评测核心:自动驾驶感知类性能测试
(2)涵盖场景:
(3)数据集组成:在一天中的许多不同时间,天气条件和驾驶场景中探索超过1,100小时驾驶体验的100,000个高清视频序列。我们的视频序列还包括GPS位置,IMU数据和时间戳
每类任务详细数据信息:http://bdd-data.berkeley.edu/wad-2018.html
————————————————
2、语音语义数据集收集
3、NLP类