原文链接:
https://mp.weixin.qq.com/s?__biz=MzA3NDIyMjM1NA==&mid=2649030409&idx=1&sn=2202eba9d4f38acacc46da72f1e6eb86&chksm=87134174b064c8627d904ca31cbb723a614d4223ef67c7642fbde5e6cfb57eee23991fdbd460&mpshare=1&scene=23&srcid=1125GA1HKkgZYw6OXvm22xKj#rd
【数据集】自动驾驶都有什么测试基准?
原创 Nora 有三AI 2018-11-25
Nora
正踏入计算机视觉领域,大四保研生一枚~
言有三
毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人
作者 | Nora/言有三
编辑 | Nora/言有三
自动驾驶是现在非常活跃的领域,几乎所有的车厂,大型互联网公司都参与其中,其中计算机视觉技术的应用也非常广泛,这篇文章将对自动驾驶中的重要数据集做简单介绍。
01
KITTI数据集
数据集地址:http://www.cvlibs.net/datasets/kitti/index.php
发布于2009年,KITTI数据集是由德国卡尔斯鲁厄理工学院和芝加哥丰田技术学院联合创办的项目。
该数据集中的数据主要是在德国的卡尔斯鲁厄周边的农村和高速公路拍摄而成,每张图象最多显示15辆汽车和30名行人,各自有各种程度的遮挡。数据集是在装有激光雷达的车辆上以10Hz的频率采样进行采集,最终包含389对立体图像和光流图,39.2km视觉测距序列,200k以上的3D标注物体的图像,涵盖了市区、乡村和高速公路等场景,包括图片、视频、雷达数据等数据类型。
数据集的语义标签包括:
‘Road’,‘City’,‘Person’,‘Campus’和‘Residential’五大类。
KITTY数据集可以用于评测各种任务,包括立体图像(stereo),光流(optical flow),视觉测距(visual odometry),深度估计(depth prediction),3D物体检测(object detection),3D跟踪(tracking),路面以及车道线检测等。
参考论文链接:http://www.webmail.cvlibs.net/publications/Geiger2012CVPR.pdf
02
Oxford RobotCar数据集
数据集地址:https://www.cityscapes-dataset.com/
发布于2014年,是在牛津大学校园内路测,总长度1010.64公里,历时一年半所采集的数据集。在各种天气条件下进行收集,包括大雨,夜间,阳光直射和积雪,也包含施工路段行驶场景,具有非常复杂的天气场景,尤其适合评测计算机视觉算法。
下图是数据采集时所走的路线图。
下图是在不同天气、光线情况和交通状况下的数据集中的示例图。
参考论文链接:http://robotcar-dataset.robots.ox.ac.uk/images/robotcar_ijrr.pdf
03
Cityscape数据集
数据集地址:
https://www.cityscapes-dataset.com/Cityscapes
发布于2016年,这是由奔驰采集的面向城市道路街景语义理解的数据集。Cityscapes包含50个城市在春夏秋三个季节不同时间段不同场景、背景的街景图,提供5000张精细标注的图像、20000张粗略标注的图像、30类标注物体。用PASCAL VOC标准的 intersection-over-union(IoU)得分来对算法性能进行评价。
参考论文链接: https://arxiv.org/pdf/1604.01685.pdf
04
Common.ai数据集
数据集地址:https://github.com/commaai/research
发布于2016年,这是一段高速公路的视频数据集,包括10个可变大小的视频片段,以20Hz的频率记录。数据除了图像之外,还记录了一些测量值,如汽车速度,加速度,转向角,GPS坐标,陀螺仪角度。
参考论文链接:https://arxiv.org/pdf/1608.01230.pdf
05
Udacity数据集
数据集地址:https://github.com/udacity/self-driving-car/tree/master/datasets
发布于2016年,Udacity是Google开设的线上教育平台,其中有自动驾驶相关线上培训,它也为其自动驾驶算法比赛专门准备了数据集。这个数据集包括在加利福尼亚和邻近城市在白天条件下行驶拍摄的图像,为1920×1200分辨率的9423帧图像,包含超过65000个标签。数据集是由CuldAd使用机器学习算法和研究员共同进行标注。
除了车辆拍摄的图像以外,还包括车辆本身的属性和参数信息,例如经纬度、制动器、油门、转向度、转速。
06
BDD100K数据集
数据集地址:http://bdd-data.berkeley.edu/#video
发布于2018年,这是目前来说最大规模也是最多样化的驾驶视频数据集,这些数据具有四个主要特征:大规模,多样化,在真实的街道采集,并带有时间信息。
该数据集有累计超过1100小时驾驶体验的100000个高清视频序列。每个视频大约40秒长、分辨率为720p、帧率为30fps,还附有手机记录的GPS/IMU信息,以显示大概的驾驶轨迹。数据库涵盖了不同的天气条件,包括晴天、阴天和雨天,以及白天和晚上的不同时间。
BAIR研究者在每个视频的第10秒采样关键帧,并为这些关键帧提供注释。它们被标记为几个级别:图像标记、道路对象边界框、可驾驶区域、车道标记线和全帧实例分割,具体来说如下。
边界框标注,为经常出现在道路上的所有10万个关键帧上的对象标上对象边界框,以了解对象的分布及其位置。另外它包含比同类数据集更多的行人实例。
车道标注,车道线是人类驾驶员重要的道路指示,当GPS或地图没有精准地全球覆盖时,它们也是自动驾驶系统驾驶方向和定位的关键线索。车道的标记分为两种类型,垂直车道标记和平行车道标记。垂直车道标记表示沿着车道行驶方向的标记,平行车道标记表示车道上的车辆需要停车的标志。另外还提供了若干标记的属性,例如实线与虚线以及双层与单层。
下图是数据集中的部分图像。
下图展示了数据收集在一个城市分布的密集程度。
参考论文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Xu_End-To-End_Learning_of_CVPR_2017_paper.pdf
07
CVPR Workshop
这是CVPR近几年举办的自动驾驶的workshop,由于深度学习的兴起,计算机视觉等技术被用于自动驾驶的目标检测,语义分割等领域,因此CVPR也开设了若干相关的workshop。具体的单元包括可行驶区域检测,路面的模板检测,跨域的语义分割,以及移动目标的实例级别的分割。
08
GTA数据集
数据集地址:http://www.rockstargames.com/grandtheftauto/
英特尔的GTA的AI和这个虚拟世界给予了训练自动驾驶的可行性,一款赛车游戏《Grand Theft Auto 5》也被用来训练自动驾驶的模型,而且是一个相对廉价且适合初级人工智能探索的自动驾驶试验场。GTA是以语义分割为主,基于虚拟的游戏环境,但接近真实世界,其中几乎涵盖了各种各样的道路状况,包括山区、郊区和城市。还有各种各样的车辆,比如警车、救护车、出租车、货车等车型。
09
TORCS数据集
数据集地址: http://torcs.sourceforge.net/
TORCS是一种高度便携的多平台赛车模拟,被用作普通的赛车游戏,可以作为AI赛车游戏和研究平台。
10
nuScenes数据集
数据集地址:
https://d3u7q4379vrm7e.cloudfront.net/download
发布于2018年,是由NuTonomy编辑的,并将于2019年推出最全的nuScenes数据集。采集了1000多个场景,其中包含140万幅图像、40万次激光雷达扫描(判断物体之间距离)和110万个三维边界框(用RGB相机、雷达和激光雷达组合检测的物体)。此次数据的搜集使用了6个摄像头、1个激光雷达、 5个毫米波雷达、GPS及惯导系统,包括了对于自动驾驶系统来说非常具有挑战性的复杂道路、天气条件等情况。
11
百度ApolloScape数据集
数据集地址:http://apolloscape.auto/scene.html
发布于2018年,是由百度Apollo提供的数据集。数据集中提供的图像分辨率为3384×2710,定义了共26个不同语义项的数据实例(例如汽车、自行车、行人、建筑、路灯等),而且将进一步涵盖更复杂的环境、天气和交通状况等。预计2018年数据集将完整发布包含20万帧的图像数据,包含对应的像素级标注和姿态信息。整个数据集将包含逐像素标注的高分辨率图像序列,以及场景语义分割级别的稠密3D Point的RGB视频。
如果想了解更多,欢迎关注知乎《有三AI学院》。
十月开始,我们有三AI学院开启了“稷”划和“济”划,帮助想入行以及想取得更多实战经验的同学。内容覆盖从自动驾驶到美颜直播等领域的实战项目,从图像基础到深度学习理论的系统知识,欢迎关注。
有三AI“【济】划”,从图像基础到深度学习
有三AI“十一月【稷】划”,从调参大法到3D重建
有三AI“十月【稷】划”,从自动驾驶到模型优化
另外,有三AI学院也开设了自己的深度学习公开课,我们的特点是 (1) 内容更广:覆盖开源框架以及几乎所有主流的图像领域。 (2) 案例更丰富:我们从工业界的实际需求出发,精选从低,中,高各种难度的任务来进行技术细节的讲解,当然周期也会更长。