2022除夕前整理,主要内容翻译自以下两个链接
Astyx Dataset HiRes2019 来自Cruise公司,是一种汽车毫米波雷达数据集,用于基于深度学习的 3D 对象检测。开源该数据集的动机是为研究界提供高分辨率的毫米波雷达数据,促进和激发对使用毫米波雷达传感器数据的算法的研究。该数据集是一个以毫米波雷达为主的汽车数据集,用于基于毫米波雷达、激光雷达和摄像头数据进行 3D 对象检测。数据集的大小超过 350 MB,由 546 帧组成。
很可惜该数据集已经被从公开的下载网站删除:他们实际上是故意删除了数据集,提到的原因是它不再是最先进的。
M. Meyer and G. Kuschk, “Automotive Radar Dataset for Deep Learning Based 3D Object Detection,” 2019 16th European Radar Conference (EuRAD), 2019, pp. 129-132.
加州大学伯克利分校的伯克利 DeepDrive 数据集由超过 100K(10万) 视频序列组成,以评估图像识别算法在自动驾驶方面的令人兴奋的进展,具有各种注释,包括图像级标记、对象边界框、 可驾驶区域、车道检测和全帧实例分割
。该数据集具有地理(应该是指在伯克利新加坡等多地采集)、环境(城市、乡村和高速公路)和天气的多样性,这对于训练模型很有用,这样它们就不太可能对新条件感到惊讶(泛化能力更好)。
标注格式
weather、scene、timeofday
,一并存储在json文件中。在 2020 年修改了检测注释,重新发布。Scalabel
格式。每个视频中的相同对象具有相同的标签 ID,但跨视频的对象始终是不同的,即使它们具有相同的 ID。Scalabel
格式标签示例- name: string (must be unique over the whole dataset!)
- url: string (relative path or URL to data file)
- videoName: string (optional)
- attributes: a dictionary of frame attributes
- intrinsics
- focal: [x, y]
- center: [x, y]
- nearClip:
- extrinsics
- location
- rotation
- timestamp: int64 (epoch time ms)
- frameIndex: int (optional, frame index in this video)
- size:
- width: int
- height: int
- labels [ ]:
- id: string
- index: int
- category: string (classification)
- manualShape: boolean
- manualAttributes: boolean
- score: float
- attributes: a dictionary of label attributes
- box2d:
- x1: float
- y1: float
- x2: float
- y2: float
- box3d:
- alpha:
- orientation:
- location: ()
- dimension: (3D point, height, width, length)
- poly2d:
- vertices: [][]float (list of 2-tuples [x, y])
- types: string
- closed: boolean
- rle:
- counts: str
- size: (height, width)
- graph: (optional)
- nodes [ ]:
- location: [x, y] or [x, y, z]
- category: string
- visibility: string (optional)
- type: string (optional)
- score: float (optional)
- id: string
- edges [ ]:
- source: string
- target: string
- type: string (optional)
- type: string (optional)
可以用于的任务:
实例分割 Instance Segmentation
多目标框跟踪 Box Tracking
多目标跟踪和分割 Segmentation Tracking
全景分割 Panoptic Segmentation
共41个类别,0: unlabeled 1: dynamic 2: ego vehicle 3: ground 4: static 5: parking 6: rail track 7: road 8: sidewalk 9: bridge 10: building 11: fence 12: garage 13: guard rail 14: tunnel 15: wall 16: banner 17: billboard 18: lane divider 19: parking sign 20: pole 21: polegroup 22: street light 23: traffic cone 24: traffic device 25: traffic light 26: traffic sign 27: traffic sign frame 28: terrain 29: vegetation 30: sky 31: person 32: rider 33: bicycle 34: bus 35: car 36: caravan 37: motorcycle 38: trailer 39: train 40: truck
可驾驶区域检测 Drivable Area
对于车道标记任务,有 3 个子任务:车道类别、车道方向和车道样式。分别有 9、3 和 3 个类。
评估了 18 个类(关节)
0: head 1: neck 2: right_shoulder 3: right_elbow 4: right_wrist 5: left_shoulder 6: left_elbow 7: left_wrist 8: right_hip 9: right_knee 10: right_ankle 11: left_hip 12: left_knee 13: left_ankle 14: right_hand 15: left_hand 16: right_foot 17: left_foot
更细致内容请查看官网文档或论文
BDD100K: A Diverse Driving Dataset for Heterogeneous Multitask Learning
谷歌开源了这个数据集,用于识别人造和自然地标。它包含超过 200 万张图像,描绘了来自世界各地的 3 万个独特地标(它们的地理分布如下所示),许多类比常用数据集中可用的类大约 30 倍。个人感觉好像对自动驾驶用处不大。
只是规模更大了一点,同样不认为对自动驾驶行业有用
拼车公司 Lyft 开源了 Level 5 数据集。Level 5 是一个全面的大规模数据集,包含原始传感器摄像头和 LiDAR 输入,可在受限地理区域内由多辆高端自动驾驶车辆感知。该数据集还包括高质量、人工标记的交通代理 3D 边界框,这是一个底层的高清空间语义图。
个人理解它是使用激光雷达、相机等数据集合训练运动预测模型,可能并不适合我们组的工作。
nuScenes 是一个用于自动驾驶的大规模公共数据集。该数据集使研究人员能够使用真正的自动驾驶汽车的完整传感器套件来研究城市驾驶情况。该数据集包含 1,400,000 张相机图像、390,000 次激光雷达扫描、详细的地图信息、完整的传感器套件,例如 1x LIDAR、5x RADAR、6x 相机、IMU、GPS、23 个对象类的手动注释等。 数据集详细介绍请查看论文 nuScenes: A multimodal dataset for autonomous driving
官方提供的标注数据一共有15个json文件,并且官方在github上提供了数据集的devkit。以2D边界框的标注为例,分类标签信息可以查看目标检测github链接,该链接中也提供了不同类别的区分和每个类别的详细解释。
对自动驾驶行业用处不大,略。
Oxford RobotCar 数据集由 100 多次重复的通过英国牛津的一致路线组成,该路线已被记录超过一年。该数据集结合了许多不同的天气、交通和行人组合,以及建筑和道路工程等长期变化。该数据集应该不适合我们组,跟slam的工作比较相似。更多内容请查看官网
Cameras:
1 x Point Grey Bumblebee XB3 (BBX3-13S2C-38) trinocular stereo camera, 1280×960×3, 16Hz, 1/3” Sony ICX445 CCD, global shutter, 3.8mm lens, 66° HFoV, 12/24cm baseline
3 x Point Grey Grasshopper2 (GS2-FW-14S5C-C) monocular camera, 1024×1024, 11.1Hz, 2/3” Sony ICX285 CCD, global shutter, 2.67mm fisheye lens (Sunex DSL315B-650-F2.3), 180° HFoV
LIDAR:
2 x SICK LMS-151 2D LIDAR, 270° FoV, 50Hz, 50m range, 0.5° resolution
1 x SICK LD-MRS 3D LIDAR, 85° HFoV, 3.2° VFoV, 4 planes, 12.5Hz, 50m range, 0.125° resolution
GPS/INS:
1 x NovAtel SPAN-CPT ALIGN inertial and GPS navigation system, 6 axis, 50Hz, GPS/GLONASS, dual antenna
此外,官网还提供了MATLAB和Python代码,用于轻松访问和操作数据集。提供的 MATLAB 和 Python 函数包括加载和显示图像和激光雷达扫描的简单函数,以及涉及从推扫式 2D 扫描生成 3D 点云以及将 3D 点云投影到相机图像中的更高级函数。
国内激光雷达制造商禾赛科技与人工智能数据标注平台公司Scale AI联合发布了面向L5级自动驾驶的开源商用数据集——PandaSet数据集。Pandaset 是用于自动驾驶的流行的大规模数据集之一。该数据集使研究人员能够研究自动驾驶,旨在促进自动驾驶和机器学习的先进研究和开发。
数据集包括48,000多个摄像头图像和16,000个激光雷达扫描点云图像(超过100个8秒场景)。它还包括每个场景的28个注释和大多数场景的37个语义分割标签。传感器套件主要包括1个机械LiDAR,1个固态LiDAR,5个广角摄像头,1个长焦摄像头,板载GPS / IMU。
下载链接
pandaset提供了加载数据集的工具包pandaset-devkit,github中给出了如何调用标定数据,另外安装好工具包后可以直接调用API得到我们想要的数据。
Waymo Open Dataset是用于自动驾驶的开源高质量多模态传感器数据集。该数据集是从 Waymo 自动驾驶车辆中提取的,涵盖了从密集的城市中心到郊区景观的各种环境。该系列由不同的时间组成,包括阳光、雨天、白天、夜晚、黎明和黄昏。它包含 1000 种不同的段,每个段捕获 20 秒的连续驾驶,对应于每个传感器 10 Hz 时的 200,000 帧。
论文链接
标注
数据集中对汽车、行人、交通标志、自行车人员进行了详细标注。对于激光雷达数据,将每一个物体标注为7自由度3D bbox:(cx, cy, cz, l, w, h, θ)。其中 cx , cy , cz 表示为bbox中心坐标。l, w, h 表示为物体长宽高。θ 表示为物体偏航角,此外对于每一个物体还标注了一个唯一的追踪ID编号。
图像标注中将每一个物体标注为4自由度2D bbox:(cx, cy, l, w)。其中cx, cy 表示为bbox中心图像坐标,l 表示为物体长度,w 表示为物体宽度。
数据集下载链接
该数据集是一个用于基于视觉的交通信号灯检测的数据集,基于视觉的交通信号灯检测和跟踪是在城市环境中实现全自动驾驶的重要一步。该数据集包含 13427 个摄像机图像,分辨率为 1280x720 像素,并包含大约 24000 个带标注的交通信号灯。其中,训练集有 5093 张图片,大约每隔 2 秒标注一次,10756 带标注的红绿灯,中位红绿灯宽度 8.6 像素,15 种不同的标签,170灯被部分遮挡。测试集有 8334 个连续图像,以大约 15 fps 的速度进行注释,13486个带注释的红绿灯,中位红绿灯宽度 8.5 像素, 4 个标签(红色、黄色、绿色、关闭),2088灯被部分遮挡。标注包括交通灯的边界框以及每个交通灯的当前状态。这些场景涵盖了各种各样的道路场景和典型的困难:
相机图像以使用红色-清晰-清晰-蓝色滤镜(red-clear-clear-blue filter)拍摄的原始 12 位 HDR 图像和重建的 8 位 RGB 彩色图像形式提供。RGB 图像用于调试,也可用于训练。然而,RGB 转换过程有一些缺点。一些转换后的图像可能包含伪影,并且颜色分布可能看起来不寻常。
数据集示例图像:
数据集的下载和读取以及标注格式转换的示例脚本可以参考官方的github链接,数据集详细说明可参考论文
ApolloScape是 Apollo 自动驾驶项目的一部分。ApolloScape数据集一共包含有八个大类,如下图所示,分别是场景解析,车辆实例分割,车道标记分割,自定位,轨迹,3D 激光雷达目标检测和跟踪,双目相机,画面修复。
Car Instance此存储库包含 ApolloScapes 数据集的 3D
汽车实例理解挑战的评估脚本。这个大规模的数据集包含一组不同的立体视频序列,这些序列记录在来自不同城市的街景中,具有 5000 多帧的高质量注释。
上图出自论文ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving.,这部分数据集通过2D彩色图像输入来检测3D的车辆实例。
根据上图及论文TrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents.可以推测,这部分数据集是用于轨迹预测的,对我们组用处不大。
简述:基于深度/点云引导的视频自动补画算法,能够从视频中去除交通agent,合成缺失区域,在自动驾驶中获得清晰的街景和真实感模拟。这部分可能和建图组比较相关,对我们组用处不大
带有车道标记的准确高清 (HD) 地图通常用作所有商用自动驾驶车辆导航的后端。目前,大多数高清地图都是由人工标注人员手动构建的。在这个挑战中,我们要求参与者开发算法以从 RGB 图像帧中提取所有基本道路元素。分割结果可直接用于高精地图构建或更新过程。此存储库包含用于ApolloScapes数据集的地标检测挑战的评估脚本。这个大规模数据集包含了一组不同的立体视频序列,记录在不同城市的街景中,具有11万+帧的高质量像素级注释。
从图中可以看出,不仅标注了不同的车道线,还标出了车道中的指示箭头等。
我们的 3D 激光雷达目标检测和跟踪数据集由激光雷达扫描点云和高质量标注组成。它是在中国北京的各种照明条件和交通密度下收集的。更具体地说,它包含高度复杂的交通流,混合了车辆、骑自行车的人和行人。
该数据集由 5165 个图像对和对应的视差图组成,其中 4156 个图像对用于训练,1009 个图像对用于测试。这些图像是从 Apollo 数据集中提取的。通过累积来自激光雷达的 3D 点云并将 3D CAD 模型拟合到单独移动的汽车(从 3D Car Instance数据集提取),获得了地面实况。该数据集包含具有严重遮挡的不同交通状况,这非常具有挑战性。
Apollo官方提供了github数据集处理工具以及多篇论文,可从官网首页找到。
Cityscapes 数据集专注于对城市街景的语义理解。 Cityscapes 拥有 5000 张在城市环境中驾驶场景的图像(2975 train,500 val,1525 test)。它为分为 8 个类别(平面、人类、车辆、建筑、物体、自然、天空和虚空)的 30 个类别提供语义、实例和密集像素注释。该数据集由大约 5000 个精细标注(Fine annotations)的图像和 20000 个粗糙标注(Coarse annotations)的图像组成(精细标注和粗糙标注的标签不同,可以使用官方自带的工具进行label转换)。在几个月、白天和良好的天气条件下,在 50 个城市捕获了数据。它最初是作为视频录制的,因此手动选择帧以具有以下特征:大量动态对象、变化的场景布局和变化的背景。
该数据集的github仓库链接,可以用于检查、准备和评估 Cityscapes 数据集的脚本。
KITTI是目前自动驾驶领域最重要的测试集之一,KITTI主要是针对自动驾驶领域的图像处理技术,主要应用在自动驾驶感知和预测方面,其中也涉及定位和SLAM技术。KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图,39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成,以10Hz的频率采样及同步。总体上看,原始数据集被分类为’Road’, ’City’, ’Residential’, ’Campus’ 和 ’Person’。对于3D物体检测,label细分为car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc组成。
下图展示了KITTI数据集的典型样本,分为 ’Road’, ’City’, ’Residential’, ’Campus’ 和’Person’五类。原始数据采集于2011年的5天,共有180GB数据。
数据的标注格式可以从每类数据集的development kit
文件夹的readme.txt中找到。
Values | Name | Description |
---|---|---|
1 | type | Describes the type of object: ‘Car’, ‘Van’, ‘Truck’,‘Pedestrian’, ‘Person_sitting’, ‘Cyclist’, ‘Tram’,‘Misc’ or ‘DontCare’ |
1 | truncated | Float from 0 (non-truncated) to 1 (truncated), where truncated refers to the object leaving image boundaries |
1 | occluded | Integer (0,1,2,3) indicating occlusion state:0 = fully visible, 1 = partly occluded 2 = largely occluded, 3 = unknown |
1 | alpha | Observation angle of object, ranging [-pi…pi] |
4 | bbox | 2D bounding box of object in the image (0-based index): contains left, top, right, bottom pixel coordinates |
3 | dimensions | 3D object dimensions: height, width, length (in meters) |
3 | location | 3D object location x,y,z in camera coordinates (in meters) |
1 | rotation_y | Rotation ry around Y-axis in camera coordinates [-pi…pi] |
1 | score | Only for results: Float, indicating confidence in detection, needed for p/r curves, higher is better. |
参考资料:
https://www.cnblogs.com/yibeimingyue/p/11685420.html
注意:这些数据集仅用于教育目的。数据集和标签都不完整或全面。我们鼓励您探索更新、更完整的数据集。(是否说明不太适合实际使用?)
这些数据包括在日光条件下在加州山景城和邻近城市驾驶。它包含9,423帧的超过65,000个标签,这些标签都是由Point Grey研究相机以2hz的全分辨率1920x1200采集的。该数据集由CrowdAI结合机器学习和人工进行标注。
该数据集类似于数据集 1,但包含额外的遮挡字段和额外的交通灯标签。该数据集完全由人类使用 Autti 进行注释,略大,有 15,000 帧。