BDD100K翻译

摘要

数据集推动视觉进步,但现有的驾驶数据集在视觉内容和支持的任务方面不足,无法研究自动驾驶的多任务学习。 研究人员通常被限制在一个数据集上研究一小组问题,而现实世界的计算机视觉应用程序需要执行各种复杂的任务。 我们构建了最大的驾驶视频数据集 BDD100K 1 ,其中包含 10 万个视频和 10 个任务,以评估图像识别算法在自动驾驶方面的令人兴奋的进展。 该数据集具有地理、环境和天气多样性,这对于训练不太可能对新条件感到惊讶的模型很有用。 基于这个多样化的数据集,我们为异构多任务学习建立了一个基准,并研究如何一起解决这些任务。 我们的实验表明,现有模型需要特殊的训练策略来执行此类异构任务。 BDD100K 为未来在这个重要场所的学习打开了大门。

引言

多样化的、大规模带注释的视觉数据集,如 ImageNet [8] 和 COCO [18],一直是计算机视觉监督学习任务最新进展的推动力。 典型的深度学习模型可能需要数百万个训练示例才能实现任务的最先进性能 [16、27、15]。
然而,对于自动驾驶应用程序,由于缺乏全面的数据集,利用深度学习的力量并不那么简单。 现有的自动驾驶数据集 [14, 7, 23] 在一个或多个重要方面受到限制,包括场景变化、注释的丰富性和地理分布。 此外,在现有数据集上训练的模型往往会过度拟合特定的领域特征 [25]。
实际应用程序需要执行组合不同复杂度的感知任务,而不仅仅是具有相同预测结构的同构多个任务 [26, 37, 1, 20]。 尽管使用简单的注释(例如可驾驶区域和对象边界框 [11, 18])标记大量图像可能是可行的,但获得更复杂的注释(例如实例分割 [3])仍然具有挑战性,更不用说多 对象检测和分割跟踪 [30, 21]。
因此,即使在构建大规模视觉数据集方面投入了大量精力,但对这些复杂任务的研究仍仅限于小数据集 [7, 14]。 在生产环境中,也不清楚如何为各种注释分配资源,以支持需要具有各种输出结构的异构任务的应用程序。
我们的目标是促进对大规模多样化视觉数据和多项任务的算法研究。 我们构建了 BDD100K,这是一个新的、多样化的、大规模的视觉驾驶场景数据集,以及各种任务,以克服这些限制。 我们已经能够收集和注释最大的可用注释驾驶场景数据集,包括超过 10 万个不同的视频剪辑。 BDD100K 涵盖了更真实的驾驶场景,并捕获了更多不同环境领域中感兴趣类别的外观变化和姿势配置的“长尾”。 我们的基准测试由十个任务组成:图像标记、车道检测、可行驶区域分割、道路目标检测、语义分割、实例分割、多目标检测跟踪、多目标分割跟踪、域适应和模仿学习,如图所示 图 1. 这些多样化的任务使异构多任务学习的研究成为可能。 在我们的基准测试中,模型可以执行一系列复杂性越来越高的任务。
我们在新的基准测试中对现有算法进行了广泛的评估。 特别关注同构、级联和异构设置中的多任务学习。 我们的实验提出了许多新发现,这些发现是通过单个数据集上的不同任务集实现的。 我们关于异构多任务学习的基准模型阐明了设计单个模型以支持多个任务的挑战。
我们论文的主要贡献是:1)一个全面多样的 100K 驾驶视频数据集,支持多种复杂性的任务,可以作为自动驾驶计算机视觉研究的评估基准; 2)异构多任务学习和基线研究的基准,以促进未来的学习。

相关工作

视觉数据集是计算机视觉中众多识别任务所必需的。 特别是随着深度学习方法的出现,大规模视觉数据集,例如 [8, 35, 39, 23],对于学习高级图像表示至关重要。 它们是通用的,包括数百万张带有图像级分类标签的图像。 这些大型数据集在学习图像识别的表示方面很有用,但现实世界中大多数复杂的视觉理解任务需要更细粒度的识别,例如对象定位和分割 [11]。
我们提出的数据集为更深入的视觉推理提供了这些多粒度注释。 此外,我们在视频上下文中提供了这些注释,这提供了额外的视觉信息维度。 尽管存在大型视频数据集 [5, 2, 28],但它们通常仅限于图像级标签。
近年来,由于自动驾驶汽车技术的普及,驾驶数据集受到越来越多的关注。 目标是了解计算机视觉系统在自动驾驶背景下的挑战。 一些数据集专注于特定对象,例如行人 [9, 38]。 Cityscapes [7] 在他们自己的车辆收集的视频采样帧上提供实例级语义分割。 RobotCar [19] 和 KITTI [14] 也提供激光雷达扫描点等多源数据。 由于收集涵盖广泛时间和地点的数据非常困难,因此这些数据集的数据多样性是有限的。 为了使车辆感知系统稳健,它需要从众多城市的各种路况中学习。 我们的数据是从与 [32] 中的视频相同的原始来源收集的。 然而,我们论文的主要贡献是带有异构任务基准的视频注释。 Mapillary Vistas [23] 为用户上传的数据提供了细粒度的注释,这在位置方面更加多样化。 然而,这些图像是一次性帧,没有放置在具有时间结构的视频上下文中。
像 Vistas 一样,我们的数据是众包的,但是,我们的数据集仅从司机那里收集,每个带注释的图像都对应一个视频序列,这使得有趣的应用程序能够对时间动态进行建模。
多任务学习旨在通过从其他任务中学习来提高某个任务的泛化能力 [6, 22]。 它在机器学习中得到了广泛的研究 [6, 12]。 对学习任务之间关系的兴趣日益浓厚,产生了许多多任务和迁移学习培训基准和挑战。 Robust Vision Challenge [1] 具有六个视觉挑战,其中单个模型有望在多个视觉任务上产生结果。 扎米尔等人。 [37] 通过迁移学习研究了 26 个视觉任务之间的依赖结构。 麦肯等人。 [20] 提出了十个自然语言处理任务的挑战,并提出了一个模型,通过将每个任务制定为问答来解决所有问题。 类似于麦肯等人。 [20],现有的多任务和转移学习设置在输出结构上是同质的。 任务可以是制定为像素级或低维分类和回归。 BDD100K 包含多个任务,包括像素级、基于区域和时间感知的任务,为异构多任务学习打开了大门。

BDD100K

我们的目标是提供具有全面注释的大规模多样化驾驶视频数据集,以揭示街景理解的挑战。 为了实现良好的多样性,我们以众包方式获取由数万名司机上传的视频,并得到 Nexar 2 的支持。 该数据集不仅包含高分辨率 (720p) 和高帧率 (30fps) 的图像,还包含 GPS/IMU 记录以保留驾驶轨迹。 我们总共有 10 万个驾驶视频(每个 40 秒)从超过 5 万次骑行中收集,覆盖纽约、旧金山湾区和其他地区,如图 2 所示。
该数据集包含多种场景类型,例如城市街道、住宅区和高速公路。 此外,视频是在一天中不同时间在不同天气条件下录制的。 视频分为训练 (70K)、验证 (10K) 和测试 (20K) 集。 每个视频中第 10 秒的帧被注释用于图像任务,整个序列用于跟踪任务。
3.1图像标记
我们收集了六种天气条件、六种场景类型和一天中三个不同时间的图像级注释,对于每个图像。 这些视频包含大部分极端天气条件,例如下雪和下雨。 它们还包括世界各地不同数量的不同场景。 值得注意的是,我们的数据集包含大约相等数量的白天和夜间视频。 这种多样性使我们能够研究领域转移并在新的测试集上很好地推广我们的对象检测模型。 带有天气、场景和白天时间标签的图像的详细分布显示在补充材料中。 我们使用图 4 中的 DLA-34 [36] 提供图像标记分类结果。不同天气和场景的平均分类准确率约为 50% 到 60%。
3.2目标检测
定位物体不仅是自动驾驶的一项基本任务,也是一般视觉识别的一项基本任务。 我们为 100K 视频的每个参考帧提供 10 个类别的边界框注释。 实例统计信息如图 3a 所示。 我们提供了可见性属性,包括图 3b 和图 3c 中的“遮挡”和“截断”。
3.3车道标记
车道标记检测对于基于视觉的车辆定位和轨迹规划至关重要。 然而,可用的数据集通常在规模和多样性方面受到限制。
例如,加州理工学院车道数据集 [4] 仅包含 1,224 张图像,道路标记数据集 [31] 有 1,443 张图像标记为 11 类车道标记。 最近的工作 VPGNet [17] 包含在首尔三个星期的驾驶过程中拍摄的大约 20,000 张图像。
我们的车道标记(图 5)标有 8 个主要类别:路缘石、人行横道、双白、双黄、双其他颜色、单白色、单黄色、单其他颜色。 其他类别在评估期间被忽略。 我们标记连续性(完整或虚线)和方向(平行或垂直)的属性。 如表 1 所示,我们的车道标记注释涵盖了多种类别。
车道标线类型和可行驶区域的详细分布见补充材料。
3.4可行驶区域
仅靠车道不足以决定驾驶的道路负担能力。 虽然大多数时候,车辆应该停留在车道之间,但没有明显的车道标记是很常见的。 此外,道路区域与所有其他车辆共享,但如果车道被占用,则不能行驶。 车道标记之外的所有这些条件指导我们的驾驶决策,因此与设计自动驾驶算法相关。
我们的可行驶区域分为两类:直接可行驶区域和交替可行驶区域。 可直接行驶的区域是驾驶员当前正在行驶的区域——也是驾驶员优先于其他车辆或路权的区域。 相比之下,替代可行驶区域是驾驶员当前未行驶但能够通过改变车道行驶的车道。 虽然直接和替代可驾驶区域在视觉上无法区分,但它们在功能上是不同的,并且需要算法来识别阻塞对象和场景上下文。 一些示例如图 6 所示。可驾驶区域注释的分布在补充材料中显示。 毫不奇怪,在交通受到严格管制的高速公路或城市街道上,可行驶区域大多位于车道内,并且不会与道路上的车辆或物体重叠。 然而,在住宅区,车道稀疏。 我们的注释者可以根据周围环境找到可行驶的区域。
3.5语义实例分割
我们为从整个数据集中随机采样的 10,000 个视频剪辑中的每一个的图像提供细粒度的像素级注释。 每个像素都有一个标签和一个相应的标识符,表示图像中该对象标签的实例编号。 由于许多类(例如天空)不适合拆分为实例,因此只有一小部分类标签被分配了实例标识符。 整个标签集由 40 个对象类组成,这些对象类被选择用来捕捉道路场景中对象的多样性以及最大化每个图像中标记像素的数量。
除了大量标签外,我们的数据集在场景多样性和复杂性方面超过了以前的努力。 这整个集合分为 3 部分:用于训练的 7K 图像、用于验证的 1K 图像和用于测试的 2K 图像。 语义实例分割数据集中的类分布见补充材料。
3.6多目标跟踪
为了了解视频中对象的时间关联,我们提供了一个多对象跟踪 (MOT) 数据集,其中包括 2,000 个大约 400K 帧的视频。
每个视频大约 40 秒并以 5 fps 进行注释,因此每个视频大约有 200 帧。
我们在训练和验证集中观察到总共 130.6K 个轨道标识和 3.3M 个边界框。 数据集拆分为 1400 个用于训练的视频、200 个用于验证的视频和 400 个用于测试的视频。 表 2 显示了 BDD100K 与以前的 MOT 数据集的比较。 我们的跟踪基准提供比以前流行的跟踪数据集 MOT17 [21] 大一个数量级。 与我们的相比,Waymo [29] 最近发布的数据集具有更少的跟踪序列(1150 对 2000)和更少的帧(230K 对 398K)。 但是 Waymo 数据有更多的 2D 框(990 万 vs 420 万),而我们的具有更好的多样性,包括不同的天气条件和更多的位置。 补充材料中显示了按类别划分的轨迹和边界框的分布。
BDD100K MOT 在对象尺度上是多种多样的。 图 7(左)√ 绘制了框大小的累积分布,定义为宽度为 w 和高度为 h 的边界框的 wh。
图7(中)显示了最大框尺寸与最小框尺寸之比的累积分布 沿每条轨道的大小,图 7(右)显示了每条轨道的长度。 分布表明,MOT 数据集不仅在轨道之间和轨道内的视觉尺度上不同,而且在每个轨道的时间范围内也是如此。
我们的跟踪数据中的对象也存在复杂的遮挡和重新出现的模式,如图 8 所示。一个对象可能被完全遮挡或移出框架,然后在稍后重新出现。 我们观察到数据集中出现 49,418 次遮挡,或者每 3.51 条轨迹出现一次遮挡。 我们的数据集显示了自动驾驶中用于跟踪的对象重新识别的真正挑战。
3.7多目标跟踪分割
我们进一步提供了一个包含 90 个视频的多对象跟踪和分割 (MOTS) 数据集。 我们将数据集拆分为 60 个训练视频、10 个验证视频和 20 个测试视频。
表 3 显示了 BDD MOTS 数据集的详细信息以及与现有多对象跟踪和分割 (MOTS) 和视频对象分割 (VOS) 数据集的比较。 MOTS 旨在对拥挤场景中的多个对象进行分割和跟踪。 因此,像 KITTI MOTS 和 MOTS Challenge [30] 这样的 MOTS 数据集每帧需要更密集的注释,因此比 VOS 数据集更小。 BDD100K MOTS 提供了比 KITTI 和 MOTS Challenge 数据集更大的 MOTS 数据集,注释数量与大规模 YouTube VOS [33] 数据集相当。 MOTS 数据集按类别的详细分布显示在补充材料中。
3.8模仿学习
我们数据集中的 GPS/IMU 记录显示了给定视觉输入和驾驶轨迹的人类驾驶员行为。 我们可以将这些录音用作模仿学习算法的示范监督,并使用困惑度来衡量验证和测试集上驾驶行为的相似性。 我们参考徐等人。 [32] 有关评估协议的详细信息。 驾驶轨迹的可视化显示在补充材料中。

多样性

除了视频和规模之外,我们数据的一个显着特征是多样性。 我们可以研究多样性给现有算法带来的新挑战,以及我们的数据如何补充现有数据集。 我们对对象检测和语义分割进行了两组实验。 在对象检测实验中,我们研究数据集中的不同领域。 在语义分割中,我们引入
4.1目标检测
与其他流行的驾驶数据集相比,我们的数据集在多样性方面具有优势。我们研究了区域差异对目标检测的影响。整个数据集根据时间和场景类型划分为多个域。选择城市街道和白天作为验证域。训练集中的图像数(30K)相同。然后,我们在这些域上基于ResNet-50训练更快的RCNN[27],并使用COCO API评估结果[18]。
我们发现,不同条件下的图像集之间确实存在域差异,如表4所示。城市和非城市之间的差异是显著的,但白天和夜间之间的差距要大得多。虽然这并不完全令人惊讶,但研究结果表明,需要更多的工作来弥合这一差距。
4.2语义分割
我们还比较了在城市景观上训练的模型和我们的模型,以了解我们的新数据集和现有驾驶数据集之间的差异。城市景观数据是在德国城市收集的,而我们的数据主要来自美国。我们观察到语义分割模型的两个数据集之间存在着显著的领域转移。当在不同的数据集上测试时,这些模型的性能要差得多。
这表明,即使对于其他数据集的领域,我们的新数据集也是互补的,这增加了现有的数据集。图9直观地显示了差异。我们可以观察到,在美国,根据城市景观训练的模型无法识别交通标志。

多任务学习

BDD100K为研究异构任务的联合解决方案提供了机会。在本节中,我们将研究使用同一基本模型联合建模各种任务的效果。我们研究如何利用简单标签的多样性和数量来提高复杂任务的准确性,例如从目标检测到跟踪使用简单的标签来提高复杂任务的准确性,例如从目标检测到跟踪。
5.1异构多任务学习
我们首先研究了以相似的输出结构联合执行任务的效果。BDD100K车道标记和可行驶区域数据集共享同一组70K训练图像。可驾驶区域注释由2个前景类组成,车道标记注释有3个属性(方向、连续性和类别)。我们将可行驶区域检测作为分割,车道标记作为轮廓检测。我们使用公差τ=1、2和10像素的结构化边缘检测工具箱[10],通过平均IoU评估可驾驶区域分割,并通过最佳数据集尺度F-度量(ODS-F)评估三种属性的每种类别的车道标记。在评估过程中,我们对每个分数阈值进行形态学细化。
我们采用DLA-34[36]作为分割任务的基本模型。我们使用四个3×3卷积块和一个1×1卷积来实现分割头,以4x下采样比例生成分割图,并使用双线性插值将输出上采样到原始比例。对于车道标记,我们对三个属性使用三个分割头。我们采用前景权重为10的加权交叉熵损失作为车道标线头,并采用基于梯度的非最大值抑制进行后处理。我们构建了三个包含10K、20K和完整70K图像的列车组,并在表5中报告了针对单个任务和两个任务训练的模型的评估结果。车道标线的完整评估结果见补充资料。
我们观察到,当仅使用10K图像进行训练时,车道标记预测的平均ODS-F分数从45.41提高到50.40,与可驾驶区域任务联合训练时。然而,与单个任务相比,可驾驶区域检测任务的联合训练从64.23提高到64.37的效果微乎其微。当我们将训练图像的数量增加到20K和70K时,联合训练和单任务训练之间的差异变得微不足道,尽管性能数字通常高于在10K图像上训练的性能数字。
结果的一个假设是,可驾驶区域检测任务和车道标记任务共享类似的预测结构,称为同质任务,因此额外的监督可能无法为每个单独的任务带来新的信息。这些结果进一步激励我们在这项工作中研究具有不同预测结构和注释类型的异构任务的多任务学习。
5.2级联多任务学习
某些任务(如对象跟踪和实例分割)注释起来更耗时。但它们可以依赖于对简单任务的预测。这种联系被研究为级联多任务学习。例如,更精确的目标检测可以更好地定位目标候选对象以进行跟踪。一个自然的问题是,是为复杂的任务花费所有的注释工作,还是为基本任务分配一些资源。
目标检测和实例分割 BDD实例分割数据集包含7K个图像,而检测数据集包含70K个图像。我们首先研究添加更多的对象检测注释是否有助于实例分割。我们使用Mask R-CNN[15],以ResNet-50[16]为主干,以批处理级别的循环方式进行训练检测和实例分割。
如表6所示,通过联合训练,AP从21.8增加到24.5。实例分割模型能够从具有更丰富多样性的图像和对象示例的检测集中学习更好的对象外观特征和定位。Zhou等人[40]探索了检测监督中的形状先验,并进一步改进了半监督实例分割结果。
MOT和目标检测 BDD100K MOT具有来自1400个视频的278K训练帧,而检测集包含来自70K视频的70K图像采样。对于探测和MOT模型,我们使用改进版的更快的R-CNN[27],带有共享的DLA-34[36]主干。
跟踪模型的实施细节见补充资料。表7显示,检测和多目标跟踪的联合训练改进了单任务MOT模型,检测AP从28.1增加到30.7,MOTA从55.0增加到56.7,身份切换略有增加。
语义分割与其他任务 按照类似的方式,我们通过将语义分割与检测和车道标记/可驾驶区域联合训练来微调基本语义分割模型,如表8所示。我们观察到,使用额外的70K对象检测数据集进行训练将总体mIoU从56.9提高到58.3,这主要归功于对象检测数据集中存在的对象类。当与车道标记和可驾驶区域集联合训练时,材料类(如道路和人行道)的IOU提高,但所有类的整体IOU降低。
总之,向任务级联中的简单任务添加更多注释有助于提高需要更昂贵标签的复杂任务的性能
5.3异构多任务学习
我们的基准测试的最终目标是研究如何一起执行所有异构任务以实现自主驾驶。为了了解潜在的和困难,我们研究了多目标跟踪和分割的联合训练、目标检测的下游任务、实例分割和多目标跟踪。由于MOTS数据集在每一帧需要耗时的实例分割注释,因此该数据集在视频多样性方面相对有限,训练集中60个视频中有12K帧。我们的目标是通过利用检测集的多样性来提高MOT任务的性能,检测集包含来自70K视频的70K图像,MOT集包含来自1400个视频的278K帧,以及实例分割集包含来自7K视频的7K图像。
我们在表9中报告了实例分割AP和多对象跟踪与分割精度(MOTSA)、精度(MOTSP)以及[30]使用的其他指标。我们首先从预先训练的上游任务模型中微调MOTS模型。与从头开始训练MOT相比,预先训练的实例分割模型的微调改进了分割AP和MOTSP。另一方面,从预先训练的MOT模型进行微调可以减少身份切换(IDSW)。来自实例分割和MOT数据集的额外训练示例分别改进了分割和盒传播,从而大大提高了MOTSA的整体结果。最后,我们通过联合训练四个任务,对表7中提到的联合训练的检测和跟踪模型进行微调。我们实现了23.3的总体分割AP和41.4的MOTSA。

结论

在这项工作中,我们提出了BDD100K,这是一个大规模的驾驶视频数据集,具有广泛的异构任务注释。我们为异构多任务学习建立了一个基准,其中任务具有不同的预测结构,并服务于完整驱动系统的不同方面。我们的实验对不同的多任务学习场景进行了广泛的分析:同质多任务学习和级联多任务学习。结果显示了在多任务学习中分配注释预算的有趣发现。我们希望我们的工作能够促进对异质多任务学习的未来研究,并为这一重要方向提供线索。

你可能感兴趣的:(笔记,自动驾驶,机器学习,深度学习)