ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes

摘要

利用监督的深度学习方法的关键要求是大型,标记数据集的可用性。 不幸的是,在了解RGB-D场景的情况下,几乎没有可用的数据–当前的数据集覆盖了一小部分场景视图,并且语义注释有限。 为解决此问题,我们引入了ScanNet,它是一个包含15M场景中的2.5Mviews的RGB-Dvideo数据集,并带有3D相机姿势,表面重建和语义分割。 为了收集这些数据,我们设计了一个易于使用且可扩展的RGB-D捕获系统,该系统包括自动表面重建和众包语义注释。 我们证明,使用这些数据有助于在一些3D场景理解任务上实现最先进的性能,包括3D对象分类,语义体素标注和CAD模型检索。

ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes_第1张图片

1.Introduction 

自从引入诸如Microsoft Kinect之类的商用RGB-D传感器以来,3D几何捕获领域就受到了极大的关注,并开辟了广泛的新应用。 尽管在3D重建算法上已进行了大量工作,但对RGB-D数据的一般3D场景理解直到最近才开始流行。 现代机器学习方法(例如神经模型)的快速发展也极大地促进了基于语义理解的研究。 成功应用这些方法的一个关键是大型,标记数据集的可用性。 尽管在2D数据集上做了很多工作[17、44、47],这些图像可以从Web上下载并直接注释,但是3D数据的情况更具挑战性。 因此,许多当前的RGB-D数据集[74、92、77、32]比其2D对应数据项小几个数量级。 通常,3D深度学习方法使用合成数据来缓解现实世界数据的这种缺乏[91,6]。

当前3D数据集小的原因之一是它们的捕获需要更多的努力。在3D中提供(密集的)注释并不简单。因此,有关3D数据集的现有工作通常会退回到2.5D RGB-D图像上的多边形或边界框注解[74、92、77],而不是直接在3D中进行注解。 在后一种情况下,标签是由专家用户(通常由论文作者)手动添加的[32,71],这限制了标签的整体大小和可伸缩性。 在本文中,我们介绍了ScanNet,它是在707个不同空间中进行的1513次扫描中包含2.5M RGB-D图像的真实环境的富注释RGB-D扫描的数据集。 该数据集的绝对大小大于其他任何一个[58,81,92,75,3,71,32]。 但是,对场景理解研究特别有价值的是它的注释,包括估计的校准参数,相机姿态,3D表面重建,纹理化网格,密集的对象级语义分割以及对齐的CAD模型(见图2)。 语义分割比任何以前的RGB-D数据集大一个数量级。 在该数据集的收集中,我们考虑了两个主要的研究问题。1)我们如何设计一个框架,允许许多人收集和注释大量RGB-D数据。并且2)我们可以利用ScanNet中提供的丰富注释和数据量来学习更好的3D模型以进行场景理解吗?

为了研究第一个问题,我们建立了捕获管道,以帮助新手获取语义标记的场景3D模型。 一个人使用装有深度相机的iPad上的应用程序来获取RGB-D视频,然后我们离线处理数据并返回完整的语义标记的3D场景重建。 开发这样一个框架的挑战很多,包括如何更好地形成3D表面重构,如何在可扩展的管道上建立鲁棒性以及如何拥挤源语义标记。 本文讨论了我们对这些问题的研究,并通过扩展RGB-Dscan集合(20人)和注释(500人)对我们的经验进行了记录。

为了调查第二个问题,我们用ScanNet提供的数据训练了3D深度网络,并在几个场景理解任务上测试了它们的性能,这些任务包括3D对象分类,语义体素标记和CAD模型检索。 对于语义体素标记任务,我们介绍了一种新的体积CNN架构。 总体而言,本文的贡献是:

•大型3D数据集,包含对707多个独特室内环境的1513 RGB-D扫描,并具有估计的相机参数,表面重建,纹理化网格,语义分割。 我们还为扫描的一部分提供CAD模型放置。  

•适合新手用户的高效3D数据捕获和注释设计。  

•在3D对象分类,语义体素标记和CAD模型检索方面的最新机器学习方法,新的RGB-D基准和改进的结果。  

•用于密集RGB-D重建的完整的开源获取和注释框架。

4.ScanNet Dataset

在本节中,我们总结使用框架建立ScanNet数据集所收集的数据。 该数据集是来自多个国家/地区的20个用户的大约一个月数据采集的可用数据的快照。 在Mechanical Turk平台上,超过500名拥挤的工人对此进行了注释。 由于提出的框架以无人监督的方式运行,并且人们不断收集数据,因此该数据集继续有机增长。 在这里,我们报告了1513次扫描的初始快照的一些统计信息,这些统计信息汇总在表2中。图5描绘了不同类型的现实空间中扫描场景的分布。  ScanNet包含各种空间,例如办公室,公寓和浴室。 数据集包含从小(例如,浴室,壁橱,实用间)到大(例如,公寓,教室和图书馆)的各种空间集。 每个扫描通过以下方式用实例级语义类别标签进行标注。总共,我们部署了3391个注释任务来注释所有1513个扫描。

人群工作者用来注释对象实例的文本标签都映射到NYU v2 [58],ModelNet [91],ShapeNet [6]和WordNet [18]同义词集的对象类别集。 这种映射方式通过预处理,通过同义词和拼写错误检测折叠了初始文本标签,因此更具鲁棒性。 除了重建和注释1513 ScanNet扫描外,我们还使用我们的框架处理了所有NYU v2 RGB-D序列。 结果是一组带有3D实例级别对象注释的NYU v2空间的密集重构,这些注释本质上与现有的基于图像的注释互补。 我们还部署了CAD模型对齐众包任务,以收集总共107个虚拟场景解释,这些虚拟场景解释由106个工作人员的52个ScanNet扫描的子集组成,由对齐的ShapeNet模型构成。 总共检索到681个CAD模型实例(共296个唯一模型)并将其放置在重构中,每个带注释的扫描平均有6.4个CAD模型实例。 有关第一个ScanNet数据集快照的更多详细统计信息,请参阅附录。

5.Tasks and Benchmarks 

在本节中,我们描述了作为基准测试网络的价值而开发的三个任务。
   训练/测试拆分统计信息。 表3显示了在对象分类和密集体素预测基准的背景下ScanNet的测试和训练情况。 请注意,我们的数据比任何现有的可比较数据集都大得多。 我们使用这些任务来证明ScanNet能够在监督培训下将深度学习方法用于3D场景理解任务,并将性能与使用其他现有数据集中的数据进行比较。  

5.1.3D Object Classification

随着[91,6]等大型合成3D数据集的可用性以及3D深度学习的最新进展.研究已经开发出仅使用具有体积深网的几何数据对对象进行分类的方法[91、82、52、13、66]。 所有这些方法都针对纯合成数据进行训练,并专注于孤立的对象。 尽管他们对现实世界数据的评估有限,但仍缺少对现实扫描数据的更大评估。 当训练数据是合成的并且对真实数据进行测试时,由于数据特性(例如噪声和遮挡模式)固有地不同,因此测试性能也存在明显差异。 借助ScanNet,我们已经捕获了足够大的3D数据量以用于训练集和测试集的真实世界RGBD输入,从而缩小了这一差距。 对于此任务,我们使用ScanNet中带注释的对象的边界框,并隔离所包含的几何图形。 结果,我们获得了每个对象实例周围的局部体积,这些对象实例都带有注释的类别。 任务的目标是对由给定边界框中的一组扫描点表示的对象进行分类。 对于此基准,我们使用17个类别,其中包含9,677个训练实例和2,606个测试实例。
   网络和训练。 对于对象分类,我们遵循[66]的3D网络中的网络体系结构,而没有多方向合并步骤。 为了对部分数据进行分类,我们向303占用栅格输入添加了第二个通道,根据相机扫描轨迹指示已知和未知区域(分别为1和0)。 如齐等。  [66],我们使用学习率0.01和动量0.9的SGD求解器,每20个周期减少一半的学习率,并为200个周期训练模型。 我们增加了12个不同旋转实例的训练样本(包括仰角和倾斜度),结果总共训练了111,660个样本。
   基准性能。 作为基线评估,我们运行Qi等人的3D CNN方法。  [66]。 表4显示了在不同的训练集和测试集下3D形状分类的性能。 前两列显示了来自ShapeNet [6]的综合测试数据的结果,包括完整数据和部分数据。 自然,与共享的ShapeNet对应合成器进行训练可提供最佳性能,因为数据特征是共享的。 但是,更有趣的情况是真实的测试数据.在这里,我们显示了SceneNN [32]和ScanNet的测试集上的结果。 首先,我们看到对合成数据的培训仅允许有限的知识转移(前两行)。 其次,尽管相对较小的SceneNN数据集能够在其自己的数据集中进行一定程度的学习,但它并不能推广到ScanNet中发现的各种环境。 另一方面,在ScanNet上进行的培训可以很好地转换为SceneNN上的测试。 结果,通过使用来自ScanNet的训练数据,SceneNN上的测试结果得到了显着改善。 有趣的是,将ScanNet的训练数据与ShapeNet的部分扫描(最后一行)混合时,可以稍微改善这些结果。

ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes_第2张图片

5.2.Semantic Voxel Labeling

关于RGB数据的常见任务是语义分割(即用语义类标记像素)[49]。 利用我们的数据,我们可以将该任务扩展到3D,目标是在每个体素的基础上预测语义对象标签。 先前的工作已经解决了预测每个可见的3Dvoxel的语义类的任务,但是使用手工制作的功能来预测少量的类[41,86],或者专注于室外环境[8,5]。
   数据生成。 我们首先对一个场景进行体素化,并获得一个具有2cm3体素的密集体素网格,其中每个体素都存储其TSDF值和对象类别注释(空白空间和未标记的表面点具有各自的类别)。 现在,我们提取场景体积的子体积,尺寸为2×31×31×62,并且空间范围为1.5m×1.5m×3m; 即体素大小约为4.8cm3; 这两个通道根据相机轨迹分别代表占用率和已知/未知空间。 这些样本量与xy接地平面对齐。对于地面真实数据生成,将体素标签从场景体素化传播到这些样本量。 样本被选择为≥2%的体素被占用(即在表面上),并且这些表面体素的≥70%具有有效注释; 不符合这些标准的样品将被丢弃。 在整个ScanNet中,我们从1201个训练场景中生成了93,721个用于训练的子示例,每个子示例都增加了8个旋转(即749,768个训练样本)。 此外,我们提取了18,750个样本进行测试,并从312个测试场景中每个样本增加了8个旋转(即150,000个测试样本)。 我们有20个对象类标签以及1个可用空间类。
   网络和训练。 对于语义体素标注任务,我们提出了一个网络,该网络根据体素邻域的占用特征预测场景中一列体素的类标签。 为了推断整个场景的标签,我们使用网络来预测测试时每个体素列的标签(即表面上具有体素的每个xy位置)。 该网络以2×31×31×62的体积作为输入,并使用一系列完全卷积的层来同时预测62个体素的中心列的类分数。 我们对网络中所有层(最后一层除外)使用ReLUandbatch规范化。 要考虑类标签上的不平衡训练数据,请使用火车数据直方图的反对数来加权交叉熵损失。 我们使用学习率0.01和动量0.9的SGD求解器,每20个周期将学习率衰减一半,并训练100个周期的模型。
   定量结果。 该任务的目标是预测给定3D场景中所有可见表面体素的语义标签。 也就是说,可见表面上的每个体素都会收到20个对象类别标签之一。 我们使用NYU2标签,并在表7上列出ScanNet上的体素分类结果。在312种测试场景的基础上,我们实现了73.0%的体素分类精度,该场景基于几何输入(不使用颜色)。 在表5中,我们在NYU2数据集上显示了语义体素标记结果[58]。 我们的性能优于以前的方法,这些方法是使用我们的体积分类网络在有限的真实世界数据集上进行训练的。 例如,Hermans等。  [31]使用稠密的随机决策森林结合条件随机场对RGB-D帧进行分类。 另外,SemanticFusion [54]使用在RGB-D帧上训练的深网,并在帧的3D重构上使用CRF规范预测; 请注意,我们将其与分类结果进行了比较在CRF规范化之前。  SceneNet在大型合成数据集和细调NYU2上进行训练。 请注意,与Hermans等人相反。 和SemanticFusion,我们和SceneNet都不使用RGB信息。 请注意,当测试体积在xy平面上滑动时,我们没有明确地强制相邻体素列之间的预测一致性。 如[86]中所用,可以使用体积CRF [64]来实现。 但是,我们在此任务中的目标仅集中在按体素分类的准确性上。  

5.3.3DObjectRetrieval

另一个重要任务是在给定(可能是部分)RGB-D扫描的情况下,检索相似的CAD模型。 为此,人们想学习一种形状嵌入,其中特征描述符定义形状之间的几何相似性。 核心思想是在形状分类任务上训练网络,在该任务中可以将形状嵌入作为分类任务的副产品。 例如,Wuetal。[91]和Qiet等人[66]在ShapeNet数据库中使用此技术流程进行形状检索。 使用ScanNet,我们已经在现实世界的对象和ShapeNet模型之间建立了类别级别的对应关系。 这允许对分类问题进行分类,其中在每个类别中混合了真实数据和合成数据使用共享类标签中的区域合成数据对gory进行分类。 因此,我们可以学习真实数据和合成数据之间的嵌入,以便对RGB-D扫描执行模型检索。 为此,我们使用Qi等人的体积形状分类网络。  [66],我们使用与第二节中相同的训练程序。  5.1。 基于提取的特征描述符之间的`2距离,检索最近的邻居,并根据CAD模型检索任务提供的ground truth进行测量。 在表6中,我们显示了使用来自ScanNet的对象从ShapeNetCore查询最近的邻居模型的对象检索结果。 请注意,对ShapeNet和ScanNet进行培训会分别导致较差的检索性能,因为这两种方法都无法弥合合成数据和实际数据的不同特征之间的鸿沟。 一起对ShapeNet和ScanNet进行培训能够发现两个数据模态之间的形状相似性嵌入,从而获得更高的检索精度。

6.结论

本文介绍了ScanNet:大规模的RGBD数据集,包括表面重建,实例级对象类别注释和3D CAD模型放置的1513次扫描。 为了使这些数据的收集成为可能,我们设计了可扩展的RGB-D获取和语义注释框架,为社区的利益提供了框架。 我们证明,到目前为止,在ScanNet中收集的带注释注释的扫描数据对于在几个3D场景理解任务上实现最先进的性能很有用。 我们希望ScanNet能够激发其他许多任务的未来工作。

 

 

你可能感兴趣的:(论文)