视觉深度估计的Pseudo-LiDAR:弥合自动驾驶3D对象检测中的差距(CVPR2019)

摘要

3D对象检测是自动驾驶中的一项基本任务。只要从精确但昂贵的LiDAR技术中获得3D输入数据,最新技术就可以以高度准确的检测率获得优势。迄今为止,基于廉价的单目或立体图像数据的方法导致精度大大降低,而这种差距通常归因于基于图像的深度估计不佳。但是,在本文中,我们认为,造成差异最大的不是数据质量,而是其表示形式。考虑到卷积神经网络的内部工作,我们建议将基于图像的深度图转换为伪LiDAR表示-本质上是模仿LiDAR信号。通过这种表示,我们可以应用现有的基于LiDAR的不同检测算法。在流行的KITTI基准上,我们的方法在现有的基于图像的性能方面取得了令人印象深刻的改进-将物体的检测精度从以前的最新技术提高了30m22%达到前所未有的74%。在发布时,对于基于立体图像的方法,我们的算法在KITTI 3D对象检测排行榜上占据最高位置。我们的代码可从https://github.com/mileyan/pseudo_lidar公开获得。

1.简介

可靠且强大的3D对象检测是自动驾驶的基本要求之一。毕竟,为了避免与行人,骑自行车的人和汽车相撞,车辆必须首先能够检测到它们。

现有算法在很大程度上依赖于LiDAR(光检测和测距),它可以提供周围环境的准确3D点云。尽管具有很高的精确度,但出于多种原因,仍希望使用LiDAR替代方案。
首先,LiDAR很昂贵,这给自动驾驶硬件带来了巨大的溢价。其次,过分依赖单个传感器是一种固有的安全风险,如果有第二个传感器在出现故障时退回,则将是有利的。自然的候选人是来自立体或单眼相机的图像。光学相机价格实惠(比Li DAR便宜几个数量级),以高帧速率运行,并且提供密集的深度图,而不是LiDAR信号固有的64或128稀疏旋转激光束。

最近的一些出版物探索了将单眼和立体深度(视差)估计[13、21、35]用于3D对象检测[5、6、24、33]。但是,迄今为止,主要的成功主要是在补充LiDAR方法方面。例如,KITTI基准[11,12]上的一种领先算法[18]使用传感器融合将汽车的3D平均精度(AP)从LiDAR的66%提高到了LiDAR和单眼图像的73%。相比之下,在仅使用图像的算法中,最新技术仅实现了10%的AP [33]。

对于这种性能较差的一种直观且流行的解释是基于图像的深度估计的精度较差。与LiDAR相比,立体声深度估计的误差随深度呈二次方增长。但是,对由LiDAR生成的3D点云和最新的立体声深度估计器[3]进行的视觉比较显示,即使是遥远的物体,这两种数据模态之间也存在高质量的匹配(参见图1)。

视觉深度估计的Pseudo-LiDAR:弥合自动驾驶3D对象检测中的差距(CVPR2019)_第1张图片

图1:来自视觉深度估计的伪LiDAR信号。左上角:一个KITTI街道场景,在通过LiDAR(红色)和伪LiDAR(绿色)获得的汽车周围叠加了边界框。左下:估计的视差图。右图:伪LiDAR(蓝色)与LiDAR(黄色)—伪LiDAR点与LiDAR的点非常吻合。彩色效果最佳(放大以了解详细信息。)

在本文中,我们提供了对性能有重大影响的替代解释。我们认为,造成立体图像与LiDAR之间性能差距的主要原因不是深度精度方面的差异,而是基于立体声的基于ConvNet的3D对象检测系统对3D信息表示的选择不佳。具体来说,LiDAR信号通常表示为3D点云[25]或从上至下的“鸟瞰”透视图[36]进行处理。在两种情况下,物体的形状和大小都随深度而变。相反,对于每个像素密集估计基于图像的深度,通常将其表示为其他图像通道[6、24、33],从而使遥远的物体更小且更难检测。更糟糕的是,此表示形式组中的像素邻域一起指向了遥远的3D空间区域。这使得依赖于这些通道上的2D卷积的卷积网络难以推理和精确定位3D对象。

为了评估我们的主张,我们针对基于立体声的3D对象检测引入了两步方法。我们首先将估计的深度图从立体图像或单眼图像转换为3D点云,我们将其称为伪LiDAR,因为它模拟了LiDAR信号。然后,我们利用现有的基于LiDAR的3D对象检测管道[17,25]的优势,我们直接在伪LiDAR表示上进行训练。通过将3D深度表示更改为伪LiDAR,我们在基于图像的3D对象检测算法的准确性方面获得了前所未有的提高。具体来说,在KITTI基准测试中,“中等难度”汽车实例的IoU(交叉路口联合)为0.7(官方排行榜中使用的指标),我们在验证集上获得了45.3%的3D AP:几乎350%的即时消息以前基于图像的最先进方法的证明。此外,我们将基于立体声的系统与基于LiDAR的系统之间的距离缩小了一半。

我们评估了立体深度估计和3D对象检测算法的多种组合,并得出了非常一致的结果。这表明我们观察到的增益是由于伪LiDAR表示所致,并且较少依赖3D对象检测架构或深度估计技术的创新。

总而言之,本文的贡献是双重的。首先,我们凭经验表明,基于立体声的3D对象检测和基于LiDAR的3D对象检测之间的性能差距的主要原因不是估计深度的质量,而是其表示的质量。其次,我们提出伪LiDAR作为3D对象检测的估计深度的新建议表示形式,并表明它可以导致基于最新的立体声的3D对象检测,有效地使现有技术增加了三倍。我们的结果表明,有可能在自动驾驶汽车中使用立体摄像机,从而有可能大幅降低成本和/或提高安全性。

2.相关工作

基于LiDAR的3D对象检测。我们的工作受到3D视觉和基于LiDAR的3D对象检测的最新进展的启发。许多最新技术使用了LiDAR自然地表示为3D点云这一事实。例如,平截头体PointNet [25]将PointNet [26]应用于来自2D对象检测网络的每个平截头体提议。
MV3D [7]将LiDAR点投影到鸟瞰(BEV)和正面视图中,以获得多视图特征。Vox elNet [37]将3D点编码为体素,并通过3D卷积提取特征。UberATG-ContFuse [18]是KITTI基准[12]上的领先算法之一,它执行连续卷积[30]以融合视觉和BEV LiDAR功能。所有这些算法均假定给出了精确的3D点坐标。因此,主要的挑战在于预测点标签或在3D中绘制边界框以定位对象。

基于立体和单眼的深度估计。基于图像的3D对象检测方法的关键要素是可靠的深度估计方法,以取代LiDAR。这些可以通过单眼[10、13]或立体视觉[3、21]获得。自从单眼深度估计的早期工作以来,这些系统的准确性已大大提高[8,16,29]。像DORN [10]这样的最新算法将多尺度特征与序数回归结合在一起,从而以极低的误差来预测像素深度。对于立体视觉,PSMNet [3]将暹罗网络用于视差估计,然后使用3D卷积进行细化,从而导致异常率低于2%。最近的工作使这些方法的模式有效[31],从而使准确的视差估计能够在移动设备上以30 FPS的速度运行。

基于图像的3D对象检测。立体和单眼深度估计的快速发展表明,它们可以在基于图像的3D对象检测算法中替代LiDAR。这种风格的现有算法主要基于2D对象检测[28],并施加额外的几何约束[2、4、23、32]来创建3D建议。[5,6,24,33]应用基于立体声的深度估计以获得每个像素的真实3D坐标。这些3D坐标可以作为附加输入通道输入2D检测管道,或用于提取手工特征。尽管这些方法取得了显着进步,但3D对象检测性能的最新水平仍落后于基于LiDAR的方法。正如我们在第3节中讨论的那样,这可能是因为这些方法使用了深度表示。

3.方法

尽管基于图像的3D对象识别具有许多优点,但最新的图像检测率与基于LiDAR的方法之间仍存在明显差距(请参见第4.3节中的表1)。试图将这一差距归因于LiDAR与摄像头技术之间的明显物理差异及其影响。例如,基于立体声的3D深度估计的误差随对象的深度呈二次方增长,而对于time of flight(ToF)方法(如LiDAR),此关系近似为线性。
尽管其中一些物理差异确实可能会导致准确性差距,但在本文中,我们声称,差异的很大一部分可以由数据表示来解释,而不是由其质量或与数据收集相关的基础物理特性来解释。

实际上,最新的立体声深度估计算法可以生成出乎意料的准确深度图[3](见图1)。因此,我们“缩小差距”的方法是仔细消除两个数据模态之间的差异,并尽可能使两个识别管道对齐。为此,我们提出了一种分两步的方法,首先从立体(甚至单眼)图像估计密集像素深度,然后将像素反投影到3D点云中。通过将该表示形式视为伪LiDAR信号,我们可以应用任何现有的基于LiDAR的3D对象检测算法。图2描述了我们的流程。

深度估计。我们的方法与不同的深度估计算法无关。尽管我们的应用程序可以轻松地使用单眼深度估计方法,但我们主要使用立体视差估计算法[3,21]。

立体视差估计算法将一对左右图像Il和Ir作为输入,从具有水平偏移量(即基线)b的一对相机捕获,并输出与两个图像中的任何一个相同大小的视差图Y两个输入图像。在不失一般性的前提下,我们假设深度估计算法将左图像Il作为参考,并在Y中记录每个像素与Ir的水平视差。连同左摄像机的水平焦距fU一起,我们可以通过以下变换得出深度图D,视觉深度估计的Pseudo-LiDAR:弥合自动驾驶3D对象检测中的差距(CVPR2019)_第2张图片

其中(cU,cV)是与相机中心相对应的像素位置,fV是垂直焦距。
通过将所有像素反投影到3D坐标中,我们得出3D点云{{x(n),y(n),z(n))} Nn = 1,其中N是像素数。在给定参考视点和视线方向的情况下,可以将这种点云转换为任何独眼坐标系。我们将结果点云称为伪LiDAR信号。

LiDAR与伪LiDAR。为了与现有的LiDAR检测管道最大程度地兼容,我们对伪LiDAR数据进行了一些额外的后处理步骤。由于实际的LiDAR信号仅位于某些高度范围内,因此我们忽略了超出该范围的伪LiDAR点。例如,在[36]之后,在KITTI基准上,我们删除了虚拟LiDAR源(位于自动驾驶汽车顶部)上方1m以上的所有点。由于大多数感兴趣的物体(例如汽车和行人)不会超过此高度范围,因此几乎没有信息丢失。除了深度之外,LiDAR还返回任何测量像素的反射率(在[0,1]内)。
由于我们没有此类信息,因此只需将每个伪LiDAR点的反射率设置为1.0。
图1描绘了来自KITTI数据集[11,12]的同一场景的地面LiDAR和伪LiDAR点。深度估计是通过金字塔立体匹配网络(PSMNet)获得的[3]。出人意料的是,与通常认为基于低精度图像的深度是劣质3D对象检测的主要原因相比,伪LiDAR点(蓝色)与真实LiDAR点(黄色)对齐得非常好。我们注意到,LiDAR可以为一个场景捕获> 100、000个点,这与像素数的顺序相同。不过,LiDAR点沿几个(通常为64或128)水平光束分布,仅稀疏地占据3D空间。

3D对象检测。利用估计的伪LiDAR点,我们可以将任何现有的基于LiDAR的3D对象检测器应用于自动驾驶。在这项工作中,我们考虑基于多模式信息(即单眼图像+ LiDAR)的信息,因为将原始视觉信息与伪LiDAR数据一起合并是很自然的。具体来说,我们在AVOD [17]和Frustum PointNet [25](在KITTI基准上使用开源代码的两个排名最高的算法)上进行了实验。通常,我们区分两种不同的设置:

a)在第一个设置中,我们将伪LiDAR信息视为3D点云。在这里,我们使用视锥台Point Net [25],它将2D对象检测[19]投影到3D视锥中,然后应用PointNet [26]提取每个3D视锥上的点集特征。
b)在第二种设置中,我们从鸟瞰图(BEV)上查看伪LiDAR信息。特别是,从顶向下的视图将3D信息转换为2D图像:宽度和深度成为空间尺寸,高度记录在通道中。AVOD将视觉功能和BEV LiDAR功能连接到3D框提案,然后将二者融合到每个框的分类和回归中。
数据表示很重要。尽管伪LiDAR传达的信息与深度图相同,但我们声称它更适合基于深度卷积网络的3D对象检测管道。为此,请考虑卷积网络的核心模块:2D卷积。在图像或深度图上运行的卷积网络在图像/深度图上执行2D卷积序列。尽管可以了解卷积的过滤条件,但主要假设有两个方面:(a)图像中的局部邻域具有意义,网络应查看局部斑块;(b)所有邻居罩都可以以相同的方式进行操作。

这些只是不完善的假设。首先,只有将2D图像上的局部色块完全包含在单个对象中时,它们才会在物理上保持一致。如果它们跨越对象边界,则两个像素可以在深度图中彼此并排放置,但在3D空间中可能相距很远。其次,出现在多个深度的对象在深度图中投影到不同的比例。大小相似的贴片可能仅捕获附近汽车的侧视镜或远处汽车的整个车身。现有的2D对象检测方法正面临这种假设的分解,并且不得不设计新颖的技术,例如特征金字塔[19]来应对这一挑战

视觉深度估计的Pseudo-LiDAR:弥合自动驾驶3D对象检测中的差距(CVPR2019)_第3张图片

视觉深度估计的Pseudo-LiDAR:弥合自动驾驶3D对象检测中的差距(CVPR2019)_第4张图片

图3:我们将具有统一内核的单个2D卷积应用于正面视图深度图(左上)。将深度图(右上)反向投影到伪LiDAR中并从鸟瞰图显示(右下图)后,与原始伪LiDAR表示相比,深度图显示出较大的深度失真(下图)-左),尤其是远处的物体。我们用颜色标记每辆汽车的积分。这些盒子是叠加在一起的,分别包含绿色和青色汽车的所有点。

相比之下,点云上的3D卷积或鸟瞰切片中的2D卷积在物理上靠在一起的像素上起作用(尽管后者确实从不同的高度拉动了像素,但世界的物理意义是像素在特定的空间位置处于不同高度的人通常确实属于同一对象)。此外,对遥远物体和附近物体的处理方式也完全相同。因此,这些操作本质上在物理上更有意义,因此应导致更好的学习和更准确的模型。

为了进一步说明这一点,我们在图3中进行了一个简单的实验。在左列中,我们显示了图像场景的原始深度图和伪LiDAR表示。场景中的四辆汽车以彩色突出显示。然后,我们在深度图(右上)上使用盒式滤波器执行一次11×11卷积,该卷积与5层3×3卷积的接收场相匹配。然后,我们将生成的(模糊的)深度图转换为伪LiDAR表示(右下方)。从图中可以明显看出,这种新的伪LiDAR表示基本上遭受了模糊的影响。这些汽车的伸展距离远远超出了实际的物理比例,因此根本无法精确定位它们。为了获得更好的可视化效果,我们添加了包含绿色和青色汽车所有点的矩形。卷积后,两个边界框都捕获了高度错误的区域。当然,2D卷积网络将学会使用比盒式过滤器更多的智能过滤器,但是这个例子足以说明卷积网络可能执行的某些操作可能会荒唐可笑。

4.实验

我们使用不同的深度估计和对象检测方法,在不同设置下评估使用和不使用伪LiDAR的3D对象检测。
在整个过程中,我们将突出显示使用蓝色的伪LiDAR和使用灰色的实际LiDAR所获得的结果。
4.1。设置

数据集。

我们根据KITTI对象检测基准[11,12]评估了我们的方法,该基准包含7,481张用于训练的图像和7,518张用于测试的图像。我们遵循Chen等人的建议进行相同的训练和验证。[5],分别包含3,712和3,769张图像。对于每个图像,KITTI提供相应的Velodyne LiDAR点云,用于立体声信息的右图像以及相机校准矩阵。

标准

我们专注于3D和鸟瞰(BEV)1对象检测,并在验证集上报告结果。具体来说,我们将重点放在“汽车”类别上,紧随[7,34]。我们遵循基准测试和先前的工作,并报告IoU阈值为0.5和0.7的平均精度(AP)。我们分别通过AP3D和APBEV将AP表示为3D和BEV任务。请注意,基准测试根据边界框的高度和遮挡/截断级别将每种类别分为三种情况:简单,中等和困难。一般而言,简单案例对应于距离自我汽车距离30米以内的汽车[36]。

对比。

我们比较了MONO3D [4],3DOP [5]和MLF [33]。第一个是单眼的,第二个是基于立体的。MLF [33]报告了单眼[13]和立体视差[21]的结果,我们分别将其表示为MLF-MONO和MLF-STEREO。

4.2。我们的方法的细节

立体视差估计。我们应用PSMNET [3],DISPNET [21]和SPS-STEREO [35]来估计密集的视差。前两种方法是基于学习的,我们使用已发布的模型,这些模型已在Scene Flow数据集[21]上进行了预训练,具有30,000多对合成图像和密集视差图,并在200个训练对上进行了微调KITTI立体声2015基准测试[12,22]。我们注意到,MLF-STEREO [33]也使用发布的DISPNET模型。第三种方法SPS-STEREO [35]基于非学习,已在[5,6,24]中使用。

DISPNET具有两个版本,分别具有和不具有相关层。我们同时测试这两者,并将它们分别表示为DISPNET-S和DISPNET-C。
在执行这些实验时,我们发现200个KITTI立体声2015训练图像与KITTI对象检测的验证图像重叠。也就是说,重新发布的PSMNET和DISPNET模型实际上使用了一些检测验证图像。因此,我们使用Scene Flow训练了一个版本的PSMNET,然后对3,712个检测到的训练图像(而不是200个KITTI立体图像)进行了微调。通过将相应的LiDAR点投影到2D图像空间中,我们获得了伪视差地面真相。我们将这个版本称为PSMNET?。
详细信息包含在补充材料中。
使用PSMNET的结果?表3中的数据(根据3,712个训练数据进行了微调)实际上要优于PSMNET(根据KITTI立体声2015进行微调)。我们归因于PSMNET精度的提高?它是在更大的训练集上进行训练的事实。但是,将来在使用立体声进行3D对象检测方面的工作必须意识到这一重叠。
单眼深度估计。我们使用最先进的单眼深度估计器DORN [10],该方法由作者在23488个KITTI图像上进行了训练。我们注意到,其中一些图像可能与我们的验证数据重叠以进行检测。尽管如此,我们还是决定将这些结果包括在内,并认为它们可以作为基于单眼3D对象检测的上限。但是,将来的工作必须意识到这种重叠。

伪LiDAR生成。我们使用提供的校准矩阵将估计的深度图反投影到Velodyne LiDAR坐标系中的3D点中。我们忽略系统中高度大于1的点。

3D对象检测。我们考虑两种算法:Frus tum PointNet(F-POINTNET)[25]和AVOD [17]。更具体地说,我们应用F-POINTNET-v1和AVOD-FPN。他们俩都使用来自LiDAR和单眼图像的信息。通过将LiDAR点替换为从立体视差估计生成的伪LiDAR数据,我们从零开始在3,712个训练数据上训练了两个模型。我们使用发布的代码中提供的超参数。
我们注意到,AVOD将特定于图像的接地平面作为输入。作者提供了用于训练和验证图像的真实平面,但未提供获取图像的程序(对于新颖图像)。因此,在评估过程中,我们通过将RANSAC [9]直接应用到落入道路高度特定范围内的伪LiDAR点,来拟合地平面参数。详细信息包含在补充材料中。

4.3。实验结果

我们在表1中总结了主要结果。我们根据输入信号组织检测方法。我们基于伪LiDAR的立体声方法大大优于所有基于图像的替代方法。在IoU = 0.7(中等)时(在KITTI排行榜上用于对算法进行排名的指标),我们的性能达到了现有技术水平的两倍。我们还观察到伪LiDAR适用于两种非常不同的体系结构的3D对象检测算法,对它们非常有益,这表明它具有广泛的兼容性。

一个有趣的比较是在使用具有单眼深度(DORN)和立体深度(PSMNET)的伪LiDAR的方法之间。尽管对DORN的训练所用图像比PSMNET几乎多十倍(其中一些与验证数据重叠),但PSMNET的结果占主导地位。这表明基于立体声的检测是一个有前途的发展方向,尤其是考虑到立体摄像机的可承受性不断提高。

在下面的部分中,我们将讨论关键观察并进行一系列实验,以分析具有立体视差的伪LiDAR的性能增益。

数据表示的影响。当将我们使用DISPNET-S或DISPNET-C的结果与MLF STEREO [33](也使用DISPNET作为底层立体声引擎)进行比较时,我们发现性能差距很大(见表2)。具体而言,在IoU = 0.7时,我们在APBEV上优于MLF STEREO至少16%,在AP3D上优于16%。后者相当于有160%的相对改进。我们将此改进归因于我们表示结果深度信息的发送方式。我们注意到,我们的方法和MLF-STEREO [33]都首先将像素深度反投影到3D点坐标中。MLF-STEREO将每个像素的3D坐标解释为正面视图中的附加特征图。然后,将这些图与RGB通道连接起来,作为基于Faster-RCNN [28]的经过修改的2D对象检测管道的输入。正如我们指出的那样,这有两个问题。首先,远处的物体变小,检测小物体是已知的难题[19]。其次,虽然沿着图像的高度和宽度执行诸如卷积或ROI池之类的局部计算对于2D对象检测是有意义的,但它将在2D像素邻域中进行操作,而像素在3D中相距较远,从而可以对3D对象进行精确定位难度要大得多(参见图3)。

相比之下,我们的方法将这些坐标视为伪LiDAR信号,并应用PointNet [26](在F POINTNET中)或在BEV投影上使用卷积网络(在AVOD中)。由于远处的物体不再小,这将导致深度不变。此外,这些表示中的卷积和池化操作将物理上相邻的点放在一起。

为了进一步控制MLF STEREO和我们的方法之间的其他差异,我们消除了使用与MLF-STEREO相同的正面深度表示的方法。
AVOD将正面图像信息与BEV LiDAR功能融合在一起。我们根据[6,33]修改算法,以生成五个正面视图特征图,包括3D像素位置,视差和距相机的欧几里得距离。我们将它们与RGB通道连接在一起,而无视AVOD中的BEV分支,从而使其完全依赖于正面视图分支。(我们没有进行其他体系结构更改。)表2中的结果显示了正面和伪LiDAR结果之间的停滞差距。我们发现即使五张额外的地图提供了足够的3D信息,正面方法也难以与物体深度相抵触。同样,这可能是因为2d卷积将来自较远深度的像素组合在一起,从而使精确定位变得困难。该实验表明,准确性提高的主要来源确实是伪LiDAR表示。

立体视差估计准确性的影响。我们在基于伪LiDAR的检测精度上比较了PSMNET [3]和DISPNET [21]。在KITTIstereo2015的排行榜上,PSMNET的误差达到了1.86%,远远超过DISPNET C的4.32%的误差。

如表3所示,视差估计的准确性不一定与对象检测的准确性相关。带有DISPNET-C的F-POINTNET甚至可以与PSMNET一起执行F-POINTNET。这可能是由于两个原因。首先,视差精度可能无法反映深度精度:根据等式,相同的视差误差(在一个像素上)可能导致完全不同的深度误差,具体取决于像素的真实深度。(1)。其次,不同的实体检测算法对3D点的处理方式也不同:AVOD将点量化为体素,而F-POINTNET直接处理它们,可能容易受到噪声的影响。

到目前为止,最准确的检测结果是通过PSMNET*获得的,我们在自己的KITTI培训集中从头开始进行了培训。这些结果似乎表明,可以通过整个管道的端到端培训来实现更大的改进。

我们使用SPS-STEREO [35]提供结果,并在补充材料中对深度估计进行进一步分析。

。。。

。。。

5.讨论和结论

有时候,最简单的发现会带来最大的不同。在本文中,我们证明了缩小基于图像的雷达和基于LiDAR的3D对象检测之间的差距的关键因素可能只是3D信息的表示。将这些结果视为系统效率低下的校正而不是新颖的算法,这可能是公平的,但是,这并不会降低其重要性。我们的发现与我们对卷积神经网络的理解相一致,并通过经验结果得到证实。实际上,我们从此校正中获得的改进是前所未有的高,并且会影响所有方法。有了这种飞跃性发展,在不久的将来,基于图像的自动驾驶3D对象检测将成为现实是可行的。这种前景的含义是巨大的。当前,LiDAR硬件可以说是强大的自动驾驶所需的最昂贵的附加组件。如果没有它,用于自动驾驶的额外硬件成本将变得相对较小。此外,即使在Li DAR设备存在的情况下,基于图像的对象检测也将是有益的。可以想象一个场景,其中使用LiDAR数据连续训练和微调基于图像的分类器。万一我们的传感器出现故障,基于图像的分类器可能会充当非常可靠的备份。同样,可以想象这样一种情况:高端汽车配备了LiDAR硬件,并连续训练廉价模型中使用的基于图像的分类器。

未来的工作。
在未来的工作中,有许多直接的方向可以改善我们的结果:首先,更高分辨率的立体图像可能会显着提高远处物体的精度。我们的结果是使用0.4兆像素获得的,与最先进的相机技术相去甚远。其次,在本文中,我们不关注实时图像处理,并且一张图像中所有对象的分类取1或1s左右。但是,有可能将这些速度提高几个数量级。实时多分辨率深度估计的最新改进[31]表明,一种有效的深度估计方法,是先以低分辨率计算深度图,然后以公司高分辨率计算深度图,以完善先前的结果。从深度图到伪LiDAR的转换非常快,应该可以通过例如 模型蒸馏[1]或随时预测[15]。最后,未来的工作很可能会通过LiDAR和伪LiDAR的传感器融合来改善3D对象检测的最新技术。伪LiDAR的优势在于其信号比LiDAR密度大得多,并且两种数据模态可以具有互补的强度。我们希望我们的发现将恢复基于图像的3D对象识别,并且我们的进步将激励计算机视觉社区在不久的将来完全消除图像/ LiDAR的差距。

你可能感兴趣的:(python,算法相关)