Task-Aware Monocular Depth Estimation for 3D Object Detection

Task-Aware Monocular Depth Estimation for 3D Object Detection

  • 作者:XinlongWang, Wei Yin, Tao Kong, Yuning Jiang, Lei Li, Chunhua Shen
  • 机构:The University of Adelaide, Australia、Bytedance AI Lab
  • 出处:AAAI 2020

主要贡献

  1. 分析前景背景对深度估计分别的影响,将两者区别对待
  2. 提出ForeSeE模块
  3. 在效果上将ForeSeE应用到3D物体检测中AP值提升7.5

写作笔记

ill-posed problem: 不存在唯一解的问题
Plausible results: 合理的结果
catastrophic: 灾难的
not the case for:不是因为
interdependent:相互依赖的
handcrafted:人为精心设置的
MDE(Monocular Depth Estimation):单目深度估计
optic flow:光流
poses a substantial challenge:带来巨大的挑战
shared similarities:共同点
pseudo-LiDAR:伪雷达点云(通过深度图得到的点云)

实验发现

  1. 比较前景和背景的区别:
  • 前景更容易聚合成一个整体并且有更大的深度变化,背景更趋于平坦
  • 前景像素值占全图较小一部分(KITTI 90.6%像素属于背景)
  • 在实际应用中前景显然比背景要更为重要,比如在自动驾驶等任务
  1. 比较前景和背景分布和梯度的区别:
  • 75%的前景像素的深度小于16m,而背景像素是50%。前景像素的深度分布符合长尾分布。
  • 前景区域像素在中、高梯度的占比大于背景像素
  1. 对前景和背景像素分开优化:
    L = λ × 1 N f ∑ i N f E ( y i , y ^ i ) + ( 1 − λ ) × 1 N b ∑ i N b E ( y i , y ^ i ) L=\lambda \times \frac{1}{N_{f}} \sum_{i}^{N_{f}} E\left(y_{i}, \hat{y}_{i}\right)+(1-\lambda) \times \frac{1}{N_{b}} \sum_{i}^{N_{b}} E\left(y_{i}, \hat{y}_{i}\right) L=λ×Nf1iNfE(yi,y^i)+(1λ)×Nb1iNbE(yi,y^i)
    λ = 0.7 \lambda=0.7 λ=0.7对于前景最好,但是背景效果又变得比较差;当 λ = 0 / 1 \lambda=0/1 λ=0/1时,即只有背景和前景时,它们并没有达到最好的水平,说明两者可以互相促进。
  2. 分析总结
  • 前景和背景有不同的深度值分布、梯度分布和形状模式
  • 前景和背景可以相互促进,因为它们之间有共同点
  • 前景和背景的优化目标不匹配

ForeSeE 模块

为了使得前景和背景优化既有区分,又能共同优化得比较好。作者提出了三个因素来对其进行优化:

  • SO(separate objectives):分离背景和前景区域。在训练中分离两个分支分别预测前景和背景的深度值,并根据前景预测的深度值裁剪出前景区域(矩形的mask),与背景深度图无缝融合
  • SD(separate decoders):分开预测背景和前景深度。
  • FSL(foreground-background sensitive loss):为了利用好前景和背景相互促进的特点,在分别计算两者损失时,加上对方的权重和计算的Errors
    在inference时,不再进行crop mask进行融合的操作,而是直接进行Max操作。速度更快效果只有0.001的下降。

评价指标

mean absolute relative error (absRel)、scale invariant logarithmic error (SILog)

下游3D目标检测任务

根据预测的深度图,基于针孔相机模型可以重建点云(pseudo-LiDAR)

你可能感兴趣的:(单目深度估计,计算机视觉,深度学习)