KITTI 3D Object Detection Dataset

数据集构成

分为训练集与测试集, 分别包含7481和7518张图片, 每张图片有对应的点云数据。
其中, 只有训练集的ground truth被公布。
Ground truth的格式为:
KITTI 3D Object Detection Dataset_第1张图片

对应的涵义为:
KITTI 3D Object Detection Dataset_第2张图片

特点:

  • 同时有2D和3D的位置标注, 且都是有方向的。
  • 根据遮挡与截断程度分为Easy、Medium、Hard三个级别。
  • 由于数据量的原因, 只考虑汽车、人与自行车三个类别。

Evaluation

与2D的检测问题一样, AP(Average Precision)是用于衡量算法性能的主要指标。 计算IoU时使用的维度不同, 得到的AP也不同。 常用的AP计算方式有三种:

  • A P 2 D AP_{2D} AP2D: 将3D检测结果框映射到回2D 的Image View, 与图片上的2D ground truth计算IoU。
    [外链图片转存失败(img-7z12ypp6-1562296870539)(http://www.cvlibs.net/datasets/kitti/images/button_2dobject.png)]
  • A P 3 D AP_{3D} AP3D:直接在3D空间计算检测结果与Ground truth的IoU。
    [外链图片转存失败(img-Ody7mvYj-1562296870541)(http://www.cvlibs.net/datasets/kitti/images/button_3dobject.png)]
  • A P B E V AP_{BEV} APBEV: 将3D检测结果与Gound truth映射到2D的鸟瞰图上再计算IoU。
    KITTI 3D Object Detection Dataset_第3张图片

但AP只考虑到检测结果的(分类和)位置上的表现, 不能衡量检测结果的方向是否正确。 所以还有另一个衡量指标 AOS, Average Orientation Similarity, 平均方向相似性, 用于衡量检测结果与Ground truth的方向相似程度。

AP的计算方式为:
A P = 1 11 ∑ r ∈ { 0 , 0.1 , … , 1.0 } max ⁡ r ^ : r ^ ≥ r P ( r ^ ) AP = \frac {1}{11} \sum_{r \in \{0, 0.1, \dots, 1.0\}} \max_{\hat r: \hat r \ge r} P(\hat r) AP=111r{0,0.1,,1.0}r^:r^rmaxP(r^)

AOS的计算方式与AP类似:
A O S = 1 11 ∑ r ∈ { 0 , 0.1 , … , 1.0 } max ⁡ r ^ : r ^ ≥ r S ( r ^ ) AOS = \frac {1}{11} \sum_{r \in \{0, 0.1, \dots, 1.0\}} \max_{\hat r: \hat r \ge r} S(\hat r) AOS=111r{0,0.1,,1.0}r^:r^rmaxS(r^)

其中 P ( r ) P(r) P(r)分别代表 r e c a l l = r recall = r recall=r时的 precision.
P ( r ) = T P T P + F P P(r) = \frac{TP}{TP + FP} P(r)=TP+FPTP
具体计算方式可参考Pascal voc的evaluation.

S ( r ) S(r) S(r)分别代表 r e c a l l = r recall = r recall=r时的orientation similarity.

S ( r ) = 1 ∣ D r ∣ ∑ i ∈ D r 1 + c o s Δ θ 2 δ i S(r) = \frac{1}{|D_r|}\sum_{i\in D_r} \frac{1 + cos \Delta \theta}{2} \delta_i S(r)=Dr1iDr21+cosΔθδi
其中:

  • D r D_r Dr为recall=r时的检测结果集合。
  • Δ θ \Delta \theta Δθ为角度差值。

可以看出, 当两个框的角度相同时, Δ θ = 0 \Delta \theta = 0 Δθ=0, 方向相似度为1; Δ θ = π \Delta \theta = \pi Δθ=π时, 方向相似度为0.

有的论文里(AVOD)也将3D上计算的AOS称为AHS(Average Heading Similarity).

References

  • KITTI
  • AVOD: Joint 3D Proposal Generation and Object Detection from View Aggregation
  • Are we ready for Autonomous Driving?The KITTI Vision Benchmark Suite

你可能感兴趣的:(自动驾驶,CV)