论文阅读笔记:(2021.06 cvpr) Objects are Different: Flexible Monocular 3D Object Detection

本文介绍cvpr 2021的MonoFLEX,论文的着眼点是优化图片边沿被截断物体的3D检测,同时优化了中心点的深度估计。这个方法也是目前(截止2022.01)没有extra traning data的条件下,单目3d目标检测在 kitti-car-moderate上结果最好的方法,每帧35ms也比较快了,技巧比较多,非常值得一看的!

论文阅读笔记:(2021.06 cvpr) Objects are Different: Flexible Monocular 3D Object Detection_第1张图片

code: https://github.com/zhangyp15/MonoFlexhttps://github.com/zhangyp15/MonoFlexpaper:

http://arxiv.org/abs/2104.02323http://arxiv.org/abs/2104.02323

精度对比(截止2022.01):

KITTI Cars Moderate Benchmark (Monocular 3D Object Detection) | Papers With Codehttps://paperswithcode.com/sota/monocular-3d-object-detection-on-kitti-cars论文阅读笔记:(2021.06 cvpr) Objects are Different: Flexible Monocular 3D Object Detection_第2张图片

主要观点、结论和思考:

1. 有遮挡/截断的物体和正常的物体要分开对待;

论文阅读笔记:(2021.06 cvpr) Objects are Different: Flexible Monocular 3D Object Detection_第3张图片

实现方法:

1. 对于3D框中心点投影的预测: 完全在画面里面的obj,直接预测3D框中心点投影及其修正值;对于在部分在画面外的obj, 预测2D框中心和(画面外)3D框中心投影的联系与图像边沿的交点及其修正值:

论文阅读笔记:(2021.06 cvpr) Objects are Different: Flexible Monocular 3D Object Detection_第4张图片

2. edge fusion: 单独把边沿的像素拿出来做attention,提高offset和heat map的精度

3. visual properties regression: 2D框,朝向和中心点,都是常规方法;

4. depth:

        4.1 keypoint 估计:估计一共10个关键点:3D框8个顶点和上框面、下框面在图片中的投影到x_r的offset

        4.2 adaptive depth ensemble: 把直接预测的深度和通过关键点计算的深度,用不确定性进行加权平均。用关键点进行深度估计如下面左图,ensemble的方式见下面右图:

论文阅读笔记:(2021.06 cvpr) Objects are Different: Flexible Monocular 3D Object Detection_第5张图片

 

你可能感兴趣的:(感知,目标检测,3d,计算机视觉)