3D目标检测集合:https://blog.csdn.net/unbekannten/article/details/127989929
M3D-RPN:Monocular 3D Region Proposal Network for Object Detection
论文地址:https://arxiv.org/abs/1907.06038v1
代码地址:https://github.com/garrickbrazil/M3D-RPN
二维和三维空间利用共享的锚点和分类目标+在相机坐标系的三维定位。
改进三维估计:在图像空间内构建三维锚点,并使用每个三维参数的先验统计量初始化所有锚点;设计深度感知卷积层,能够学习空间感知的特征;后优化算法使用3D→2D投影一致性损失来优化方向估计θ。
之前单目3D检测工作严重依赖于外部最先进SOTA网络,子网络分别负责执行点云生成、语义分割、2D目标检测、深度估计。
引入了区域建议网络(RPN)作为一种高效生成目标建议的高效方法
暂略
基于SOTA(使用一系列的子网络来帮助检测,需要额外的输入数据):4,5,24,36
输入:RGB图像
输出:c、(tx,ty, tw, th)2D、(tx, ty, tz)P、(tw, th, tl tθ)3D
本架构包含三个关键部分:
描述多分类3D区域提议网络的总体构造;概述深度感知卷积和整体网络体系结构;介绍后优化算法,提高了 3D->2D的一致性。
左图为算法的网络架构图。整个网络在DenseNet backbone后面分两路进行更深层次的特征提取操作,全局特征(橘黄色)使用规则的空间不变卷积,卷积核参数可共享;局部特征(蓝色)表示深度感知卷积,采用新设计的深度感知卷积网络结构(Depth-Aware Convolution),卷积核参数不共享。
右图为深度感知卷积网络的工作原理,深度感知卷积在行空间Ki(i=1,…,b)中使用non-shared卷积核,其中b表示不同核的总数。最终采用加权组合的方式将来自两路并行路径的输出参数进行加权融合,加权参数是网络学习得到的注意力机制参数,然后将得到的融合结果进行3D->2D的角度优化,以得到最终3D box的12个检测结果。
深度感知卷积网络结构(Depth-Aware Convolution)采用不共享的卷积核学习相机视野中按列方向由远到近的深度变化信息,这种方式学习网络参数,有较好的学习能力,也增加了模型的计算复杂度。
一种理解是用DenseNet作为基础特征提取器,得到hxw维度的特征图,然后将该特征图分别送入两个分支,一个是全局特征抽取,一个是局部特征抽取,最后将两个分支的特征按照一定的权重进行结合。其中全局这块,用常规的3x3和1x1卷积作用于整张特征图,而局部这块,用不同的3x3核作用于不同的bin,这个bin见图3中横条,作者沿纵向将其划分了b个bin。
本文框架的核心基础是基于Faster R-CNN中首先提出的RPN原理。
1)锚框定义
为同时预测2D和3D框,每个锚模板均使用(w, h)2D、zP、(w, h, l, θ)3D这两个空间的参数定义。为放置锚点并定义完整2D/3D框,指定共享的中心像素位置(x, y)P,在像素坐标系下,给定已知的投影矩阵P3*4,将相机坐标中的3D中心位置(x, y, z)3D投影到图像中对深度参数zP编码。θ为局部角。
每个zP和(w, h, l, θ)3D的平均统计量分别针对每个锚点进行预计算。
对于每个锚,使用所有匹配的ground-truth的统计量,这些truth与联合[w,h] 2D锚的边界框的并集(IoU)≥0.5交集。
2)3D检测
模型对每个anchor预测出c、(tx,ty, tw, th)2D、(tx, ty, tz)P、(tw, th, tl tθ)3D
网络早期层的低阶特性能够合理共享,不受深度或目标尺度大小的影响。当假设一个固定的相机视角下,与3D场景理解相关的高阶特征依赖于深度。
骨干网络DenseNet-121
暂略
暂略
https://zhuanlan.zhihu.com/p/559096420
https://zhuanlan.zhihu.com/p/151812617
https://blog.csdn.net/c20081052/article/details/100121359
https://blog.csdn.net/weixin_42150591/article/details/109101096
https://blog.csdn.net/qq_42518956/article/details/104747520