飞大圣

用于自动驾驶的基于深度学习的图像 3D 物体检测：综述

论文地址：https://ieeexplore.ieee.org/abstract/document/10017184/

背景

准确、鲁棒的感知系统是理解自动驾驶和机器人驾驶环境的关键。自动驾驶需要目标的 3D 信息，包括目标的位置和姿态，以清楚地了解驾驶环境。
摄像头传感器因其颜色和纹理丰富且价格低廉而广泛应用于自动驾驶中。摄像头的主要问题是缺乏了解 3D 驾驶环境所必需的 3D 信息。此外，物体的尺度变化和遮挡使得 3D 物体检测更具挑战性。许多基于深度学习的方法（例如深度估计）已经被开发来解决 3D 信息的缺乏。

为了实现完全自动驾驶，感知系统（例如 3D 目标检测）需要能够在恶劣天气下正常工作，准确地提供有关驾驶环境的精确信息，并能够在高速驾驶时实现快速决策。建立一个能够准确给出驾驶环境的精确信息、快速做出高速驾驶决策、并且能够在恶劣天气下工作的感知系统对于实现完全自动驾驶的目标至关重要。

有多种不同的 3D 传感器可用于 3D 物体检测，例如光检测和测距 (LiDAR)、无线电检测和测距（雷达）以及深度传感器（RGB-D 相机）。
LiDAR： 更加能适应恶劣天气，但数据非结构化且稀疏，使得激光雷达处理更具挑战性。此外，激光雷达基于颜色的检测能力较差，而且价格昂贵。
RADAR： 适合在恶劣天气和夜间驾驶时使用。然而，分辨率较低，因此基于雷达的目标检测效果较差。
CAMERA： 价格低廉，并且具有丰富的颜色和纹理信息。但缺乏高精度的深度信息。

单目相机缺乏深度信息的问题可以使用立体相机或运动结构来部分解决。预测立体实例分割是解决 3D 目标检测单目深度问题的另一种技术。此外，一些工作将图像转换为伪激光雷达表示以解决深度信息的缺乏。

目标检测概述

目标检测类别

基于图像的 3D 目标检测模型使用 2D 目标检测作为基础模型，并使用不同的技术（例如回归）扩展到 3D 目标检测。因此，先从 2D 目标检测开始理解。
基于深度学习的通用目标检测方法可以分为两类：两阶段和一阶段。
两阶段目标检测网络具有用于生成候选区域的感兴趣区域（ROI）网络和用于 BBox 回归和分类的后续网络，如下图所示：

R-CNN [1]、SPPNet [2]、Fast R-CNN [3]、Faster R-CNN [4]、RFCN [5] 和 Mask R-CNN [6] 是两阶段 2-D 的示例目标检测模型。

[1] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2014, pp. 580–587.
[2] K. He, X. Zhang, S. Ren, and J. Sun, “Spatial pyramid pooling in deep convolutional networks for visual recognition,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 37, no. 9, pp. 1904–1916, Sep. 2015.
[3] R. Girshick, “Fast R-CNN,” in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Dec. 2015, pp. 1440–1448.
[4] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards realtime object detection with region proposal networks,” in Proc. Neural Inf. Process. Syst. (NIPS), 2015, pp. 1–9.
[5] J. Dai, Y. Li, K. He, and J. Sun, “R-FCN: Object detection via regionbased fully convolutional networks,” 2016, arXiv:1605.06409.
[6] K. He, G. Gkioxari, P. Dollár, and R. Girshick, “Mask R-CNN,” in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), 2017, pp. 2961–2969.

[1] 提出了R-CNN，一种两级二维目标检测网络，如下图所示。

R-CNN 目标检测系统：(1) 获取输入图像，(2) 使用选择性搜索算法提取大约 2000 个自下而上的区域提案，(3) 对于每个提案，使用 CNN 计算特征并将其馈送到 SVM 分类器，然后， (4)线性SVM对每个区域进行分类。
R-CNN 的主要缺陷是从每张图像中冗余生成 2000 个 BBox，增加了网络的计算负担。
[2] 提出了空间金字塔池化网络（SPPNets）通过引入空间金字塔池化层来克服这个问题，该层生成 ROI 的固定长度表示。 R-CNN 和 SPPNet 将训练特征提取和 BBox 回归网络分开训练。因此，训练需要很长时间来处理。
Girshick [3] 提出了 Fast R-CNN 检测器，通过同时训练特征提取和 BBox 回归网络来解决多阶段训练问题。 Fast R-CNN 还使用选择性搜索算法来生成提案。由于提案生成的冗余性，选择性搜索算法增加了模型的计算负担。因此，Fast R-CNN 对于实时应用的检测速度较低。
为了解决这个问题，Faster R-CNN [4]使用区域提议网络而不是选择性搜索算法来生成区域提议。
基于 Faster R-CNN 进行了许多改进，例如 RFCN [5]、Mask RCNN [6]、Light head RCNN 和 Feature Pyramid Network。
Mask RCNN [6] 网络将 Faster R-CNN 和全卷积网络 (FCN) 结合在一个架构中，并带有附加的二进制掩码以显示 BBox 中对象的像素。

另一方面，单阶段目标检测网络在一次通过网络的过程中直接学习类概率和 BBox 坐标，而不为每个图像生成区域建议。下图展示了单阶段目标检测的总体架构：

[7] 开发了 You Only Look Once (YOLO)，这是第一个单级深度学习目标检测器。该网络使用单个神经网络将图像划分为区域，并同时预测每个区域的 BBox 和类概率：

[7] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only look once: Unified, real-time object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 779–788.

YOLO 比两级目标检测网络更快，但由于类不平衡问题（一级网络的常见问题），其准确性较低。YOLO 在小目标和目标组检测方面遇到了困难。 YOLO v2 通过在卷积层上添加批量归一化、将图像分辨率从 224×224 提高到448×448、使用锚框而不是全连接层来预测采用多尺度训练的 BBox 等来改进YOLO。YOLO 的下几个版本进一步提高了检测速度并解决了精度瓶颈。

[8] 提出了单次多框检测器（SSD），这是一种单阶段检测网络，通过引入长宽比和多尺度特征图来检测目标，在多个尺度上改善了 YOLO 的精度瓶颈和小目标检测问题。

[8] W. Liu et al., “SSD: Single shot multibox detector,” in Proc. Eur. Conf. Comput. Vis. Amsterdam, The Netherlands: Springer, Oct. 2016, pp. 21–37.

[9] 引入了 RetinaNet，通过引入焦点损失（focal loss）作为分类损失函数来改进单阶段目标检测。该网络的精度与两阶段目标检测相当，同时保持较高的检测速度。

[9] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár, “Focal loss for dense object detection,” in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Oct. 2017, pp. 2980–2988.

[10] 提出了M2det，一种多级特征金字塔网络，能够构建多尺度、多层次的特征，有助于检测不同尺度的目标。
[11] 引入了 RefineDet 以进一步提高单阶段物体检测的准确性。

[10] Q. Zhao et al., “M2Det: A single-shot object detector based on multilevel feature pyramid network,” in Proc. AAAI Conf. Artif. Intell., 2019, vol. 33, no. 1, pp. 9259–9266.
[11] S. Zhang, L. Wen, X. Bian, Z. Lei, and S. Z. Li, “Single-shot refinement neural network for object detection,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 4203–4212.

一阶段目标检测网络速度很快，但由于类别不平衡问题，其检测精度低于两阶段检测器。另一方面，两级检测器比单级检测器慢；然而，它们具有更好的检测精度。 RPN 减少了两级检测器的冗余检测。然而，one-stage 检测器在没有 RPN 的情况下单次直接检测类概率和 BBox 估计，因此冗余降低了检测精度。

3-D 边界框编码

使用透视投影，可以根据 2-D BBox 估计 3-D BBox。
有四种常用的 3-D BBox 编码技术：八角方法、四角两高度方法、轴对齐 3-D 中心偏移方法和七参数法，如下图所示。

轴对齐 3-D 中心偏移方法
3D BBox 由其中心 $T=[\Delta x, \Delta y, \Delta z]^T$ ，尺度 $[\Delta h, \Delta w, \Delta l]$ 以及方向 $R(\Delta \theta, \Delta \phi, \Delta \alpha)$ 描述。其中 $\Delta \theta, \Delta \phi, \Delta \alpha, \Delta h, \Delta w, \Delta l$ 分别表示框的方位角，仰角，滚动角，高度，宽度和长度。滚动角和仰角被视为零，因此，可以将 3D-BBox 表示为 $[\Delta x, \Delta y, \Delta z, \Delta h, \Delta w, \Delta l, \Delta \theta]$ 。

八角方法
八角方法从3-D提案的八个角回归定向3-D框 $(\Delta x0...，\Delta x7，\Delta y0，...，\Delta y7，\Delta z0，...，\Delta z7)$ ，这是一个 24 维向量表示。

四角两高度方法
四个角和两个高度，代表顶角和底角相对于地平面的偏移。这两个高度由传感器高度确定。因此，3-D BBox 表示为 $(\Delta x1,...,\Delta x4,\Delta y1,...,\Delta y4,\Delta h1,\Delta h2)$ 。

七参数法
虽然八角编码方法比轴对齐方法提供更好的结果，但它没有考虑 3-D BBox 的物理约束。因此，它强制 BBox 的顶角与底角对齐。四角和两高度编码技术通过在所提出的 BBox 和 groundtruth 框之间添加相对于地平面的角和高度偏移来解决这个问题。

此外，Voxelnet 和 SECOND 采用了七点 3-D BBox 编码技术。这七个点分别是 $(x, y, z, w, l, h, θ)$ ，其中 $x, y, z$ 是中心坐标； $w$ 、 $l$ 和 $h$ 分别是宽度、长度和高度。 $θ$ 是绕 $z$ 轴的偏航旋转。仰角和横滚角被视为零。
使用七点技术的真实值和锚点之间的回归操作可以定义为：
$\Delta x = \frac{x^{gt}-x^{a}}{d^{a}}，\Delta y = \frac{y^{gt}-y^a}{d^a}, \Delta z = \frac{z^{gt}-z^{a}}{d^{a}} \\ \Delta w = \log \frac{w^{gt}}{w^{a}}, \Delta h = \log \frac{h^{gt}}{h^{a}}, \Delta l = \log \frac{l^{gt}}{l^{a}} \\ \Delta \theta = \sin(w^{gt}-w^{a})$

其中上标 $g t$ 和 $a$ 分别代表真实值和锚框。 $d^a = ((w^a)^2 + (l^a)^2)^{1/2}$ 是锚框的对角线。

目标检测的评估指标

目标检测常用的评估指标是平均精度（AP），它是每个目标类别在不同召回率下的平均检测精度。平均 AP（mAP）用作总体目标类别性能比较的最终评估指标。并交交集 (IOU) 阈值（预测和真实 BBox 之间的几何重叠）用于测量目标定位精度。

IOU 的图形表示如图所示（黄色区域代表预测框与真实 BBox 的交集，而绿色区域代表两者的并集）。代表性阈值可以根据目标的不同而变化。例如，在 KITTI 数据集中，汽车的 3-D BBox 需要 0.7 的 IOU，行人和骑自行车的人需要 0.5 的 IOU。
IOU的数学表达式为：
$\text{IOU}=\frac{\text{bbox}_{\text{pred}} \cap \text{bbox}_{\text{gt}}}{\text{bbox}_{\text{pred} } \cup\text{bbox}_{\text{gt}}}$

其中 $\text{bbox}_{\text{pred}}$ 是预测的 BBox， $\text{bbox}_{\text{gt}}$ 是真实的 BBox。此外， $F 1$ 分数和查准率-召回率曲线被用作分类的评价指标。
精确率显示正样本 (TP) 与总数据集实际值的比率，而召回率则显示了 TP 与预测值的比率。精确率与召回率的平衡对于 AP 和 mAP 很重要。 AP 通过平均 R 等间隔召回水平的精度来近似精度/召回曲线形状：
$AP|R=\frac{1}{|R|}\sum_{r\in R} \rho_{\text{interp}}(r)$

对于 KITTI 数据集，它是针对 11 个等间隔的召回级别进行计算的，即 $R_{11} = (0, 0.1, 0.2, ..., 1)$ 。当召回间隔为零时，正确匹配的预测在底部 recall bin 处给出 100% 的精度。插值函数 $\rho_{\text{interp}}(r)$ 定义为：
$\rho_{\text{interp}}(r) = \max \rho (\tilde{r}), \tilde{r}:\tilde{r} \geq r$

其中 $ρ (r)$ 是召回率 $r$ 的精度。考虑召回率大于或等于 $r$ 时的最大精度值，而不是每个点 $r$ 的整个观测精度值的平均值。
mAP 是针对 11 个召回点的整体性能评估而计算的。一些工作，例如 MonoPair 使用 41 个点而不是 11 个召回点来计算 mAP，但平均只有 40 (1/40, 2/40, 3/40, . . . , 1)，没有零召回点以消除最低召回 bin 处的毛刺。其他常见的性能评估指标包括 AP3D 指标、平均方向相似度 (AOS) 指标和鸟瞰视图表示的定位指标 (APBV)。

AOS 通过对估计方向和地面真实方向之间的余弦相似度进行加权来测量 3D 方向和检测性能：
$\text{AOS} = \frac{1}{11}\sum_{r\in\{ 0,0.1,...,1 \}}s(\tilde r ):\tilde{r} \geq r$

其中 $r = (TP / (TP + FN))$ 是基于 PASCAL 数据集的召回率。TP 是正样本，FN 是负样本。召回率 $r$ 处的方向相似度 $\in [0, 1]$ 通过余弦相似度进行归一化：
$\frac{1}{|D(r)|}\sum_{i \in D(r)}\frac{1+\cos \Delta_\theta (i)}{2} \delta_i$

其中 $D (r)$ 表示召回率 $r$ 下的所有目标检测的集合， $\Delta_\theta (i)$ 是检测 $i$ 的估计方向和真实方向之间的角度差， $δ (i)$ 项惩罚多次检测。

另一方面，nuScenes AP 方法通过对地平面上的 2-D 中心距离 $d$ （而不是 IOU）进行阈值化来定义匹配。这有助于消除目标大小和方向对检测的影响：
$\frac{1}{|C||D|} \sum_{c\in C}\sum_{d\in D}AP_{c,d}$

其中 $D = \{0.5, 1, 2, 4\} m$ ， $C$ 是类的集合。对于 nuScenes 数据集，他们为与真实框匹配的每个预测测量一组 TP。然后，对于每个 TP，计算整个类别的平均 TP (mTP)：
$\frac{1}{|C|} \sum_{c \in C} TP_c$

最后，计算 nuScenes 检测分数 (NDS)，NDS 是 nuScenes 数据集的评估指标：
$\frac{1}{10} [5\text{mAP} + \sum_{\text{map}\in TP}(1- \min (1, \text{mTP}))]$

Waymo 开放数据集通过将航向信息合并到常见的评估指标（例如 AP）中，使用 3D 目标检测评估指标 APH：
$\int _0^1 \max\{ p(r^{'})|r^{'} \geq r\} dr \\ APH = 100 \int_0^1 \max \{ h(r^{'})|r^{'} \geq r\} dr$

其中 $p (r)$ 是精度/召回率曲线。此外， $h (r)$ 的计算方式与 $p (r)$ 类似，但每个 TP 都通过航向精度进行加权，航向精度可以定义为 $\min (| \tildeθ −θ|, 2π| \tilde θ −θ|)/ \pi$ ，其中 $\tildeθ$ 和 $θ$ 分别是预测航向和真实航向，以弧度为单位，在 $[- π, π]$ 范围内。大多数自治数据集遵循 KITTI 或 nuScenes 评估指标。

图像 3-D 目标检测方法以及各种方法的比较

自动驾驶汽车（AV）必须清楚地了解驾驶环境才能可靠驾驶。由于缺乏准确的深度信息，3D 目标检测对于基于图像的方法来说更具挑战性。已经提出了不同的方法来估计 2D 图像的深度，以使用估计的深度来检测 3D 中的目标。其中一些方法使用两阶段对象检测方法，首先生成目标建议并执行回归以进行 3-D BBox 检测和分类。
经典的目标检测方法使用 handcrafted methods 生成二维框 proposals。其他人利用深度神经网络的能力从图像中学习复杂的特征来生成二维框 proposals。类似地，框 proposals 可以从几何约束、PseudoLiDAR 或立体深度估计生成。

由于缺乏深度信息，基于图像的 3D 目标检测更具挑战性。大多数深度估计技术可以分为伪激光雷达、立体图像，技术可以分为伪激光雷达、立体图像或基于几何约束，例如目标的形状和关键点来估计深度。
Pseudo LiDAR 方法从图像生成点云数据，并使用基于 3-D LiDAR 的方法进行检测。尽管这些方法优于仅图像方法，但由于图像到激光雷达的生成误差，它们的精度仍然低于基于激光雷达的方法。基于立体图像的方法使用左右图像视差来估计深度估计。与单图像方法相比，这些方法还提高了 3D 目标检测性能。有些作品还通过生成虚拟图像从单个图像生成立体图像，其性能优于单图像方法。其他工作使用几何约束来估计单个图像的深度信息。

伪激光雷达方法

有些作品将单目或立体图像转换为称为伪 LiDAR 的 LiDAR 表示，以解决深度信息的缺乏[12] [13] [14] [15] [16] [17]。
伪激光雷达是通过预测每个图像像素的深度来表示图像的激光雷达，称为深度图。

[12] Y. You et al., “Pseudo-LiDAR++: Accurate depth for 3D object detection in autonomous driving,” 2019, arXiv:1906.06310.
[13] X. Weng and K. Kitani, “Monocular 3D object detection with pseudoLiDAR point cloud,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. Workshop (ICCVW), Oct. 2019, pp. 857–866.
[14] Y. Wang, W.-L. Chao, D. Garg, B. Hariharan, M. Campbell, and K. Q. Weinberger, “Pseudo-LiDAR from visual depth estimation: Bridging the gap in 3D object detection for autonomous driving,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 8445–8453.
[15] X. Ma, Z. Wang, H. Li, P. Zhang, W. Ouyang, and X. Fan, “Accurate monocular 3D object detection via color-embedded 3D reconstruction for autonomous driving,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 6851–6860.
[16] R. Qian et al., “End-to-end pseudo-LiDAR for image-based 3D object detection,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 5881–5890.
[17] J. M. U. Vianney, S. Aich, and B. Liu, “RefinedMPL: Refined monocular PseudoLiDAR for 3D object detection in autonomous driving,” 2019, arXiv:1911.09712.

[14] 表明，通过将单目图像转换为 LiDAR 表示（伪 LiDAR），在 3D 目标检测中，数据的表示比数据的质量起着重要作用。
立体深度估计是通过使用金字塔立体匹配网络（PSMNet）、DISPNET 和 SPSSTEREO 完成的，但他们使用 DORN 作为单目深度估计器。然后，将深度图投影到 3D 点云中，通过模仿 LiDAR 信号来生成伪 LiDAR，如图所示：

基于激光雷达的检测器可以直接处理伪激光雷达数据。实验使用基于 LiDAR 的 AVOD 和 Frustum PointNet 模型。KITTI 数据集上的实验结果表明，伪 LiDAR 表示比仅图像实现更适合 3D 对象检测。

[15] 将 RGB 图像转换为 PseudoLiDAR，并使用 pointNet 作为骨干网络来获取每个 ROI 的对象的 3D 位置、尺寸和方向。所提出的模型由 3D 数据生成和框估计阶段组成，如图所示：

在第一阶段，使用两个深度 CNN 主干生成二维检测和点云表示。
第二阶段设计了两个模块，用于背景点分割和RGB信息聚合，以提高检测效果。
然后，使用 PointNet 作为主干来预测每个 ROI 的 3D 位置、尺寸和方向。所提出的多模态特征融合模块还用于融合互补的 RGB 图像线索和生成的点云以提高性能。

[18] 通过基于单个单目图像估计目标类别、2D 位置、方向、尺寸和 3D 位置，开发了一种基于融合的 3D 目标检测模型。

[18] B. Xu and Z. Chen, “Multi-level fusion based 3D object detection from monocular images,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 2345–2353.

他们使用 MultiBin[19] 架构来获取 3D 对象的姿态，然后计算点云表示。估计的深度被编码为前视图特征并与 RGB 图像融合以改进输入。最后，将从原始输入中提取的特征与点云相结合以提高检测性能。尽管将图像转换为伪激光雷达需要额外的处理，但伪激光雷达方法比仅图像方法显着提高了性能。

[19] A. Mousavian, D. Anguelov, J. Flynn, and J. Kosecka, “3D bounding box estimation using deep learning and geometry,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 7074–7082.

Weng 和 Kitani [20] 通过使用 DORN 作为单目深度估计器，提出了一种基于伪 LiDAR 表示的两级检测网络。他们使用 instance mask 2D proposals 而不是 BBoxs 来减少点云中不属于该目标的点的数量。使用扩展的两级 3-D LiDAR 检测算法 Frustum PointNets 来训练网络。提出了 2-D–3-D BBox 一致性约束来减少伪 LiDAR 表示中的噪声并处理局部未对准。噪声 instance mask 2D proposals 表示和 2-D–3-D BBox 一致性约束将性能提高了不少。

[20] X. Weng and K. Kitani, “Monocular 3D object detection with pseudoLiDAR point cloud,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. Workshop (ICCVW), Oct. 2019, pp. 857–866.

类似地，OCM3D [21] 是一种以目标为中心的单目 3D 目标检测模型，旨在通过为每个目标提案构建体素来降低伪 LiDAR 数据的噪声水平。 3-D 空间点的分布自适应地确定体素大小，并允许点云噪声在体素网格中有效组织。该模型优于以前的模型，例如 KITTI 数据集上的 RTM3D。

[21] L. Peng, F. Liu, S. Yan, X. He, and D. Cai, “OCM3D: Object-centric monocular 3D object detection,” 2021, arXiv:2104.06041.

[22] 提出了 Monodistill，一种单目 3D 目标检测模型。 LIDAR 数据被投影到图像平面，然后在 LiDAR Net 3-D 探测器上进行训练。最后，LIDAR Net 作为教师网络，对基线单目模型进行知识蒸馏。KITTI 数据集上的实验结果表明该方法提高了基础模型的性能。

[22] Z. Chong et al., “MonoDistill: Learning spatial features for monocular 3D object detection,” 2022, arXiv:2201.10830.

[23] 提出了一种用于单目 3D 物体检测的分类深度分布网络（CDDN）。frustum 体特征网络将图像信息投影到 3D 空间并构建 frustum 特征网格。然后，pointpillars 检测头执行 3D 目标检测。该模型使用 KITTI 和 Waymo 数据集进行了实验。

C. Reading, A. Harakeh, J. Chae, and S. L. Waslander, “Categorical depth distribution network for monocular 3D object detection,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2021, pp. 8555–8564.

[24] 提出了一种有监督和无监督的预处理方案，用于在输入 3D 目标检测网络之前从深度图生成精炼的伪 LiDAR 数据。
[25] 提出了一种基于可微分变化表示（CoR）网络的端到端框架来训练深度估计和 3D 目标检测。

[24] J. M. U. Vianney, S. Aich, and B. Liu, “RefinedMPL: Refined monocular PseudoLiDAR for 3D object detection in autonomous driving,” 2019, arXiv:1911.09712.
[25] R. Qian et al., “End-to-end pseudo-LiDAR for image-based 3D object detection,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 5881–5890.

一些方法将立体图像转换为伪激光雷达表示以提高检测性能。

[26] 提出了利用立体表示来提高单目 3D 目标检测性能的 SGM3D 模型。作者使用预训练的立体匹配模型 PSMNet 进行深度学习。根据估计的深度和相机 instincts 将像素转换为 3D 伪点云。提出了多粒度特征对齐（MG-FA）模块，以获得基于立体和单目方法的输出之间一致的中间特征表示和每个锚点的预测。还引入了基于 IOU 匹配的对齐（IOU-MA）模块来减少立体和单目预测之间的不匹配。

[26] Z. Zhou et al., “SGM3D: Stereo guided monocular 3D object detection,” IEEE Robot. Autom. Lett., vol. 7, no. 4, pp. 10478–10485, Oct. 2022.

Pseudo-LiDAR++ 是一种使用立体深度估计网络而不是视差估计的端到端深度学习方法。基于图的深度校正算法将学习到的密集立体深度和稀疏 LiDAR 信号连接起来，以进一步细化深度。结果改进了 3D 物体检测，尤其是远处目标检测。

[27] 提出了立体图像的 Disp R-CNN 3D 目标检测模型，该模型分为三个阶段。在第一阶段，Mask R-CNN 检测图像的 2-D BBoxs 和实例分割。实例视差估计网络（iDispNet）在第二阶段估计实例视差图。最后，根据实例视差图生成实例点云，并将其输入到检测器头进行 3-D BBox 回归。

[27] L. Chen et al., “Shape prior guided instance disparity estimation for 3D object detection,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 44, no. 9, pp. 5529–5540, Sep. 2021.

将单目或立体图像转换为伪 LIDAR 可以比仅图像方法改进 3D 目标检测；然而，由于图像到激光雷达转换存在误差，其性能低于基于激光雷达的方法。因此，尽管将图像数据转换为伪激光雷达表示需要额外的处理，但当激光雷达数据不易获得时，这是一个不错的选择。

立体图像方法

Mono3D [27] 使用立体图像来估计深度，并通过对目标尺寸先验、地平面、各种深度信息特征、点云密度和到地面的距离进行编码来生成 3-D BBox 目标建议。该问题被表述为能量最小化函数，马尔可夫随机场 (MRF) 用于对 3-D BBox 进行评分以生成建议。Fast R-CNN 用于预测类别提议，并使用顶级候选目标来估计目标的方向。

[27] X. Chen et al., “3D object proposals for accurate object class detection,” in Proc. Adv. Neural Inf. Process. Syst. Princeton, NJ, USA: Citeseer, 2015, pp. 424–432.
[28] A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “YOLOv4: Optimal speed and accuracy of object detection,” 2020, arXiv:2004.10934.

[28] 扩展了之前的工作 [27]，通过假设目标应该位于地平面上并仅使用单个单眼图像，生成特定于类的 3D 目标建议（3DOP），对各种 IOU 阈值具有非常高的召回率。他们使用语义和目标实例分割、上下文、形状特征和位置先验来对 3-D BBox 进行评分，如图所示：

3DOP 的局限性在于它应该针对每个目标类单独运行以实现高召回率。由于生成了许多目标建议，此操作会增加处理时间。

为了克服这个问题，Pham 和 Jeon [29] 引入了一种提案重排序算法 DeepStereoOP，对生成的 3DOP 进行重排序。该算法仅使用少数候选提案即可帮助实现高召回率和良好的定位。双流 CNN 算法使用 RGB 特征、深度特征、视差图和到地面的距离对排名靠前的候选者进行重新排名。结果表明，DeepStereoOP 算法优于 Mono3D 算法，可以用更少的建议获得高召回率。

[29] C. C. Pham and J. W. Jeon, “Robust object proposals re-ranking for object detection in autonomous driving using convolutional neural networks,” Signal Process., Image Commun., vol. 53, pp. 110–122, Apr. 2017.
[30 ]X. Z. Chen, K. Kundu, Y. Zhu, S. Fidle, R. Urtasun, and H. Ma, “3D object proposals using stereo imagery for accurate object class detection,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 40, no. 5, pp. 1259–1272, May 2018.

[30] 提出了一种使用立体图像和上下文信息的提案生成算法。 3DOP 是使用能量最小化函数生成的，该函数对目标尺寸先验、地平面信息和深度信息特征（例如自由空间、点云密度和到地面的距离）进行编码。CNN 评分网络使用外观、深度和上下文信息来同时预测 3DOP 和姿势。

[31] 提出了使用立体图像和语义信息的 3D 目标检测方法。语义图和可选的 BBox 建议是使用 ResNet-38 [32] 从左侧图像生成的。该模型在 KITTI 数据集上进行了训练和测试。

[31] H. Königshof, N. O. Salscheider, and C. Stiller, “Realtime 3D object detection for automated driving using stereo vision and semantic information,” in Proc. IEEE Intell. Transp. Syst. Conf. (ITSC), Oct. 2019, pp. 1405–1410.
[32] Z. Wu, C. Shen, and A. Van Den Hengel, “Wider or deeper: Revisiting the ResNet model for visual recognition,” Pattern Recognit., vol. 90, pp. 119–133, Jun. 2019.

Li 和 Chen [33] 提出了 S3D-RCNN，这是一种来自一对立体 RGB 图像的两级联合立体 3D 目标检测和形状估计模型。作者提出了一个全局-局部框架，将物体姿态估计与物体形状分离。该模型在 KITTI 数据集上显示出显着的性能改进。
[34] 开发了一种基于 Faster R-CNN 的扩展 3-D 目标检测方法 Stereo R-CNN，利用立体图像中的稀疏、密集、语义和几何信息同时检测和关联左右图像中的目标。生成左右 ROI 建议后，目标类的左右 ROI 特征被连接起来并回归 2D 立体框、视点和 3D 维度。他们仅使用左侧特征结合 2-D 立体框进行 3-D 框估计来预测关键点。

[33] S. Li and K.-T. Cheng, “Joint stereo 3D object detection and implicit surface reconstruction,” 2021, arXiv:2111.12924.
[34] P. Li, X. Chen, and S. Shen, “Stereo R-CNN based 3D object detection for autonomous driving,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 7644–7652.
[35] W. Peng, H. Pan, H. Liu, and Y. Sun, “IDA-3D: Instance-depthaware 3D object detection from stereo vision for autonomous driving,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 13015–13024.
[36] Y. Chen, S. Liu, X. Shen, and J. Jia, “DSGN: Deep stereo geometry network for 3D object detection,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 12536–12545.

[35] 提出了一个实例深度感知模块 Ida-3-D，作为 3-D BBox 中心的深度估计方法，使用实例深度感知、视差适应和匹配成本重新加权。通道和成本重新加权方法对于使用左右相干性增强特征和削弱噪声信号至关重要。

DSGN [36] 是一种单阶段端到端基于立体的 3D 目标检测模型，可联合估计深度并检测 3D 目标。特征提取器组件从左右图像中学习像素和高级特征，如图所示：

然后，生成平面扫描体积 (PSV) 和 3D 几何体积 (3DGV)。网络的深度估计组件估计 PSV 深度。最后，3D 目标检测组件预测目标和 BBox 信息。
[37] 提出了 DSGN++，DSGN 的扩展版本，以改进深度估计技术。DSGN++模型的三个主要方面改进了DSGN模型。首先，所提出的深度平面扫描（DPS）模块提取深度引导的立体特征。其次，双视图立体体积 (DSV) 模块允许功能的多个视图连接以及顶视图和前视图。最后，所提出的跨模态数据编辑-复制粘贴策略确保了多模态对齐，增加了前景区域在 3D 中的主导地位，并提高了数据效率。该模型在 KITTI 数据集上进行了训练和测试。

[37] Y. Chen, S. Huang, S. Liu, B. Yu, and J. Jia, “DSGN++: Exploiting visual-spatial relation for stereo-based 3D detectors,” IEEE Trans. Pattern Anal. Mach. Intell., early access, Aug. 8, 2022, doi: 10.1109/TPAMI.2022.3197236.

[38] 提出了置信引导立体（CG-Stereo）3-D 对象检测模型来提高深度估计精度。该模型在深度估计步骤中对前景和背景像素使用不同的解码器。它还使用深度估计网络输出的置信度分数来提高深度估计精度。该模型优于以前的模型，例如 KITTI 数据集上的 DSGN。

[38] C. Li, J. Ku, and S. L. Waslander, “Confidence guided stereo 3D object detection with split depth estimation,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Oct. 2020, pp. 5776–5783.

大多数现有的基于立体图像的深度估计技术提供预定义值。当实际深度与预定义值不匹配时，这种估计会导致错误的预测。

[86] 提出了一种可以估计任意深度值而不是预定义离散值的模型。所提出的连续视差网络（CDN）还输出一组具有概率和偏移的离散值，将离散分布转变为连续分布，以进行准确的视差估计。该模型在 KITTI 数据集上使用 Wasserstein 目标函数进行训练。 CDN-SDN 被应用于 Pseudo-LiDAR 和 DSGN 模型。 SDN 主干网估计伪 LiDAR 网络中的深度，而 DSGN 主干网、PSMNET 则被 CDN 主干网取代。

[39] D. Garg, Y. Wang, B. Hariharan, M. Campbell, K. Q. Weinberger, and W.-L. Chao, “Wasserstein distances for stereo disparity estimation,” in Proc. Adv. Neural Inf. Process. Syst., vol. 33, 2020, pp. 22517–22529.

三角测量学习网络（TLNet）[40] 使用3D锚点来构建立体图像之间的目标级几何相关性。然后，神经网络学习立体图像之间的对应关系，以对锚点附近的目标对象进行三角测量。还提出了通道重新加权方法，通过测量左右相干性来增强信息特征并削弱噪声信号，这克服了在 Mono3D 网络中生成视差图的高计算负担。

[40] Z. Qin, J. Wang, and Y. Lu, “Triangulation learning network: From monocular to stereo 3D object detection,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 7615–7623.

Stereo CenterNet [41] 使用立体图像中的语义和几何信息来实现 3D 目标检测。他们使用无锚二维框关联方法，仅检测左侧图像中的对象，并通过预测它们之间的距离来计算左右关联。

[41] Y. Shi, Y. Guo, Z. Mi, and X. Li, “Stereo CenterNet based 3D object detection for autonomous driving,” 2021, arXiv:2103.11071.
[42] A. Gao et al., “ESGN: Efficient stereo geometry network for fast 3D object detection,” IEEE Trans. Circuits Syst. Video Technol., early access, Aug. 29, 2022, doi: 10.1109/TCSVT.2022.3202810.
[43] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 770–778.
[44] Y. Liu, L. Wang, and M. Liu, “YOLOStereo3D: A step back to 2D for efficient stereo 3D detection,” 2021, arXiv:2103.09422.

[42] 提出了一种用于 3D 目标检测的高效立体几何网络（ESGN）。 ResNet-34 [43]主干用于提取多尺度特征图。使用立体相关和重投影模块，所提出的 3D 高效几何感知特征生成 (EGFG) 模块在相机视锥体空间中构建多尺度立体体积。然后，使用深度多尺度信息融合（多尺度 BEV 投影和融合）模块生成多个 3D 几何感知特征。提出了一种深度几何感知特征蒸馏方案，以帮助基于 LiDAR 的探测器进行立体特征学习。 KITTI数据集上的实验结果表明 ESGN 模型优于 YOLOStsereo3D [44]模型。YOLOStereo3D [44]比 ESGN 模型更快，但 ESGN 通过生成 3-D 几何感知特征来避免相机空间中的对象失真。

[90] 提出了一种基于立体的 3D 目标检测模型，LiDAR 几何感知立体（LIGA-Stereo）检测器。基于 LiDAR 的模型功能用于指导立体模型的学习。带有附加辅助二维检测头的直接二维语义监督提高了学习效率。 KITTI 数据集上的实验结果表明该模型优于以前的基于立体的模型，例如 DSGN。

[45] X. Guo, S. Shi, X. Wang, and H. Li, “LIGA-stereo: Learning LiDAR geometry aware representations for stereo-based 3D detector,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2021, pp. 3153–3163.

[44] 提出了使用立体相机图像的 YOLOStereo3D 3D 对象检测模型。通过 $12$ 个回归参数描述每个锚点，对于 2-D BBox 为 $x_{2d}, y_{2d}, w_{2d}, h_{2d}]$ ，对于左图像上对象的 3-D 中心为 $c_x, c_y, z]$ ； $w_{3d}, h_{3d}, l_{3d}]$ 分别对应于 3-D BBox 的宽度、高度和长度。他们在训练期间同时对双目图像应用光度畸变增强和随机翻转。从双目图像中提取多尺度特征后，特征通过多尺度立体匹配和融合模块。

伪激光雷达特征体积网络（PLUMENet）[46] 是一种基于立体图像的 3D 目标检测模型。使用二维卷积网络从立体图像中提取多尺度特征。然后，在 3D 空间中构建伪 LiDAR 特征体。在混合 3-D BEV 网络进行 3-D 推理后，通过多任务标头（占用和检测标头）来预测 3-D 占用网格和对象 BBox。KITTI 数据集上的实验结果表明该模型优于之前的模型，例如 ZoomNet。

[46] Y. Wang, B. Yang, R. Hu, M. Liang, and R. Urtasun, “PLUMENet: Efficient 3D object detection from stereo images,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Sep. 2021, pp. 3383–3390.

张等人。 [47] 将 CenterNet 扩展为单目 3D 目标检测的灵活框架，可显式解耦截断的对象。作者将对象深度估计表述为多种方法的不确定性引导集成，并自适应地组合不同的关键点来估计深度。KITTI数据集上的实验结果表明该模型优于 RTM3D 和 MoVi3D 等模型。

[47] Y. Zhang, J. Lu, and J. Zhou, “Objects are different: Flexible monocular 3D object detection,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2021, pp. 3289–3298.

[48] 提出了一种用于 3D 目标检测的伪立体 3D 检测方法。虚拟视图是从每个单个图像生成的，以用作输入图像的立体图像。提出了三种虚拟视图生成方法：图像级生成、特征级生成和用于从单个图像中检测 3D 目标的特征克隆。提出了视差动态卷积来自适应地从单个图像中过滤特征以生成虚拟图像特征。该模型在 KITTI 数据集上进行训练和测试。

[48] Y.-N. Chen, H. Dai, and Y. Ding, “Pseudo-stereo for monocular 3D object detection in autonomous driving,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2022, pp. 887–897.

基于立体图像的方法使用 2D 左框和右框来预测 3D 空间中目标的 BBox。光度对准通常用于进一步优化 3-D BBox 位置。左图像和右图像之间的目标级几何相关性可以使用不同的技术（例如 3D 锚点）来构建。能量最小化函数对于生成 3DOP 也至关重要。一些基于立体图像的方法使用立体匹配和立体实例分割来匹配 ROI 上左右图像之间的检测，并仅估计包含感兴趣对象的区域的实例级视差。
以下方法使用立体匹配或立体实例分割来匹配检测或估计 ROI 的视差。

ZoomNet [49] 应用自适应缩放来调整 BBox 大小并同时调整内部相机参数，以实现实例级视差估计，并从每个目标实例而不是完整图像构建点云和伪激光雷达。基于伪激光雷达的目标检测对远处目标的性能较差，因为远处目标由于点数量少、难以区分立体图像之间的相对位置以及遮挡而导致分辨率较低。这种自适应缩放有助于以更大的分辨率分析远处的目标，估计更好的视差，并获得更均匀的密度点云。他们还提供像素部分位置来帮助解决遮挡检测问题。同样，Pon 等人。

[49] Z. Xu et al., “ZoomNet: Part-aware adaptive zooming neural network for 3D object detection,” in Proc. AAAI Conf. Artif. Intell., 2020, vol. 34, no. 7, pp. 12557–12564.

[50] 提出了一种以目标为中心的立体（OC Stereo）匹配网络，解决了与深度立体匹配方法相关的问题。他们开发了一种以目标为中心的深度表示，以帮助解决拖尾伪影、目标或背景像素之间的模糊性以及近处和远处对象之间的像素不平衡问题。作者提出了一种快速 2-D 框关联算法，通过 ROI 上的立体匹配并仅考虑属于目标的像素来精确匹配左右图像之间的检测。

[50] A. D. Pon, J. Ku, C. Li, and S. L. Waslander, “Object-centric stereo matching for 3D object detection,” in Proc. IEEE Int. Conf. Robot. Autom. (ICRA), May 2020, pp. 8383–8389.

Disp r-CNN [51] 是一种 iDispNet，它仅估计包含感兴趣目标的区域而不是整个图像的视差，并先学习特定于类别的形状。此操作有助于捕获对象边界的平滑形状和锐利边缘，以实现更准确的 3D 目标检测。

[51] J. Sun et al., “Disp R-CNN: Stereo 3D object detection via shape prior guided instance disparity estimation,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 10548–10557.

基于图像的方法缺乏深度的问题可以使用立体图像来部分解决。 3DOP 是使用不同技术从立体图像生成的。一些方法，例如 TLNET，使用成本和通道重新加权来增强特征并削弱噪声。其他方法将目标提议表述为能量最小化问题。 DeepStereoOP 等作品提出了一种重新排序算法来减少冗余提案并仅使用少量提案。此外，上下文信息可以与立体图像一起用于提案生成。

几何约束法

[52] 提出了 Deep3DBox，一种结合几何约束的 3D 目标检测方法。使用混合离散连续损失来估计 3-D 目标方向，然后结合估计的几何约束对 2-D BBox 应用回归，以生成目标 3-D BBox。

[52] A. Mousavian, D. Anguelov, J. Flynn, and J. Kosecka, “3D bounding box estimation using deep learning and geometry,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 7074–7082.

M3D-RPN [53] 是一个使用 2D 尺度和 3D 深度之间的相关性进行 3D 目标检测的单个端到端区域提议网络。所提出的深度感知卷积层改进了 3D 参数估计，增强了 3D 场景理解。

[53] G. Brazil and X. Liu, “M3D-RPN: Monocular 3D region proposal network for object detection,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 9287–9296.

同样，Mono3d++ [54] 使用联合方法，使用 3-D BBox 和来自单个 RGB 图像的可变形线框模型来预测车辆的形状和姿态。无监督的单目深度、地平面约束和车辆形状先验优化了损失函数。整体能量函数整合了损失和车辆的形状，并进一步改善了车辆的检测。由于车辆之间的形状差异，将损失函数与车辆形状相结合可能会限制模型的性能。

[54] T. He and S. Soatto, “Mono3D++: Monocular 3D vehicle detection with two-scale 3D hypotheses and task priors,” in Proc. AAAI Conf. Artif. Intell., 2019, vol. 33, no. 1, pp. 8409–8416.

一些方法使用几何推理的实例级深度估计。其他人使用关键点和几何信息的组合来进行深度估计。例如，MonoGRNet [55] 是一个使用几何推理和实例级深度估计从单目 RGB 图像中进行 3D 目标检测的统一网络。该模型由 2-D 检测、实例深度估计、3-D 位置和位置角点估计子网络组成，如图所示：

[55] Z. Qin, J. Wang, and Y. Lu, “MonoGRNet: A geometric reasoning network for monocular 3D object localization,” in Proc. AAAI Conf. Artif. Intell., 2019, vol. 33, no. 1, pp. 8851–8858.

[56] 还开发了基于关键点和几何推理方法的组合，用于单目图像的 3D 目标检测。

[56] I. Barabanau, A. Artemov, E. Burnaev, and V. Murashkin, “Monocular 3D object detection via geometric reasoning on keypoints,” 2019, arXiv:1905.05618.

类似地，[57] 提出了 AutoShape，一种单阶段实时形状感知单目 3D 目标检测模型。该模型对 3D 关键点及其在图像上的 2D 投影采用几何约束，以增强检测性能。所提出的自动注释管道可以自动生成每个对象的形状感知 2-D/3-D 关键点对应关系。

[57] Z. Liu, D. Zhou, F. Lu, J. Fang, and L. Zhang, “AutoShape: Real-time shape-aware monocular 3D object detection,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2021, pp. 15641–15650.

[58] 将 3D 目标检测任务建模为结构化多边形预测任务和深度估计任务的组合。深度估计网络使用目标的高度来估计深度，然后将其与结构化多边形相结合以获得 3D 框。最后，BEV 中提出了细粒度 3-D 框细化，以提高 3-D BBox 的准确性。

[58] Y. Cai, B. Li, Z. Jiao, H. Li, X. Zeng, and X. Wang, “Monocular 3D object detection with decoupled structured polygon estimation and height-guided depth estimation,” in Proc. AAAI Conf. Artif. Intell., 2020, vol. 34, no. 7, pp. 10478–10485.

[59] 通过几何约束估计区域提议网络，并进一步应用回归进行 3D 目标检测。

[59] J. Ku, A. D. Pon, and S. L. Waslander, “Monocular 3D object detection leveraging accurate proposals and shape reconstruction,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 11867–11876.

SMOKE [60] 将单个关键点估计与回归 3-D 变量相结合，以预测单独检测到的目标的 3-D BBox，而不是生成 2-D 区域建议。

[60] Z. Liu, Z. Wu, and R. Tóth, “SMOKE: Single-stage monocular 3D object detection via keypoint estimation,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. Workshops (CVPRW), Jun. 2020, pp. 996–997.

[61] 提出了一种通过将基于图像的特征映射到正交 3D 空间中的 3D 目标检测模块。正交特征将 RGB 图像转换为正交鸟瞰特征图。

[61] T. Roddick, A. Kendall, and R. Cipolla, “Orthographic feature transform for monocular 3D object detection,” 2018, arXiv:1811.08188.

RTM3D [62] 预测了3-D BBox 的九视角关键点，并对 3-D 和 2-D 点的几何关系进行建模，以从单目图像中检测3-D目标。类似地，MoVi-3D [33] 是一种单级深度架构，它利用几何信息来生成虚拟视图，使用先验几何知识来控制目标因深度而产生的尺度变化。

[62] P. Li, H. Zhao, P. Liu, and F. Cao, “RTM3D: Real-time monocular 3D detection from object keypoints for autonomous driving,” 2020, arXiv:2001.03343.

GS3D [63] 是一种有效的模型，用于为每个预测的 2-D 框获取粗长方体，以通过细化确定 3-D BBox。该方法改进了 3D 目标检测，并且比基于回归的 BBox 预测表现更好。 ROI-10D [64] 是一个用于 3D 目标检测的端到端网络，通过将 2D 提升为 3D 来预测六个自由度姿态信息（旋转和平移）。损失函数测量框的度量偏差，并通过将其与真实 3-D 框进行比较来最小化误差。

[63] B. Li, W. Ouyang, L. Sheng, X. Zeng, and X. Wang, “GS3D: An efficient 3D object detection framework for autonomous driving,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 1019–1028.
[64] F. Manhardt, W. Kehl, and A. Gaidon, “ROI-10D: Monocular lifting of 2D detection to 6D pose and metric shape,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 2069–2078.

[65] 提出了一种深度引导的动态深度扩张局部卷积（D4LCN）网络，其中局部滤波器使用局部应用于每个图像的每个像素和通道的深度图从每个 RGB 图像中学习特定的几何形状。一些模型，例如[66]，避免多次处理图像，从而通过使用非极大值抑制（NMS）和非线性列表平方优化器生成每个目标规范的 3-D BBox 参数来减少深度神经网络的计算瓶颈。斯里瓦斯塔瓦等人。 [67]开发了一种用于 AV 3-D 目标检测的 2-D 到 3-D 提升方法。他们使用生成对抗网络（GAN）从单个 RGB 图像生成 BEV 图像以进行图像到图像的转换 [68]，然后使用生成的 BEV 图像进行 3D 目标检测。

[65] M. Ding et al., “Learning depth-guided convolutions for monocular 3D object detection,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 1000–1001.
[66] E. Jörgensen, C. Zach, and F. Kahl, “Monocular 3D object detection and box fitting trained end-to-end using intersection-over-union loss,” 2019, arXiv:1906.08070.
[67] S. Srivastava, F. Jurie, and G. Sharma, “Learning 2D to 3D lifting for object detection in 3D for autonomous vehicles,” 2019, arXiv:1904.08494.
[68] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, “Image-to-image translation with conditional adversarial networks,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 1125–1134.

德拉加兰德里等人。 [69]利用 360 度全景图像提出了 AV 的 3D 目标检测模型。这种方法对于避免驾驶盲点很重要。该模型使用 CARLA 城市驾驶模拟器和 KITTI 数据集进行测试。

[69] G. P. de La Garanderie, A. A. Abarghouei, and T. P. Breckon, “Eliminating the blind spot: Adapting 3D object detection and monocular depth estimation to 360 panoramic imagery,” in Proc. Eur. Conf. Comput. Vis. (ECCV), 2018, pp. 789–807.

[70] 开发了一种用于单目 3D 目标检测的深度拟合评分网络。该网络使用对象基于锚点的尺寸和方向回归生成 3D 建议。然后，他们使用拟合质量网络 (FQNet) 来理解 3D 提案和仅使用 2D 图像的目标之间的空间关系。

[70] L. Liu, J. Lu, C. Xu, Q. Tian, and J. Zhou, “Deep fitting degree scoring network for monocular 3D object detection,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 1057–1066.

[71] 提出了一种基于成对空间关系的3D目标检测方法。使用不确定性感知预测和相邻对的 3-D 距离来计算对象位置。最后，非线性最小二乘联合优化系统。

[71] Y. Chen, L. Tai, K. Sun, and M. Li, “MonoPair: Monocular 3D object detection using pairwise spatial relationships,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 12093–12102.

出于同样的原因，提出了 MonoFENet [72] 网络，通过估计单目图像的视差来进行 3D 目标检测。如下图所示，使用基于单眼的视差估计器生成的视差图像。然后，估计的视差被转换为 3-D 密集点云，以馈入点特征增强 (PointFE) 网络，并与图像特征融合以实现最终的 3-D BBox 回归。

[72] W. Bao, B. Xu, and Z. Chen, “MonoFENet: Monocular 3D object detection with feature enhancement networks,” IEEE Trans. Image Process., vol. 29, pp. 2753–2765, 2019.

[73] 提出了一种两阶段对象感知 3D 目标检测模型，该模型使用区域外观注意力和几何投影分布来对 3D 质心提案进行投票。使用 Faster R-CNN 中的 RPN 生成 2-D 区域提案，然后根据生成的 ROI 网格坐标估计 3-D 质心提案。基于所提出的目标感知投票模块（包括区域外观注意力和几何投影分布），对 3D 质心提案进行 3D 定位投票。最后，在不学习密集深度的情况下，基于所提出的 ROI 来检测目标的3-D BBOX。

[73] W. Bao, Q. Yu, and Y. Kong, “Object-aware centroid voting for monocular 3D object detection,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Oct. 2020, pp. 2197–2204.

[74] 提出了 IAFA，一种用于从单个图像检测 3D 目标的实例感知特征聚合模型。该模型收集属于同一目标的像素以有助于中心分类，并生成注意图以聚合每个目标的有用信息。作者使用来自其他网络的粗略实例注释作为监督信号来生成特征聚合注意力图。

[74] D. Zhou et al., “IAFA: Instance-aware feature aggregation for 3D object detection from a single image,” in Proc. Asian Conf. Comput. Vis., 2020, pp. 1–18.

[75] 提出了一种用于单目 3D 目标检测的几何不确定性投影网络（GUP Net）。输入图像由基于 CenterNet 构建的 2-D 检测主干进行处理，以获得 2-D BBox（ROI）和 3-D BBox 信息，即每个框的角度、尺寸和 3-D 投影中心。然后，GPU Net通过结合数学先验和不确定性建模来预测深度信息及其相应的不确定性。提出了一种有效的分层任务学习（HTL）策略，以减少基于几何的方法中任务依赖性引起的不稳定性（误差放大）。误差放大导致估计深度的放大。 HTL 策略通过让每个任务闲置直到其前置任务得到良好训练来控制整个训练过程。

[75] Y. Lu et al., “Geometry uncertainty projection network for monocular 3D object detection,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2021, pp. 3111–3121.

[76] 提出了一种基于图的深度条件动态消息传播（DDMP）模型，用于单目 3D 目标检测。该模型包括两个分支：回归分支和深度提取分支。回归分支接收 RGB 图像进行特征提取，深度提取分支估计相应的深度图并提取深度感知特征。提出了中心感知深度编码（CDE）方法来减少深度先验不准确的问题。上下文感知和深度感知功能通过 DDMP 模块与图形消息传播模式集成。最后，使用 3D 检测头获得 3D 目标框。 KITTI数据集上的实验结果表明该模型优于之前的模型，例如D4LCN。

[76] L. Wang et al., “Depth-conditioned dynamic message propagation for monocular 3D object detection,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2021, pp. 454–463.

有些工作采用了与上面提到的不同的方法来解决 2D 图像输入的 3D 目标问题。
[77] 提出了 RAR-Net，一种增强型轴向细化网络单目 3D 目标检测模型。所提出的模型从初始预测开始，并逐渐将其细化至真实情况，并且每一步仅更改一个 3-D 参数。 ε-贪婪策略通过在每个动作被采取后选择具有最高估计奖励的动作来最大化奖励，以细化单目 3D 检测网络的 3D 框。在每一步中，来自图像和 3D 空间的信息都会被融合；然后，将当前检测投影到图像空间中以保留信息。这种基于强化学习的学习可以用作后处理阶段，并集成到现有的单目 3D 检测模型中，以通过一些额外的计算成本来提高性能。该模型使用 KITTI 数据集进行训练，并显示出良好的性能。

[77] L. Liu, C. Wu, J. Lu, L. Xie, J. Zhou, and Q. Tian, “Reinforced axial refinement network for monocular 3D object detection,” in Proc. Eur. Conf. Comput. Vis.Glasgow, U.K.: Springer, Aug. 2020, pp. 540–556.

[78] 提出了一种使用 LiDAR 和摄像头传感器的 3D 车辆检测模型。 AV 的 3-D BBox 的大小和方向是根据 RGB 图像估计的，而 LiDAR 点云用于距离估计。作为图像特征提取器，作者使用 MobileNetV2 [79]。该模型在 KITTI 和 Waymo 数据集上进行了训练和测试。

[78] S. Mehtab, W. Q. Yan, and A. Narayanan, “3D vehicle detection using cheap LiDAR and camera sensors,” in Proc. 36th Int. Conf. Image Vis. Comput. New Zealand (IVCNZ), Dec. 2021, pp. 1–6.
[79] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen, “MobileNetV2: Inverted residuals and linear bottlenecks,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 4510–4520.

[80] 提出了用于单目 3D目标检测的自监督损失解缠变换。损失将参数贡献组从原始损失中分离成单独的项。作者还将损失函数 IOU 用于 2-D 检测和 3-D BBox 预测以及检测置信度。该模型在 KITTI 数据集上进行训练。

[80] A. Simonelli, S. R. Bulo, L. Porzi, M. López-Antequera, and P. Kontschieder, “Disentangling monocular 3D object detection,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 1991–1999.

这三种深度估计技术执行不同的操作以从 2-D 图像估计深度。伪激光雷达方法将图像转换为激光雷达表示，并使用基于激光雷达的模型来利用激光雷达表示的 3D 信息。另一方面，基于立体的模型不将图像变换到另一个域中；相反，从左右立体图像生成深度。几何约束方法使用附加的几何约束，包括物体形状、地平面和关键点来估计二维图像的深度信息。

表 I 中列出了 3-D BBox 编码技术、3-D 目标检测评估方法、实验使用的数据集以及每种方法的发表年份。

表 II 显示了基于图像的 3-D 目标检测方法在 KITTI 验证和测试数据基准上的 BEV 和 3-D 性能比较。

挑战和未来方向

相机图像，尤其是单目图像，富含纹理和颜色信息，这对于与颜色相关的任务（例如对象分类和车道检测）至关重要。然而，它们不能提供高度准确的深度信息来全面了解周围环境。自动驾驶需要足够强大，才能在不同的天气条件下行驶，但摄像头会受到恶劣天气的影响。此外，在与训练不同的领域进行评估的深度学习模型表现不佳。

论文提出了自动驾驶汽车基于图像的 3D 目标检测面临的挑战和未来的研究方向。
1.半监督学习： 监督学习的挑战之一是注释和标记数据，这需要时间和金钱。数据注释和标记问题可以使用无监督学习来解决。然而，无监督模型的检测和分类精度低于监督模型。这些问题的潜在解决方案是应用半监督模型，使用少量标记数据和许多未标记数据，以利用针对不同应用程序的丰富的免费图像。一些师生模型，例如Zhang等人。 [119]，属于自动驾驶的半监督 3D 目标检测网络。教师模型在师生模型中生成伪标签，学生模型训练伪标签和标记数据集。然后，教师模型可以从学生模型接收更新以获得更好的伪标签预测。该模型主要用于 2-D 目标检测，但 3-D 等效模型有限。
2.多任务学习： 深度学习网络的特征提取器部分可以为多个应用程序所共用。因此，构建具有通用特征提取器/具有多个决策层的模型较低架构的模型来执行多个任务可以节省时间、内存和计算能力。
3.领域自适应模型： 深度学习模型在使用与训练时不同的领域进行测试时应该执行相同/等效的操作。然而，当训练领域发生变化时，大多数深度学习模型的表现都很差。领域自适应模型对于自动驾驶至关重要，可以避免特定国家/地区的变化，例如交通标志变化和拐角问题。因此，需要领域自适应模型来学习驾驶环境的变化并快速响应变化。
4.轻量级模型： AV 中的深度学习模型应满足以下三个标准 [1]。 a) 准确到精确的周围环境信息。 b) 能够在不同的天气下工作。 c) 实时进行高速行驶。为了达到上述标准，深度学习模型应该足够强大，能够在不同的天气下工作，并且足够轻，可以部署在低功耗和低内存的嵌入式硬件设备中。大多数现有的 3D 目标检测模型并不像其 2D 模型那样轻量。与 3-D 目标检测模型相比，有相对轻量级的 2-D 目标检测模型，例如 YOLO 和 SSD。
5.多传感器融合： 相机适合与颜色相关的检测，并且也具有丰富的纹理。尽管已经开发了不同的方法来解决 3D 信息缺乏的问题，但使用相机进行 3D 物体检测仍具有挑战性。此外，摄像头对恶劣天气的鲁棒性较差，这使得在不同环境天气下的稳健驾驶具有挑战性。其他传感器可以提供更好的 3D 信息，例如 LiDAR，并且对恶劣天气更稳健，例如雷达。因此，将相机图像与 LiDAR 和/或雷达融合可以通过利用不同传感器的最佳性能来改进 3D 目标检测。
6.将时间线索添加到空间信息： 在现有的 3D 目标检测模型中，使用包含有限信息的单帧（空间）数据。在空间信息中包括时间信息可以提高检测性能。 BEVDet4D 在使用时间信息和空间信息方面已经显示出有希望的结果。
7.平衡数据集： 大多数现有数据集都存在类别不平衡问题，其中某些类别的样本较多，而另一些类别的样本较少。由于数据的高代表性，大多数类别都会在决策过程中影响模型。通过花时间为那些代表性较少的类别收集更多数据或提出其他解决方案，例如提出损失函数，我们可以最小化或避免类别不平衡问题的影响。此外，从模拟器生成合成数据并使用真实数据进行训练可能有助于解决类别不平衡问题。

结论

这篇综述提出了基于深度学习的单目和立体相机图像的自动驾驶 3D 目标检测。总结了3-D BBox编码方法和相应的评估指标。还回顾了一般对象检测类别（如一级和两级）以及 3D 目标检测的深度估计方法。
深度估计方法根据伪激光雷达、立体图像和几何约束方法等技术进行分组。尽管由于深度学习的快速发展，使用相机图像的 3D 物体检测已经显示出显着的性能改进，但可靠和鲁棒的驾驶仍然存在需要解决的问题，例如在恶劣天气或夜间驾驶。

相机传感器颜色和纹理丰富且价格便宜，但它无法远距离测量距离，无法承受恶劣天气，并且不能提供直接的 3D 信息。3D 传感器（例如 LiDAR 和雷达）提供有关驾驶环境和目标的 3D 信息。激光雷达在恶劣天气下比相机更耐用，是长距离测量和速度估计的不错选择。然而，它的颜色和纹理并不丰富。同样，雷达是一种适用于恶劣天气的强大传感器，也是距离测量和速度估计的最佳选择，但它的分辨率较低，使得基于雷达的检测变得困难。此外，自动驾驶过程中还存在传感器故障的可能性。因此，使用多个传感器进行自动驾驶对于使用来自不同传感器的冗余数据在恶劣天气或传感器故障条件下实现可靠和鲁棒的驾驶至关重要。轻量且准确的 3D 目标检测模型对于提高实时处理的速度和准确性是必要的。最后，提出了挑战和可能的研究方向。

你可能感兴趣的:(自动驾驶,自动驾驶,深度学习,3d)

Qt/C++音视频开发22-通用GPU显示 feiyangqingyun Qt/C++音视频开发 Qt视频监控 Qt音视频 Qt硬解码
一、前言采用GPU来绘制实时视频一直以来都是个难点，如果是安防行业的做视频监控开发这块的人员，这个坎必须迈过去，本人一直从事的是安防行业的电子围栏这个相当小众的细分市场的开发，视频监控这块仅仅是周边技术玩一玩探讨一下，关于GPU绘制这块着实走了不少的弯路。之前用ffmpeg解码的时候，已经做了硬解码的处理，比如支持qsv、dxva2、d3d11va等方式进行硬解码处理，但是当时解码出来以后，还是重
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
5大核心技术+3大交互革命！Java如何让虚拟世界‘活过来’？——附代码实战+防坑指南！墨瑾轩 Java乐园交互 java 开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣从“木头人”到“交互大师”的Java魔法之旅一、Java的“五大核心技术”——虚拟世界的“五感开关”1.1核心技术1：JOGL渲染引擎——“视觉中枢”作用：用OpenGL实现3D场景渲染代码示例：//JOGL渲染循环：画一个旋转的立方体importjavax.
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
Android 系统默认代码，如何屏蔽相册分享功能
Android系统默认代码，如何屏蔽相册分享功能开发云-一站式云服务平台diff--gita/packages/apps/Gallery2/src/com/android/gallery3d/app/GalleryActionBar.javab/packages/apps/Gallery2/src/com/android/gallery3d/app/GalleryActionBar.javaind
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
fps透视基础-d3d绘制-绘制文字-绘制方框-绘制连线程序员陈子青逆向工程 DirectX fps透视画方框画文字
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓#include#include#pragmacomment(lib,"d3d9.lib")#pragmacomment(lib,"d3dx9.lib")staticLPDIRECT3D9g_pD3D=NULL;staticD3DPRESENT_PARAMETERSg_d3dpp={};staticLPDIRECT3DDEVICE9g_pd3dDevice=NUL
任鸟飞FPS类型游戏绘制,骨骼,u3d,UE4和游戏安全,反外挂研究 (三) 任鸟飞逆向~ FPS C语言网络安全 3d 游戏 ue4
书接上文,我们非矩阵的方式绘制是没有那么的精确的在学习矩阵之前,我们先来了解下绘制的几种方法绘制的几种方法和反外挂建议第一种hookd3d/opengl优点:不闪,代码简单缺点:非常容易被检测第二种窗口上自行绘制,但是会闪优缺点适中第三种自建透明窗口,覆盖游戏窗口,透明窗口上绘制优点:稳定确定:代码复杂,会闪反外挂:无非就是针对外挂使用的函数进行检测深入学习矩阵对象的世界坐标列向量xyzw(w为了
资源分享-FPS, 矩阵, 骨骼, 绘制, 自瞄, U3D, UE4逆向辅助实战视频教程小零羊矩阵 3d ue4
文章底部获取资源教程概述本视频教程专为游戏开发者和安全研究人员设计，涵盖FPS游戏设计、矩阵运算、骨骼绘制、自瞄算法、U3D和UE4逆向辅助等实战内容。通过102节详细视频教程，您将掌握从基础到高级的游戏开发与安全防护技能。教程内容1.FPS类型游戏的设计研究和游戏安全,反外挂研究2.二维向量和平面距离3.atan2和tan4.三维向量和空间距离5.补充向量乘法6.矩阵和矩阵的运算7.矩阵的特性8
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
shell脚本实现Hive库表迁移 docsz hive Linux shell
1、获取hive所有库的建表语句#获取hive所有库的建表语句#!/bin/bashmkdir-p~/hive/tables/tablesDDL#获取库名hive-e"showdatabases;">~/hive/databases.txtsed-i'1,3d'~/hive/databases.txtsed-i'$d'~/hive/databases.txtcat~/hive/databases.
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
从原理到实战：ISP（图像信号处理器）深度解析与应用指南
从原理到实战：ISP（图像信号处理器）深度解析与应用指南摘要本文系统解析ISP（ImageSignalProcessor，图像信号处理器）的核心功能，详细拆解其工作流程（RAW处理→黑电平校正→AWB→3DNR→Defog→Gamma），深入解读关键参数（吞吐量、WDR类型、低照度性能）的技术意义，并详解寄存器表与在线调试工具的配置方法。通过表格对比、分点解析等方式，从基础原理到工程实践，覆盖IS
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，