嗜睡的篠龙

【单目3D目标检测】FCOS3D + PGD论文解析与代码复现

文章目录

前言
FCOS3D
- 概述
- 主要创新点
- 主要框架结构
- 回归目标
- 损失函数
- 推理过程
- 2D引导的多层3D预测
- 2D高斯分布的3D中心度
- 实验设置
- 源码复现
PGD
- 概述
- 主要创新点
- 深度估计
- 主要框架结构
- 概率表示的不确定性建模 $D_P,D_L$
- 透视几何体的深度传播 $D_G$
- 概率和几何深度估计 $D$
- 源码复现
Refernece

前言

本文对OpenMMLab在Monocular 3D detection领域做的两项工作FCOS3D和PGD（也被称作FCOS3D++）进行介绍。

在此之前，建议大家通过这篇博客：“3Dfy” A General 2D Detector: 纯视觉 3D 检测再思考，来回顾单目3D目标检测的更多细节。

FCOS3D

T. Wang, X. Zhu, J. Pang, and D. Lin. FCOS3D: Fully convolutional one-stage monocular
3d object detection. In Proceedings of the IEEE/CVF International Conference on Computer
Vision (ICCV) Workshops, 2021.
论文
代码

概述

3D检测由于其固有的不适定性，比传统的2D情况更具挑战性，这主要体现在深度信息的缺乏。在本文中，我们通过建立在全卷积单级检测器上的实践来研究这个问题，并提出了一个通用框架FCOS3D。具体而言，我们首先将通常定义的7-DoF 3D位置投影到2D图像上，并获得投影的中心点，与之前的2D中心相比，我们将其命名为3D中心。利用该投影，3D中心包含2.5D信息，即2D位置及其相应深度。2D位置可以进一步减少到从图像上的某个点的2D偏移，这用作可以在不同特征级别之间归一化的唯一2D属性。相比之下，深度、3D尺寸和方向被视为解耦后的3D属性。然后，考虑到对象的2D比例，将对象分布到不同的特征级别，并仅根据训练过程的投影3D中心进行分配。此外，基于3D中心用2D高斯分布重新定义中心度，以拟合3D目标公式。所有这些都使该框架简单而有效，消除了任何2D检测或2D-3D对应先验。

主要创新点

将7-DoF三维属性解耦为2D（位置偏移）和3D属性（深度、尺寸和旋转角等）
考虑目标的2D比例，将目标分布到不同的特征级别，并仅根据训练过程的投影三维中心进行分配
使用基于3D中心的2D高斯分布来表示3D Center-ness（来确定哪些点更靠近中心，并抑制远离目标中心的低质量预测）

主要框架结构

全卷积一阶段检测器通常由三个部件组成：用于特征提取的Backbone、用于多级分支构造的Neck和用于密集预测的Head

Backbone：使用预训练的ResNet101以及可变形卷积DCN进行特征提取，为了避免更多的内存开销，固定第一个卷积块参数
Neck：生成特征层 P3-P7（按照原始 FCOS 获得P3到P5，然后使用两个卷积块对P5进行下采样，以获得P6和P7），每个特征层用于检测不同尺度的目标
Head：要处理两个关键问题：
- 如何将目标分布到不同的特征级别和不同的点？也就是2D引导的多层3D预测
- 如何设计架构？本文遵循 RetinaNet 和 FCOS，每个包含4个共享参数的卷积层和 small heads 用于不同的 targets 预测，回归分支需要较高的解耦程度，即每个子 targets 都设置一个 head

回归目标

在回归分支中，不同于FCOS在2D中的情况（回归每个点到顶部/底部/左侧/右侧的距离，如下图中的 $t, b, l, r$ 所示），FCOS3D将通常定义的7-DoF回归目标转换为2.5D中心和3D尺寸，其中2.5D中心可以通过相机固有矩阵轻松转换回3D空间。

回归2.5D中心可以进一步减少为回归从中心到特定前景点的偏移 $\Delta x,\Delta y$ 、以及其相应的深度 $d$ ，对于3D尺寸，预测以下属性：

$w, l, h$ ：目标的长宽高
$\theta$ ：偏航角（以重力方向为轴，周期为 $\pi$ ）
$v_x,v_y$ ：目标沿x方向和y方向的速度
$C_{\theta}$ ：即2-bin direction classification，考虑目标具有相反方向的情况，具有相同的 $sin(\theta)$ 值
$c$ ：即3D Center-ness，3D目标中心ness c。它作为一个软二进制分类器来确定哪些点更靠近中心，并有助于抑制那些远离对象中心的低质量预测

总的来说，分类分支需要输出目标的类别标签和属性标签，而回归分支则需要预测 $\Delta x,\Delta y,d,w,l,h,\theta,v_x,v_y,C_{\theta},c$ 这些属性。

损失函数

对于分类分支和不同的回归分支，FCOS3D分别定义其损失，并对其进行加权求和：

目标分类，使用Focal Loss，其中 $p$ 是预测框的类概率，遵循原始论文的设置 $\alpha=0.25,\gamma=2$
$L_{c l s}=-\alpha(1-p)^\gamma \log p$
属性分类，使用softmax分类损失，表示为 $L_{attr}$
回归分支，对 $\Delta x,\Delta y,d,w,l,h,\theta,v_x,v_y$ 使用Smooth L1损失函数，对方向分类 $C_{\theta}$ 使用Softmax分类损失并表示为 $L_{dir}$ ，对Centerness $c$ 使用二元交叉熵（BCE）损失函数并表示为 $L_{ct}$
$L_{l o c}=\sum_{b \in\left(\Delta x, \Delta y, d, w, l, h, \theta, v_x, v_y\right)} \operatorname{SmoothL1}(\Delta b)$
最终损失： $L=\frac{1}{N_{p o s}}\left(\beta_{c l s} L_{c l s}+\beta_{a t t r} L_{a t t r}+\beta_{l o c} L_{l o c}+\beta_{d i r} L_{d i r}+\beta_{c t} L_{c t}\right)$

推理过程

给定输入图像，通过网络进行推理，获取带有 class scores, attribute scores 和 center-ness 预测结果的 bounding boxes，之后将class score 和 centerness 相乘作为每个预测框的confidence，并在鸟瞰图中进行旋转非最大抑制（NMS），以获得最终结果。

2D引导的多层3D预测

为了训练具有FPN的检测器，我们需要设计一种将目标分配到不同级别特征层的策略，FCOS讨论了两个关键问题：

与anchor-based方法相比，如何使anchor-free检测器实现类似的Best Possible Recall（BPR）
由地面真值框重叠引起的难以解决的模糊问题
针对第一个问题，FCOS通过FPN的多级预测可以改善BPR，甚至比anchor-based方法获得更好的结果，因此FCOS3D也引入FPN的多级预测
针对第二个问题：
FCOS对于不同级别的特征图匹配不同大小的目标，考虑到2D检测的规模与3D检测需要关注的区域的大小直接一致，FCOS3D借助于3D bounding boxes的8个顶点在平面坐标系下的最大坐标和最小坐标（计算投影的3D边界框的外部矩形来生成2D边界框）来匹配不同层次的feature map，在该分配步骤中仅使用2D检测来过滤无意义的目标，完成目标分配后，FCOS3D的回归目标仅包括3D目标的相关属性
对于正样本分配的歧义性问题，即当一个点位于同一要素级别中的多个GT框内时，应将哪个框指定给它？FCOS使用 area-based 方法解决该歧义性问题，即当两个样本都符合要求时选尺寸小的样本；FCOS3D则认为这种方式对大目标不友好，提出了一种新的 dist-based 方案提升了精度，即挑选与中心更近的样本作为回归目标，因为更靠近物体中心的点可以获得更全面和平衡的局部区域特征，从而容易地产生更高质量的预测
除了上面的正样本分配方法，FCOS3D还提出了一种基于 3d-center 来确定正样本的方法，即只有和中心点距离小于 1.5 x stride（该级别特征图的步长）的样本算作正样本
对每个回归分支的结果增加一个 scale 变换能涨点，该 scale 参数设置为网络可学习

2D高斯分布的3D中心度

FCOS为抑制远离目标中心的预测目标，增加了center-ness分支：
$c=\sqrt{\frac{\min \left(l^*, r^*\right)}{\max \left(l^*, r^*\right)} \times \frac{\min \left(t^*, b^*\right)}{\max \left(t^*, b^*\right)}}$
由于3D回归目标被更改为基于3D center-based 的范式，所以FCOS3D通过以投影的3D中心为原点的2D高斯分布来定义center-ness，其二维高斯分布简化为：
$c=e^{-\alpha\left((\Delta x)^2+(\Delta y)^2\right)}$

实验设置

实验数据集：NuScenes
评价指标

Average Precision metric（AP），使用地平面上的 2D center 与 GT 的距离 d 作为 threshold 进行匹配，避免使用 3D IoU 作为 threshold 对目标尺寸和朝向敏感的问题，其中 $\mathbb{C}$ 表示所有的类别， $\mathbb{D}=\{0.5,1,2,4\}$ 表示四个距离阈值：
$P=\frac{1}{|\mathbb{C}||\mathbb{D}|} \sum_{c \in \mathbb{C}} \sum_{d \in \mathbb{D}} A P_{c, d}$
五种True Positive metrics
- Average Translation Error (ATE)： 2d 下的中心距离差距（m）
- Average Scale Error (ASE)： 1-IoU，IoU为对齐 translation 和 orientation 后计算的值
- Average Orientation Error (AOE)：smallest yaw angle difference（radians）
- Average Velocity Error (AVE)：速度差异的 L2-Norm (m/s)
- Average Attribute Error (AAE)：1−acc，其中 acc 指代属性分类准确度
NuScenes Detection Score（DNS），传统的mAP结合了对检测目标的位置、大小和方向的评估，但仍无法捕获该设置中的某些信息（如速度和属性），因此nuScenes提出了一个更全面、解耦但简单的度量，即NDS：
$S=\frac{1}{10}\left[5 m A P+\sum_{m T P \in \mathbb{T} P}(1-\min (1, m T P))\right]$

源码复现

【MMDetection3D】基于单目（Monocular）的3D目标检测入门实战
官方源码：mmdetection3d

mmdetection3d算法库及nuScenes数据集的下载、配置可以参考官方博客：基于视觉的 3D 检测，本文不再赘述。

执行下面命令开始训练，主要要提前修改数据集路径：

CUDA_VISIBLE_DEVICES=0,1 tools/dist_train.sh configs/fcos3d/fcos3d_r101_caffe_fpn_gn-head_dcn_2x8_1x_nus-mono3d.py 2

FCOS3D完整的网络结构如下（为了便于观察，去掉了backbone中的layer2-4层）：

FCOSMono3D(
  (backbone): ResNet(
    (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
    (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (relu): ReLU(inplace=True)
    (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
    (layer1): ResLayer(
      (0): Bottleneck(
        (conv1): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (relu): ReLU(inplace=True)
        (downsample): Sequential(
          (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        )
      )
      (1): Bottleneck(
        (conv1): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (relu): ReLU(inplace=True)
      )
      (2): Bottleneck(
        (conv1): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (relu): ReLU(inplace=True)
      )
    )
    // 以下三层省略
    (layer2):
    (layer3): 
    (layer4): 
  )
  init_cfg={'type': 'Pretrained', 'checkpoint': 'open-mmlab://detectron2/resnet101_caffe'}
  (neck): FPN(
    (lateral_convs): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(512, 256, kernel_size=(1, 1), stride=(1, 1))
      )
      (1): ConvModule(
        (conv): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1))
      )
      (2): ConvModule(
        (conv): Conv2d(2048, 256, kernel_size=(1, 1), stride=(1, 1))
      )
    )
    (fpn_convs): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      )
      (1): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      )
      (2): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      )
      (3): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))
      )
      (4): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))
      )
    )
  )
  init_cfg={'type': 'Xavier', 'layer': 'Conv2d', 'distribution': 'uniform'}
  (bbox_head): FCOSMono3DHead(
    (loss_cls): FocalLoss()
    (loss_bbox): SmoothL1Loss()
    (loss_dir): CrossEntropyLoss(avg_non_ignore=False)
    (loss_attr): CrossEntropyLoss(avg_non_ignore=False)
    (cls_convs): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
      (1): ConvModule(
        (conv): ModulatedDeformConv2dPack(
          (conv_offset): Conv2d(256, 27, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        )
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
    )
    (reg_convs): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
      (1): ConvModule(
        (conv): ModulatedDeformConv2dPack(
          (conv_offset): Conv2d(256, 27, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        )
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
    )
    (conv_cls_prev): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
    )
    (conv_cls): Conv2d(256, 10, kernel_size=(1, 1), stride=(1, 1))
    (conv_reg_prevs): ModuleList(
      (0): ModuleList(
        (0): ConvModule(
          (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
          (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
          (activate): ReLU(inplace=True)
        )
      )
      (1): ModuleList(
        (0): ConvModule(
          (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
          (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
          (activate): ReLU(inplace=True)
        )
      )
      (2): ModuleList(
        (0): ConvModule(
          (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
          (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
          (activate): ReLU(inplace=True)
        )
      )
      (3): ModuleList(
        (0): ConvModule(
          (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
          (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
          (activate): ReLU(inplace=True)
        )
      )
      (4): None
    )
    (conv_regs): ModuleList(
      (0): Conv2d(256, 2, kernel_size=(1, 1), stride=(1, 1))
      (1): Conv2d(256, 1, kernel_size=(1, 1), stride=(1, 1))
      (2): Conv2d(256, 3, kernel_size=(1, 1), stride=(1, 1))
      (3): Conv2d(256, 1, kernel_size=(1, 1), stride=(1, 1))
      (4): Conv2d(256, 2, kernel_size=(1, 1), stride=(1, 1))
    )
    (conv_dir_cls_prev): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
    )
    (conv_dir_cls): Conv2d(256, 2, kernel_size=(1, 1), stride=(1, 1))
    (conv_attr_prev): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
    )
    (conv_attr): Conv2d(256, 9, kernel_size=(1, 1), stride=(1, 1))
    (conv_centerness_prev): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (gn): GroupNorm(32, 64, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
    )
    (conv_centerness): Conv2d(64, 1, kernel_size=(1, 1), stride=(1, 1))
    (scales): ModuleList(
      (0): ModuleList(
        (0): Scale()
        (1): Scale()
        (2): Scale()
      )
      (1): ModuleList(
        (0): Scale()
        (1): Scale()
        (2): Scale()
      )
      (2): ModuleList(
        (0): Scale()
        (1): Scale()
        (2): Scale()
      )
      (3): ModuleList(
        (0): Scale()
        (1): Scale()
        (2): Scale()
      )
      (4): ModuleList(
        (0): Scale()
        (1): Scale()
        (2): Scale()
      )
    )
    (loss_centerness): CrossEntropyLoss(avg_non_ignore=False)
  )
)

训练结束后，执行以下命令进行测试及可视化：

python tools/test.py configs/fcos3d/fcos3d_r101_caffe_fpn_gn-head_dcn_2x8_1x_nus-mini-mono3d.py work_dirs/fcos3d_r101_caffe_fpn_gn-head_dcn_2x8_1x_nus-mini-mono3d/latest.pth --show --show-dir ./outputs/fcos3d/

结果如下：

可以看到检测到的重叠框非常多，效果很差，分析可知应该是NMS阈值和得分阈值设置过低导致，修改/mmdetection3d/configs/_base_/models/fcos3d.py中的test_cfg，将score_thr设置为0.2：

    test_cfg=dict(
        use_rotate_nms=True,
        nms_across_levels=False,
        nms_pre=1000,
        nms_thr=0.8,
        score_thr=0.2,
        min_bbox_size=0,
        max_per_img=200))

再次进行测试和可视化，结果如下：

PGD

T. Wang, X. Zhu, J. Pang, and D. Lin. Probabilistic and Geometric Depth: Detecting Objects in Perspective. Proceedings of the 5th Conference on Robot Learning, PMLR 164:1475-1485, 2022.
论文
代码

很有意思的是，这篇PGD的作者是FCOS3D原班人马，可以认为是FCOS3D++。FCOS3D是基于Direct Regression的，而PGD则是Geometry-based，是在FCOS3D的基础上，利用提出的head定制模块对深度回归部分进行了改进。

概述

当前的单目3D检测可以简化为实例深度估计问题：不准确的实例深度阻碍了所有其他3D属性预测，无法提高整体检测性能。先前的方法使用额外繁琐的深度估计模型来补充2D检测器的深度信息，或者直接将深度视为3D定位任务的一个维度来简化框架，但仍然使用简单的方法，以回归的方式从孤立的实例或像素中估计深度。我们观察到，除了每个对象本身，其他对象在图像中共存，它们之间的几何关系可能是保证准确估计的有价值的约束。受这些观察的启发，我们提出了概率和几何深度（PGD），该方法联合利用概率深度不确定性和共存对象之间的几何关系，以实现精确的深度估计。具体而言，由于在这种不适定环境中，每个实例的初步深度估计通常是不准确的，因此我们结合了概率表示来捕获估计深度的不确定性。我们首先将深度值划分为一组区间，并通过分布的期望值计算深度，来自分布的top-k置信分数的平均值被视为深度的不确定性。

主要创新点

PGD结合概率表示来捕获深度估计的不确定性，具体而言，首先将深度值划分为一系列离散的区间，然后通过分布的期望来计算深度值，从分布中得到的top-k的置信度的平均值视作深度的不确定性，如下图（a）所示
为了构建几何关系图，PGD构建了一个深度传播图来利用上下文信息促进深度估计。每个实例深度的不确定性为实例深度传播提供了有效指引。利用这一整体机制，可以很容易地利用高置信度确定预测，更重要的是，利用基于图的协同机制可以更精确地预测深度，如下图（b）所示
在KITTI 3D汽车检测基准上，PGD在性能和速度方面都显著优于其他工作，如下图（c）所示

深度估计

Oracle使用不同的数据集和指标进行分析，从左到右：KITTI上基于3D IoU的mAP、NuScenes检测分数（NDS）和NuScenes上基于距离的mAP。依次用真值来替换 3D 检测器不同输出结果时最终的检测性能（注意是替换不同 attribute 的 dense prediction map，这样可以将回归目标建模所带来的影响包含在内）。

可以发现，在深度估计的准确率只有当前水平时，其他的回归目标用真值替代并不能带来预期提升，反而有时候甚至会有副作用。而当深度估计准确时，检测性能可以实现质的提升。因此可以推断，纯视觉 3D 检测问题在当前发展阶段几乎可以被归结为一个 instance depth estimation 问题。

因此，PGD一方面建模了深度估计的不确定性，另一方面通过透视几何关系建立这些具有不确定性的检测目标之间的深度传播图，通过全局的信息来增强深度估计的准确度

主要框架结构

PGD在FCOS3D整体框架的基础上，主要关注实例深度估计的难题，首先引入概率深度估计模块来建模不确定性，然后从深度传播图中得到几何深度，最后融合二者得到最终的深度预测值

概率表示的不确定性建模 $D_P,D_L$

从这一部分开始，本文将围绕着概率表示的局部深度估计+基于目标几何关系的深度估计这两部分进行讨论，会出现大量复杂的数学推理和表示。

对于一阶段检测器，直接深度估计一般是沿着回归分支的一个small head，输出密集的深度图： $D_R \in \mathbb{R}^{H \times W}$ 。本文在此基础上，考虑到深度值在一定范围内是连续的，将深度区间均匀量化为一组离散值，设置等距间隔，将其视为分类任务，离散化网络的输出为：
$D_P=\omega^T \text { softmax }\left(D_{P M}\right)$

其中， $\omega$ 为人为设置的间隔点， $D_{PM}$ 为深度值离散区间分类输出的feature map（这一块我也不太明白，可能不对）。每个孤立实例的局部深度估计为：
$D_L=\sigma(\lambda) D_R+(1-\sigma(\lambda)) D_P$

其中， $\lambda$ 为数据不可知的参数， $\sigma$ 为sigmoid函数。

透视几何体的深度传播 $D_G$

利用孤立实例的深度预测 $D_L$ 和不确定性估计的深度置信分数，我们可以进一步基于上下文几何关系构建传播图。考虑典型的驾驶场景：可以利用一般约束，即几乎所有物体都在地面上。针对深度估计问题，我们提出了一种几何深度传播机制，考虑了实例之间的相互依赖性。已知相机的内参矩阵：
$P=\left(\begin{array}{cccc} f & 0 & c_u & -f b_x \\ 0 & f & c_v & -f b_y \\ 0 & 0 & 1 & -f b_z \end{array}\right)$

其中各参数含义如下：

$f$ ：相机焦距，考虑到大多数相机在 $u$ 轴和 $v$ 轴上共享相同的焦距，因此这里用单个 $f$ 表示焦距
$c_u,c_v$ ：相机在图像中的水平和垂直位置
$b_x,b_y,b_z$ ：相对于参考相机的基线（KITTI中非零，NuScenes为零）

给定相机坐标系下某点的3D位置 $\mathbf{x}^{3 \mathrm{D}}=(x, y, z, 1)^T$ ，可以利用相机内参矩阵 $P$ ，将其投影为图像中的2D位置 $\mathbf{x}^{2 \mathbf{D}}=\left(u^{\prime}, v^{\prime}, 1\right)^T$ ：
$\mathbf{x}_{\mathbf{2 D}}=P \mathbf{x}_{3 \mathrm{D}}$

为了简化结果，将 $v_0$ 替换为 $v+c_v$ ，其中 $v$ 表示目标到地平线的距离（如下图所示，向下为正方向），然后我们得到：
$d=f\left(y-b_y+c_v b_z\right)$

$u$ 的关系类似。考虑到所有对象都在地面上的约束，对象的底部中心始终共享相同的 $y$ （相机坐标中的高度），因此接下来主要考虑 $v$ 的关系。给定两个物体1和2，它们的中心深度之间的关系为：
$d_2=\frac{v_1}{v_2} d_1+\frac{f}{v_2}\left(y_2-y_1\right) \approx \frac{v_1}{v_2} d_1+\frac{f}{2 v_2}\left(h_1^{3 D}-h_2^{3 D}\right) \triangleq d_{1 \rightarrow 2}^P$

对于一幅图像上的n个目标，可以根据上述公式定义他们之间的几何深度信息：
$d_i^G=\sum_{j=1}^k s_{j \rightarrow i}^e d_{j \rightarrow i}^P$

其中， $\boldsymbol{s}_{j \rightarrow i}^e$ 与目标之间的距离， $k$ 为选定的与目标 $i$ 置信度 $s_{j→i}^e$ 最高的目标集合。值得注意的是， $D_G$ 没有可学习的参数，不参与网络的反向转播过程。

概率和几何深度估计 $D$

网络的深度估计包含两个方面：局部的深度估计 $D_L$ 以及基于目标之间几何关系的深度估计 $D_G$ ，其中 $α∈R^{H×W}$ 为可学习参数：
$D=\sigma(\alpha) \circ D_L+(1-\sigma(\alpha)) \circ D_G$

源码复现

【MMDetection3D】基于单目（Monocular）的3D目标检测入门实战
官方源码：mmdetection3d

训练、测试及可视化同FCOS3D，在此不再赘述。

PGD整体框架中的backbone和neck与FCOS3D类似，但Head有很大改动，这里给出mmdetection3d中关于PGD检测头的配置信息：

  (bbox_head): PGDHead(
    (loss_cls): FocalLoss()
    (loss_bbox): SmoothL1Loss()
    (loss_dir): CrossEntropyLoss(avg_non_ignore=False)
    (loss_attr): CrossEntropyLoss(avg_non_ignore=False)
    (cls_convs): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
      (1): ConvModule(
        (conv): ModulatedDeformConv2dPack(
          (conv_offset): Conv2d(256, 27, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        )
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
    )
    (reg_convs): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
      (1): ConvModule(
        (conv): ModulatedDeformConv2dPack(
          (conv_offset): Conv2d(256, 27, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        )
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
    )
    (conv_cls_prev): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
    )
    (conv_cls): Conv2d(256, 10, kernel_size=(1, 1), stride=(1, 1))
    (conv_reg_prevs): ModuleList(
      (0): ModuleList(
        (0): ConvModule(
          (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
          (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
          (activate): ReLU(inplace=True)
        )
      )
      (1): ModuleList(
        (0): ConvModule(
          (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
          (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
          (activate): ReLU(inplace=True)
        )
      )
      (2): ModuleList(
        (0): ConvModule(
          (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
          (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
          (activate): ReLU(inplace=True)
        )
      )
      (3): ModuleList(
        (0): ConvModule(
          (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
          (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
          (activate): ReLU(inplace=True)
        )
      )
      (4): None
      (5): ModuleList(
        (0): ConvModule(
          (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
          (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
          (activate): ReLU(inplace=True)
        )
      )
    )
    (conv_regs): ModuleList(
      (0): Conv2d(256, 2, kernel_size=(1, 1), stride=(1, 1))
      (1): Conv2d(256, 1, kernel_size=(1, 1), stride=(1, 1))
      (2): Conv2d(256, 3, kernel_size=(1, 1), stride=(1, 1))
      (3): Conv2d(256, 1, kernel_size=(1, 1), stride=(1, 1))
      (4): Conv2d(256, 2, kernel_size=(1, 1), stride=(1, 1))
      (5): Conv2d(256, 4, kernel_size=(1, 1), stride=(1, 1))
    )
    (conv_dir_cls_prev): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
    )
    (conv_dir_cls): Conv2d(256, 2, kernel_size=(1, 1), stride=(1, 1))
    (conv_attr_prev): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
    )
    (conv_attr): Conv2d(256, 9, kernel_size=(1, 1), stride=(1, 1))
    (conv_depth_cls_prev): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (gn): GroupNorm(32, 256, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
    )
    (conv_depth_cls): Conv2d(256, 6, kernel_size=(1, 1), stride=(1, 1))
    (conv_centerness_prev): ModuleList(
      (0): ConvModule(
        (conv): Conv2d(256, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (gn): GroupNorm(32, 64, eps=1e-05, affine=True)
        (activate): ReLU(inplace=True)
      )
    )
    (conv_centerness): Conv2d(64, 1, kernel_size=(1, 1), stride=(1, 1))
    (scales): ModuleList(
      (0): ModuleList(
        (0): Scale()
        (1): Scale()
        (2): Scale()
        (3): Scale()
      )
      (1): ModuleList(
        (0): Scale()
        (1): Scale()
        (2): Scale()
        (3): Scale()
      )
      (2): ModuleList(
        (0): Scale()
        (1): Scale()
        (2): Scale()
        (3): Scale()
      )
      (3): ModuleList(
        (0): Scale()
        (1): Scale()
        (2): Scale()
        (3): Scale()
      )
      (4): ModuleList(
        (0): Scale()
        (1): Scale()
        (2): Scale()
        (3): Scale()
      )
    )
    (loss_centerness): CrossEntropyLoss(avg_non_ignore=False)
    (loss_depth): SmoothL1Loss()
    (loss_bbox2d): SmoothL1Loss()
    (loss_consistency): GIoULoss()
  )

Refernece

“3Dfy” A General 2D Detector: 纯视觉 3D 检测再思考

27. FCOS3D - 单阶段 3D 目标检测 (anchor-free)

单目3D目标检测论文汇总（一）

自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）

CoRL 2021单目三维目标检测算法PGD

你可能感兴趣的:(3D目标检测,3D目标检测,人工智能,计算机视觉)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
scanf占位符的一些用法阿玉的屋檐 c语言初学者算法数据结构 c语言青少年编程学习
1.限制输入数据的长度intmain(){inta=123456;scanf("%3d",&a);printf("%d",a);return0;}如果输入的值大于3位则最多读取输入的只读取前3位数据。2.匹配特定字符charss[6];scanf("%[abcd]",ss);%[abcd]表示只读取字符abcd，遇到其它的字符就读取结束，如果abcd字符在字符串的中间部分那么就不能正常读取字符。如
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
ffmpeg批量将tif文件转成jpeg格式 winfredzhang 图像工具 ffmpeg tif jpeg 转换
1、cmd2、切换到安装ffmpeg的路径。3、输入命令：ffmpeg-start_number001-i"D:\ocr\%03d.tif"-start_number001-pix_fmtyuv420p-qscale:v1"D:\ocr\%03d.jpg"结果。
python画图|同时输出二维和三维图西猫雷婶 python 开发语言
前面已经学习了如何输出二维图和三维图，部分文章详见下述链接：python画图|极坐标下的3Dsurface-CSDN博客python画图|垂线标记系列_如何用pyplot画垂直x轴的线-CSDN博客有时候也需要同时输出二位和三维图，因此有必要学习一下。【1】官网教程首先我们打开官网教程，链接如下。https://matplotlib.org/stable/gallery/mplot3d/mixed
现在做什么副业比较赚钱？现在副业干什么挣钱？手机聊天员赚钱平台
什么副业适合晚上下班？现在很多人白天正常工作，晚上做副业，不仅可以打发无聊的时间，还可以提高收入！有些人的副业收入可能比主营业务收入高！给大家推荐一个陪聊赚米项目叭，正规陪聊项目，网易云旗下大平台，无任何费用，下方有微信二维码，可扫码了解，也可点击链接，联系我们了解：https://www.jianshu.com/p/a8b7493d9f71我长期从事人力资源工作，也认识很多下班后从事副业的人。有
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
2019-03-19 Fiona_8bba
春暖花开。上周二鼓励三年级孩子5点下了国际象棋课独自回家。开始是非常害怕，在校门口打了一个电话给爸爸，进门后又打给爸爸说到家了。经过鼓励，周四五点下了3D打印社团，又独立回家了。到周五，问他，你愿意去托管再上隔壁跆拳道还是自己回家，再去跆拳道？他说我愿意自己回家。周末正式和托管说不去了，把孩子的托管课时转入书法。昨天周一第一次3点放学就回家。嘱咐如下：第一步，进门就洗手。第二，按按钮烧水，烫奶。吃
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
开发游戏的学习规划杰克逊的日记游戏学习
第一阶段：●C#语言快速系统地学习一遍（基础的语法、面向对象、基础的数据结构、基础的设计模式）●Unity的2D和3D部分及UI、动画、物理系统●阶段性测验：需要去用前面所学的这些基础知识来完成一个简单的2d或者3d的案例，将通过一个自制的《Flappybird》游戏案例讲解游戏开发的思想及方法，并将《Flappybird》这个游戏进一步改造成一个横版射击类游戏《Crazybird》以巩固并且升华
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

【单目3D目标检测】FCOS3D + PGD论文解析与代码复现

文章目录

前言

FCOS3D

概述

主要创新点

主要框架结构

回归目标

损失函数

推理过程

2D引导的多层3D预测

2D高斯分布的3D中心度

实验设置

源码复现

PGD

概述

主要创新点

深度估计

主要框架结构

概率表示的不确定性建模 D P , D L D_P,D_L DP​,DL​

透视几何体的深度传播 D G D_G DG​

概率和几何深度估计 D D D

源码复现

Refernece

你可能感兴趣的:(3D目标检测,3D目标检测,人工智能,计算机视觉)

概率表示的不确定性建模 $D_P,D_L$

透视几何体的深度传播 $D_G$

概率和几何深度估计 $D$