嗜睡的篠龙

【单目3D目标检测】SMOKE + MonoFlex 论文解析与代码复现

文章目录

前言
yacs库
- 简介
- 用法
SMOKE
- 论文解析
- - 概述
  - 主要创新点
  - 整体框架
  - - 主干网络
    - 检测网络
    - 损失函数
- 源码复现
- - MMDetection3D版本（推荐）
  - 官方版本（可选）
MonoFlex
- 论文解析
- - 概述
  - 主要创新点
  - 整体框架
  - 问题陈述
  - 对象解耦
  - 边缘融合
  - 损失函数
  - 视觉特征的回归
  - 自适应深度集成
- 源码复现
Reference

前言

本文介绍单目3D目标检测领域的两个经典算法SMOKE（2020）和MonoFlex（2021）

为什么要介绍这俩算法呢？因为这俩算法结构简单命令，容易入门，并且已经有不少应用，参考资料较多
为什么要一起介绍呢？因为这俩算法的源码结构相同（Monoflex大量借鉴SMOKE），只不过MonoFlex要比SMOKE复杂一点，但也更好用

yacs库

在正篇之前，有必要先了解一下yacs库，因为这俩算法源码的参数配置文件，都是基于yacs库建立起来的，不学看不懂啊！！！！

简介

yacs是一个用于定义和管理参数配置的库（例如用于训练模型的超参数或可配置模型超参数等）。yacs使用yaml文件来配置参数。另外，yacs是在py-fast -rcnn和Detectron中使用的实验配置系统中发展起来的

用法

安装

pip install yacs

创建defaults.py文件，然后导入包

from yacs.config import CfgNode as CN

创建CN()容器来装载参数，并添加需要的参数

from yacs.config import CfgNode as CN
__C = CN()
__C.name = 'test'
__C.model = CN()  # 嵌套使用
__C.model.backbone = 'resnet'
__C.model.depth = 18

print(__C)  
'''
  name: test
  model:
      backbone: resnet
      depth: 18
'''

merge_from_file()

使用merge_from_file()这个方法，会将默认参数与特定参数不同的部分，用特定参数覆盖

__C.merge_from_file("./test_config.yaml")

来自SMOKE官方源码中的defaults.py示例（默认参数）：

import os

from yacs.config import CfgNode as CN

# -----------------------------------------------------------------------------
# Config definition
# -----------------------------------------------------------------------------

_C = CN()
_C.MODEL = CN()
_C.MODEL.SMOKE_ON = True
_C.MODEL.DEVICE = "cuda"
_C.MODEL.WEIGHT = ""

# -----------------------------------------------------------------------------
# INPUT
# -----------------------------------------------------------------------------

_C.INPUT = CN()
# Size of the smallest side of the image during training
_C.INPUT.HEIGHT_TRAIN = 384
# Maximum size of the side of the image during training
_C.INPUT.WIDTH_TRAIN = 1280
# Size of the smallest side of the image during testing
_C.INPUT.HEIGHT_TEST = 384
# Maximum size of the side of the image during testing
_C.INPUT.WIDTH_TEST = 1280
# Values to be used for image normalization
_C.INPUT.PIXEL_MEAN = [0.485, 0.456, 0.406]  # kitti
# Values to be used for image normalization
_C.INPUT.PIXEL_STD = [0.229, 0.224, 0.225]  # kitti
# Convert image to BGR format
_C.INPUT.TO_BGR = True
# Flip probability
_C.INPUT.FLIP_PROB_TRAIN = 0.5
# Shift and scale probability
_C.INPUT.SHIFT_SCALE_PROB_TRAIN = 0.3
_C.INPUT.SHIFT_SCALE_TRAIN = (0.2, 0.4)

# -----------------------------------------------------------------------------
# Dataset
# -----------------------------------------------------------------------------
_C.DATASETS = CN()
# List of the dataset names for training, as present in paths_catalog.py
_C.DATASETS.TRAIN = ()
# List of the dataset names for testing, as present in paths_catalog.py
_C.DATASETS.TEST = ()
# train split tor dataset
_C.DATASETS.TRAIN_SPLIT = ""
# test split for dataset
_C.DATASETS.TEST_SPLIT = ""
_C.DATASETS.DETECT_CLASSES = ("Car",)
_C.DATASETS.MAX_OBJECTS = 30

# -----------------------------------------------------------------------------
# DataLoader
# -----------------------------------------------------------------------------
_C.DATALOADER = CN()
# Number of data loading threads
_C.DATALOADER.NUM_WORKERS = 4
# If > 0, this enforces that each collated batch should have a size divisible
# by SIZE_DIVISIBILITY
_C.DATALOADER.SIZE_DIVISIBILITY = 0
# If True, each batch should contain only images for which the aspect ratio
# is compatible. This groups portrait images together, and landscape images
# are not batched with portrait images.
_C.DATALOADER.ASPECT_RATIO_GROUPING = False

# ---------------------------------------------------------------------------- #
# Backbone options
# ---------------------------------------------------------------------------- #
_C.MODEL.BACKBONE = CN()

# The backbone conv body to use
# The string must match a function that is imported in modeling.model_builder
_C.MODEL.BACKBONE.CONV_BODY = "DLA-34-DCN"

# Add StopGrad at a specified stage so the bottom layers are frozen
_C.MODEL.BACKBONE.FREEZE_CONV_BODY_AT = 0
# Normalization for backbone
_C.MODEL.BACKBONE.USE_NORMALIZATION = "GN"
_C.MODEL.BACKBONE.DOWN_RATIO = 4
_C.MODEL.BACKBONE.BACKBONE_OUT_CHANNELS = 64

# ---------------------------------------------------------------------------- #
# Group Norm options
# ---------------------------------------------------------------------------- #
_C.MODEL.GROUP_NORM = CN()
# Number of dimensions per group in GroupNorm (-1 if using NUM_GROUPS)
_C.MODEL.GROUP_NORM.DIM_PER_GP = -1
# Number of groups in GroupNorm (-1 if using DIM_PER_GP)
_C.MODEL.GROUP_NORM.NUM_GROUPS = 32
# GroupNorm's small constant in the denominator
_C.MODEL.GROUP_NORM.EPSILON = 1e-5

# ---------------------------------------------------------------------------- #
# Heatmap Head options
# ---------------------------------------------------------------------------- #

# --------------------------SMOKE Head--------------------------------
_C.MODEL.SMOKE_HEAD = CN()
_C.MODEL.SMOKE_HEAD.PREDICTOR = "SMOKEPredictor"
_C.MODEL.SMOKE_HEAD.LOSS_TYPE = ("FocalLoss", "DisL1")
_C.MODEL.SMOKE_HEAD.LOSS_ALPHA = 2
_C.MODEL.SMOKE_HEAD.LOSS_BETA = 4
# Channels for regression
_C.MODEL.SMOKE_HEAD.REGRESSION_HEADS = 8
# Specific channel for (depth_offset, keypoint_offset, dimension_offset, orientation)
_C.MODEL.SMOKE_HEAD.REGRESSION_CHANNEL = (1, 2, 3, 2)
_C.MODEL.SMOKE_HEAD.USE_NORMALIZATION = "GN"
_C.MODEL.SMOKE_HEAD.NUM_CHANNEL = 256
# Loss weight for hm and reg loss
_C.MODEL.SMOKE_HEAD.LOSS_WEIGHT = (1., 10.)
# Reference car size in (length, height, width)
# for (car, cyclist, pedestrian)
_C.MODEL.SMOKE_HEAD.DIMENSION_REFERENCE = ((3.88, 1.63, 1.53),
                                           (1.78, 1.70, 0.58),
                                           (0.88, 1.73, 0.67))
# Reference depth
_C.MODEL.SMOKE_HEAD.DEPTH_REFERENCE = (28.01, 16.32)
_C.MODEL.SMOKE_HEAD.USE_NMS = False

# ---------------------------------------------------------------------------- #
# Solver
# ---------------------------------------------------------------------------- #
_C.SOLVER = CN()
_C.SOLVER.OPTIMIZER = "Adam"
_C.SOLVER.MAX_ITERATION = 14500
_C.SOLVER.STEPS = (5850, 9350)

_C.SOLVER.BASE_LR = 0.00025
_C.SOLVER.BIAS_LR_FACTOR = 2
_C.SOLVER.LOAD_OPTIMIZER_SCHEDULER = True

_C.SOLVER.CHECKPOINT_PERIOD = 20
_C.SOLVER.EVALUATE_PERIOD = 20

# Number of images per batch
# This is global, so if we have 8 GPUs and IMS_PER_BATCH = 16, each GPU will
# see 2 images per batch
_C.SOLVER.IMS_PER_BATCH = 32
_C.SOLVER.MASTER_BATCH = -1

# ---------------------------------------------------------------------------- #
# Test
# ---------------------------------------------------------------------------- #
_C.TEST = CN()
# Number of images per batch
# This is global, so if we have 8 GPUs and IMS_PER_BATCH = 16, each GPU will
# see 2 images per batch
_C.TEST.SINGLE_GPU_TEST = True
_C.TEST.IMS_PER_BATCH = 1
_C.TEST.PRED_2D = True

# Number of detections per image
_C.TEST.DETECTIONS_PER_IMG = 50
_C.TEST.DETECTIONS_THRESHOLD = 0.25


# ---------------------------------------------------------------------------- #
# Misc options
# ---------------------------------------------------------------------------- #
# Directory where output files are written
_C.OUTPUT_DIR = "./output/exp"
# Set seed to negative to fully randomize everything.
# Set seed to positive to use a fixed seed. Note that a fixed seed does not
# guarantee fully deterministic behavior.
_C.SEED = -1
# Benchmark different cudnn algorithms.
# If input images have very different sizes, this option will have large overhead
# for about 10k iterations. It usually hurts total time, but can benefit for certain models.
# If input images have the same or similar sizes, benchmark is often helpful.
_C.CUDNN_BENCHMARK = True

_C.PATHS_CATALOG = os.path.join(os.path.dirname(__file__), "paths_catalog.py")

来自SMOKE官方源码中的smoke_gn_vector.yaml示例（特定参数）：

MODEL:
  WEIGHT: "catalog://ImageNetPretrained/DLA34"
INPUT:
  FLIP_PROB_TRAIN: 0.5
  SHIFT_SCALE_PROB_TRAIN: 0.3
DATASETS:
  DETECT_CLASSES: ("Car", "Cyclist", "Pedestrian")
  TRAIN: ("kitti_train",)
  TEST: ("kitti_test",)
  TRAIN_SPLIT: "trainval"
  TEST_SPLIT: "test"
SOLVER:
  BASE_LR: 2.5e-4
  STEPS: (10000, 18000)
  MAX_ITERATION: 25000
  IMS_PER_BATCH: 32

SMOKE

题目：SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation
论文：https://arxiv.org/pdf/2002.10111.pdf
作者官方维护的源码：https://github.com/lzccccc/SMOKE
OpenMMLab复现的MMDetection3D版本：https://github.com/open-mmlab/mmdetection3d

论文解析

概述

SMOKE是一个One-Stage的单目3D检测模型，它认为2D检测对于单目3D检测任务来说是冗余的，且会引入噪声影响3D检测性能，所以直接用关键点预测和3D框回归的方式，将每个物体与单个关键点配对，结合单个关键点估计和回归的三维变量来预测每个被检测物体的三维边界框。

主要创新点

消除2D检测分支，估计投影在图像平面上的3D关键点
为3D边界盒回归提供了一种多步骤解纠缠方法，分离3D包围盒编码阶段和回归损失函数中每个参数的贡献，有助于有效地训练整个网络

整体框架

输入图像经过DLA-34网络进行特征提取，之后送入两个检测分支：关键点预测分支和3D边界框回归分支

关键点预测分支来定位前景目标，关键点分支输出的分辨率为 $H/4 \times W/4\times C$ ， $C$ 表示数据集中前景目标的类别个数
3D边界框回归分支输出的分辨率为 $H/4 \times W/4\times 8$ ，表示描述3D边界框的参数有8个

主干网络

主干网络采用带有可变形卷积DCN(Deformable Convolution Network)以及GN(GroupNorm)标准化的DLA-34网络（与CenterNet类似）提取特征，网络输出分辨率为输入分辨率的四分之一。论文中采用DLA-34作为主干网络进行特征提取，以便对不同层之间的特征进行聚合。网络中主要做了两点改动如下：

将所有的分层聚合连接替换为可变形卷积
将所有的BN层用GN(GroupNorm)替换，因为GN对batch size大小不敏感，且对训练噪声更鲁棒，作者在实验部分也对这一点进行了验证

检测网络

SMOKE的检测网络主要包括关键点检测、3D边界框回归分支

在关键点分支中，图像中的每一个目标用一个关键点进行表示。这里的关键点被定义为目标3D框的中心点在图像平面上的投影点，而不是目标的2D框中心点。如下图所示，红色点是目标的2D框中心点，橙色点是3D框的中心点在图像平面上的投影点

【单目3D目标检测】SMOKE + MonoFlex 论文解析与代码复现_第2张图片

3D框回归用于预测与构建3D边界框相关的信息，该信息可以表示为一个8元组：
$\tau = (\delta_z, \delta_{x_c},\delta_{y_c},\delta_h,\delta_w,\delta_l,sin\alpha,cos\alpha)^T$
其中各参数含义如下：
- $\delta_z$ ：表示目标的深度偏移量
- $\delta_{x_c}$ ：表示特征图的关键点坐标x方向的偏移量
- $\delta_{y_c}$ ：表示特征图的关键点坐标y方向的偏移量
- $\delta_h,\delta_w,\delta_l$ ：表示目标体积值的残差
- $sin\alpha,cos\alpha$ ：表示目标旋转角得向量化表示
由于网络中进行了特征图下采样，下采样后的特征图上的关键点坐标基于预定义的关键点坐标执行离散化下采样得到，但是这样计算出来的关键点坐标会存在误差，因此论文中设置了两个预测量 $\delta_{x_c}$ 和 $\delta_{y_c}$

损失函数

SMOKE的损失函数，包括关键点分类损失函数+3D边界框回归损失函数

关键点分类损失函数 $L_\mathrm{cls}$ 借鉴了CornerNet与CenterNet中的带惩罚因子的Focal Loss，引入了高斯核对关键点真值附近的点也分配了监督信号进行约束
3D边界框回归损失函数 $L_\mathrm{reg}$ 借鉴了“Disentangling Monocular 3D Object Detection”中所提出的解耦训练的方式，回归的对象是3D边界框的 $(\delta_z, \quad \delta_{x_c},\quad \delta_{y_c},\quad \delta_h\quad,\delta_w\quad,\delta_l\quad,sin\alpha\quad, cos\alpha)$ 八个参数，损失函数使用L1 Loss，3D边界框回归损失定义为：
$L_{\mathrm{reg}}=\frac{\lambda}{N}\|\hat{B}-B\|_1$
其中 $\hat{B}$ 为预测值， $B$ 为真实值， $\frac{\lambda}{N}$ 系数是用作调节回归损失和关键点分类损失的占比的
总的损失函数为：
$L=L_{\mathrm{cls}}+\sum_{i=1}^3 L_{\mathrm{reg}}(\hat{B}_i)$

源码复现

SMOKE算法的源码主要有两个版本：

作者官方维护的源码：https://github.com/lzccccc/SMOKE
OpenMMLab复现的MMDetection3D版本：https://github.com/open-mmlab/mmdetection3d

根据本人实际使用的情况看，直接上手MMDetection3D版本就行（确实好用），官方版本目前只能实现训练和简单测试（还要额外添加其他库），很多功能还不完善，有兴趣的小伙伴可以尝试学习一下，就当做锻炼自己看代码的能力了

MMDetection3D版本（推荐）

https://github.com/open-mmlab/mmdetection3d

1、创建环境

# 在Anaconda中新建虚拟环境
conda create -n mmdet3d python=3.7 -y
conda activate mmdet3d

# 安装最新的PyTorch版本
conda install -c pytorch pytorch torchvision -y

# install mmcv
pip install mmcv-full

# install mmdetection
pip install git+https://github.com/open-mmlab/mmdetection.git

# install mmsegmentation
pip install git+https://github.com/open-mmlab/mmsegmentation.git

# install mmdetection3d
git clone https://github.com/open-mmlab/mmdetection3d.git
cd mmdetection3d
pip install -v -e . # or "python setup.py develop"
# -v：verbose, or more output
# -e：editable，修改本地文件，调用的模块以最新文件为准

2、kitti数据集准备

参考官方教程：3D 目标检测 KITTI 数据集

3、修改参数

数据集路径：打开/mmdetection3d/configs/_base_/datasets/kitti-mono3d.py文件，修改data_root = '/your_datasets_root'
训练参数：打开/mmdetection3d/configs/smoke/smoke_dla34_pytorch_dlaneck_gn-all_8x4_6x_kitti-mono3d.py文件，按需修改参数（例如修改max_epochs、保存权重的间隔数等等）

4、训练

配置好环境、数据集、参数之后，就可以直接进行训练（以多卡训练为例）：

CUDA_VISIBLE_DEVICES=0,1,2,3 tools/dist_train.sh configs/smoke/smoke_dla34_pytorch_dlaneck_gn-all_8x4_6x_kitti-mono3d.py 4

这里没有指定保存路径，默认保存至/mmdetection3d/work_dirs/smoke_dla34_pytorch_dlaneck_gn-all_8x4_6x_kitti-mono3d/文件夹中

6、测试及可视化

直接在命令行输入以下命令即可：

[必选参数] config：配置文件
[必选参数] checkpoint：训练生成的权重文件
show：可视化
show-dir：指定可视化结果生成的路径

python tools/test.py configs/smoke/smoke_dla34_pytorch_dlaneck_gn-all_8x4_6x_kitti-mono3d.py work_dirs/smoke_dla34_pytorch_dlaneck_gn-all_8x4_6x_kitti-mono3d/latest.pth --show --show-dir ./outputs/smoke/smoke_kitti_72e

结果如下所示：

6、友情提示

目前对于SMOKE算法来说，是不可以通过改变score_thr参数，来调节可视化输出的3D框数量，原因是SMOKE的检测头SMOKEMono3D继承自SingleStageMono3DDetector：

而在SingleStageMono3DDetector类中，还未实现score_thr参数的调节功能（这个bug让我一顿好找o(╥﹏╥)o）

官方版本（可选）

https://github.com/lzccccc/SMOKE

1、创建环境

conda create -n smoke python=3.7 -y
conda activate smoke
pip install torch==1.4.0 torchvision==0.5.0
git clone https://github.com/lzccccc/SMOKE
cd smoke
python setup.py build develop

2、添加安装库文件：在smoke主目录下，新建requirements.txt文件，并写入以下安装包信息：

shapely
tqdm
tensorboard
tensorboardX
scikit-image
matplotlib
yacs
pyyaml
fire
pycocotools
fvcore
opencv-python
numba
inplace_abn

之后在命令行执行pip install -r requirements.txt进行安装

3、KITTI数据集下载及配置

具体下载步骤可参考这篇博客：【MMDetection3D】环境搭建，使用PointPillers训练&测试&可视化KITTI数据集，下载完成后，将数据集按照以下结构进行组织：

kitti
│──training
│    ├──calib 
│    ├──label_2 
│    ├──image_2
│    └──ImageSets
└──testing
     ├──calib 
     ├──image_2
     └──ImageSets

4、修改数据集路径

方式一：软连接下载好的kitti数据集到datasets文件夹中，之后就不用管啦，默认路径就是datasets/kitti/，但是这种方式在之后的测试阶段会出现找不到文件的情况

mkdir datasets
ln -s /path_to_kitti_dataset datasets/kitti

方式二（推荐）：打开/smoke/smoke/config/paths_catalog.py，直接修改数据集路径

class DatasetCatalog():
    DATA_DIR = "your_datasets_root/"
    DATASETS = {
        "kitti_train": {
            "root": "kitti/training/",
        },
        "kitti_test": {
            "root": "kitti/testing/",
        },
    }

5、修改训练设置（可选）
打开/smoke/configs/smoke_gn_vector.yaml文件，可以修改一些训练参数，比如训练迭代次数、batchsize等：

# 模型设置
MODEL:
  WEIGHT: "catalog://ImageNetPretrained/DLA34"
# 数据集设置
INPUT:
  FLIP_PROB_TRAIN: 0.5
  SHIFT_SCALE_PROB_TRAIN: 0.3
DATASETS:
  DETECT_CLASSES: ("Car", "Cyclist", "Pedestrian")
  TRAIN: ("kitti_train",)
  TEST: ("kitti_test",)
  TRAIN_SPLIT: "trainval"
  TEST_SPLIT: "test"
# 训练参数设置
SOLVER:
  BASE_LR: 2.5e-4
  STEPS: (10000, 15000)
  MAX_ITERATION: 20000  # 迭代次数
  IMS_PER_BATCH: 8  # 所有GPU的batch_size

6、全部参数设置
打开/smoke/smoke/config/defaults.py文件，可以修改全部配置参数，包括数据集输入、处理、模型结构、训练、测试等参数。这个文件最好不要动，如果要修改参数，就去上一步的smoke_gn_vector.yaml文件中进行修改。比如要修改训练、测试结果保存的路径，可以在最后直接加入：

# 模型设置
MODEL:
  WEIGHT: "catalog://ImageNetPretrained/DLA34"
# 数据集设置
INPUT:
  FLIP_PROB_TRAIN: 0.5
  SHIFT_SCALE_PROB_TRAIN: 0.3
DATASETS:
  DETECT_CLASSES: ("Car", "Cyclist", "Pedestrian")
  TRAIN: ("kitti_train",)
  TEST: ("kitti_test",)
  TRAIN_SPLIT: "trainval"
  TEST_SPLIT: "test"
# 训练参数设置
SOLVER:
  BASE_LR: 2.5e-4
  STEPS: (10000, 15000)
  MAX_ITERATION: 20000  # 迭代次数
  IMS_PER_BATCH: 8  # 所有GPU的batch_size
# 输出保存路径
OUTPUT_DIR: "./output/exp"

7、开始训练

单GPU训练：

python tools/plain_train_net.py --config-file "configs/smoke_gn_vector.yaml"

多GPU训练：

python tools/plain_train_net.py --num-gpus 4 --config-file "configs/smoke_gn_vector.yaml"

第一次训练，会自动下载预训练权重dla34-ba72cf86.pth，因为要，所以下载很慢，大家可以从这里直接下载到本地，然后上传到/root/.torch/models/dla34-ba72cf86.pth即可

8、测试

SMOKE官方源码在测试时会有很多问题，作者在这篇issue中给出了解决方案：

You need to put offline kitti eval code under the folder “/smoke/data/datasets/evaluation/kitti/kitti_eval”
if you are using the train/val split. It will compile it automatically and evaluate the performance.
The eval code can be found here:
https://github.com/prclibo/kitti_eval (for 11 recall points)
https://github.com/lzccccc/kitti_eval_offline (for 40 recall points)

However, if you are using the trainval (namely the whole training set), there is no need to evaluate it offline. You need to log in to the kitti webset and submit your result.

具体的测试步骤如下：

下载kitti_eval到/smoke/smoke/data/datasets/evaluation/kitti/文件夹中
修改测试集设置：打开/smoke/configs/smoke_gn_vector.yaml文件，将DATASETS部分修改为：

DATASETS:
  DETECT_CLASSES: ("Car", "Cyclist", "Pedestrian")
  TRAIN: ("kitti_train",)
  TEST: ("kitti_train",)
  TRAIN_SPLIT: "train"
  TEST_SPLIT: "val"

修改/smoke/smoke/data/datasets/evaluation/kitti/kitti_eval.py文件中的do_kitti_detection_evaluation函数：

def do_kitti_detection_evaluation(dataset,
                                  predictions,
                                  output_folder,
                                  logger
                                  ):
    predict_folder = os.path.join(output_folder, 'data')  # only recognize data
    mkdir(predict_folder)

    for image_id, prediction in predictions.items():
        predict_txt = image_id + '.txt'
        predict_txt = os.path.join(predict_folder, predict_txt)

        generate_kitti_3d_detection(prediction, predict_txt)

    logger.info("Evaluate on KITTI dataset")
    output_dir = os.path.abspath(output_folder)
    os.chdir('./smoke/data/datasets/evaluation/kitti/kitti_eval')
    # os.chdir('../smoke/data/datasets/evaluation/kitti/kitti_eval')
    label_dir = getattr(dataset, 'label_dir')
    if not os.path.isfile('evaluate_object_3d_offline'):
        subprocess.Popen('g++ -O3 -DNDEBUG -o evaluate_object_3d_offline evaluate_object_3d_offline.cpp', shell=True)
    command = "./evaluate_object_3d_offline {} {}".format(label_dir, output_dir)
    output = subprocess.check_output(command, shell=True, universal_newlines=True).strip()
    logger.info(output)
    os.chdir('./')
    # os.chdir('../')

开始测试，目前只支持单GPU测试，并且只得到txt形式的预测结果，没有可视化操作（后续我会尝试加入可视化功能）
- 其中ckpt参数为训练得到的最后模型权重

python tools/plain_train_net.py --eval-only --ckpt YOUR_CKPT --config-file "configs/smoke_gn_vector.yaml"

这里测试的逻辑是:

首先加载数据集（kitti_train），送入训练好的模型进行预测，得到预测结果（output）
然后进入kitti_eval文件夹中，执行g++ -O3 -DNDEBUG -o evaluate_object_3d_offline evaluate_object_3d_offline.cpp，编译生成evaluate_object_3d_offline文件
最后在kitti_eval文件夹中，执行./evaluate_object_3d_offline /your_root_dir/kitti/training/label_2/ /your_root_dir/smoke/output/exp4/inference/kitti_train，进行指标计算

注意！！测试这一步坑很多：

如果出现以下报错：定位到报错的函数subprocess，第412行（不同版本位置可能不同），将check改为False即可

subprocess.CalledProcessError: Command './evaluate_object_3d_offline datasets/kitti/training/label_2 /home/rrl/det3d/smoke/output/exp4/inference/kitti_train' returned non-zero exit status 127.

【单目3D目标检测】SMOKE + MonoFlex 论文解析与代码复现_第8张图片

如果出现类似下面的报错，一定要检查训练集的label_2文件夹的路径，推荐使用绝对路径，而不是软连接（我一开始用的软连接，一直报这个错o(╥﹏╥)o）

Thank you for participating in our evaluation!
Loading detections...
number of files for evaluation: 3769
ERROR: Couldn't read: 006071.txt of ground truth. Please write me an email!
An error occured while processing your results.

最终生成的测试文件目录为：

9、可视化预测结果
Coming soon…

MonoFlex

题目：Objects are Different: Flexible Monocular 3D Object Detection
论文：https://arxiv.org/pdf/2104.02323.pdf
源码：https://github.com/zhangyp15/MonoFlex

论文解析

概述

现有单目3D目标检测大多忽略了对象之间的差异，对所有对象进行同等和联合处理可能会很难检测到严重截断的对象，并且这些硬样本会增加学习负担，并影响对一般对象的预测，造成检测性能下降。因此，统一的方法可能无法找到每个对象，也无法预测精确的3D位置。为此，作者提出了一种灵活的检测器，它考虑了对象之间的差异，并以自适应方式估计其3D位置。

主要创新点

主要贡献主要归纳为以下两点：

发现针对截断类(outside object)的目标，从2D到3D映射过程，需要的偏移量的分布与非截断类目标(inside objects)的偏移量分布差别很大，因此要解耦这两类目标，分别进行学习，也就是关注到单目三维目标检测中考虑目标间差异的重要性，提出了截断目标预测的解耦方法
提出了一种新的目标深度估计公式，它利用不确定性灵活地组合独立的估计器估计对象深度，而不是对所有对象采用单一方法

整体框架

Nonoflex框架以及检测思想是从CenterNet扩展而来的，CenterNet的核心思想是将目标作为一个点，即目标BBox的中心点，检测器采用关键点估计来找到中心点，并回归到其他目标属性，例如2D边界框、维度、方向、关键点和深度。最终深度估计是回归深度和根据估计的关键点和尺寸计算的深度的不确定性组合：

首先，CNN主干网络从单张图像中提取特征图作为多个预测头的输入，其中图像级定位涉及热图（Heatmap）和偏移量（Offsets）
之后边缘融合（Edge Fusion）模块用于解耦截断对象的特征学习和预测
同时自适应深度集合采用四种方法进行深度估计，并同时预测其不确定性，从而形成不确定性加权预测

问题陈述

物体的3D检测包括估计其3D位置 $(x, y, z)$ 、尺寸 $(h, w, l)$ 和方向 $\theta$ 。尺寸和方向可以直接从基于外观的线索推断出来，而3D位置则转换为投影的3D中心 $x_c=(u_c,v_c)$ 和对象深度 $z$ ：
$\begin{aligned} &x=\frac{\left(u_c-c_u\right) z}{f} \\ &y=\frac{\left(v_c-c_v\right) z}{f} \end{aligned}$
其中， $c_u,c_v)$ 为主点（principle point）， $f$ 为焦距（focal length）。3D位置转换为投影中心和对象深度的示意图如下所示：

对象解耦

现有的单目3D检测方法对每个对象使用统一表示 $x_r$ ，即2D边界框 $x_b$ 的中心点。计算偏移 $\delta_c=x_c−x_b$ 回归以导出投影的3D中心 $x_c$ 。根据物体的投影3D中心在图像内部还是外部，我们将物体分为两组，内部对象（Inside Objects）和外部对象（Outside Objects）在从2D中心到投影3D中心过程中，呈现完全不同的偏移 $\delta_c$ 分布：

因此，作者将将内外对象的表示和偏移学习进行解耦：

对于投影的3D中心位于图像内部的对象，它们由 $x_c$ 直接识别，此时的偏移误差如下，其中 $S$ 为CNN下采样率：
$\delta_{i n}=\frac{x_c}{S}-\left\lfloor\frac{x_c}{S}\right\rfloor$
为了解耦外部对象的表示，作者通过图像边缘和从 $x_b$ 到 $x_c$ 的之间的交点 $x_I$ 来识别外部对象，交点 $x_I$ 比简单地将 $x_b$ 或 $x_c$ 夹持到边界更有物理意义：
$\delta_{o u t}=\frac{x_c}{S}-\left\lfloor\frac{x_{I}}{S}\right\rfloor$

【单目3D目标检测】SMOKE + MonoFlex 论文解析与代码复现_第13张图片

边缘融合

尽管内部和外部对象的表示在输出特征的内部和边缘区域中解耦，但共享卷积核仍然难以处理空间变量预测。因此，作者提出了一个边缘融合模块来进一步解耦外部对象的特征学习和预测
如下图所示，模块首先提取特征图的四个边界，并将它们按顺时针顺序（图文不一致）连接成边缘特征向量，然后由两个1×1卷积层处理，以学习截断对象的独特特征。最后，将处理后的向量重新映射到四个边界并添加到输入特征图。当应用于热图预测时，边缘特征可以专门预测外部对象的边缘热图，从而不会混淆内部对象的定位。为了回归偏移， $\delta_{in}$ 和 $\delta_{out}$ 之间的显著尺度差异可以通过边缘融合模块解决

【单目3D目标检测】SMOKE + MonoFlex 论文解析与代码复现_第14张图片

损失函数

作者采用L1 Loss回归 $\delta_{in}$ ，Log-Scale L1 Loss回归 $\delta_{out}$ ，因为它对极端异常值更加鲁棒，偏移损失计算为：
$L_{o f f}=\left\{\begin{array}{l}\left|\boldsymbol{\delta}_{i n}-\boldsymbol{\delta}_{i n}^*\right|\quad\text { if inside } \\ \log \left(1+\left|\boldsymbol{\delta}_{o u t}-\boldsymbol{\delta}_{o u t}^*\right|\right) \quad \text{otherwise} \end{array}\right.$
其中， $\delta_{in}$ 和 $\delta_{out}$ 表示预测， $\delta^*_{in}$ 和 $\delta^*_{out}$ 表示GT

视觉特征的回归

视觉属性的回归，包括对象的2D边界框、尺寸、方向和关键点

2D边界框：作者不将对象表示为2D中心，遵循FCOS将代表点 $x_r=(u_r,v_r)$ 的距离回归到2D边界框的四个侧面，其中代表点 $x_b$ 表示内部对象， $x_I$ 表示外部对象。此外，2D检测采用GIOU损失，因为它对规模变化的鲁棒性
尺寸：考虑到每个类别中对象之间的小方差，本文回归了相对于统计平均值的相对变化而不是绝对值，对于每个类 $c$ ，训练集的平均维数表示为 $h_c,w_c,l_c)$ ，那么尺寸回归的L1 loss表示为：
$L_{d i m}=\sum_{k \in\{h, w, l\}}\left|\bar{k}_c e^{\delta_k}-k^*\right|$
方向：方向可以表示为相机坐标系中的全局方向或相对于观察方向的局部方向。对于位于 $(x, y, z)$ 的对象，其全局方向 $r_y$ 和局部方向 $\alpha$ 满足：
$r_y=\alpha+arctan(x/z)$
具有相同全局方向但不同视角的对象将具有不同的局部方向和视觉外观。因此，我们选择使用MultiBin损失来估计局部方向，这将方向范围划分为无重叠区域，以便网络可以确定对象位于哪个区域，并估计区域中心的剩余旋转

【单目3D目标检测】SMOKE + MonoFlex 论文解析与代码复现_第15张图片

关键点：为每个对象定义 $N_k=10$ 个关键点，其中包括3D边界框的8个顶点 ${k_i,i=1…8}$ 、底部中心 $k_9$ 和顶部中心 $k_{10}$ 的投影：

自适应深度集成

Coming Soon…

源码复现

1、创建环境

# 创建conda虚拟环境：python==3.7, pytorch==1.4.0 and cuda==10.1
conda create -n monoflex python=3.7 -y
conda activate monoflex
pip install torch==1.4.0 torchvision==0.5.0

# clone代码
git clone https://github.com/zhangyp15/MonoFlex
cd monoflex
# 安装库文件
pip install -r requirements.txt

# Build DCNv2 and the project
cd model/backbone/DCNv2
. make.sh
cd ../../..
python setup.py build develop

2、准备数据集并修改路径

数据集下载及配置同SMOKE中的步骤。下载完成后，打开/monoflex/config/paths_catalog.py文件，修改数据集路径：

class DatasetCatalog():
    DATA_DIR = "/your_datasets_root/"
    DATASETS = {
        "kitti_train": {
            "root": "kitti/training/",
        },
        "kitti_test": {
            "root": "kitti/testing/",
        },

    }

3、修改训练及测试参数
打开/home/rrl/det3d/monoflex/runs/monoflex.yaml文件，按照需要进行修改：

SOLVER:
  OPTIMIZER: 'adamw'
  BASE_LR: 3e-4
  WEIGHT_DECAY: 1e-5
  LR_WARMUP: False
  WARMUP_STEPS: 2000

  # for 1 GPU
  LR_DECAY: 0.1
  # 使用epoch作为训练的次数，而不是iterations
  EVAL_AND_SAVE_EPOCH: True
  EVAL_EPOCH_INTERVAL: 1
  SAVE_CHECKPOINT_EPOCH_INTERVAL: 2
  # 训练epoch数
  MAX_EPOCHS: 100
  DECAY_EPOCH_STEPS: [80, 90]
  # batchsize大小
  IMS_PER_BATCH: 8
  EVAL_INTERVAL: 1000

TEST:
  UNCERTAINTY_AS_CONFIDENCE: True
  # 检测阈值越大，检测出来的框越少
  DETECTIONS_THRESHOLD: 0.9
  METRIC: ['R40']
# 保存路径
OUTPUT_DIR: "./output/exp1"

4、开始训练

单GPU训练

CUDA_VISIBLE_DEVICES=0 python tools/plain_train_net.py --batch_size 8 --config runs/monoflex.yaml --output output/exp

第一次训练，会自动下载预训练权重dla34-ba72cf86.pth，因为要，所以下载很慢，大家可以从这里直接下载到本地，然后上传到/root/.cache/torch/checkpoints/dla34-ba72cf86.pth即可

5、测试及可视化

CUDA_VISIBLE_DEVICES=0 python tools/plain_train_net.py --config runs/monoflex.yaml --ckpt YOUR_CKPT  --eval --vis

可视化结果如下：

6、保存可视化图像（可选）
为了实时保存可视化图像，对源代码进行以下修改：

打开/monoflex/engine/inference.py文件，在inference函数中调用compute_on_dataset函数的地方，添加新的传参output_dir = output_folder，也就是把保存路径传给之后的可视化函数，目的是将可视化结果保存在我们指定的目录下：

打开/monoflex/engine/inference.py文件，在compute_on_dataset函数中添加新的传参output_dir = None，并且设置新的子文件夹save_jpg，将作为参数其传递给
show_image_with_boxes函数：

打开/monoflex/engine/visualize_infer.py文件，在show_image_with_boxes函数中添加新的传参save_dir = None，

最后，在show_image_with_boxes函数的最后，添加保存图像的代码，这里既保存plt.fifure()合成的完整图像（包括热力图、检测结果图和BEV视角正确和错误的推理图），又保存检测结果图（即img3）：

最终可视化过程中，实时保存图像的目录如下所示：

Reference

yacs的使用小记

https://github.com/lzccccc/SMOKE/issues/4

[CVPRW 2020] SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation 论文阅读

Apollo 7.0障碍物感知模型原型！SMOKE 单目3D目标检测，代码开源！

【单目3D检测】Monoflex论文阅读

文献阅读：(CVPR2021)Objects are Different: Flexible Monocular 3D Object Detection

你可能感兴趣的:(3D目标检测,目标检测,计算机视觉,3D目标检测)

学习三维动画心得 2501_92205961 开发语言青少年编程
在大二学年的三维动画设计学习进程中，我围绕3dsMax和Blender两大核心软件展开深入钻研，并在此基础上探索技术应用与创新。不仅熟练掌握了基础操作，还深入到代码编写与复杂技术问题解决领域，逐步构建起系统的三维动画设计知识与技能体系，以下是详细的学习总结。一、3dsMax的深度学习与技术实践（一）高级建模与脚本优化在3dsMax的学习中，基础建模掌握后，我开始挑战高级建模技术。利用NURBS建模
数据标注工具详解 Sally璐璐 ai 大数据
数据标注工具是构建高质量AI训练数据集的核心基础设施，其功能覆盖图像、文本、视频、音频、3D点云等多模态数据的标注与管理。以下从工具类型、核心功能、行业应用及技术趋势等方面进行系统介绍：一、主流数据标注工具分类与特性1.通用型标注平台LabelStudio由Heartex开发的开源工具，支持文本、图像、视频、音频及时间序列数据标注，可通过YAML自定义标注界面19。其内置质量控制机制（如标注审核、
【Docker基础】Docker容器管理：docker stats及其参数详解 IT成长日记容器技术深度解析与实践 docker 容器运维 docker stats
目录1Docker监控概述2dockerstats基本用法2.1基本命令格式2.2常用操作示例3dockerstats参数详解3.1常用参数说明3.2输出字段解析3.3格式化输出示例4dockerstats工作原理4.1监控数据采集流程4.2数据源解析5常见问题解答5.1为什么CPU使用率会超过100%？5.2内存统计中的cache/buffer包含在哪里？5.3如何监控已停止的容器？6总结1Do
车牌识别与标注：基于百度OCR与OpenCV的实现（一）喜欢踢足球的老罗大模型应用开发实践之旅 ocr opencv 人工智能
车牌识别与标注：基于百度OCR与OpenCV的实现在计算机视觉领域，车牌识别是一项极具实用价值的技术，广泛应用于交通监控、智能停车场管理等领域。本文将介绍如何在macOS系统下，利用百度OCRAPI进行车牌识别，并结合OpenCV库在图片上绘制标注框和车牌号码，实现一个完整的车牌识别与标注流程。整个工程将使用PyCharm进行组织和开发。一、系统环境与工程结构系统环境操作系统：macOS开发工具：
window显示驱动开发—处理错误程序员王马 windows图形显示驱动开发驱动开发数据库
用户模式显示驱动程序实现的Direct3D版本10函数通常具有返回参数类型的VOID。此规则的主要例外是CalcPrivateObjTypeSize类型函数(例如CalcPrivateResourceSize函数)。此类型的函数返回一个SIZE_T参数类型，该参数类型指示驱动程序通过CreateObjType类型函数创建特定对象类型所需的内存区域的大小(例如CreateResource(D3D10
open3d 使用 RANSAC 算法拟合平面扶子 python 点云处理平面 python open3d 经验分享点云拟合平面
1、功能介绍：一个python代码演示了如何使用open3d和numpy来完成一个完整的点云平面拟合任务。它包括以下几个主要部分：生成符合某一平面方程的随机点云数据、使用RANSAC算法对这些点云进行平面拟合、可视化原始点云和平面拟合结果2、代码部分：importnumpyasnpimportopen3daso3d#生成随机点云np.random.seed(42)n_points=100#假设这些
OpenCV实战：图像颜色识别与提取、掩膜制作
前言在计算机视觉和图像处理领域，颜色识别是一项基础而重要的技术。无论是交通标志识别、工业分拣还是美颜滤镜开发，都离不开对特定颜色的处理。本文将带你全面掌握使用OpenCV进行颜色识别的关键技术，包含完整的代码实现和原理讲解。一、颜色空间基础1.1RGB颜色空间在图像处理中，最常见的就是RGB颜色空间。RGB颜色空间是我们接触最多的颜色空间，是一种用于表示和显示彩色图像的一种颜色模型。RGB代表红色
OpenCV图像添加水印
一、前言在数字图像处理中，为图片添加水印是一项常见且重要的技术。无论是版权保护、品牌宣传还是防止未经授权的使用，水印都能发挥重要作用。OpenCV作为一款强大的计算机视觉库，提供了丰富的功能来实现各种水印效果。本教程将详细介绍如何使用OpenCV为图像添加文字水印和图片水印。二、环境准备在开始之前，请确保已安装以下环境：Python3.xOpenCV库（可通过pipinstallopencv-py
番外篇 | SEAM-YOLO：引入SEAM系列注意力机制，提升遮挡小目标的检测性能小哥谈 YOLOv8：从入门到实战 YOLO 深度学习人工智能机器学习计算机视觉神经网络
前言：Hello大家好，我是小哥谈。SEAM(Squeeze-and-ExcitationAttentionModule)系列注意力机制是一种高效的特征增强方法，特别适合处理遮挡和小目标检测问题。该机制通过建模通道间关系来自适应地重新校准通道特征响应。在遮挡小目标检测中的应用优势包括：1）通道注意力增强：SEAM通过全局平均池化捕获通道级全局信息，帮助网络在遮挡情况下仍能关注关键特征。2）多尺度特
数据标注师学习内容汇总试着数据标注师学习数据标注师
目录文本标注图像标注语音标注文本标注词性标注1词性标注2实体标注关系标注事件标注1事件标注2意图标注关键词标注分类标注问答标注对话标注图像标注拉框标注关键点标注2D标注3D标注线标注目标跟踪标注OCR标注图像分类标注语音标注语音切割转写语音校对标注拼音和停顿标注
目标追踪数据标注 sethrsinine 目标跟踪
在将YOLO（目标检测）和DeepSORT（目标追踪）结合时，数据标注需要同时满足检测和追踪的需求。以下是具体的分阶段标注策略和操作指南：一、标注的核心要求检测标注：每帧中目标的边界框（BoundingBox）和类别标签（如行人、车辆）。追踪标注：跨帧的目标ID（TrackID），确保同一目标在不同帧中ID一致。二、分阶段标注流程阶段1：视频预处理•目标：将视频转换为可标注的帧序列。•操作：使用F
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
【目标检测】YOLOv13：超图增强的实时目标检测新标杆，值得收藏。 Carl_奕然机器视觉与目标检测目标检测 YOLO 人工智能
一文掌握YOLOv13最新特性1、引言2、Yolov13详细讲解2.1发布时间与背景2.2相对于YOLOv12的核心提升2.2.1精度显著提升2.2.2轻量化与效率优化2.2.3高阶语义建模能力2.3架构设计与核心创新2.3.1超图自适应关联增强（HyperACE）2.3.2全流程聚合-分发（FullPAD）2.3.3轻量化模块设计2.4性能对比2.4代码示例2.4.1环境配置2.4.2训练代码2
LSNet: 基于侧向抑制的神经网络碳酸的唐模型养成与叙述有意思的py库神经网络人工智能深度学习
引言在计算机视觉领域，我们一直在寻找灵感来源以提高图像处理和识别的效果。而人类视觉系统作为经过数百万年进化的精密系统，无疑是最好的参考对象之一。今天，我要向大家介绍一个名为LSNet（LateralSuppressionNetwork，侧向抑制网络）的技术，它模拟了人类视觉系统中的侧向抑制机制，为计算机视觉任务带来了新的可能性。什么是侧向抑制？侧向抑制（LateralSuppression），也被
RDK X5/X3 yolov5目标检测从环境搭建到设备集成激萌の小宅 YOLO YOLO 目标检测人工智能
1、RDKX5yolov5目标检测之训练环境搭建2、RDKX5yolov5目标检测之pt转onnx3、RDKX5yolov5目标检测之开发机环境部署4、RDKX5yolov5目标检测之onnx转bin5、RDKX5yolov5目标检测之开发板运行
口罩检测数据集-1591张图片疫情防控管理智能门禁系统公共场所安全监控 cver123 数据集目标跟踪人工智能计算机视觉目标检测 pytorch
口罩检测数据集-1591张图片已发布目标检测数据集合集（持续更新）口罩检测数据集介绍数据集概览包含类别应用场景数据样本展示文件结构与使用建议使用建议技术标签YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.数据准备2.1数据标注格式（YOLO）2.2文件结构示例2.3创建data.yaml配置文件3.模型训练关键参数补充说明：4.模型验证与测试4.1验证模型性能关键参
OpenCV 三维重建实战：从工业检测到自动驾驶，3 大场景代码全解析从零开始学习人工智能 opencv 自动驾驶数码相机
：工业零部件三维建模与检测案例背景：在汽车制造工厂，对于复杂形状的发动机零部件质量检测与逆向工程需求，需要高精度的三维模型。传统检测方法效率低且精度有限，而三维重建技术可快速获取零部件三维信息，实现高效检测与设计优化。技术实现：使用多个相机从不同角度拍摄零部件，利用calib3d模块进行相机标定，获取准确的相机内参和外参。通过特征点检测与匹配算法（如SIFT、ORB等）找到不同图像间的对应点，再用
基于YOLOv5的监控摄像头遮挡检测系统：从数据集到UI界面的完整实现芯作者 D2:YOLO YOLO 神经网络
实时守护监控设备安全，智能识别遮挡攻击的AI解决方案一、问题背景与系统价值在安防监控领域，摄像头遮挡是常见的恶意攻击手段——统计显示35%的安防失效源于摄像头被遮挡。传统方案依赖人工巡查，效率低下且响应延迟。本文将带你构建完整的AI遮挡检测系统，核心创新点：双模检测机制：YOLOv5目标检测+背景建模异常分析轻量化部署：模型量化压缩至1.8MB动态学习：运行时自动更新异常样本库二、系统架构设计[视
Open3D 进阶（31）渐进三角网(PTD)地面滤波点云侠点云进阶线性代数算法计算机视觉 python
目录一、算法原理1、PTD算法2、实现流程二、代码实现三、参数指南四、结果展示。一、算法原理1、PTD算法渐进三角网地面滤波算法（ProgressiveTINDensification,PTD）是一种广泛应用于机载LiDAR点云数据处理的滤波方法，旨在从复杂场景中精确分离地面点，以生成数字高程模型（DEM）。2、实现流程 PTD的核心思想是迭代加密三角网，逐步逼近真实地形：实现流程主要包括以
Python编程：使用 YOLO 目标检测倔强老吕 python 开发语言
YOLO（YouOnlyLookOnce）是一种基于深度学习的实时目标检测算法，由JosephRedmon等人于2016年首次提出。与传统的两阶段目标检测方法（如R-CNN系列）不同，YOLO将目标检测任务视为一个单一的回归问题，直接在图像上进行一次推理即可预测边界框和类别概率。YOLO的核心思想单次前向传播（SingleShotDetection）：YOLO只需对输入图像进行一次神经网络推理，就
基于YOLOv8和Faster R-CNN的输电线路异物目标检测项目检测输电线异物数据集输电线缺陷数据集绝缘子如何使用YOLOv8和Faster R-CNN训练输电线路异物目标检测数据集 QQ67658008 YOLO r语言 cnn 输电线路绝缘子线路异物目标检测
电力篇-输电线路缺陷数据集输电线路异物目标检测数据集16000张5种检测目标：‘burst’-爆裂‘defect’-缺陷‘foreign_obj’-异物‘insulator’-绝缘体‘nest’-窝（巢）带标注-YOLO格式可直接用于YOLO系列目标检测算法模型训练如何使用YOLOv8和FasterR-CNN训练输电线路异物目标检测数据集的详细步骤和代码。假设数据集包含16000张图片和5种检测目
微软人工智能证书AI-102 | 如何快速通过？全球认证考试中心人工智能微软
微软AI-102考试，全称“DesigningandImplementingaMicrosoftAzureAISolution”，是微软推出的用于验证考生在Azure平台上设计和实施AI解决方案核心能力的认证考试。以下是具体介绍：考试描述：考试主要衡量考生实施计划和管理Azure认知服务解决方案、计算机视觉解决方案、自然语言处理解决方案、知识挖掘解决方案、对话式AI解决方案的能力。考试题型通常包括
2013年EI 新目录中新增的期刊 h_liuage 投稿期刊论文投稿
**【转载】2013年EI新目录中新增的期刊**斜体样式3DResearch2092673020926731ACSSustainableChemistryandEngineering21680485ActaInformatica0001590314320525AdvancesinOpticsandPhotonics19438206AdvancesinRadioScience168499651684
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
unity如何让一个物体拥有按钮功能 Lowjin_ unity unity 游戏引擎
在Unity中，要让一个物体（例如一个3D模型、UI元素或其他对象）变成一个按钮，你需要为它添加交互功能。这通常意味着让物体能够响应点击事件，像UI按钮那样触发某些行为。对于3D物体，可以通过射线检测（Raycast）来处理点击交互，而对于UI元素，则直接使用Unity的UIButton组件。这里提供几种常见的方式来让物体变成按钮：方法1：让一个3D物体（例如模型）变成按钮如果你有一个3D物体，并
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
基于opencv的鱼群检测和数量统计识别鱼群密度带界面
完整项目点文末名片查看获取一、项目简介本项目旨在通过计算机视觉技术，实现对视频中鱼类数量的自动检测与计数。利用OpenCV库进行图像处理，包括背景减除、形态学操作、轮廓检测等步骤，最终在视频帧中标记出鱼类并统计其数量。该系统可广泛应用于水产养殖、生态监测等领域，有助于提高工作效率和数据准确性。二、环境准备在开始项目之前，需要确保以下环境和工具已安装：Python：推荐使用Python3.6及以上版
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
目标跟踪存在问题以及解决方案选与握 #目标跟踪目标跟踪人工智能计算机视觉
3D跟踪一、数据特性引发的跟踪挑战1.点云稀疏性与远距离特征缺失问题表现：激光雷达点云密度随距离平方衰减（如100米外车辆点云数不足近距离的1/10），导致远距离目标几何特征（如车轮、车顶轮廓）不完整，跟踪时易因特征匹配失败导致ID丢失。典型案例：在高速公路场景中，200米外的卡车因点云稀疏（仅约50个点），跟踪算法难以区分其与大型货车的形状差异，导致轨迹跳跃或ID切换。技术方案：稀疏点云增强与特
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/