连理o

单阶经典检测器: YOLO (You Only Look Once)

无锚框预测：YOLOv1
- 网络结构
- 特征图的意义
- 损失计算
- 总结
依赖锚框：YOLOv2
- 网络结构的改善 - DarkNet-19
- 先验框的设计
- 正、负样本与损失函数
- 训练技巧
- 不足
多尺度与特征融合：YOLOv3
- 改进网络结构: DarkNet-53
- 多尺度预测
- Softmax 改为 Logistic
YOLOv3 SPP
- Mosaic 图像增强
- SPP 模块 (Spatial Pyramid Pooling)
- CIOU loss
- - IoU loss
  - GIoU loss (Generalized IoU)
  - DIoU loss (Distance IoU)
  - CIoU loss (Complete IoU)
- Focal loss
YOLOv4
- Backbone: CSP-Darknet53
- Neck: SPP + PAN
- YOLOv4 网络结构
- 优化策略
- - Eliminate grid sensitivity
  - Mosaic 图像增强
  - IoU threshold (match positive samples)
  - Optimizered Anchors
  - CIOU (Complete IoU)
YOLOv5 (v6.1)
- Backbone: New CSP-Darknet53
- Neck: SPPF + New CSP-PAN
- YOLOv5 网络结构
- 数据增强
- 训练策略
- 其他
- - 损失计算
  - 预测框偏移值计算
  - 匹配正样本 (Build Targets)
参考文献

Faster RCNN 利用了两阶结构，先实现感兴趣区域的生成，再进行精细的分类与回归，虽出色地完成了物体检测任务，但也限制了其速度
在此背景下，YOLO v1 利用回归的思想，使用一阶网络直接完成了分类与位置定位两个任务，速度极快。随后出现的 YOLO v2 与 v3 在检测精度与速度上有了进一步的提升，加速了物体检测在工业界的应用，开辟了物体检测算法的另一片天地

无锚框预测：YOLOv1

paper: Redmon, Joseph, et al. “You only look once: Unified, real-time object detection.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

网络结构

YOLO v1 输入图像的尺寸固定为 $3\times448×448$ ，经过 24 个卷积层与两个全连接层后，最后输出的特征图大小为 $30 \times 7 \times 7$
其中最后的两个 Conn. Layer 指全连接层，第一个全连接层将 $1024\times7\times7$ 的特征图展平之后输出 4096- $d$ 的向量，第二个全连接层输出 1470- $d$ 的向量，之后 reshape 为 $30\times 7 \times7$ 的输出特征图
关于 YOLO v1 的网络结构，有以下 3 个细节：(1) 在 $3 \times 3$ 的卷积后通常会接一个通道数更低的 $1 \times 1$ 卷积，这种方式既降低了计算量，同时也提升了模型的非线性能力; (2) 除了最后一层使用了线性激活函数外，其余层的激活函数为 Leaky ReLU; (3) 在训练中使用了 Dropout 与数据增强的方法来防止过拟合

网络在 ImageNet 上使用 $224\times224$ 的图像分类任务进行预训练，检测任务则是在 $448\times448$ 的分辨率上进行 (事实上，这种训练方式也是有问题的，会带来 domain shift，这点在 YOLO v2 中就得到了改进)

特征图的意义

YOLO v1 将输入图像划分成 $7 \times 7$ 的区域，在每一个区域内预测两个边框，这样整个图上一共预测 $7 \times 7 \times 2 = 98$ 个框。这些边框大小与位置各不相同，基本可以覆盖整个图上可能出现的物体
(如果一个物体的中心点落在了某个区域内，则该区域就负责检测该物体，具体是将该区域的两个框与真实物体框进行匹配，IoU 更大的框负责回归该真实物体框)
输出的特征图大小为 $7 \times 7 \times 30$ ，每个区域对应通道数为 30，代表了预测的 30 个特征。预测特征由类别概率、边框置信度及边框位置组成
- (1) 类别概率：由于 PASCAL VOC 数据集一共有 20 个物体类别，因此这里预测的是边框属于哪一个类别，即 $\text{Pr}(\text{Class}_{i}|\text{Object})$
- (2) 置信度： $\boldsymbol{\text{Pr}(\text{Object})\times \text{IoU}_{pred}^{truth}}$ ，其中 $\text{IoU}_{pred}^{truth}$ 为预测框与 GT 框的 IoU， $\text{Pr}(\text{Object})$ 为该区域包含物体的概率。因此，如果区域内包含物体，则置信度真值为 $\text{IoU}_{pred}^{truth}$
- (3) 边框位置 $(x, y, w, h)$ ：对每一个边框需要预测其中心坐标及宽、高这 4 个量，两个边框共计 8 个预测值。其中 $x, y$ 指预测框中心点相对于区域边界的相对偏移量， $w, h$ 值相对于图片大小的相对大小，因此 $x, y, w, h$ 均在 0 到 1 之间

类别概率 $\times$ 置信度 = $\text{Pr}(\text{Class}_{i}|\text{Object})\times\text{Pr}(\text{Object})\times \text{IoU}_{pred}^{truth}=\text{Pr}(\text{Class}_{i})\times \text{IoU}_{pred}^{truth}$

这里有以下 3 点值得注意的细节：

YOLO v1 并没有先验框，而是直接在每个区域预测框的大小与位置，是一个回归问题。这样做能够成功检测的原因在于，区域本身就包含了一定的位置信息，另外被检测物体的尺度在一个可以回归的范围内
一个区域内的两个边框共用一个类别预测，在训练时会选取与物体 IoU 更大的一个边框，在测试时会选取置信度更高的一个边框，另一个会被舍弃，因此整张图最多检测出 49 个物体
YOLO v1 采用了物体类别与置信度分开的预测方法，这点与 Faster RCNN 不同。Faster RCNN 将背景也当做了一个类别，共计 21 种，在类别预测中包含了置信度的预测

损失计算

在计算损失时，需要按如下方法确定每一个边框是对应着真实物体还是背景框，即区分正、负样本：

当一个真实物体的中心点落在了某个区域内时，该区域就负责检测该物体。具体做法是将与该真实物体有最大 IoU 的边框设为正样本，这个区域的类别真值为该真实物体的类别，该边框的置信度真值为预测框与 GT 框的 IoU
除了上述被赋予正样本的边框，其余边框都为负样本。负样本没有类别损失与边框位置损失，只有置信度损失，其真值为 0

损失函数 (sum-squared error)

$\begin{aligned} Loss&=\lambda_{\text {coord }} \sum_{i=0}^{s^{2}} \sum_{j=0}^{B} 1_{i j}^{\text {obj }}\left(x_{i}-\hat{x}_{i}\right)^{2}+\left(y_{i}-\hat{y}_{i}\right)^{2} \\ &+\lambda_{\text {coord }} \sum_{i=0}^{s^{2}} \sum_{j=0}^{B} 1_{i j}^{\text {obj }}\left(\sqrt{\omega_{i}}-\sqrt{\hat{\omega}_{i}}\right)^{2}+\left(\sqrt{h_{i}}-\sqrt{\hat{h}_{i}}\right)^{2} \\ &+\sum_{i=0}^{s^{2}} \sum_{j=0}^{B} 1_{i j}^{\text {obj }}\left(C_{i}-\hat{C}_{i}\right)^{2} +\lambda_{\text {noobi }} \sum_{i=0}^{s^{2}} \sum_{j=0}^{B} 1_{i j}^{\text {noobj }}\left(C_{i}-\hat{C}_{i}\right)^{2} \\ &+\sum_{i=0}^{s^{2}} 1_{i j}^{\text {obj }} \sum_{c\in\text { classes }}\left(p_{i}(c)-\hat{p}_{i}(c)\right)^{2} \end{aligned}$

其中， $i$ 代表第几个区域，一共有 $S^2$ 个区域，在此为 49； $j$ 代表某个区域的第几个预测边框，一共有 $B$ 个预测框，在此为 2； $\text{obj}$ 代表该框对应了真实物体； $\text{noobj}$ 代表该框没有对应真实物体。这 5 项损失的意义如下：
- (1) 第一项为正样本中心点坐标的损失。 $\lambda_{\text {coord }}$ 的目的是为了调节位置损失的权重，YOLO v1 设置 $\lambda_{\text {coord }}$ 为 5
- (2) 第二项为正样本宽高的损失。由于宽高差值受物体尺度的影响，因此这里先对宽高进行了平方根处理，在一定程度上降低对尺度的敏感，强化了小物体的损失权重
- (3) (4) 第三、四项分别为正样本与负样本的置信度损失。 $λ_{\text{noobj}}$ 默认为 0.5，目的是调低负样本置信度损失的权重
- (5) 最后一项为正样本的类别损失

总结

YOLO v1 利用了回归的思想，使用轻量化的一阶网络同时完成了物体的定位与分类，处理速度极快，可以达到 45 FPS，当使用更轻量的网络时甚至可以达到 155 FPS。得益于其出色的处理速度，YOLO v1 被广泛应用在实际的工业场景中，尤其是追求实时处理的场景
当然，YOLO v1也有一些不足之处，主要有如下 3 点：
- 由于每一个区域默认只有两个边框做预测，并且只有一个类别，因此 YOLO v1 有着天然的检测限制。这种限制会导致模型对于小物体，以及靠得特别近的物体检测效果不好
- 由于没有类似于 Anchor 的先验框，模型对于新的或者不常见宽高比例的物体检测效果不好。另外，由于下采样率较大，边框的检测精度不高
- 在损失函数中，大物体的位置损失权重与小物体的位置损失权重是一样的，这会导致同等比例的位置误差，大物体的损失会比小物体大，小物体的损失在总损失中占比较小，会带来物体定位的不准确

依赖锚框：YOLOv2

paper: Redmon, Joseph, and Ali Farhadi. “YOLO9000: better, faster, stronger.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

针对 YOLO v1 的不足，2016 年诞生了 YOLO v2。相比起第一个版本，YOLO v2 预测更加精准（Better）、速度更快（Faster）、识别的物体类别也更多（Stronger），在 VOC 2007 数据集上可以得到 mAP 10% 以上的提升效果

YOLOv2 之后有不同的分辨率是因为 YOLOv2 的网络结构移除了全连接层，可以接受任意尺寸的输入图像 (当然尺寸需为 DarkNet 下采样率 32 的整数倍)，并且在训练时采用了多尺度训练

网络结构的改善 - DarkNet-19

DarkNet-19 拥有 19 个卷积层与 5 个池化层，在增加了一个 Passthrough 层后一共拥有 22 个卷积层，精度与 VGGNet 相当，但浮点运算量只有 VGGNet 的 1/5 左右，因此速度极快

注意，上图中最后一个卷积层 Conv2d 并不包含 BN 和 LeakyReLU，它只是一个单一的卷积层

相比起 v1 版本的基础网络，DarkNet 进行了以下几点改进：
- (1) BN 层：DarkNet 在每一个卷积之后，激活函数 LeakyReLU 之前使用了 BN 层. 这个改进带来了 2% 的 mAP 提升。同时，由于 BN 也有一定的正则化效果，YOLOv2 还去掉了 YOLOv1 中的 dropout
- (2)·用连续 $3 \times 3$ 卷积替代了 v1 版本中的 $7 \times 7$ 卷积，这样既减少了计算量，又增加了网络深度。此外，DarkNet 去掉了全连接层
- (3) Passthrough 层：DarkNet 还进行了深浅层特征的融合，将浅层 $26 \times 26 \times 512$ 的特征变换为 $13 \times 13 \times 2048$ ，这样就可以直接与深层 $13 \times 13 \times 1024$ 的特征进行通道拼接，这种特征融合有利于小物体的检测。具体而言，先通过 $1\times 1$ 卷积层对浅层特征降维得到 $26 \times 26 \times 64$ 的特征图，然后从该特征图上按步长为 2 等间隔选取特征，每一个通道的特征图可以得到 4 张大小减半的特征图 (相当于一个大小为 13，空洞数为 2 的卷积核)，将它们堆叠在一起就可以得到长宽减半、通道乘 4 的特征图
- (4) YOLO v2 在每一个区域预测 5 个边框，每个边框有 25 个预测值，因此最后输出的特征图通道数为 125。其中，一个边框的 25 个预测值分别是 20 个类别预测、4 个位置预测及 1 个置信度预测值。这里与 v1 有很大区别，v1 是一个区域内的边框共享类别预测，而这里则是相互独立的类别预测值

先验框的设计

YOLO v2 吸收了 Faster RCNN 的优点，设置了一定数量的预选框，使得模型不需要直接预测物体尺度与坐标，只需要预测先验框到真实物体的偏移，降低了预测难度

聚类提取先验框尺度

Faster RCNN 中 Anchor 的大小与宽高是由人手工设计的，因此很难确定设计出的一组预选框是最贴合数据集的，也就有可能为模型性能带来负面影响
针对此问题，YOLO v2 通过在训练集上聚类来获得预选框，只需要设定预选框的数量 $k$ ，就可以利用聚类算法得到最适合的 $k$ 个框。在聚类时，两个边框之间的距离使用下式计算，即 IoU 越大，边框距离越近
$d (b o x, c e n t r o i d) = 1 - I o U (b o x, c e n t r o i d)$ 在衡量一组预选框的好坏时，使用真实物体与这一组预选框的平均 IoU 作为标准，显然数量 $k$ 越多，平均 IoU 会越大，效果会更好，但相应的也会带来计算量的提升，YOLO v2 在速度与精度的权衡中选择了预选框数量为 5

优化偏移公式

在 Faster RCNN 中，中心坐标的偏移公式如下式所示
$\left\{\begin{array}{l} x=\left(t_{x} \times w_{a}\right)+x_{a} \\ y=\left(t_{y} \times h_{a}\right)+y_{a} \end{array}\right.$ 其中下标 $a$ 代表 Anchor 的属性
YOLO v2 认为这种预测方式没有对预测偏移进行限制，导致预测的边框中心可以出现在图像的任何位置，尤其是在训练初始阶段，模型参数还相对不稳定。例如 $t_x$ 是 1 与 -1 时，预测的物体中心点会有两个宽度的差距。因此，YOLO v2 提出了下面的预测公式：
$\left\{\begin{array}{c} b_{x}=\sigma\left(t_{x}\right)+c_{x} \\ b_{y}=\sigma\left(t_{y}\right)+c_{y} \\ b_{w}=p_{w} e^{t_{w}} \\ b_{h}=p_{h} e^{t_{h}} \\ p_{r}(\text { object }) \times \operatorname{IoU}(b, \text { object })=\sigma\left(t_{0}\right) \end{array}\right.$ 上图中，实线框代表预测框，虚线框代表先验框。 $c_x$ 与 $c_y$ 代表中心点所处区域左上角的坐标， $p_w$ 与 $p_h$ 代表了当前先验框的宽高。 $σ(t_x)$ 与 $σ(t_y)$ 代表预测框中心点与中心点所处区域左上角坐标的距离，加上 $c_x$ 与 $c_y$ 即得到预测框的中心坐标。 $t_w$ 与 $t_h$ 为预测的宽高偏移量。先验框的宽高乘上指数化后的宽高偏移量，即得到预测框的宽高。公式中的 $σ$ 代表 Sigmoid 函数，作用是将坐标偏移量化到 $(0, 1)$ 区间，这样得到的预测边框的中心坐标 $b_x$ 、 $b_y$ 会限制在当前区域内，保证一个区域只预测中心点在该区域内的物体，有利于模型收敛。YOLO v1 将预测值 $t_0$ 作为边框的置信度，而 YOLO v2 则是将做 Sigmoid 变换后的 $σ(t_0)$ 作为真正的置信度预测值

正、负样本与损失函数

确定正、负样本

首先将预测的位置偏移量作用到先验框上，得到预测框的真实位置。如果一个预测框与所有真实物体的最大 IoU 小于一定阈值（默认为 0.6）时，该预测框视为负样本。每一个真实物体的中心点落在了某个区域内，该区域就负责检测该物体，将与该物体有最大 IoU 的预测框视为正样本 ( 1. 在计算正、负样本的过程中，虽然有些预测框的最大 IoU 可能小于 0.6，即被赋予了负样本，但如果后续是某一个真实物体对应的最大 IoU 的框时，该预测框会被最终赋予成正样本，以保证 recall；2. 有些预测框的最大 IoU 大于 0.6，但是在一个区域内又不是与真实物体有最大 IoU，这种预测框会被舍弃掉不参与损失计算，既不是正样本也不是负样本)
上面是论文中叙述的确定正负样本的方法，但如果按照上述方法确定正负样本的话会导致正样本特别少，正负样本不均衡，因此在源码实现中可以采用如下方法确定正样本：(1) 将 GT 框映射到 $13\times13$ 的 Grid cell 上；(2) 每个 Grid Cell 上有 $k$ 个锚框，将 GT 框分别与这 $k$ 个锚框的左上顶点重合计算 IoU，如果 IoU 大于 0.3 就将该锚框看作正样本
按照上述方法，每个 GT 框就可以对应多个正样本，这增加了训练时正样本的个数，有利于网络的训练

损失函数

$\begin{aligned} \text { Loss }_{t} =\sum_{i=0}^{W} \sum_{j=0}^{H} \sum_{k=0}^{A}&\left(1_{\max \text { IoU }<\text { Thresh }} \times \lambda_{\text {noobj }} \times\left(-b_{i j k}^{o}\right)^{2}\right.\\ &+1_{k<12800} \times \lambda_{\text {prior }} \times \sum_{r \in(x, y, w, h)}\left(\text { prior }_{k}^{r}-b_{i j k}^{r}\right)^{2} \\ &+1_{k}^{\text {truth }} \times \lambda_{\text {coord }} \times \sum_{r \in(x, y, w, h)}\left(\text { truth }^{r}-b_{i j k}^{r}\right)^{2} \\ &+1_{k}^{\text {truth }} \times \lambda_{\text {obj }} \times\left(\text { IoU }_{\text truth}^{k}-b_{i j k}^{o}\right)^{2} \\ &\left.+1_{k}^{\text {truth }} \times \lambda_{\text {class }} \times \sum_{c=1}^{C}\left(\text { truth }^{c}-b_{i j k}^{c}\right)^{2}\right) \end{aligned}$

第一项为负样本的置信度损失， $b^o_{ijk}$ 为置信度 $σ(t_o)$ ；上面采用的是平方差损失，实际上也可以采用交叉熵损失
第二项为先验框与预测框的损失，只存在于前 12800 次迭代中，目的是使预测框先收敛于先验框，模型更稳定
第三项为正样本的位置损失
后两项分别为正样本的置信度损失与类别损失，这里类别损失感觉采用交叉熵损失更合理

训练技巧

多尺度训练

由于移除了全连接层，因此 YOLO v2 可以接受任意尺寸的输入图片。在训练阶段，为了使模型对于不同尺度的物体鲁棒，YOLO v2 采取了多种尺度的图片作为训练的输入
由于下采样率为 32，为了满足整除的需求，YOLO v2 选取的输入尺度集合为 ${320,352,384,...,608\}$ ，训练时每 10 个 batch 就随机选取一个分辨率进行训练，这样训练出的模型可以预测多个尺度的物体。并且，输入图片的尺度越大则精度越高，尺度越低则速度越快，因此 YOLO v2 多尺度训练出的模型可以适应多种不同的场景要求

多阶段训练

由于物体检测数据标注成本较高，因此大多数物体检测模型都是先利用分类数据集来训练卷积层，然后再在物体检测数据集上训练。例如，YOLO v1 先利用 ImageNet 上 $224 \times 224$ 大小的图像预训练，然后在 $448 \times 448$ 的尺度上进行物体检测的训练。这种转变使得模型要适应突变的图像尺度，增加了训练难度
YOLO v2 针对以上问题，优化了训练过程：
- (1) 利用 DarkNet 在 ImageNet 上预训练分类任务，图像尺度为 $224 \times 224$
- (2) 将 ImageNet 图片放大到 $448 \times 448$ 继续训练分类任务，通过微调来让模型首先适应变化的尺度
- (3) 去掉分类卷积层，在 DarkNet 上增加 Passthrough 层及 3 个卷积层，利用尺度为 $448 \times 448$ 的输入图像完成物体检测的训练
这种多阶段训练的方法为 YOLO v2 带来了接近 4% 的 mAP 提升

不足

(1) 单层特征图：虽然采用了 Passthrough 层来融合浅层的特征，增强多尺度检测性能，但仅仅采用一层特征图做预测，细粒度仍然不够，对小物体等检测提升有限，并且没有使用残差这种较为简单、有效的结构
(2) 受限于其整体结构，依然没有很好地解决小物体的检测问题
(3) 太工程化：YOLO v2 的整体实现有较多工程化调参的过程，尤其是后续损失计算有些复杂，不是特别 “优雅”，导致后续改进与扩展空间不足

多尺度与特征融合：YOLOv3

paper: Redmon, Joseph, and Ali Farhadi. “Yolov3: An incremental improvement.” arXiv preprint arXiv:1804.02767 (2018).

YOLO v3 在保持速度优势的前提下，进一步提升了检测精度，尤其是对小物体的检测能力

改进网络结构: DarkNet-53

DarkNet-53 in image classification

上图中的 Convolutional 代表 Conv + BN + Leaky ReLU；Residual 代表 skip connection

Comparison of backbones

DarkNet in detection

上图中的上采样采用上池化，即元素复制扩充的方法使得特征尺寸扩大，没有学习参数

DarkNet-53 结构的新特性

(1) 残差思想
(2) 多层特征图：通过上采样与 Concat 操作，融合了深、浅层的特征，最终输出了 3 种尺寸的特征图，用于后续预测。多层特征图对于多尺度物体及小物体检测是有利的
(3) 无池化层：之前的 YOLO 网络有 5 个最大池化层，用来缩小特征图的尺寸，下采样率为 32，而 DarkNet-53 并没有采用池化的做法，而是通过步长为 2 的卷积核来达到缩小尺寸的效果，下采样次数同样是 5 次，总体下采样率为 32

值得注意的是，YOLO v3 的速度并没有之前的版本快，而是在保证实时性的前提下追求检测的精度。如果追求速度，YOLO v3 提供了一个更轻量化的网络 tiny-DarkNet，在模型大小与速度上，实现了 SOTA

多尺度预测

YOLO v3 输出了 3 个大小不同的特征图，从上到下分别对应深层、中层与浅层的特征。深层的特征图尺寸小，感受野大，有利于检测大尺度物体，而浅层的特征图则与之相反，更便于检测小尺度物体
YOLO v3 依然沿用了预选框 Anchor，由于特征图数量不再是一个，因此匹配方法也要相应地进行改变。具体方法是，依然使用聚类的算法得到了 9 种不同大小宽高的先验框，然后按照下表所示的方法进行先验框的分配，这样，每一个特征图上的一个点只需要预测 3 个先验框

YOLO v3 使用的方法有别于 SSD，虽然都利用了多个特征图的信息，但 SSD 的特征是从浅到深地分别预测，没有深浅的融合，而 YOLO v3 的基础网络更像是 SSD 与 FPN 的结合

YOLO v3 默认使用了 COCO 数据集，一共有 80 个物体类别，因此一个先验框需要 80 维的类别预测值、4 个位置预测及 1 个置信度预测，3 个预测框一共需要 $3 \times (80 + 4 + 1) = 255$ 维，也就是每一个特征图的预测通道数

Softmax 改为 Logistic

YOLO v3 的另一个改进是使用 Logistic 函数代替 Softmax 函数，以处理类别的预测得分。实验证明，Softmax 可以被多个独立的 Logistic 分类器取代，并且准确率不会下降，这样的设计可以实现物体的多标签分类，实现类别间的解耦

YOLOv3 SPP

Mosaic 图像增强

Mosaic 图像增强就是将多张图片 (默认为 4) 拼接在一起输入网络进行训练，这可以增加数据多样性、增加图片中的目标个数，并使得 BN 能一次性统计多张图片的参数 (相当于 batch size $\times$ 4)

SPP 模块 (Spatial Pyramid Pooling)

SPP 模块

如下图所示，SPP 模块由 4 条支路组成，输入在经过不同大小的池化层后按通道进行连接得到最后的输出 (当然为了使不同支路输出特征图大小相同，还需要进行适当的 padding)。SPP 模块使得模型能更好地进行不同尺度的特征融合

加入 SPP 模块后，DarkNet 结构如下：

实验证明，在第二个和第三个输出层前也以类似的方法加上 SPP 模块也可以进一步提升 mAP，不过提升幅度没有那么大

CIOU loss

IoU loss

在 YOLOv3 中，正样本的位置损失采用的是 L2 损失，但 L2 损失并不能很好地反映预测框与 GT 框的重合程度 (IoU)：
为此，可以使用 IoU loss 来直接最大化预测框与 GT 框的 IoU：
$L_{\text{IoU}}=-\ln \text{IoU}$ 也可以采用
$L_{\text{IoU}}=1- \text{IoU}$ IoU loss 相比 L2 loss 能够更好的反应重合程度，并且具有尺度不变性。但 IoU loss 也有一个很明显的缺陷，就是当预测框和 GT 框不相交时 IoU 恒为 0，IoU 对预测框位置的偏导也为 0，此时就很难通过梯度对预测框位置进行优化使得 IoU 增加

GIoU loss (Generalized IoU)

Generalized IoU (GIoU)：当两个边框不相交时，GIoU 也不恒为一个常量，而是能衡量出不相交的程度：
$\text{GIoU}=\text{IoU}+\frac{u}{A^c}-1\in(-1,1]$ 其中， $u$ 为预测框和 GT 框的并集面积， $A^c$ 为能够同时覆盖预测框和 GT 框的最小矩形面积 (淡蓝框面积)
GIoU loss
$L_{\text{GIoU}}=1-\text{GIoU}\in[0,2)$

DIoU loss (Distance IoU)

Distance IoU: 在下图所示情况中，IoU 和 GIoU 都无法衡量出预测框和 GT 框的重合程度
相比之下，DIoU 能够更精准地反映出两个边框的重合程度：
$\text{DIoU}=\text{IoU}-\frac{d^2}{c^2}\in(-1,1]$ 其中， $d$ 为预测框和 GT 框中心点之间的距离， $c$ 为能够同时覆盖预测框和 GT 框的最小矩形的对角线长度
DIoU loss: DIoU loss 相比 IoU loss 和 GIoU loss 能够直接最小化两个边框之间的距离，因此收敛速度更快，并且能够达到更高的定位精度
$L_{\text{DIoU}}=1-\text{DIoU}\in[0,2)$

CIoU loss (Complete IoU)

Complete IoU: 一个优秀的回归定位损失应该考虑到 3 种几何参数：重叠面积 IoU、中心点距离 $c$ 、长宽比，因此 CIoU 在 DIoU 的基础上增加了长宽比参数：
$\text{CIoU}=\text{IoU}-\left(\frac{d^2}{c^2}+\alpha v\right)\in(-1,1]$ 其中，
$v=\frac{4}{\pi^{2}}\left(\arctan \frac{w^{g t}}{h^{g t}}-\arctan \frac{w}{h}\right)^{2}\\ \alpha=\frac{v}{(1-I o U)+v}$
CIoU loss:
$L_{\text{CIoU}}=1-\text{CIoU}$

Focal loss

YOLOv3 采用 focal loss 时 mAP 反而降低了 2 个百分点，因此默认并没有采用 focal loss

YOLOv4

paper: Bochkovskiy, Alexey, Chien-Yao Wang, and Hong-Yuan Mark Liao. “Yolov4: Optimal speed and accuracy of object detection.” arXiv preprint arXiv:2004.10934 (2020).

YOLOv4 就是把当年所有的常用技术罗列了一遍，然后做了一堆消融实验，相当于在 YOLOv3 SPP 的基础上做了进一步的改进。和原始的 YOLOv3 相比效果确实有很大的提升，但和 Ultralytics 版的 YOLOv3 SPP 相比提升不大

Backbone: CSP-Darknet53

CSP 模块

CSP 模块先使用步长为 2 的卷积层进行降采样，然后将输入分为两个支路，左路使用 $1\times1$ 卷积层将通道数变为原来的一半，右路同样先使用 $1\times1$ 卷积层将通道数变为原来的一半，然后接两个 ResBlock，再使用 $1\times1$ 卷积层输出。两个支路的输出按通道连接使得通道数翻倍，最后使用 $1\times1$ 卷积层输出
其中，Mish 激活函数为
可以看到，CSP 模块通过在模块内部将输入特征图大小减半、通道数减半大大降低了计算复杂度和内存开销，同时精心设计的网络结构也有不错的学习能力

CSPDarknet-53

CSPDarknet-53 其实就是若干个 CSP 模块的串联。除了第一个 DownSample 模块结构与上面的 CSP 模块略有不同之外 (e.g. 两个支路的第一个 $1\times1$ 卷积层并没有将通道数减半)，其余的 DownSample 模块均与 CSP 模块结构相同

Neck: SPP + PAN

Backbone CSPDarkNet-53 之后生成 3 种不同分辨率特征图的网络结构可以被称为 neck 部分

SPP 模块 (Spatial Pyramid Pooling)

类似 YOLOv3-SPP，YOLOv4 在 neck 部分采用了 SPP 模块用于加强不同尺度的特征融合

PAN 模块 (Path Aggregation Network)

PAN 的主要思想是在 FPN (蓝色) 的基础上再增加由浅层向深层融合信息的模块

YOLOv4 网络结构

优化策略

Eliminate grid sensitivity

YOLOv2 和 YOLOv3 都是采用如下方式计算预测框的中心点坐标：
这样虽然能将中心坐标限制在网格内，有利于网络收敛，但也给模型带来了网格敏感度。比如当真实目标中心点非常靠近网格的左上角或右下角点时，如果要输出正确的中心点坐标，就必须使得 $\sigma(t_x)$ 和 $σ ( t_y )$ 为 0 或 1，也就是网络预测值需要负无穷或者正无穷时才能取到，而这种很极端的值网络一般无法达到
为了解决这个问题，作者引入了一个大于 1 的缩放系数 ( ${\rm scale}_{xy}$ )：
$\begin{aligned} &b_{x}=\left(\sigma\left(t_{x}\right) \cdot \text { scale }_{x y}-\frac{\text { scale }_{x y}-1}{2}\right)+c_{x} \\ &b_{y}=\left(\sigma\left(t_{y}\right) \cdot \text { scale }_{x y}-\frac{\text { scale }_{x y}-1}{2}\right)+c_{y} \end{aligned}$ 通过引入这个系数，网络的预测值能够很容易达到 0 或者 1，现在比较新的实现方法包括 YOLOv5 都将 ${\rm scale}_{xy}$ 设置为 2，即：
$\begin{aligned} &b_{x}=\left(2 \cdot \sigma\left(t_{x}\right)-0.5\right)+c_{x}\in[-0.5,1.5] \\ &b_{y}=\left(2 \cdot \sigma\left(t_{y}\right)-0.5\right)+c_{y}\in[-0.5,1.5] \end{aligned}$

Mosaic 图像增强

类似于 YOLOv3-SPP，YOLOv4 也采用了 Mosaic 图像增强从而增加数据多样性、增加图片中的目标个数，并使得 BN 能一次性统计多张图片的参数 (相当于 batch size $\times$ 4)

IoU threshold (match positive samples)

YOLOv2 和 YOLOv3 采用如下方式确定正样本：(1) 将 GT 框映射到 $k\times k$ 的 Grid cell 上；(2) 每个 Grid Cell 上有 $k$ 个锚框，将 GT 框分别与这 $k$ 个锚框的左上顶点重合计算 IoU，如果 IoU 大于 0.3 就将该锚框看作正样本。这种方法能够增加正样本数量，缓解正负样本不均衡的问题
而前面提到，YOLOv4 为了缓解网格敏感性，将中心坐标的偏移范围由 $[0, 1]$ 修改为了 $[- 0.5, 1.5]$ ，因此可以利用这点来确定更多的正样本。例如在下图中，GT 框的中心点位于网格的左上方，因此对于该网格的左侧和上方网格而言，偏移量在 $[- 0.5, 1.5]$ 的区间内，因此也将左侧和上方网格的 AT 2 设为正样本，这样就一共确定了 3 个正样本 (在源码实现中，就是只多确定上下左右四个方向的网格中的正样本，忽略斜上方和斜下方的网格)
其他情况可以参考下图，其中当中心点坐标正好在网格中心时，并不会再去确定其他网格中的正样本，这是因为此时偏移量达到了极限值 -0.5 和 1.5，网络很难输出正确的位置偏移量

Optimizered Anchors

YOLOv4 加入了 $512\times512$ 分辨率的训练样本重新做了锚框聚类，得到了 9 种新的锚框 (但 YOLOv5 仍然采用的是 YOLOv3 中的 9 种锚框尺寸)

CIOU (Complete IoU)

YOLOv4 和 YOLOv3-SPP 一样，在计算回归损失时使用 CIOU 而非平方损失:
$\text{CIoU}=\text{IoU}-\left(\frac{d^2}{c^2}+\alpha v\right)\in(-1,1]$ 其中，
$v=\frac{4}{\pi^{2}}\left(\arctan \frac{w^{g t}}{h^{g t}}-\arctan \frac{w}{h}\right)^{2}\\ \alpha=\frac{v}{(1-I o U)+v}$
CIoU loss:
$L_{\text{CIoU}}=1-\text{CIoU}$

YOLOv5 (v6.1)

YOLOv5 目前暂时只有 Github 仓库而没有论文发表 (~ 2022/03)

左图为 YOLOv5 的 $n$ , $s$ , $m$ , $l$ , $x$ 模型 (输入分辨率为 $640\times640$ ，下采样率为 32 倍，输出 3 个尺度的特征图)；右图为 YOLOv5 的 $n 6$ , $s 6$ , $m 6$ , $l 6$ , $x 6$ 模型 (输入分辨率为 $1280\times1280$ ，下采样率为 64 倍，输出 4 个尺度的特征图)；下面主要讲解 $n$ , $s$ , $m$ , $l$ , $x$ 模型

Backbone: New CSP-Darknet53

可以看到，YOLOv5 相比 YOLOv4，在 Backbone 上并没有太大的变化

补充细节：Focus layer or Conv $6\times6$ ?

在 YOLOv5 的 v6.0 版本之前，backbone 的第一层其实是 Focus 层，它与 YOLOv2 的 Passthrough 层类似，都使用了 space-to-depth 操作来使得特征图长宽减半、通道数翻倍，具体代码如下：

class Focus(nn.Module):
    # Focus wh information into c-space
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):  # ch_in, ch_out, kernel, stride, padding, groups
        super(Focus, self).__init__()
        self.conv = Conv(c1 * 4, c2, k, s, p, g, act)	# Conv = conv2d + BN + SiLU

    def forward(self, x):  # x(b,c,w,h) -> y(b,4c,w/2,h/2)
        return self.conv(torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1))

Focus(3, 64, k=3, p=1)	# YOLOv5 v6.0 之前 backbone 的第一层

之所以设计 Focus 层是因为 YOLOv5 的作者最开始是从 YOLOv3 开始改进的，为了减少参数量和计算量，作者设计了 Focus 层来取代 YOLOv3 backbone 中最开始的 4 个卷积层
不过，Focus 层的 space-to-depth 操作会丢失一定的空间信息 (毕竟它等价于步长为 2 的卷积)，这可能会降低最终的 mAP，因此 YOLOv5 也并没有在输入层之外的地方使用 Focus 层
而 issue4825 指出该 Focus 层其实就等价于一个步长为 2，padding 为 2 的 $6\times6$ 卷积层，验证代码如下：

import torch
from models.common import Focus, Conv


focus = Focus(3, 64, k=3, p=1).eval()
conv = Conv(3, 64, k=6, s=2, p=2).eval()

# Express focus layer as conv layer
conv.bn = focus.conv.bn		# copy BN parameters
# conv.conv.weight.shape: [64, 3, 6, 6]
# focus.conv.conv.weight.shape: [64, 12, 3, 3]
conv.conv.weight.data[:, :, ::2, ::2] = focus.conv.conv.weight.data[:, :3]
conv.conv.weight.data[:, :, 1::2, ::2] = focus.conv.conv.weight.data[:, 3:6]
conv.conv.weight.data[:, :, ::2, 1::2] = focus.conv.conv.weight.data[:, 6:9]
conv.conv.weight.data[:, :, 1::2, 1::2] = focus.conv.conv.weight.data[:, 9:12]

# Compare
x = torch.randn(16, 3, 640, 640)
with torch.no_grad():
    # Results are not perfectly identical, errors up to about 1e-7 occur (probably numerical)
    assert torch.allclose(focus(x), conv(x), atol=1e-6)

上述等价过程可由下图表示，也就是将 Focus 层中的 4 个 $3\times3$ 卷积核参数整合到了 1 个 $6\times6$ 卷积核中。这样的话，用 $6\times6$ 卷积核以步长为 2 在输入特征图上滑动的确等价于用 4 个 $3\times3$ 卷积核以步长为 1 在 space-to-depth 操作之后的输入特征图上滑动
可以使用如下代码比较 Focus 层和卷积层的运行速度。虽然实际运行速度受硬件及 CUDA 版本影响，但卷积层相比 Focus 层实现更简单，并且在更新的硬件条件下表现得更好

from utils.torch_utils import profile

# Profile
results = profile(input=torch.randn(16, 3, 640, 640), ops=[focus, conv, focus, conv], n=10, device=0)

YOLOv5  v5.0-434-g0dc725e torch 1.9.0+cu111 CUDA:0 (A100-SXM4-40GB, 40536.1875MB)
      Params      GFLOPs  GPU_mem (GB)  forward (ms) backward (ms)                   input                  output
        7040       23.07         2.682         4.055         13.78       (16, 3, 640, 640)      (16, 64, 320, 320)
        7040       23.07         2.368         3.474         9.989       (16, 3, 640, 640)      (16, 64, 320, 320)
        7040       23.07         2.343         3.556         11.57       (16, 3, 640, 640)      (16, 64, 320, 320)
        7040       23.07         2.368         3.456         9.961       (16, 3, 640, 640)      (16, 64, 320, 320)

Neck: SPPF + New CSP-PAN

SPPF

可以看到，SPPF 用 3 个串行的池化层代替了原来的 3 个并行池化层来降低参数量和计算量。原因就在于 2 个 $5\times5$ 池化层等价于 1 个 $9\times9$ 池化层，3 个 $5\times5$ 池化层等价于 1 个 $13\times13$ 池化层

New CSP-PAN

在 YOLOv4 中，Neck 的 PAN 结构是没有引入 CSP 结构的，但在 YOLOv5 中作者在 PAN 结构中加入了 CSP，也就是 neck 部分的 C3 模块 (详见下面的网络结构图)

YOLOv5 网络结构

数据增强

(1) Mosaic: 将四张图片拼成一张图片
(2) Copy paste: 根据目标的实例分割信息，将图像中的目标抠下来随机粘贴到其他图像中
(3) Random affine: Rotation, Scale, Translation and Shear
(4) MixUp: 将两张图片按照一定的透明度融合在一起形成一张新的图片。代码中只有较大的模型才使用到了 MixUp，而且每次只有 10% 的概率会使用到
(5) Albumentations: 主要是做些滤波、直方图均衡化以及改变图片质量等等，代码里写的只有安装了 albumentations 包才会启用，但在项目的 requirements.txt 文件中 albumentations 包是被注释掉了的，所以默认不启用
(6) Augment HSV (Hue, Saturation, Value)，随机调整色度，饱和度以及明度
(7) Random horizontal flip

训练策略

Multi-scale training (0.5~1.5x): 多尺度训练 (和 YOLOv2 类似)，假设设置输入图片的大小为 $640 \times 640$ ，训练时采用尺寸是在 $0.5 \times 640 \sim 1.5 \times 640$ 之间随机取值，注意取值时取得都是 32 的整数倍 (因为网络会最大下采样 32 倍)
AutoAnchor (For training custom data): 训练自己数据集时可以根据自己数据集里的目标进行重新聚类生成 Anchors 模板
Warmup and Cosine LR scheduler: 训练前先进行 Warmup 热身，然后在采用 Cosine 学习率下降策略
EMA (Exponential Moving Average): 给训练的参数加了一个动量，让它更新过程更加平滑
Mixed precision: 混合精度训练，能够减少显存的占用并且加快训练速度，前提是 GPU 硬件支持
Evolve hyper-parameters: 超参数优化，没有炼丹经验的人勿碰，保持默认就好

其他

损失计算

$\text { Loss }=\lambda_{1} L_{c l s}+\lambda_{2} L_{o b j}+\lambda_{3} L_{l o c}$

其中， $L_{c l s}$ 为正样本的分类损失 (二分类交叉熵损失 BCE)； $L_{o b j}$ 为置信度损失 (二分类交叉熵损失 BCE)，真值 $obj=\boldsymbol{\text{Pr}(\text{Object})\times \text{CIoU}_{pred}^{truth}}$ ； $L_{l o c}$ 为正样本的定位损失 (CIoU loss)

平衡不同尺度的置信度损失
$L_{o b j}=4.0 \cdot L_{o b j}^{\text {small }}+1.0 \cdot L_{o b j}^{\text {medium }}+0.4 \cdot L_{o b j}^{\text {large }}$

这里的 {4.0, 1.0, 1.0} 是针对 COCO 数据集设置的超参数

预测框偏移值计算

为了消除 Grid 敏感度，YOLOv4 引入了缩放因子：
$\begin{aligned} &b_{x}=\left(2 \cdot \sigma\left(t_{x}\right)-0.5\right)+c_{x}\in[-0.5,1.5] \\ &b_{y}=\left(2 \cdot \sigma\left(t_{y}\right)-0.5\right)+c_{y}\in[-0.5,1.5] \end{aligned}$
在 YOLOv5 中除了调整预测 Anchor 相对 Grid 网格左上角 $c_x, c_y)$ 偏移量以外，还调整了预测目标高宽的计算公式。之前是：
$\begin{aligned} b_{w} &=p_{w} \cdot e^{t_{w}} \\ b_{h} &=p_{h} \cdot e^{t_{h}} \end{aligned}$ 原来的计算公式并没有对预测目标宽高做限制，这样可能出现梯度爆炸，训练不稳定等问题。因此在 YOLOv5 调整为如下式子：
$\begin{aligned} b_{w} &=p_{w} \cdot\left(2 \cdot \sigma\left(t_{w}\right)\right)^{2} \\ b_{h} &=p_{h} \cdot\left(2 \cdot \sigma\left(t_{h}\right)\right)^{2} \end{aligned}$ 这样，预测框的最大宽高就为对应锚框宽高的 4 倍

匹配正样本 (Build Targets)

YOLOv5 和 YOLOv4 匹配正样本的区别主要在于 GT Box 与 Anchor Templates 模板的匹配方式。在 YOLOv4 中是直接将每个 GT Box 与对应的 Anchor Templates 模板计算 IoU，只要 IoU 大于设定的阈值就算匹配成功。但在 YOLOv5 中，只要 GT Box 的宽高均满足在某个 Anchor Template 宽高的 $0.25$ 倍和 $4.0$ 倍之间就算匹配成功。具体而言，作者先去计算每个 GT Box 与对应的 Anchor Templates 模板的高宽比例，即：
$\begin{aligned} r_{w} &=w_{g t} / w_{a t} \\ r_{h} &=h_{g t} / h_{a t} \end{aligned}$ 然后统计这些比例和它们倒数之间的最大值，这里可以理解成计算 GT Box 和 Anchor Templates 分别在宽度以及高度方向的最大差异 (当相等的时候比例为 1，差异最小)
$\begin{aligned} r_{w}^{\max } &=\max \left(r_{w}, 1 / r_{w}\right) \\ r_{h}^{\max } &=\max \left(r_{h}, 1 / r_{h}\right) \end{aligned}$ 接着统计 $r_w^{max}$ 和 $r_h^{max}$ 之间的最大值，即宽度和高度方向差异最大的值：
$r^{\max }=\max \left(r_{w}^{\max }, r_{h}^{\max }\right)$ 如果 GT Box 和对应的 Anchor Template 的 $r^{max}$ 小于阈值 anchor_t (在源码中默认设置为 4.0)，即 GT Box 和对应的 Anchor Template 的高、宽比例相差不算太大，则将 GT Box 分配给该 Anchor Template 模板
剩下的步骤和 YOLOv4 中一致，通过匹配上下左右的锚框来增加正样本个数：

参考文献

《深度学习之 PyTorch 物体检测实战》
YOLO 系列理论合集 (YOLOv1~v3)
YOLOv3-SPP-ultralytics: https://github.com/ultralytics/yolov3
YOLOv4 网络详解: video, blog
YOLOv5 网络详解: video, blog
YOLOv5 官方源码仓库: https://github.com/ultralytics/yolov5 and Documentation
yolov5 中的 Focus 模块的理解

你可能感兴趣的:(#,CV,深度学习,计算机视觉,目标检测)

9.IEnumerable可枚举接口 C#例子 WPF例子军训猫猫头华丽文章 windows c#microsoft
privateasyncvoidButton_Click(objectsender,RoutedEventArgse){//调用时可以传入List、Array、HashSet等任何实现了IEnumerable的集合ListmyList=newList{"A","B"};ProcessItems(myList);string[]myArray={"X","Y"};ProcessItems(myArr
OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
Microsoft 紧急修补 SharePoint 远程代码执行漏洞，应对持续网络攻击
微软紧急修复SharePoint高危漏洞并提供安全建议周日，微软发布了一个关键补丁，用于修复SharePoint中正在被恶意利用的安全漏洞，同时公布了另一个已通过"增强防护措施"修复的漏洞细节。这家科技巨头确认，目前已发现攻击者正针对本地部署的SharePointServer用户发起攻击，利用的是7月安全更新中未完全修复的漏洞。漏洞详情当前被利用的漏洞编号为CVE-2025-53770（CVSS评
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
YOLOv5改进策略|YOLOv5 ⾃主检查和跟踪相关的任务|基于视觉的⽆⼈⽔⾯舰艇⾃主导航极端海洋条件斌擎人工智能官方账号 YOLO 人工智能 YOLOv5 目标检测计算机视觉深度学习自主导航
目录介绍解决方案目标检测的视觉结论视觉感知是无人水面舰艇(USV)自主导航的重要组成部分，特别是与自主检查和跟踪相关的任务。这些任务涉及基于视觉的导航技术来识别导航目标。海洋环境中极端天气条件下的能⻅度降低使得基于视觉的方法难以正常工作。为了克服这些问题，本文提出了一种基于视觉的自主导航框架，用于在极端海洋条件下跟踪目标物体。所提出的框架由一个集成感知管道组成，该管道使用生成对抗网络(GAN)来消
数字图像处理（三：图像如果当作矩阵，那加减乘除处理了矩阵，那图像咋变）：从LED冬奥会、奥运会及春晚等等大屏，到手机小屏，快来挖一挖里面都有什么
数字图像处理（三）一、（准备工作：咋玩，用什么玩具）图像以矩阵形式存储，那矩阵一变、图像立刻跟着变？1.Python+JupyterNotebook/Lab+库(NumPy,OpenCV,Matplotlib,scikit-image)2.MATLAB+ImageProcessingToolbox3.JavaScript+HTML5Canvas+浏览器4.专业的图像处理软件(带脚本/插件功能)二、
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
3步实现安防高精度检测：陌讯算法夜间监控落地实战 2501_92474745 目标跟踪人工智能计算机视觉算法目标检测视觉检测
开篇痛点：安防监控系统在实时目标检测中常面临严峻挑战。实测数据显示，传统算法在低光、遮挡或动态场景下，泛化能力不足，导致平均误报率高达15%（数据来源：安防行业报告）。尤其在夜间或拥挤环境下，系统卡顿、漏检频发，不仅降低响应效率，还增加安全隐患。例如，某城市交通监控中心反馈，其开源模型在高密度人流中出现每秒帧率（FPS）骤降至20帧以下，引发报警延迟问题。这些问题根源在于算法鲁棒性和实时性不足，亟
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
新手向:基于 Python 的简易视频剪辑工具
在数字媒体时代，视频创作已成为大众表达的重要形式，从个人vlog制作到企业宣传视频，视频内容的需求呈现爆发式增长。传统专业软件如AdobePremierePro虽功能强大，提供完整的非线性编辑系统，但存在学习曲线陡峭（新手通常需要数周系统学习）、资源占用高（最低配置要求8GB内存）、授权费用昂贵（订阅价约20美元/月）等痛点。相比之下，Python凭借其丰富的多媒体库生态系统（如OpenCV、Mo
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
监控漏检率 30%？陌讯多模态算法实测优化
破解智慧城市视觉算法困境：陌讯多模态融合技术实战解析在智慧城市建设中，视觉算法作为感知层核心技术，正面临着日益严峻的挑战。传统目标检测算法在暴雨、逆光、遮挡等复杂环境下，漏检率常高达25%-40%，直接导致交通违章误判、异常事件漏报等问题。某新一线城市交管部门曾反馈，现有系统对无牌车的识别准确率不足65%，严重影响执法效率[实测数据来源]。这些痛点的核心在于传统单模态算法难以应对城市环境的动态变化
河道污染难溯源？3步搭建陌讯实时目标检测系统 2501_92472966 目标检测人工智能计算机视觉算法视觉检测
开篇痛点「凌晨3点水泵房渗漏报警，运维人员冒雨排查却是一场误判」——这是某水务企业技术总监向我吐槽的真实案例。在智慧水务场景中，传统视觉算法面临三大死穴：水体反光干扰、微小目标漏检、边缘设备算力受限。尤其当暴雨导致水体浑浊时，OpenCV边缘检测的误报率可达35%以上。技术解析：陌讯多模态融合架构为解决复杂环境泛化问题，陌讯视觉算法提出FMT-Net（FusionMultimodalTransfo
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
415.字符串相加粉蒸妹 LeedCode每日一题
给定两个字符串形式的非负整数num1和num2，计算它们的和。注意：num1和num2的长度都小于5100.num1和num2都只包含数字0-9.num1和num2都不包含任何前导零。你不能使用任何內建BigInteger库，也不能直接将输入的字符串转换为整数形式。publicclassQuestion1{publicstaticvoidmain(String[]args){Scannerin=n
字符串的翻转小结是我真的是我
题目一给定一个字符串，如"csdn"，编写函数返回翻转为"ndsc"的结果。思路不考虑库函数的情况下，采用递归的方式，每次返回从第二位开始的子串（同时递归下去）加上第一位字符，直到递归到剩下一个字符则直接返回即可。publicclassSolution{publicstaticvoidmain(String[]args){Stringstr="csdn";System.out.println(My
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

单阶经典检测器: YOLO (You Only Look Once)

目录

无锚框预测：YOLOv1

网络结构

特征图的意义

损失计算

总结

依赖锚框：YOLOv2

网络结构的改善 - DarkNet-19

先验框的设计

正、负样本与损失函数

训练技巧

不足

多尺度与特征融合：YOLOv3

改进网络结构: DarkNet-53

多尺度预测

Softmax 改为 Logistic

YOLOv3 SPP

Mosaic 图像增强

SPP 模块 (Spatial Pyramid Pooling)

CIOU loss

IoU loss

GIoU loss (Generalized IoU)

DIoU loss (Distance IoU)

CIoU loss (Complete IoU)

Focal loss

YOLOv4

Backbone: CSP-Darknet53

Neck: SPP + PAN

YOLOv4 网络结构

优化策略

Eliminate grid sensitivity

Mosaic 图像增强

IoU threshold (match positive samples)

Optimizered Anchors

CIOU (Complete IoU)

YOLOv5 (v6.1)

Backbone: New CSP-Darknet53

Neck: SPPF + New CSP-PAN

YOLOv5 网络结构

数据增强

训练策略

其他

损失计算

预测框偏移值计算

匹配正样本 (Build Targets)

参考文献

你可能感兴趣的:(#,CV,深度学习,计算机视觉,目标检测)