机器学习与AI生成创作

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有...

YOLOv5 Lite在YOLOv5的基础上进行一系列消融实验，使其更轻（Flops更小，内存占用更低，参数更少），更快（加入shuffle channel，yolov5 head进行通道裁剪，在320的input_size至少能在树莓派4B上的推理速度可以达到10+FPS），更易部署（摘除Focus层和4次slice操作，让模型量化精度下降在可接受范围内）。

1输入端方法

1、Mosaic数据增强

YOLOv5 Lite的输入端采用了和YOLOv5、YOLOv4一样的Mosaic数据增强的方式。其实Mosaic数据增强的作者也是来自YOLOv5团队的成员，不过，随机缩放、随机裁剪、随机排布的方式进行拼接，对于小目标的检测效果还是很不错的。

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第3张图片

为什么要进行Mosaic数据增强呢？

在平时训练模型时，一般来说小目标的AP比中目标和大目标低很多。而Coco数据集中也包含大量的小目标，但比较麻烦的是小目标的分布并不均匀。

首先看下小、中、大目标的定义：

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第4张图片

可以看到小目标的定义是目标框的长宽0×0~32×32之间的物体。

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第5张图片

但在整体的数据集中，小、中、大目标的占比并不均衡。

如上表所示，Coco数据集中小目标占比达到41.4%，数量比中目标和大目标都要多。但在所有的训练集图片中，只有52.3%的图片有小目标，而中目标和大目标的分布相对来说更加均匀一些。

针对上述状况采用了Mosaic数据增强的方式，主要有几个优点：

丰富数据集

随机使用4张图片，随机缩放，再随机分布进行拼接，大大丰富了检测数据集，特别是随机缩放增加了很多小目标，让网络的鲁棒性更好。

减少GPU使用

可能会有人说，随机缩放和普通的数据增强也可以做到类似的效果，在同等size的输入下，普通的数据增强只能看到一张图像，而Mosaic增强训练时可以直接计算4张图片的数据，这样即使一个GPU也可以达到比较好的效果。

2、自适应Anchor计算

YOLOv5 Lite依旧沿用YOLOv5的Anchor计算方式，我们知道，在YOLO算法之中，针对不同的数据集，都会设置固定的Anchor。

在网络训练中，网络在初始锚框的基础上输出预测框，进而和Ground Truth进行比对，计算两者差距，再反向更新，迭代网络参数。

可以看出Anchor也是比较重要的一部分，比如Yolov5在Coco数据集上初始设定的锚框：

第1行是在最大的特征图上的锚框;

第2行是在中间的特征图上的锚框;

第3行是在最小的特征图上的锚框;

自适应计算Anchor的流程如下：

载入数据集，得到数据集中所有数据的wh;
将每张图片中wh的最大值等比例缩放到指定大小img_size，较小边也相应缩放;
将bboxes从相对坐标改成绝对坐标（乘以缩放后的wh）;
筛选bboxes，保留wh都大于等于两个像素的bboxes;
使用k-means聚类得到n个anchors（掉k-means包涉及一个白化操作）;
使用遗传算法随机对anchors的wh进行变异，如果变异后效果变得更好（使用anchor_fitness方法计算得到的fitness（适应度）进行评估）就将变异后的结果赋值给anchors，如果变异后效果变差就跳过，默认变异1000次;

1.3 自适应缩放图片

在常用的目标检测算法中，不同的图片长宽都不相同，因此常用的方式是将原始图片统一缩放到一个标准尺寸，再送入检测网络中。比如Yolo算法中常用416×416，608×608等尺寸。

但Yolov5代码中对此进行了改进，也是Yolov5推理速度能够很快的一个不错的trick。作者认为，在项目实际使用时，很多图片的长宽比不同。因此缩放填充后，两端的黑边大小都不同，而如果填充的比较多，则存在信息冗余，影响推理速度。

图像高度上两端的黑边变少了，在推理时，计算量也会减少，即目标检测速度会得到提升。

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第6张图片

下面根据上图进行计算一下，主要是展示推理时的计算：

计算缩放比例

原始图像的尺寸为640×427，与640的输入尺寸计算得到2个缩放系数分别为1.0和1.499，这里选择较小的1.0参与缩放计算；

计算缩放后的尺寸

这里将原始尺寸乘以缩放系数1.0，可以分别得到长宽为640，427

计算灰边填充数值

640-427=213，得到原本需要填充的高度。再采用numpy中np.mod取余数的方式，得到21个像素，再除以2，即得到图片高度两端需要填充的数值（为10【向上取整】和11【向下取整】），于是得到推理结果的尺寸为640×448。

注意

只是在测试，使用模型推理时，才采用缩减灰边的方式，提高目标检测，推理的速度。为什么np.mod函数的后面用32？因为Yolov5的网络经过5次下采样，而2的5次方，等于32。所以至少要去掉32的倍数，以免产生尺度太小走不完stride的问题，再进行取余。

2模型架构

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第7张图片

目标检测全流程

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第8张图片

YOLOv5 Lite-E模型架构图

3.1 去除Focus层

为了充分理解，先来回顾一下Focus这个OP吧：

class Focus(nn.Module):
    # Focus wh information into c-space
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):  # ch_in, ch_out, kernel, stride, padding, groups
        super().__init__()
        self.conv = Conv(c1 * 4, c2, k, s, p, g, act)
       
    def forward(self, x):  # x(b,c,w,h) -> y(b,4c,w/2,h/2)
        return self.conv(torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1))

从直观理解，其实就是将图像进行切片，类似于下采样取值，这样得到4个图像：

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第9张图片

相当于是将空间信息绕到了通道信息中，cat后输入通道变成4倍，再通过conv得到新的featuremap,这样做的好处就是保持了下采样的信息没有丢失，图像的信息都保留了下来，但是在浅层中的应用，作者也表示了单纯是从计算量和参数量的角度上去设计，因为如上的所述的信息保存在浅层的意义并不大。所以后来查了下，作者的设计原因就是：为了减少浮点数和提高速度，而不是增加featuremap。

故，1个Focus可以替代更多的卷积层，而将空间信息聚焦到通道空间，这也会减少1像素的回归精度，而大部分的检测回归精度都不会接近1，这也是为什么Focus要放在输入的第1层上的原因。

一句话解释：Focus为了压缩网络层去提速。但是在YOLOv5 V6.0中，作者经过试验后，结论就是使用卷积替代Focus获得了更好的性能，且没有之前的一些局限性和副作用，因此此后的迭代中YOLO v5均去除了Focus操作。

YOLOv5 Lite也在此之前也不约而同的选择了摘除Focus层，避免多次采用slice操作，对于的芯片，特别是不含GPU、NPU加速的芯片，频繁的slice操作只会让缓存占用严重，加重计算处理的负担。同时，在芯片部署的时候，Focus层的转化对新手极度不友好。

3.2 ShuffleNet Backbone

YOLOv5 Lite的Backbone选择的是ShuffleNet，为什么是ShuffleNet呢？

这里给出轻量化设计的4个准则：

同等通道大小可以最小化内存访问量;

过量使用组卷积会增加MAC;

网络过于碎片化（特别是多路）会降低并行度;

不能忽略元素级操作（比如shortcut和Add）。

同时，YOLOv5 Lite避免多次使用C3 Leyer以及高通道的C3 Layer

C3 Leyer是YOLOv5作者提出的CSPBottleneck改进版本，它更简单、更快、更轻，在近乎相似的损耗上能取得更好的结果。但C3 Layer采用多路分离卷积，测试证明，频繁使用C3 Layer以及通道数较高的C3 Layer，占用较多的缓存空间，减低运行速度。

为什么通道数越高的C3 Layer会对cpu不太友好?，主要还是因为Shufflenetv2的G1准则，通道数越高，hidden channels与c1、c2的阶跃差距更大，来个不是很恰当的比喻，想象下跳一个台阶和十个台阶，虽然跳十个台阶可以一次到达，但是你需要助跑，调整，蓄力才能跳上，可能花费的时间更久

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第10张图片

Backbone

针对ShuffleNet v2，作者首先复盘了ShuffleNetV1的问题，认为目前比较关键的问题是如何在全卷积或者分组卷积中维护大多数的卷积是平衡的。针对这个目标，作者提出了Channel Split的操作，同时构建了ShuffleNetV2。

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第11张图片

上图中（a）（b）是ShuffleNetV1的结构，而后面的（c）（d）是ShuffleNetV2的层结构，也是YOLOv5 Lite中的主要结构，分别对应的是结构图中的SFB1_X和SFB2_X

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第12张图片

SFB1_X结构对应图（d）结构

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第13张图片

SFB2_X结构对应图（c）结构

下面稍微讲一下笔者结合论文的理解：

Channel Split操作将整个特征图分为c’组（假设为A组）和c-c’（假设为B组）两个部分，主要有3个好处：

整个特征图分为2个组了，但是这样的分组又不像分组卷积一样，增加了卷积时的组数，符合准则2；这样分开之后，将A组认为是通过short-cut通道的，而B组经过的bottleneck层的输入输出的通道数就可以保持一致，符合准则1；

同时由于最后使用的concat操作，没有用TensorAdd操作，符合准则4；

可以看到，这样一个简单的通道分离的操作带来了诸多好处；但是从理论上来说，这样的结构是否还符合short-cut的初衷（即bottleneck学到的是残差Residual部分）？这里笔者也不好妄加揣测，但是可以想到的是经过后面的Channel Shuffle的乱序之后，每个通道应该都会经过一次bottleneck结构。

上述的结构是不改变输入输出通道数和特征图大小的情况，而池化操作使用图（d）代替了，跟ShuffleNetV1类似，经过这样的结构之后，图像通道数扩张为原先的2倍。

YOLO v5 Lite在Backbone中还摘除shufflenetv2 backbone的1024 conv 和 5×5 pooling。

3.3 Neck

在目标检测领域，为了更好的提取融合特征，通常在Backbone和输出层，会插入一些层，这个部分称为Neck。相当于目标检测网络的颈部，也是非常关键的。

而YOLO v5 Lite也不例外的使用了FPN+PAN的结构，但是Lite对yolov5 head进行通道剪枝，剪枝细则参考了ShuffleNet v2的设计准则，同时改进了YOLOv4中的FPN+PAN的结构，具体就是：

为了最优化内存的访问和使用，选择了使用相同的通道数量（e模型Neck通道为96）；
为了进一步优化内存的使用，选择了使用原始的PANet结构，还原YOLOv4的cat操作为add操作；

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第14张图片

FPN+PAN的结构

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第15张图片

YOLOv5 Lite的Neck层

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第16张图片

YOLOv5 Lite的FPN+PAN整体结构图

这样结合操作，FPN层自顶向下传达强语义特征（High-Level特征），而特征金字塔则自底向上传达强定位特征（Low-Level特征），两两联手，从不同的主干层对不同的检测层进行特征聚合。

FPN+PAN借鉴的是18年CVPR的PANet，当时主要应用于图像分割领域，但Alexey将其拆分应用到Yolov4中，进一步提高特征提取的能力。

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第17张图片

3.4 Head

对于Head部分，YOLO V5 Lite并没有对YOLOv5进行改进，所以可以看到三个紫色箭头处的特征图是40×40、20×20、10×10。以及最后Prediction中用于预测的3个特征图：

①==>40×40×255

②==>20×20×255

③==>10×10×255

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第18张图片

3.5 Anchor机制及坐标变换

1、Anchor机制

对于YOLOv5，Anchor对应与Yolov3则恰恰相反，对于所设置的Anchor：

第一个Yolo层是最大的特征图40×40，对应最小的anchor box。
第二个Yolo层是中等的特征图20×20，对应中等的anchor box。
第三个Yolo层是最小的特征图10×10，对应最大的anchor box。

# anchors:
#   - [10,13, 16,30, 33,23]  # P3/8
#   - [30,61, 62,45, 59,119]  # P4/16
#   - [116,90, 156,198, 373,326]  # P5/32

2、样本匹配策略

在yolo v3&v4中，Anchor匹配策略和SSD、Faster RCNN类似：保证每个gt bbox有一个唯一的Anchor进行对应，匹配规则就是IOU最大，并且某个gt不能在三个预测层的某几层上同时进行匹配。不考虑一个gt bbox对应多个Anchor的场合，也不考虑Anchor是否设置合理。

这里先说一下YOLOv3的匹配策略：

假设一个图中有一个目标，这个被分割成三种格子的形式，分割成13×13 、26 × 26、52 × 52 。

这个目标中心坐标下采样8倍，（416/8=52），会落在 52 × 52 这个分支的所有格子中的某一个格子，落在的格子会产生3个anchor，3个anchor和目标（已经下采样8倍的目标框）分别计算iou，得到3个iou，凡是iou大于阈值0.3的，就记为正样本，就会将label[0]中这个iou大于0.3的anchor的相应位置赋上真实框的值。

这个目标中心坐标下采样16倍，（416/16=26），会落在 26 × 26 这个分支的所有格子中的某一个格子，落在的格子会产生3个anchor，3个anchor和目标（已经下采样16倍的目标框）分别计算iou，得到三个iou，凡是iou大于阈值0.3的，就记为正样本，就会将label[1]中这个iou大于0.3的anchor的相应位置赋上真实框的值。

这个目标中心坐标下采样32倍，（416/32=13），会落在 13 × 13 这个分支的所有格子中的某一个格子，落在的格子会产生3个anchor，3个anchor和目标（已经下采样32倍的目标框）分别计算iou，得到三个iou，凡是iou大于阈值0.3的，就记为正样本，就会将label[2]中这个iou大于0.3的anchor的相应位置赋上真实框的值。

如果目标所有的anchor，9个anchor，iou全部小于阈值0.3，那么选择9个anchor中和下采样后的目标框iou最大的，作为正样本，将目标真实值赋值给相应的anchor的位置。

总的来说，就是将目标先进行3种下采样，分别和目标落在的网格产生的 9个anchor分别计算iou，大于阈值0.3的记为正样本。如果9个iou全部小于0.3，那么和目标iou最大的记为正样本。对于正样本，我们在label上相对应的anchor位置上，赋上真实目标的值。

而yolov5采用了跨网格匹配规则，增加正样本Anchor数目的做法：

对于任何一个输出层，yolov5抛弃了Max-IOU匹配规则而采用shape匹配规则，计算标签box和当前层的anchors的宽高比，即:wb/wa,hb/ha。如果宽高比大于设定的阈值说明该box没有合适的anchor，在该预测层之间将这些box当背景过滤掉。

# r为目标wh和锚框wh的比值，比值在0.25到4之间的则采用该种锚框预测目标
r = t[:, :, 4:6] / anchors[:, None]  # wh ratio：计算标签box和当前层的anchors的宽高比，即:wb/wa,hb/ha
# 将比值和预先设置的比例anchor_t对比，符合条件为True，反之False
j = torch.max(r, 1 / r).max(2)[0] < self.hyp['anchor_t']  # compare

对于剩下的bbox，计算其落在哪个网格内，同时利用四舍五入规则，找出最近的2个网格，将这3个网格都认为是负责预测该bbox的，可以发现粗略估计正样本数相比前yolo系列，增加了3倍。code如下：

# Offsets
# 得到相对于以左上角为坐标原点的坐标
gxy = t[:, 2:4]  # grid xy
# 得到相对于右下角为坐标原点的坐标
gxi = gain[[2, 3]] - gxy  # inverse
# 这两个条件可以用来选择靠近的两个邻居网格
# jk和lm是判断gxy的中心点更偏向哪里
j, k = ((gxy % 1 < g) & (gxy > 1)).T
l, m = ((gxi % 1 < g) & (gxi > 1)).T
j = torch.stack((torch.ones_like(j), j, k, l, m))
# yolov5不仅用目标中心点所在的网格预测该目标，还采用了距目标中心点的最近两个网格
# 所以有五种情况，网格本身，上下左右，这就是repeat函数第一个参数为5的原因
t = t.repeat((5, 1, 1))[j]
# 这里将t复制5个，然后使用j来过滤
# 第一个t是保留所有的gtbox，因为上一步里面增加了一个全为true的维度，
# 第二个t保留了靠近方格左边的gtbox，
# 第三个t保留了靠近方格上方的gtbox，
# 第四个t保留了靠近方格右边的gtbox，
# 第五个t保留了靠近方格下边的gtbox，
offsets = (torch.zeros_like(gxy)[None] + off[:, None])[j]

对于YOLOv5，不同于yolov3,yolov4的是：其gt box可以跨层预测，即有些gt box在多个预测层都算正样本；同时其gt box可匹配的anchor数可为3~9个，显著增加了正样本的数量。不再是gt box落在那个网格就只由该网格内的anchor来预测，而是根据中心点的位置增加2个邻近的网格的anchor来共同预测。

如下图所示，绿点表示该gt bbox中心，现在需要额外考虑其2个最近的邻域网格的anchor也作为该gt bbox的正样本，明显增加了正样本的数量。

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第19张图片

# 输入参数pred为网络的预测输出，它是一个list包含三个检测头的输出tensor。
def build_targets(self, p, targets):
    '''
    build_targets()函数的作用：找出与该gtbox最匹配的先验框（anchor）
    '''
   # 这里na为Anchor框种类数 nt为目标数 这里的na为3，nt为2
    na, nt = self.na, targets.shape[0]  # number of anchors, targets
   # 类别 边界框 索引 锚框
    tcls, tbox, indices, anch = [], [], [], []
    # 利用gain来计算目标在某一个特征图上的位置信息，初始化为1
    gain = torch.ones(7, device=targets.device)  # normalized to gridspace gain
    # 第2个维度复制nt遍
    ai = torch.arange(na, device=targets.device).float().view(na, 1).repeat(1, nt)  # same as .repeat_interleave(nt)
    # targets.shape = (na, nt, 7)（3，2，7）给每个目标加上Anchor框索引
    targets = torch.cat((targets.repeat(na, 1, 1), ai[:, :, None]), 2)  # append anchor indices

    g = 0.5  # bias
    # 上下左右4个网格
    off = torch.tensor([[0, 0],
                        [1, 0], [0, 1], [-1, 0], [0, -1],  # j,k,l,m
                       ], device=targets.device).float() * g  # offsets
   # 处理每个检测层（3个）
    for i in range(self.nl):
    '''
    tensor([[[ 1.25000,  1.62500],  #10,13, 16,30, 33,23 每一个数除以8
             [ 2.00000,  3.75000],
             [ 4.12500,  2.87500]],

            [[ 1.87500,  3.81250], #30,61, 62,45, 59,119 每一个数除以16
             [ 3.87500,  2.81250],
             [ 3.68750,  7.43750]],

            [[ 3.62500,  2.81250], #116,90, 156,198, 373,326 每一个数除以32
             [ 4.87500,  6.18750],
             [11.65625, 10.18750]]])
    '''
        # 3个anchors，已经除以当前特征图对应的stride
        anchors = self.anchors[i]
        # 将target中归一化后的xywh映射到3个尺度（80,80， 40,40， 20,20）的输出需要的放大系数
        gain[2:6] = torch.tensor(p[i].shape)[[3, 2, 3, 2]]  # xyxy gain

        # 将xywh映射到当前特征图，即乘以对应的特征图尺寸,targets*gain将归一化的box乘以特征图尺度，将box坐标分别投影到对应的特征图上
        t = targets * gain
        if nt:
            # r为目标wh和锚框wh的比值，比值在0.25到4之间的则采用该种锚框预测目标
            # 计算当前tartget的wh和anchor的wh比值
            # 如果最大比值大于预设值model.hyp['anchor_t']=4，则当前target和anchor匹配度不高，不强制回归，而把target丢弃
            r = t[:, :, 4:6] / anchors[:, None]  # wh ratio：计算标签box和当前层的anchors的宽高比，即:wb/wa,hb/ha
            # 筛选满足条件1/hyp['anchor_t] < target_wh / anchor_wh < hyp['anchor_t]的框
            #.max(2)对第3维度的值进行max，将比值和预先设置的比例anchor_t对比，符合条件为True，反之False
            j = torch.max(r, 1 / r).max(2)[0] < self.hyp['anchor_t']  # compare
            # 根据j筛选符合条件的坐标
            t = t[j]  # filter
            # Offsets
            # 得到相对于以左上角为坐标原点的坐标
            gxy = t[:, 2:4]  # grid xy
            # 得到相对于右下角为坐标原点的坐标
            gxi = gain[[2, 3]] - gxy  # inverse
            # 这2个条件可以用来选择靠近的2个临近网格
            # jk和lm是判断gxy的中心点更偏向哪里（如果中心点的相对左上角的距离大于1，小于1.5，则满足临近选择的条件）
            j, k = ((gxy % 1 < g) & (gxy > 1)).T
            # jk和lm是判断gxi的中心点更偏向哪里（如果中心点的相对右下角的距离大于1，小于1.5，则满足临近选择的条件）
            l, m = ((gxi % 1 < g) & (gxi > 1)).T
            j = torch.stack((torch.ones_like(j), j, k, l, m))
            # yolov5不仅用目标中心点所在的网格预测该目标，还采用了距目标中心点的最近两个网格
      # 所以有五种情况，网格本身，上下左右，这就是repeat函数第一个参数为5的原因
            t = t.repeat((5, 1, 1))[j]
            # 这里将t复制5个，然后使用j来过滤
            # 第1个t是保留所有的gtbox，因为上一步里面增加了一个全为true的维度，
            # 第2个t保留了靠近方格左边的gtbox，
            # 第3个t保留了靠近方格上方的gtbox，
            # 第4个t保留了靠近方格右边的gtbox，
            # 第5个t保留了靠近方格下边的gtbox，
            offsets = (torch.zeros_like(gxy)[None] + off[:, None])[j]
        else:
            t = targets[0]
            offsets = 0

        """
        对每个bbox找出对应的正样本anchor。
        a 表示当前bbox和当前层的第几个anchor匹配
        b 表示当前bbox属于batch内部的第几张图片，
        c 是该bbox的类别
        gi,gj 是对应的负责预测该bbox的网格坐标
        gxy 负责预测网格中心点坐标xy
        gwh 是对应的bbox的wh
        """
        b, c = t[:, :2].long().T  # image, class b表示当前bbox属于该batch内第几张图片
        gxy = t[:, 2:4]  # grid xy真实目标框的xy坐标
        gwh = t[:, 4:6]  # grid wh真实目标框的宽高
        gij = (gxy - offsets).long()   #取整
        gi, gj = gij.T  # grid xy indices (gi,gj)是计算出来的负责预测该gt box的网格的坐标

        # Append
        a = t[:, 6].long()  # anchor indices a表示当前gt box和当前层的第几个anchor匹配上了
        indices.append((b, a, gj.clamp_(0, gain[3] - 1), gi.clamp_(0, gain[2] - 1)))  # image, anchor, grid indices
        tbox.append(torch.cat((gxy - gij, gwh), 1))  # gtbox与3个负责预测的网格的坐标偏移量
        anch.append(anchors[a])  # anchors
        tcls.append(c)  # class

    return tcls, tbox, indices, anch

最后返回四个列表：

class：类别
tbox：gtbox与3个负责预测的网格的xy坐标偏移量，gtbox的宽高
indices：b表示当前gtbox属于该batch内第几张图片，a表示gtbox与anchors的对应关系，负责预测的网格纵坐标，负责预测的网格横坐标
anch：最匹配的anchors

yolov5增加正样本的方法，最多可增大到原来的3倍，大大增加了正样本的数量，加速了模型的收敛。

目标检测重中之重可以理解为Anchor的匹配策略，当下流行的Anchor-Free不过换了一种匹配策略罢了。当下真正可创新之处在于更优的匹配策略。

3、正样本个数的增加策略

yolov5共有3个预测分支（FPN、PAN结构），共有9种不同大小的anchor，每个预测分支上有3种不同大小的anchor。Yolov5算法通过以下3种方法大幅增加正样本个数：

跨预测分支预测：假设一个ground truth框可以和2个甚至3个预测分支上的anchor匹配，则这2个或3个预测分支都可以预测该ground truth框，即一个ground truth框可以由多个预测分支来预测。
跨网格预测：假设一个ground truth框落在了某个预测分支的某个网格内，则该网格有左、上、右、下4个邻域网格，根据ground truth框的中心位置，将最近的2个邻域网格也作为预测网格，也即一个ground truth框可以由3个网格来预测；
跨anchor预测：假设一个ground truth框落在了某个预测分支的某个网格内，该网格具有3种不同大小anchor，若ground truth可以和这3种anchor中的多种anchor匹配，则这些匹配的anchor都可以来预测该ground truth框，即一个ground truth框可以使用多种anchor来预测。

4、坐标变换

对于之前的YOLOv3和YOLOv4，使用的是如下图所示的坐标表示形式：

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第20张图片

YOLOv3和YOLOv4的坐标表示

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第21张图片

、、、分别是即边界框bbox相对于feature map的位置和宽高；

和分别代表feature map中grid cell的左上角坐标，在yolo中每个grid cell在feature map中的宽和高均为1；

和分别代表Anchor映射到feature map中的的宽和高，anchor box原本设定是相对于坐标系下的坐标，需要除以stride如32映射到feature map坐标系中；

、、、这4个参数化坐标是网络学习的目标，其中,是预测的坐标偏移值，和是尺度缩放，sigma代表sigmoid函数。

与faster rcnn和ssd中的参数化坐标不同的是x和y的回归方式，YOLO v3&v4使用了sigmoid函数进行偏移量的规则化，而faster和ssd中对x，y除以anchor的宽和高进行规则化。

YOLOv5参数化坐标的方式和yolo v3&v4是不一样的，如下：

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第22张图片

YOLOv5的坐标表示方法

用公式表示如下：

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第23张图片

xy = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i]  # xy
wh = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i]  # wh

这样，pxy的取值范围是[-0.5,1.5]，pwh的取值范围是(0,4×anchors[i])，这是因为采用了跨网格匹配规则，要跨网格预测了。

为什么这么改造呢？

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第24张图片

可以看出，对于不同的和，当他们大于零比较多时，YOLOv5的反馈更加平滑，相对于v3、v4也就更容易收敛。

5、为什么进行坐标参数化？

为什么要学习偏移而不是实际值？

Anchor已经粗略地“框住了”输入图像中的目标，明显的一个问题是，框的不够准确。因为受限于Anchor的生成方式，Anchor的坐标永远都是固定的那几个。所以，如果我们预测相对于Anchor的offset，那么，就可以通过预测的offset调整锚框位置，从而得到更精准的bounding box。

为什么要学习偏移系数而不是偏移量？

首先，对于预测的bounding box的w和h可以通过anchor进行缩放，但有一个基本的要求，就是h和w都必须为正值，而网络最后一层的预测输出是没法保证正负的，所以最简单的方法就是对预测输出求exp，这样就保证了预测值恒为正。那么反过来，对预测目标就是求log。

其次，对cx和cy除以anchor的宽和高的处理是为了做尺度归一化。例如，大的box的绝对偏移量一般较大，而小的box的绝对偏移量一般较小，除以宽和高消除这种影响。即两个框大小不一，但相对值却一致。

为什么都要进行Sigmoid计算？

yolov5需要的训练数据的label是根据原图尺寸归一化了的，这样做是因为怕大的边框的影响比小的边框影响大，因此做了归一化的操作，这样大的和小的边框都会被同等看待了，而且训练也容易收敛。所以在网络输出的部分也需要对输出进行归一化操作，因此选择了Sigmoid计算。

3输出端

4.1 优化方法

YOLO V5的作者提供了2个优化函数Adam和SGD，并都预设了与之匹配的训练超参数。默认为SGD。YOLO V4使用SGD。

YOLO V5的作者建议是，如果需要训练较小的自定义数据集，Adam是更合适的选择，尽管Adam的学习率通常比SGD低。但是如果训练大型数据集，对于YOLOV5来说SGD效果比Adam好。

实际上学术界上对于SGD和Adam哪个更好，一直没有统一的定论，取决于实际项目情况。

4.2 损失函数

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第25张图片

通过上图我们可以看到，对于图中的目标，都会输出class_num+4+1长度的向量，比如针对coco数据集有80个类别，就会输出长度为85的特征向量，其中所包含的内容如下图所示：

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第26张图片

图中向量包含4个坐标信息，一个包含目标概率和80个类别得分，换句话解释就是“这个图像中是否有目标（物体出现的概率）？有的话是什么（80类的类别得分）？然后就是这个目标物体在哪里（box坐标位置）？”

其实面对上述的3个输出，也对应YOLOv5的3个分支的，其分别是obj分支、cls分支和box分支。

1、obj分支

obj分支输出的是该anchor中是否含有物体的概率，默认使用BCEWithLogits Loss。

BCEWithLogitsLoss是将BCELoss（BCE：Binary cross entropy）和sigmoid融合了，也就是说省略了sigmoid这个步骤；BCELoss的数学公式如下：

class BCEBlurWithLogitsLoss(nn.Module):
    # BCEwithLogitLoss() with reduced missing label effects.
    def __init__(self, alpha=0.05):
        super(BCEBlurWithLogitsLoss, self).__init__()
        self.loss_fcn = nn.BCEWithLogitsLoss(reduction='none')  # must be nn.BCEWithLogitsLoss()
        self.alpha = alpha

    def forward(self, pred, true):
        loss = self.loss_fcn(pred, true)
        pred = torch.sigmoid(pred)  # prob from logits
        dx = pred - true  # reduce only missing label effects
        # dx = (pred - true).abs()  # reduce missing label and false label effects
        alpha_factor = 1 - torch.exp((dx - 1) / (self.alpha + 1e-4))
        loss *= alpha_factor
        return loss.mean()

2、cls分支

cls分支输出的是该anchor属于哪一类的概率，也默认使用BCEWithLogits Loss。

class BCEBlurWithLogitsLoss(nn.Module):
    # BCEwithLogitLoss() with reduced missing label effects.
    def __init__(self, alpha=0.05):
        super(BCEBlurWithLogitsLoss, self).__init__()
        self.loss_fcn = nn.BCEWithLogitsLoss(reduction='none')  # must be nn.BCEWithLogitsLoss()
        self.alpha = alpha

    def forward(self, pred, true):
        loss = self.loss_fcn(pred, true)
        pred = torch.sigmoid(pred)  # prob from logits
        dx = pred - true  # reduce only missing label effects
        # dx = (pred - true).abs()  # reduce missing label and false label effects
        alpha_factor = 1 - torch.exp((dx - 1) / (self.alpha + 1e-4))
        loss *= alpha_factor
        return loss.mean()

例如，对于coco数据集上训练的YOLO的每个anchor的维度都是85，前5个属性是(Cx,Cy,w,h,confidence)，confidence对应obj，后80个维度对应cls。

3、box分支

这里的box分支输出的便是物体的具体位置信息了，通过前面对于坐标参数化的分析可以知道，具体的输出4个值为、、以及，然后通过前面的参数化反转方式与GT进行计算loss，对于回归损失，yolov3使用的loss是smooth l1损失。Yolov5的边框(Bounding box)回归的损失函数默认使用的是CIoU，不是GIoU，不是DIoU，是CIoU。

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第27张图片

回归损失的发展

下面用一张图粗略看一下IoU,GIoU,DIoU,CIoU：

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第28张图片

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第29张图片

式中，、，、分别代表候选框的中心点坐标。

下面大概说一下每个IOU损失的局限性：

IoU Loss 有2个缺点：

当预测框和目标框不相交时，IoU(A,B)=0时，不能反映A,B距离的远近，此时损失函数不可导，IoU Loss 无法优化两个框不相交的情况。

假设预测框和目标框的大小都确定，只要两个框的相交值是确定的，其IoU值是相同时，IoU值不能反映两个框是如何相交的。

GIoU Loss 有1个缺点：

当目标框完全包裹预测框的时候，IoU和GIoU的值都一样，此时GIoU退化为IoU, 无法区分其相对位置关系；

DIoU Loss 有1个缺点：

当预测框的中心点的位置都一样时, DIoU无法区分候选框位置的质量；

综合IoU、GIoU、DIoU的种种局限性，总结一个好的bounding box regressor包含3个要素：

、Overlapping area
、Central point distance
、Aspect ratio

因此，YOLOv5使用的是CIoU Loss：

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第30张图片

iou = bbox_iou(pbox.T, tbox[i], x1y1x2y2=False, CIoU=True)  # iou(prediction, target)
lbox += (1.0 - iou).mean()  # iou loss

def bbox_iou(box1, box2, x1y1x2y2=True, GIoU=False, DIoU=False, CIoU=False, eps=1e-7):
    # Returns the IoU of box1 to box2. box1 is 4, box2 is nx4
    box2 = box2.T

    # Get the coordinates of bounding boxes
    if x1y1x2y2:  # x1, y1, x2, y2 = box1
        b1_x1, b1_y1, b1_x2, b1_y2 = box1[0], box1[1], box1[2], box1[3]
        b2_x1, b2_y1, b2_x2, b2_y2 = box2[0], box2[1], box2[2], box2[3]
    else:  # transform from xywh to xyxy
        b1_x1, b1_x2 = box1[0] - box1[2] / 2, box1[0] + box1[2] / 2
        b1_y1, b1_y2 = box1[1] - box1[3] / 2, box1[1] + box1[3] / 2
        b2_x1, b2_x2 = box2[0] - box2[2] / 2, box2[0] + box2[2] / 2
        b2_y1, b2_y2 = box2[1] - box2[3] / 2, box2[1] + box2[3] / 2

    # Intersection area
    inter = (torch.min(b1_x2, b2_x2) - torch.max(b1_x1, b2_x1)).clamp(0) * \
            (torch.min(b1_y2, b2_y2) - torch.max(b1_y1, b2_y1)).clamp(0)

    # Union Area
    w1, h1 = b1_x2 - b1_x1, b1_y2 - b1_y1 + eps
    w2, h2 = b2_x2 - b2_x1, b2_y2 - b2_y1 + eps
    union = w1 * h1 + w2 * h2 - inter + eps

    iou = inter / union
    if CIoU or DIoU or GIoU:
        cw = torch.max(b1_x2, b2_x2) - torch.min(b1_x1, b2_x1)  # convex (smallest enclosing box) width
        ch = torch.max(b1_y2, b2_y2) - torch.min(b1_y1, b2_y1)  # convex height
        if CIoU or DIoU:  # Distance or Complete IoU https://arxiv.org/abs/1911.08287v1
            c2 = cw ** 2 + ch ** 2 + eps  # convex diagonal squared
            rho2 = ((b2_x1 + b2_x2 - b1_x1 - b1_x2) ** 2 +
                    (b2_y1 + b2_y2 - b1_y1 - b1_y2) ** 2) / 4  # center distance squared
            if CIoU:  # https://github.com/Zzh-tju/DIoU-SSD-pytorch/blob/master/utils/box/box_utils.py#L47
                v = (4 / math.pi ** 2) * torch.pow(torch.atan(w2 / h2) - torch.atan(w1 / h1), 2)
                with torch.no_grad():
                    alpha = v / (v - iou + (1 + eps))
                return iou - (rho2 / c2 + v * alpha)  # CIoU
            return iou - rho2 / c2  # DIoU
        c_area = cw * ch + eps  # convex area
        return iou - (c_area - union) / c_area  # GIoU https://arxiv.org/pdf/1902.09630.pdf
    return iou  # IoU

4、Loss计算

def compute_loss(p, targets, model):  # predictions, targets, model
    device = targets.device
    lcls, lbox, lobj = torch.zeros(1, device=device), torch.zeros(1, device=device), torch.zeros(1, device=device)
    tcls, tbox, indices, anchors = build_targets(p, targets, model)  # targets
    h = model.hyp  # hyperparameters

    # Define criteria
    BCEcls = nn.BCEWithLogitsLoss(pos_weight=torch.Tensor([h['cls_pw']])).to(device)
    BCEobj = nn.BCEWithLogitsLoss(pos_weight=torch.Tensor([h['obj_pw']])).to(device)

    # Class label smoothing https://arxiv.org/pdf/1902.04103.pdf eqn 3
    cp, cn = smooth_BCE(eps=0.0)

    # Focal loss
    g = h['fl_gamma']  # focal loss gamma
    if g > 0:
        BCEcls, BCEobj = FocalLoss(BCEcls, g), FocalLoss(BCEobj, g)
   。。。。。。

4.3、后处理之DIoU NMS

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第31张图片

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第32张图片

在上图重叠的摩托车检测中，中间的摩托车因为考虑边界框中心点的位置信息，也可以回归出来。因此在重叠目标的检测中，DIOU_nms的效果优于传统的nms。

为什么不用CIoU NMS呢？

因为前面讲到的CIOU loss，是在DIOU loss的基础上，添加的影响因子，包含ground truth标注框的信息，在训练时用于回归。但在测试过程中，并没有ground truth的信息，不用考虑影响因子，因此直接用DIOU NMS即可。

4YOLOv5 Lite训练自己的数据集

5.1 git clone仓库代码

clone YOLOv5 Lite代码并下载coco的预训练权重。

$ git clone https://github.com/ppogg/YOLOv5-Lite
$ cd YOLOv5-Lite
$ pip install -r requirements.txt

5.2 处理数据集格式

这里可以直接参考coco128的数据集形式进行整理：

文件夹目录如下图所示：

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第33张图片

5.3 配置超参数

主要是配置data文件夹下的coco128.yaml中的数据集位置和种类：

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第34张图片

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第35张图片

5.4 配置模型

这里主要是配置models目录下的模型yaml文件，主要是进去后修改nc这个参数来进行类别的修改。

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第36张图片

修改 nc参数

目前支持的模型种类如下所示：

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第37张图片

5.3 训练

$ python train.py --data coco.yaml --cfg v5lite-e.yaml --weights v5lite-e.pt --batch-size 128
                                         v5lite-s.yaml --weights v5lite-s.pt --batch-size 128
                                         v5lite-c.yaml           v5lite-c.pt               96
                                         v5lite-g.yaml           v5lite-g.pt               64

如果您是多卡进行训练，则：

$ python -m torch.distributed.launch --nproc_per_node 2 train.py

5.4 检测结果

$ python path/to/detect.py --weights v5lite-e.pt --source 0 img.jpg        # image

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第38张图片

检测结果

5TensorRT部署

5.1 目标检测常见的落地形式

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第39张图片

1、TensorRT是什么

TensorRT是推理优化器，能对训练好的模型进行优化。可以理解为只有前向传播的深度学习框架，这个框架可以将Caffe，TensorFlow的网络模型解析，然后与TensorRT中对应的层进行一一映射，把其他框架的模型统一全部转换到TensorRT中，然后在TensorRT中可以针对NVIDIA自家GPU实施优化策略，并进行部署加速。当你的网络训练完之后，可以将训练模型文件直接丢进TensorRT中，而不再需要依赖深度学习框架（Caffe，TensorFlow等)。

2、本文AI部署流程

先把onnx转化为TensorRT的Engine文件，然后让c++环境下的TensorRT直接加载Engine文件，从而构建engine，本文主要讲解onnx转换至Engine，然后进行基于TensorRT的C++推理检测。

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第40张图片

转换和部署模型5个基本步骤:

step1：获取模型
step2：选择batchsize
step3：选择精度
step4：模型转换
step5：模型部署

5.2 ONNX-TensorRT的部署流程

1、ONNX转化为TRT Engine

# 导出onnx文件
python export.py ---weights weights/v5lite-g.pt --batch-size 1 --imgsz 640 --include onnx --simplify

# 使用TensorRT官方的trtexec工具将onnx文件转换为engine
trtexec --explicitBatch --onnx=./v5lite-g.onnx --saveEngine=v5lite-g.trt --fp16

闲话不多说，这里已经拿到了trt的engine，那么如何进行推理呢？总的来说，分为3步：

首先load你的engine，拿到一个ICudaEngine, 这个是TensorRT推理的核心；
定位模型的输入和输出，有几个输入有几个输出；
forward模型，然后拿到输出，对输出进行后处理。

当然这里最核心的东西其实就两个，一个是如何导入拿到CudaEngine，第二个是比较麻烦的后处理。

2、加载TRT Engine

bool Model::readTrtFile() {
    std::string cached_engine;
    std::fstream file;
    std::cout << "loading filename from:" << engine_file << std::endl;
    nvinfer1::IRuntime *trtRuntime;
    file.open(engine_file, std::ios::binary | std::ios::in);

    if (!file.is_open()) {
        std::cout << "read file error: " << engine_file << std::endl;
        cached_engine = "";
    }

    while (file.peek() != EOF) {
        std::stringstream buffer;
        buffer << file.rdbuf();
        cached_engine.append(buffer.str());
    }
    file.close();

    trtRuntime = nvinfer1::createInferRuntime(gLogger.getTRTLogger());
    engine = trtRuntime->deserializeCudaEngine(cached_engine.data(), cached_engine.size(), nullptr);
    std::cout << "deserialize done" << std::endl;

}

// 加载 TensorRT Engine
void v5Lite::LoadEngine() {
    // create and load engine
    std::fstream existEngine;
    existEngine.open(engine_file, std::ios::in);
    // 如果存在已经转换完成的TensorRT Engine文件，则直接加载
    if (existEngine) {
        readTrtFile(engine_file, engine);
        assert(engine != nullptr);
    } 
    // 如果不存在已经转换完成的TensorRT Engine文件，则直接加载ONNX权重进行在线生成
    else {
        onnxToTRTModel(onnx_file, engine_file, engine, BATCH_SIZE);
        assert(engine != nullptr);
    }
}

3、后处理之坐标转换

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第41张图片

YOLOv5的坐标转换方法

std::vector> V5lite::postProcess(const std::vector &vec_Mat, float *output,
                                                                const int &outSize) {
    std::vector> vec_result;
    int index = 0;
    for (const cv::Mat &src_img : vec_Mat)
    {
        std::vector result;
        float ratio = float(src_img.cols) / float(IMAGE_WIDTH) > float(src_img.rows) / float(IMAGE_HEIGHT)  ? float(src_img.cols) / float(IMAGE_WIDTH) : float(src_img.rows) / float(IMAGE_HEIGHT);
        float *out = output + index * outSize;
        int position = 0;
        for (int n = 0; n < (int)grids.size(); n++)
        {
            for (int c = 0; c < grids[n][0]; c++)
            {
                std::vector anchor = anchors[n * grids[n][0] + c];
                for (int h = 0; h < grids[n][1]; h++)
                    for (int w = 0; w < grids[n][2]; w++)
                    {
                        float *row = out + position * (CATEGORY + 5);
                        position++;
                        DetectRes box;
                        auto max_pos = std::max_element(row + 5, row + CATEGORY + 5);
                        box.prob = row[4] * row[max_pos - row];
                        if (box.prob < obj_threshold)
                            continue;
                        box.classes = max_pos - row - 5;
                        // 坐标的反参数化，和前文的坐标转换对接
                        box.x = (row[0] * 2 - 0.5 + w) / grids[n][2] * IMAGE_WIDTH * ratio;
                        box.y = (row[1] * 2 - 0.5 + h) / grids[n][1] * IMAGE_HEIGHT * ratio;
                        box.w = pow(row[2] * 2, 2) * anchor[0] * ratio;
                        box.h = pow(row[3] * 2, 2) * anchor[1] * ratio;
                        result.push_back(box);
                    }
            }
        }
        NmsDetect(result);
        vec_result.push_back(result);
        index++;
    }
    return vec_result;
}

4、进行模型推理

// 推理整个文件夹的文件
bool YOLOv5::InferenceFolder(const std::string &folder_name) {
    // 读取文件夹下面的文件，并返回为一个 string vector 迭代器
    std::vector sample_images = readFolder(folder_name);
    //get context
    assert(engine != nullptr);
    // 创建上下文，创建一些空间来存储中间值。一个engine可以创建多个context，分别执行多个推理任务。
    context = engine->createExecutionContext();
    assert(context != nullptr);

    // 传递给Engine的输入输出buffers指针，这里对应一个输入和一个输出
    assert(engine->getNbBindings() == 2);
    void *buffers[2];
    std::vector bufferSize;
    int nbBindings = engine->getNbBindings();
    bufferSize.resize(nbBindings);

    for (int i = 0; i < nbBindings; ++i) {
        // 获取输入或输出的维度信息
        nvinfer1::Dims dims = engine->getBindingDimensions(i);
        // 获取输入或输出的数据类型信息
        nvinfer1::DataType dtype = engine->getBindingDataType(i);
        int64_t totalSize = volume(dims) * 1 * getElementSize(dtype);
        bufferSize[i] = totalSize;
        std::cout << "binding" << i << ": " << totalSize << std::endl;
        // &buffers是双重指针 相当于改变指针本身，这里就是把输入或输出进行向量化操作
        cudaMalloc(&buffers[i], totalSize);
    }

    //get stream
    cudaStream_t stream;
    // 创建 Stream
    cudaStreamCreate(&stream);

    int outSize = bufferSize[1] / sizeof(float) / BATCH_SIZE;
    // 执行推理
    EngineInference(sample_images, outSize, buffers, bufferSize, stream);

    // 释放 stream 和 buffers
    cudaStreamDestroy(stream);
    cudaFree(buffers[0]);
    cudaFree(buffers[1]);

    // destroy the engine
    context->destroy();
    engine->destroy();
}

void YOLOv5::EngineInference(const std::vector &image_list, const int &outSize, void **buffers,
                             const std::vector &bufferSize, cudaStream_t stream) {
    int index = 0;
    int batch_id = 0;
    std::vector vec_Mat(BATCH_SIZE);
    std::vector vec_name(BATCH_SIZE);
    float total_time = 0;
    // 遍历图像路径list
    for (const std::string &image_name : image_list)
    {
        index++;
        std::cout << "Processing: " << image_name << std::endl;
        // 读取图像内容到cv_mat
        cv::Mat src_img = cv::imread(image_name);
        // 把图像和图像名分别保存在vec_Mat和vec_name之中
        if (src_img.data)
        {
            vec_Mat[batch_id] = src_img.clone();
            vec_name[batch_id] = image_name;
            batch_id++;
        }
        if (batch_id == BATCH_SIZE or index == image_list.size())
        {
            // 声明时间戳 t_start_pre
            auto t_start_pre = std::chrono::high_resolution_clock::now();
            std::cout << "prepareImage" << std::endl;
            std::vectorcurInput = prepareImage(vec_Mat);
            auto t_end_pre = std::chrono::high_resolution_clock::now();
            // 至此，prepare Image的时间已经计算完成
            float total_pre = std::chrono::duration(t_end_pre - t_start_pre).count();
            std::cout << "prepare image take: " << total_pre << " ms." << std::endl;
            total_time += total_pre;
            batch_id = 0;
            if (!curInput.data()) {
                std::cout << "prepare images ERROR!" << std::endl;
                continue;
            }
            // 将数据从CPU端传送到GPU端
            std::cout << "host2device" << std::endl;
            cudaMemcpyAsync(buffers[0], curInput.data(), bufferSize[0], cudaMemcpyHostToDevice, stream);

            // 执行推理
            std::cout << "execute" << std::endl;
            auto t_start = std::chrono::high_resolution_clock::now();
            context->execute(BATCH_SIZE, buffers);
            auto t_end = std::chrono::high_resolution_clock::now();
            float total_inf = std::chrono::duration(t_end - t_start).count();
            std::cout << "Inference take: " << total_inf << " ms." << std::endl;
            total_time += total_inf;
            std::cout << "execute success" << std::endl;
            std::cout << "device2host" << std::endl;
            std::cout << "post process" << std::endl;
            auto r_start = std::chrono::high_resolution_clock::now();
            auto *out = new float[outSize * BATCH_SIZE];
            // Copy GPU端的推理结果到CPU端
            cudaMemcpyAsync(out, buffers[1], bufferSize[1], cudaMemcpyDeviceToHost, stream);
            // 阻塞当前程序的执行，直到所有任务都处理完毕，这样可以将计算和主机与设备之前的传输并行化，提高效率。
            cudaStreamSynchronize(stream);
            // 进行后处理操作
            auto boxes = postProcess(vec_Mat, out, outSize);
            auto r_end = std::chrono::high_resolution_clock::now();
            float total_res = std::chrono::duration(r_end - r_start).count();
            std::cout << "Post process take: " << total_res << " ms." << std::endl;
            total_time += total_res;
            for (int i = 0; i < (int)vec_Mat.size(); i++)
            {
                auto org_img = vec_Mat[i];
                if (!org_img.data)
                    continue;
                auto rects = boxes[i];
                for(const auto &rect : rects)
                {
                    char t[256];
                    sprintf(t, "%.2f", rect.prob);
                    std::string name = coco_labels[rect.classes] + "-" + t;
                    // 图书添加文字
                    cv::putText(org_img, name, cv::Point(rect.x - rect.w / 2, rect.y - rect.h / 2 - 5), cv::FONT_HERSHEY_COMPLEX, 0.7, class_colors[rect.classes], 2);
                    // 绘制矩形框
                    cv::Rect rst(rect.x - rect.w / 2, rect.y - rect.h / 2, rect.w, rect.h);
                    cv::rectangle(org_img, rst, class_colors[rect.classes], 2, cv::LINE_8, 0);
                }
                int pos = vec_name[i].find_last_of(".");
                std::string rst_name = vec_name[i].insert(pos, "_");
                std::cout << rst_name << std::endl;
                // 保存检测结果
                cv::imwrite(rst_name, org_img);
            }
            vec_Mat = std::vector(BATCH_SIZE);
            delete[] out;
        }
    }
    std::cout << "Average processing time is " << total_time / image_list.size() << "ms" << std::endl;
}

5、后处理之NMS C++实现

void V5lite::NmsDetect(std::vector &detections) {
    sort(detections.begin(), detections.end(), [=](const DetectRes &left, const DetectRes &right) {
        return left.prob > right.prob;
    });

    for (int i = 0; i < (int)detections.size(); i++)
        for (int j = i + 1; j < (int)detections.size(); j++)
        {
            if (detections[i].classes == detections[j].classes)
            {   // 计算DIoU的值
                float iou = IOUCalculate(detections[i], detections[j]);
                if (iou > nms_threshold)
                    detections[j].prob = 0;
            }
        }

    detections.erase(std::remove_if(detections.begin(), detections.end(), [](const DetectRes &det)
    { return det.prob == 0; }), detections.end());
}

// 计算 DIOU
float v5Lite::IOUCalculate(const YOLOv5::DetectRes &det_a, const YOLOv5::DetectRes &det_b) {
    cv::Point2f center_a(det_a.x, det_a.y);
    cv::Point2f center_b(det_b.x, det_b.y);
    // 计算左上角角点坐标
    cv::Point2f left_up(std::min(det_a.x - det_a.w / 2, det_b.x - det_b.w / 2),
                        std::min(det_a.y - det_a.h / 2, det_b.y - det_b.h / 2));
    // 计算右下角角点坐标
    cv::Point2f right_down(std::max(det_a.x + det_a.w / 2, det_b.x + det_b.w / 2),
                           std::max(det_a.y + det_a.h / 2, det_b.y + det_b.h / 2));

    // 计算框的中心点距离
    float distance_d = (center_a - center_b).x * (center_a - center_b).x + (center_a - center_b).y * (center_a - center_b).y;
    // 计算框的角点距离
    float distance_c = (left_up - right_down).x * (left_up - right_down).x + (left_up - right_down).y * (left_up - right_down).y;

    float inter_l = det_a.x - det_a.w / 2 > det_b.x - det_b.w / 2 ? det_a.x - det_a.w / 2 : det_b.x - det_b.w / 2;
    float inter_t = det_a.y - det_a.h / 2 > det_b.y - det_b.h / 2 ? det_a.y - det_a.h / 2 : det_b.y - det_b.h / 2;
    float inter_r = det_a.x + det_a.w / 2 < det_b.x + det_b.w / 2 ? det_a.x + det_a.w / 2 : det_b.x + det_b.w / 2;
    float inter_b = det_a.y + det_a.h / 2 < det_b.y + det_b.h / 2 ? det_a.y + det_a.h / 2 : det_b.y + det_b.h / 2;
    if (inter_b < inter_t || inter_r < inter_l)
        return 0;

    // 计算交集
    float inter_area = (inter_b - inter_t) * (inter_r - inter_l);
    // 计算并集
    float union_area = det_a.w * det_a.h + det_b.w * det_b.h - inter_area;
    if (union_area == 0)
        return 0;
    else
        return inter_area / union_area - distance_d / distance_c;
}

CMakeLists.txt如下：

cmake_minimum_required(VERSION 3.5)

project(v5lite_trt)

set(CMAKE_CXX_STANDARD 14)

# CUDA
find_package(CUDA REQUIRED)
message(STATUS "Find CUDA include at ${CUDA_INCLUDE_DIRS}")
message(STATUS "Find CUDA libraries: ${CUDA_LIBRARIES}")

# TensorRT
set(TENSORRT_ROOT "/home/chaucer/TensorRT-8.0.1.6")

find_path(TENSORRT_INCLUDE_DIR NvInfer.h
        HINTS ${TENSORRT_ROOT} PATH_SUFFIXES include/)
message(STATUS "Found TensorRT headers at ${TENSORRT_INCLUDE_DIR}")

find_library(TENSORRT_LIBRARY_INFER nvinfer
        HINTS ${TENSORRT_ROOT} ${TENSORRT_BUILD} ${CUDA_TOOLKIT_ROOT_DIR}
        PATH_SUFFIXES lib lib64 lib/x64)

find_library(TENSORRT_LIBRARY_ONNXPARSER nvonnxparser
        HINTS  ${TENSORRT_ROOT} ${TENSORRT_BUILD} ${CUDA_TOOLKIT_ROOT_DIR}
        PATH_SUFFIXES lib lib64 lib/x64)

set(TENSORRT_LIBRARY ${TENSORRT_LIBRARY_INFER} ${TENSORRT_LIBRARY_ONNXPARSER})
message(STATUS "Find TensorRT libs: ${TENSORRT_LIBRARY}")

# OpenCV
find_package(OpenCV REQUIRED)
message(STATUS "Find OpenCV include at ${OpenCV_INCLUDE_DIRS}")
message(STATUS "Find OpenCV libraries: ${OpenCV_LIBRARIES}")

set(COMMON_INCLUDE ./includes/common)
set(YAML_INCLUDE ./includes/yaml-cpp/include)
set(YAML_LIB_DIR ./includes/yaml-cpp/libs)

include_directories(${CUDA_INCLUDE_DIRS} ${TENSORRT_INCLUDE_DIR} ${OpenCV_INCLUDE_DIRS} ${COMMON_INCLUDE} ${YAML_INCLUDE})
link_directories(${YAML_LIB_DIR})

add_executable(v5lite_trt main.cpp v5lite.cpp)
target_link_libraries(v5lite_trt ${OpenCV_LIBRARIES} ${CUDA_LIBRARIES} ${TENSORRT_LIBRARY} yaml-cpp)

mkdir build
cd build
cmake ..
make -j8
v5lite_trt ../config.yaml ../samples/

5、检测结果和时间

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第42张图片

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有..._第43张图片

6参考

[1].https://github.com/ppogg/YOLOv5-Lite
[2].https://zhuanlan.zhihu.com/p/400545131
[3].https://github.com/ultralytics/yolov5
[4].https://zhuanlan.zhihu.com/p/172121380
[5].https://zhuanlan.zhihu.com/p/143747206

猜您喜欢：

戳我，查看GAN的系列专辑~！

一顿午饭外卖，成为CV视觉的前沿弄潮儿！

超110篇！CVPR 2021最全GAN论文汇总梳理！

超100篇！CVPR 2020最全GAN论文梳理汇总！

拆解组新的GAN：解耦表征MixNMatch

StarGAN第2版：多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

你可能感兴趣的:(卷积,powerbuilder,计算机视觉,xhtml,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Pyorch中 nn.Conv1d 与 nn.Linear 的区别迪三 #NN_Layer 神经网络
即一维卷积层和全联接层的区别nn.Conv1d和nn.Linear都是PyTorch中的层，它们用于不同的目的，主要区别在于它们处理输入数据的方式和执行的操作类型。nn.Conv1d通过应用滑动过滤器来捕捉序列数据中的局部模式，适用于处理具有时间或序列结构的数据。nn.Linear通过将每个输入与每个输出相连接，捕捉全局关系，适用于将输入数据作为整体处理的任务。1.维度与输入nn.Conv1d（一
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默