滴滴滴'cv

YOLO V4读书笔记

背景
目的
亮点

目标检测构建
Mosaic算法
Mish激活函数

为什么Mish表现这么好
Mish实验总结

Label Smoothing平滑
CIoU(Complete-IoU Loss)
学习率余弦退火算法

backbone
特征金字塔

SPP结构
PANet结构

YoloHead利用获得到的特征进行预测

解码

实验成果

分享几个相关链接

paper链接
code链接
ppt链接可能需要外网，但真的很好用！出不去可以用网盘下
网盘链接提取码：j25i

背景

之前用yolo v3做过救生衣检测，但实际应用效果不太好。后面数据集增加后，并且数据增强了一波，发现效果还是可以的，并且速度也很快。这次四月份出了yolo v4,整体感觉就是把19年新出的几个算法融合了进去。
例如Mix-UP，Cut-Mix，Mosaic算法，就是对多张图像进行处理，对其目标物进行融合、替换或者遮挡，可以增加训练的效果，一张包含四种内容，同时基于之前的实验结论（小物体在loss中占比很小，不到总loss的0.1，说明模型对小物体的网络监督是不足的），可以提交小物体的准确率。

目的

设计一个速度快，易部署，且训练简单的目标检测算法

亮点

开发了一个简单且高效的目标检测算法（YOLOV4），该算法可通过普通的GPU（1080TI或者2080Ti）来训练。
作者验证了在目标检测算法训练过程中不同的技巧tricks对实验性能的影响，这些tricks主要包括Bag-ofFreebies和Bag-of-Specials。
作者修改了一些state-of-the-art(SOTA)的算法，使得这些算法适用于单GPU上训练，这些算法包括了CBN，PAN和SAM等等。

由上图可以看出，在yolov3 的基础上，yolov4的mAP最高可以达到44%，而且保证速度快。
给我的感觉就是yolov4的整体检测思路相差不大，但是每个特征层的训练网络都发生了变化。
YOLOV4改进的部分（不完全）
1、主干特征提取网络：DarkNet53 => CSPDarkNet53
2、特征金字塔：SPP，PAN
3、分类回归层：YOLOv3（未改变）
4、训练用到的小技巧：Mosaic数据增强、Label Smoothing平滑、CIOU、学习率余弦退火衰减
5、激活函数：使用Mish激活函数
以上并非全部的改进部分，还存在一些其它的改进，由于YOLOV4使用的改进实在太多了，很难完全实现与列出来，这里只列出来了一些我比较感兴趣，而且非常有效的改进。

目标检测构建

Object detection = Backbone + Neck + Head

Backbone:主干网络的意思，代表这个网络的深度，决定了最终结果的好坏。用于提取特征，即提取图片中的信息，供后面的网络使用。通常使用别人设计好的网络，例如resnet，ResNeXt等，该层网络一般用官方训练好的网络来提取特征。，后面接着我们自己的网络。让网络的这两个部分同时进行训练，因为加载的Backbone模型已经具有提取特征的能力了，在我们的训练过程中，会对他进行微调，使得其更适合于我们自己的任务。

head：head是获取网络输出内容的网络，利用之前提取的特征，head利用这些特征，做出预测。

neck:是放在backbone和head之间的，是为了更好的利用backbone提取的特征

bottleneck:瓶颈的意思，通常指的是网网络输入的数据维度和输出的维度不同，输出的维度比输入的小了许多，就像脖子一样，变细了。经常设置的参数 bottle_num=256，指的是网络输出的数据的维度是256 ，可是输入进来的可能是1024维度的。

GAP：在设计的网络中经常能够看到gap这个层，我之前不知道是干啥的，后了解了，就是Global Average Pool全局平均池化，就是将某个通道的特征取平均值，经常使用AdaptativeAvgpoold(1),在pytorch中，这个代表自适应性全局平均池化，说人话就是将某个通道的特征取平均值。

Embedding: 深度学习方法都是利用使用线性和非线性转换对复杂的数据进行自动特征抽取，并将特征表示为“向量”（vector），这一过程一般也称为“嵌入”（embedding）

常用的汇总|目标检测中的数据增强、backbone、head、neck、损失函数

Mosaic算法

Yolov4的mosaic 数据增强是参考CutMix数据增强，理论上类似，CutMix的理论可以参考这篇CutMix，但是mosaic利用了四张图片，使得mini-batch大小不需要很大，那么一个GPU就可以达到比较好的效果。
分别对四张图片进行翻转、缩放、色域变化等，并且按照四个方向位置摆好,之后进行图片的组合和框的组合。
从数据上动手，保证训练模型可以拥有足够复杂的训练量，将背景和物体的检测效果更加精确，同时训练效率更加高效。
根据论文所说其拥有一个巨大的优点是丰富检测物体的背景！且在BN计算的时候一下子会计算四张图片的数据！
代码链接
github

def rand(a=0, b=1):
    return np.random.rand()*(b-a) + a

def merge_bboxes(bboxes, cutx, cuty):

    merge_bbox = []
    for i in range(len(bboxes)):
        for box in bboxes[i]:
            tmp_box = []
            x1,y1,x2,y2 = box[0], box[1], box[2], box[3]

            if i == 0:
                if y1 > cuty or x1 > cutx:
                    continue
                if y2 >= cuty and y1 <= cuty:
                    y2 = cuty
                    if y2-y1 < 5:
                        continue
                if x2 >= cutx and x1 <= cutx:
                    x2 = cutx
                    if x2-x1 < 5:
                        continue

            if i == 1:
                if y2 < cuty or x1 > cutx:
                    continue

                if y2 >= cuty and y1 <= cuty:
                    y1 = cuty
                    if y2-y1 < 5:
                        continue

                if x2 >= cutx and x1 <= cutx:
                    x2 = cutx
                    if x2-x1 < 5:
                        continue

            if i == 2:
                if y2 < cuty or x2 < cutx:
                    continue

                if y2 >= cuty and y1 <= cuty:
                    y1 = cuty
                    if y2-y1 < 5:
                        continue

                if x2 >= cutx and x1 <= cutx:
                    x1 = cutx
                    if x2-x1 < 5:
                        continue

            if i == 3:
                if y1 > cuty or x2 < cutx:
                    continue

                if y2 >= cuty and y1 <= cuty:
                    y2 = cuty
                    if y2-y1 < 5:
                        continue

                if x2 >= cutx and x1 <= cutx:
                    x1 = cutx
                    if x2-x1 < 5:
                        continue

            tmp_box.append(x1)
            tmp_box.append(y1)
            tmp_box.append(x2)
            tmp_box.append(y2)
            tmp_box.append(box[-1])
            merge_bbox.append(tmp_box)
    return merge_bbox

def get_random_data(annotation_line, input_shape, random=True, hue=.1, sat=1.5, val=1.5, proc_img=True):
    '''random preprocessing for real-time data augmentation'''
    h, w = input_shape
    min_offset_x = 0.4
    min_offset_y = 0.4
    scale_low = 1-min(min_offset_x,min_offset_y)
    scale_high = scale_low+0.2

    image_datas = [] 
    box_datas = []
    index = 0

    place_x = [0,0,int(w*min_offset_x),int(w*min_offset_x)]
    place_y = [0,int(h*min_offset_y),int(w*min_offset_y),0]
    for line in annotation_line:
        # 每一行进行分割
        line_content = line.split()
        # 打开图片
        image = Image.open(line_content[0])
        image = image.convert("RGB") 
        # 图片的大小
        iw, ih = image.size
        # 保存框的位置
        box = np.array([np.array(list(map(int,box.split(',')))) for box in line_content[1:]])

        # image.save(str(index)+".jpg")
        # 是否翻转图片
        flip = rand()<.5
        if flip and len(box)>0:
            image = image.transpose(Image.FLIP_LEFT_RIGHT)
            box[:, [0,2]] = iw - box[:, [2,0]]

        # 对输入进来的图片进行缩放
        new_ar = w/h
        scale = rand(scale_low, scale_high)
        if new_ar < 1:
            nh = int(scale*h)
            nw = int(nh*new_ar)
        else:
            nw = int(scale*w)
            nh = int(nw/new_ar)
        image = image.resize((nw,nh), Image.BICUBIC)

        # 进行色域变换
        hue = rand(-hue, hue)
        sat = rand(1, sat) if rand()<.5 else 1/rand(1, sat)
        val = rand(1, val) if rand()<.5 else 1/rand(1, val)
        x = rgb_to_hsv(np.array(image)/255.)
        x[..., 0] += hue
        x[..., 0][x[..., 0]>1] -= 1
        x[..., 0][x[..., 0]<0] += 1
        x[..., 1] *= sat
        x[..., 2] *= val
        x[x>1] = 1
        x[x<0] = 0
        image = hsv_to_rgb(x)

        image = Image.fromarray((image*255).astype(np.uint8))
        # 将图片进行放置，分别对应四张分割图片的位置
        dx = place_x[index]
        dy = place_y[index]
        new_image = Image.new('RGB', (w,h), (128,128,128))
        new_image.paste(image, (dx, dy))
        image_data = np.array(new_image)/255

        # Image.fromarray((image_data*255).astype(np.uint8)).save(str(index)+"distort.jpg")

        index = index + 1
        box_data = []
        # 对box进行重新处理
        if len(box)>0:
            np.random.shuffle(box)
            box[:, [0,2]] = box[:, [0,2]]*nw/iw + dx
            box[:, [1,3]] = box[:, [1,3]]*nh/ih + dy
            box[:, 0:2][box[:, 0:2]<0] = 0
            box[:, 2][box[:, 2]>w] = w
            box[:, 3][box[:, 3]>h] = h
            box_w = box[:, 2] - box[:, 0]
            box_h = box[:, 3] - box[:, 1]
            box = box[np.logical_and(box_w>1, box_h>1)]
            box_data = np.zeros((len(box),5))
            box_data[:len(box)] = box

        image_datas.append(image_data)
        box_datas.append(box_data)

        img = Image.fromarray((image_data*255).astype(np.uint8))
        for j in range(len(box_data)):
            thickness = 3
            left, top, right, bottom  = box_data[j][0:4]
            draw = ImageDraw.Draw(img)
            for i in range(thickness):
                draw.rectangle([left + i, top + i, right - i, bottom - i],outline=(255,255,255))
        img.show()


    # 将图片分割，放在一起
    cutx = np.random.randint(int(w*min_offset_x), int(w*(1 - min_offset_x)))
    cuty = np.random.randint(int(h*min_offset_y), int(h*(1 - min_offset_y)))

    new_image = np.zeros([h,w,3])
    new_image[:cuty, :cutx, :] = image_datas[0][:cuty, :cutx, :]
    new_image[cuty:, :cutx, :] = image_datas[1][cuty:, :cutx, :]
    new_image[cuty:, cutx:, :] = image_datas[2][cuty:, cutx:, :]
    new_image[:cuty, cutx:, :] = image_datas[3][:cuty, cutx:, :]

    # 对框进行进一步的处理
    new_boxes = merge_bboxes(box_datas, cutx, cuty)

    return new_image, new_boxes

Mish激活函数

$R e l u (x) = m a x (0, x)$
ReLU和Mish的对比，Mish的梯度更平滑

$Mish = x * tanh(ln(1 + e^x))$

为什么Mish表现这么好

以上无边界(即正值可以达到任何高度)避免了由于封顶而导致的饱和。理论上对负值的轻微允许允许更好的梯度流，而不是像ReLU中那样的硬零边界。

最后，可能也是最重要的，目前的想法是，平滑的激活函数允许更好的信息深入神经网络，从而得到更好的准确性和泛化。

尽管如此，我测试了许多激活函数，它们也满足了其中的许多想法，但大多数都无法执行。这里的主要区别可能是Mish函数在曲线上几乎所有点上的平滑度。

这种通过Mish激活曲线平滑性来推送信息的能力如下图所示，在本文的一个简单测试中，越来越多的层被添加到一个测试神经网络中，而没有一个统一的函数。随着层深的增加，ReLU精度迅速下降，其次是Swish。相比之下，Mish能更好地保持准确性，这可能是因为它能更好地传播信息。

Mish实验总结

ReLU有一些已知的弱点，但是通常它执行起来很轻，并且在计算上很轻。Mish具有较强的理论渊源，在测试中，就训练稳定性和准确性而言，Mish的平均性能优于ReLU。
复杂度只稍微增加了一点(V100 GPU和Mish，相对于ReLU，每epoch增加大约1秒)，考虑到训练稳定性的提高和最终精度的提高，稍微增加一点时间似乎是值得的。
最终，在今年测试了大量新的激活函数后，Mish在这方面处于领先地位，我怀疑它很有可能成为AI未来的新ReLU。

Label Smoothing平滑

对于分类问题，尤其是多类别分类问题中，常常把类别向量做成one-hot vector(独热向量)。one-hot vector 对应的向量可表示为[0, 1, 0]，即对于长度为n 的数组，只有一个元素是1，其余都为0。
对于损失函数，我们需要用预测概率去拟合真实概率，而拟合one-hot的真实概率函数会带来两个问题：

无法保证模型的泛化能力，容易造成过拟合；
全概率和0概率鼓励所属类别和其他类别之间的差距尽可能加大，而由梯度有界可知，这种情况很难adapt。会造成模型过于相信预测的类别。

其实Label Smoothing平滑就是将标签进行一个平滑，原始的标签是0、1，在平滑后变成0.005(如果是二分类)、0.995，也就是说对分类准确做了一点惩罚，让模型不可以分类的太准确，太准确容易过拟合。

new_onehot_labels = onehot_labels * (1 - label_smoothing) + label_smoothing / num_classes

假设我做一个蛋白质二级结构分类，是三分类，那么K=3；

假如一个真实标签是[0, 0, 1]，取epsilon = 0.1，

新标签就变成了（1 - 0.1）× [0, 0, 1] + (0.1 / 3) = [0, 0, 0.9] + [0.0333, 0.0333, 0.0333] = [0.0333, 0.0333, 0.9333]

CIoU(Complete-IoU Loss)

由于IoU 计算的是 “预测的边框” 和 “真实的边框” 的交集和并集的比值。
只是数值上的计算，对框的其他因素都没有考虑进去。例如目标物体的大小也没考虑，Iou
CIOU将目标与anchor之间的距离，重叠率、尺度以及惩罚项都考虑进去，使得目标框回归变得更加稳定，不会像IoU和GIoU一样出现训练过程中发散等问题。而惩罚因子把预测框长宽比拟合目标框的长宽比考虑进去。
$L_{CIoU} = 1 - IoU + \frac{\rho^2(b,b^{gt})}{c^2} + \alpha v$

学习率余弦退火算法

余弦退火衰减法，学习率会先上升再下降，这是退火优化法的思想。（关于什么是退火算法可以百度。）
上升的时候使用线性上升，下降的时候模拟cos函数下降。执行多次。
效果如图所示：

lr_scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=5, eta_min=1e-5)

backbone

在yolov3中Darknet53的结构，其由一系列残差网络结构构成。在Darknet53中，其存在resblock_body模块，其由一次下采样和多次残差结构的堆叠构成，Darknet53便是由resblock_body模块组合而成。

yolov4中对bockbone的改进点主要有两个：

特征提取网络：DarkNet53 => CSPDarkNet53
Relu => Mish激活函数，例如上图中改为DarknetConv2D_BN_Mish(),效果更好，可以提供训练稳定性和最终精度，虽然稍微耗时，但是在接受范围内。
##CSPDarkNet53

上图左边是resblock_body的结构，通过CSPnet的结构，修改为右图。就是将原来残差块的堆叠进行两部分的拆分，分别变为以下两部分：
主干部分(part 2)继续进行原来的残差块的堆叠
另一部分(part 1)则像一个残差边一样，经过少量处理直接连接到最后

CSPnet优化了梯度反向传播路径，提升了网络的学习能力，同时在处理速度和内存方面提升了不少。在目标检测方面，也做了轻量化设计，结果很优秀。

特征金字塔

当输入是608x608时，特征结构如下：

使用了SPP结构和PANet结构,分别在上图用红框和绿框标出来了。

SPP结构

CSPdarknet53的最后一个特征层的卷积处理完后，SPP结构对CSPdarknet53的最后一个特征层进行三次DarknetConv2D_BN_Leaky卷积后，分别利用四个不同尺度的最大池化进行处理，最大池化的池化核大小分别为13x13、9x9、5x5、1x1（1x1即无处理）

#---------------------------------------------------#
#   SPP结构，利用不同大小的池化核进行池化
#   池化后堆叠
#---------------------------------------------------#
class SpatialPyramidPooling(nn.Module):
    def __init__(self, pool_sizes=[5, 9, 13]):
        super(SpatialPyramidPooling, self).__init__()
        self.maxpools = nn.ModuleList([nn.MaxPool2d(pool_size, 1, pool_size//2) for pool_size in pool_sizes])

    def forward(self, x):
        features = [maxpool(x) for maxpool in self.maxpools[::-1]]
        features = torch.cat(features + [x], dim=1)

        return features

其最大作用就是它能够极大地增加感受野，分离出最显著的上下文特征。

PANet结构

PANet是2018的一种实例分割算法，其具体结构由反复提升特征的意思。

上图为原始的PANet的结构，可以看出来其具有一个非常重要的特点就是特征的反复提取。
在（a）里面是传统的特征金字塔结构(FPN)，在完成特征金字塔从下到上的特征提取后，还需要实现（b）中从上到下的特征提取。

由图可以看出，两个上采样+一个下采样，提取到了丰富的特征。

YoloHead利用获得到的特征进行预测

在特征利用部分，YoloV4提取多特征层进行目标检测，一共提取三个特征层，分别位于中间层，中下层，底层，三个特征层的shape分别为(76,76,256)、(38,38,512)、(19,19,1024)。
输出层的shape分别为(19,19,75)，(38,38,75)，(76,76,75)，最后一个维度为75是因为该图是基于voc数据集的，它的类为20种，YoloV4只有针对每一个特征层存在3个先验框，所以最后维度为3x25 = 75。（4+1+20）
[x,y,w,h] + 置信度 + 分类结果
如果使用的是coco训练集，类则为80种，最后的维度应该为255 = 3x85，三个特征层的shape为(19,19,255)，(38,38,255)，(76,76,255)

解码

取出每一类得分大于self.obj_threshold的框和得分。
利用框的位置和得分进行非极大抑制。

实验成果

ss928v100模型的导出、量化和转换 yunken28 python 开发语言
1、yolov8导出为onnxfromultralyticsimportYOLOmodel=YOLO("./best.pt")model.export(format="onnx",imgsz=640,dynamic=False,simplify=True,opset=11,batch=1,half=False)以下是model.export()方法各参数的详细解释：‌format="onnx"‌指
番外篇 | SEAM-YOLO：引入SEAM系列注意力机制，提升遮挡小目标的检测性能小哥谈 YOLOv8：从入门到实战 YOLO 深度学习人工智能机器学习计算机视觉神经网络
前言：Hello大家好，我是小哥谈。SEAM(Squeeze-and-ExcitationAttentionModule)系列注意力机制是一种高效的特征增强方法，特别适合处理遮挡和小目标检测问题。该机制通过建模通道间关系来自适应地重新校准通道特征响应。在遮挡小目标检测中的应用优势包括：1）通道注意力增强：SEAM通过全局平均池化捕获通道级全局信息，帮助网络在遮挡情况下仍能关注关键特征。2）多尺度特
目标追踪数据标注 sethrsinine 目标跟踪
在将YOLO（目标检测）和DeepSORT（目标追踪）结合时，数据标注需要同时满足检测和追踪的需求。以下是具体的分阶段标注策略和操作指南：一、标注的核心要求检测标注：每帧中目标的边界框（BoundingBox）和类别标签（如行人、车辆）。追踪标注：跨帧的目标ID（TrackID），确保同一目标在不同帧中ID一致。二、分阶段标注流程阶段1：视频预处理•目标：将视频转换为可标注的帧序列。•操作：使用F
【目标检测】YOLOv13：超图增强的实时目标检测新标杆，值得收藏。 Carl_奕然机器视觉与目标检测目标检测 YOLO 人工智能
一文掌握YOLOv13最新特性1、引言2、Yolov13详细讲解2.1发布时间与背景2.2相对于YOLOv12的核心提升2.2.1精度显著提升2.2.2轻量化与效率优化2.2.3高阶语义建模能力2.3架构设计与核心创新2.3.1超图自适应关联增强（HyperACE）2.3.2全流程聚合-分发（FullPAD）2.3.3轻量化模块设计2.4性能对比2.4代码示例2.4.1环境配置2.4.2训练代码2
RDK X5/X3 yolov5目标检测从环境搭建到设备集成激萌の小宅 YOLO YOLO 目标检测人工智能
1、RDKX5yolov5目标检测之训练环境搭建2、RDKX5yolov5目标检测之pt转onnx3、RDKX5yolov5目标检测之开发机环境部署4、RDKX5yolov5目标检测之onnx转bin5、RDKX5yolov5目标检测之开发板运行
口罩检测数据集-1591张图片疫情防控管理智能门禁系统公共场所安全监控 cver123 数据集目标跟踪人工智能计算机视觉目标检测 pytorch
口罩检测数据集-1591张图片已发布目标检测数据集合集（持续更新）口罩检测数据集介绍数据集概览包含类别应用场景数据样本展示文件结构与使用建议使用建议技术标签YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.数据准备2.1数据标注格式（YOLO）2.2文件结构示例2.3创建data.yaml配置文件3.模型训练关键参数补充说明：4.模型验证与测试4.1验证模型性能关键参
YOLOv8模型在RDK5开发板上的部署指南：.pt到.bin转换与优化实践 pk_xz123456 python 算法仿真模型 YOLO 人工智能 rnn 深度学习开发语言 lstm
以下是针对在RDK5开发板（基于NVIDIAJetsonOrin平台）部署YOLOv8模型的详细技术指南，涵盖从模型转换、优化到部署的全流程：YOLOv8模型在RDK5开发板上的部署指南：.pt到.bin转换与优化实践——基于TensorRT的高性能嵌入式部署方案第一章：技术背景与核心概念1.1RDK5开发板硬件架构NVIDIAJetsonOrinNX核心参数：1024-coreAmpereGPU
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-block.py 红色的山茶花 YOLO 笔记深度学习
block.pyultralytics\nn\modules\block.py目录block.py1.所需的库和模块2.classDFL(nn.Module):3.classProto(nn.Module):4.classHGStem(nn.Module):5.classHGBlock(nn.Module):6.classSPP(nn.Module):7.classSPPF(nn.Module):
基于YOLOv5的监控摄像头遮挡检测系统：从数据集到UI界面的完整实现芯作者 D2:YOLO YOLO 神经网络
实时守护监控设备安全，智能识别遮挡攻击的AI解决方案一、问题背景与系统价值在安防监控领域，摄像头遮挡是常见的恶意攻击手段——统计显示35%的安防失效源于摄像头被遮挡。传统方案依赖人工巡查，效率低下且响应延迟。本文将带你构建完整的AI遮挡检测系统，核心创新点：双模检测机制：YOLOv5目标检测+背景建模异常分析轻量化部署：模型量化压缩至1.8MB动态学习：运行时自动更新异常样本库二、系统架构设计[视
Windows系统部署YOLOv5 v6.1版本的训练与推理环境保姆级教程 lujx_1024 windows YOLO
文章目录一·概述二·依赖环境(`prerequisites`)2.1硬件环境2.2软件环境三·环境安装3.1创建并激活虚拟环境3.2安装`Pytorch`与`torchvision`3.3校验`Pytorch`安装3.4下载`YOLOv5``v6.1`源码3.5安装`YOLOv5`依赖3.6下载预训练模型3.7安装其他依赖3.8测试环境安装3.9测试训练流程四·参考链接一·概述本文档主要记录使用工
Python编程：使用 YOLO 目标检测倔强老吕 python 开发语言
YOLO（YouOnlyLookOnce）是一种基于深度学习的实时目标检测算法，由JosephRedmon等人于2016年首次提出。与传统的两阶段目标检测方法（如R-CNN系列）不同，YOLO将目标检测任务视为一个单一的回归问题，直接在图像上进行一次推理即可预测边界框和类别概率。YOLO的核心思想单次前向传播（SingleShotDetection）：YOLO只需对输入图像进行一次神经网络推理，就
基于YOLOv8和Faster R-CNN的输电线路异物目标检测项目检测输电线异物数据集输电线缺陷数据集绝缘子如何使用YOLOv8和Faster R-CNN训练输电线路异物目标检测数据集 QQ67658008 YOLO r语言 cnn 输电线路绝缘子线路异物目标检测
电力篇-输电线路缺陷数据集输电线路异物目标检测数据集16000张5种检测目标：‘burst’-爆裂‘defect’-缺陷‘foreign_obj’-异物‘insulator’-绝缘体‘nest’-窝（巢）带标注-YOLO格式可直接用于YOLO系列目标检测算法模型训练如何使用YOLOv8和FasterR-CNN训练输电线路异物目标检测数据集的详细步骤和代码。假设数据集包含16000张图片和5种检测目
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
道路交通标志检测数据集-智能地图与导航交通监控与执法智慧城市交通管理-2,000 张图像 cver123 数据集智慧城市人工智能目标跟踪计算机视觉目标检测
道路交通标志检测数据集已发布目标检测数据集合集（持续更新）道路交通标志检测数据集介绍数据集概览包含类别应用场景数据样本展示YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.数据准备2.1数据标注格式（YOLO）2.2文件结构示例2.3创建data.yaml配置文件3.模型训练关键参数补充说明：4.模型验证与测试4.1验证模型性能关键参数详解常用可选参数典型输出指标4.
Learning PostgresSQL读书笔记: 第8章 Triggers and Rules dingdingfish PostgresSQL postgresql database architecture tutorial
本章将讨论以下内容：•探索PostgreSQL中的规则•管理PostgreSQL中的触发器•事件触发器探索PostgreSQL中的规则文档中的这段话阐述了rule和trigger的区别：PostgreSQL规则系统允许定义在数据库表中插入、更新或删除时执行的替代操作。粗略地说，当对给定表执行给定命令时，规则会执行其他命令。或者，INSTEAD规则可以用另一个命令替换给定命令，或者导致命令根本不执行
onnx-web + yolov8n 在视频流里做推理 CHEN_RUI_2200 人工智能 YOLO
顺着我上一篇文章使用onnxruntime-web运行yolov8-nano推理继续说，有朋友在问能不能接入视频流动，实时去识别物品。首先使用getUserMedia获取摄像头视频流getUserMediaAPI可以访问设备的摄像头和麦克风。你可以使用这个API获取视频流，并将其显示在页面上的标签中。注意事项：浏览器支持：getUserMedia被现代浏览器大多数支持，但在一些旧版浏览器上可能不兼
使用YOLOv5-ONNX-PyQT-EXE: 全栈式对象检测应用的构建与部署
使用YOLOv5-ONNX-PyQT-EXE:全栈式对象检测应用的构建与部署去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，实时对象检测是一个至关重要的任务。是一个开源项目，它将流行的YOLOv5对象检测模型集成到ONNX(OpenNeuralNetworkExchange)中，并通过PyQT构建了一个可执行的应用程序，使得非开发人员也能轻松地进行对象检测。项目简
基于YOLOv8的桃子成熟度检测系统，支持图片、视频、摄像头输入，PyQt5界面检测。识别并分类桃子的成熟度（未熟、半熟、成熟） QQ67658008 YOLO 音视频 qt 桃子成熟水果成熟度检测系统
基于YOLOv8的桃子成熟度检测系统，支持图片、视频、摄像头输入，PyQt5界面检测。识别并分类桃子的成熟度（未熟、半熟、成熟）文章目录调用示例加载预训练模型开始训练加载训练好的模型在验证集上评估加载训练好的模型文字及代码仅供参考。桃子成熟度分类检测数据集，主要用于桃子成熟度分类检测应用任务数据背景：模拟实际田间条件，涵盖多种可能影响桃子检测准确性的因素，如变化的自然光照强度、多果粘连现象以及由枝
YOLOv5-7.0解决报错 wandb: Network error (TransientError), entering retry loop. Paper Clouds Yolo目标检测 YOLO 人工智能机器学习 python pytorch 深度学习目标检测
前言最近在复习yolov5目标检测代码时用了yolov5的最新7.0版本，之前用的是5.0版本，这一新版本相对于之前做了一些提升，对于package的兼容也要好了很多，但也不是说下载了直接就能运行，实际使用过程中还是遇到了许多新的问题，下面就我自己碰到的问题提出解决方法。问题wandb是非常好用的可视化工具，但是国内的话，使用时常常会无法同步数据，需要借助魔法来连接服务器，而yolov5的源码恰恰
基于 opencv+yolov8+easyocr的车牌追踪识别（ECUT）Edward-tan 人工智能--CV python进阶全栈开发 opencv yolov8 ocr python
（本项目所有代码打包至我的资源中，大家可在我的文章底部选择下载）目录需求实现效果学习视频大致思路代码实现资源下载需求通过车辆识别技术，识别视频中每个车辆及其车牌号，车辆应进行追踪，避免重复计数量。实现效果车牌识别学习视频使用Python、Yolov8和EasyOCR自动识别车牌计算机视觉教程_哔哩哔哩_bilibili大致思路通过opencv将视频转换为帧，对帧应用车辆识别模型，并使用model.
深度学习应用于情感识别：利用YOLOv8进行AffectNet情感分类 YOLO实战营深度学习 YOLO 分类人工智能目标检测目标跟踪数据挖掘
引言情感识别（EmotionRecognition）是计算机视觉和自然语言处理中的一个重要研究方向，广泛应用于人机交互、智能客服、心理健康监测、视频分析等领域。随着深度学习技术的发展，情感识别取得了显著进展，特别是在面部表情识别方面。面部表情作为人类情感的自然表现之一，能在很大程度上反映个体的情感状态。AffectNet数据集是一个广泛使用的情感识别数据集，它包含了大量带有标注情感标签的面部表情图
如何使用YOLOv8对遥感图像中的滑坡-泥石流进行分割深度学习遥感图像滑坡泥石流分割数据集的训练及应用计算机C9硕士_算法工程师 YOLO 深度学习人工智能
如何使用YOLOv8对遥感图像中的滑坡-泥石流进行分割深度学习遥感图像滑坡泥石流分割数据集的训练及应用文章目录遥感图像滑坡-泥石流分割数据集情况数据集概述类别统计总体统计注意事项✅一、安装CUDA驱动（Linux示例）✅二、安装Anaconda（Linux示例）✅三、创建Python虚拟环境并安装依赖✅四、数据集结构示例（遥感图像滑坡-泥石流分割）✅五、创建data.yaml文件（用于训练）✅六、
深度学习目标检测中使用YOLOv8训练树冠检测数据集，从环境设置、数据准备、模型训练、推理和结果可视化计算机C9硕士_算法工程师深度学习目标检测 YOLO
深度学习目标检测中使用YOLOv8训练树冠检测数据集，从环境设置、数据准备、模型训练、推理和结果可视化文章目录1.环境设置2.数据准备3.模型训练4.推理与结果可视化推理代码示例5.构建可视化界面PyQt5GUI代码示例总结以下文字及代码仅供参考。树冠检测数据集的训练及推理1使用YOLOv8训练树冠检测数据集，从环境设置、数据准备、模型训练、推理和结果可视化等方面进行详细介绍。1.环境设置首先确保
读书笔记（世界上最神奇的24堂课）
1、我们的思想才是能力和力量的源泉，因为依靠外在的帮助才使我们变得软弱，只要你愿意，你就可以成为帮助别人的强者而不是被帮助的弱者。2、事凡有果，势必有因。人们如果想要实现自己的志向抱负，就得为这一愿望创造出它所必需的特定条件。3、思维是精神过程的惟一活动方式，而观念，是思维活动的惟一产物。4、每个人的客观环境和一切生活际遇，都是主观思维在客观世界中的反映。我们的思想主导着我们的行动。5、所有的成就
《内心强大不怯场》读书笔记4 mitt_ 笔记
40.面对忙碌与压力，应保持从容，做事前静心规划，可提升效率。41.人际交往中，以德抱怨，得理饶人，能收获人心，利于营造良好关系。42.宽容是可贵品质，不仅非懦弱，还能在退让中得拥戴，让人际关系保持良好。43.人生要懂得舍取，不盲目坚持，适时放弃才能抓住更重要的事，保持幸福。44.面对错误要坦然，从中汲取经验，还应宽容他人错误。45.要善于从错误中成长，聪明人愿及时发现并改正缺点。46.愤怒易让人
《内心强大不怯场》读书笔记1 mitt_ 笔记
1.树立理想：尽早确定可奋斗的理想，有野心才能驱动行动。2.面对不如意，积极行动比抱怨更能解决问题。3.希望是生活前进动力，绝境中也别放弃希望。4.提前按理想状态生活，能更快接近梦想。5.别把命运交给他人，努力为自己当家做主。6.人生难有顺遂，无论普通人还是成功者遇挫折，要主动迎接命运，勇敢面对才能主宰命运。7.艰难坎坷的遇境能促人成长，面对命运应改变态度，提升自我，坚持跨越困难。8.改变命运需大
《内心强大不怯场》读书笔记2 mitt_ 笔记
11.自信的人了解并接纳自己，坚定且有魅力，易赢得他人信任，利于融入团队，取得成功，还能感染他人增强团队凝聚力。12.面对生活中的不如意，与其对抗外界，不如改变自己的心态，内心的转变能影响对世界的感受。13.积极的自我心理能带来幸福，要学会用积极的心态看待日常，幸福是一种可选择的习惯。14.懂得拒绝至关重要，有利于提高我们的工作效率和生活质量。15.要懂得拒绝，拒绝使自己快乐，拒绝利于提升工作生活
《内心强大不怯场》读书笔记3 mitt_ 笔记
26.看待人和事物要从多角度出发，这样才能客观公正，找到处理问题的最佳解决方法，避免片面判断。27.转换角度思考能带来新发现，突破思维方式，助力解决问题，取得成功。28.面对生活困苦要保持乐观坚强，自尊自爱，相信不幸会过去，美好会到来。29.勇气是事业成功的基础，缺乏勇气一事无成，要克服内心畏惧，凭借勇气和坚韧战胜挫折。30.实现梦想需勇气相伴，面对坎坷挫折，要有勇气坚持不放弃。才能抵达梦想彼岸。
《开窍·开悟·开智》读书笔记 mitt_ 笔记
1.打破常规思维，不被习惯束缚去看待事情。2.真是自己的情绪，别让负面情绪主导行为。3.真诚倾听他人观点，别急于表达自己。4.制定清晰计划，合理分配时间，提高效率。5.全面认识自己，挖掘潜在优势和隐藏不足。6.运用一些方法训练专注力，如限时任务。7.用积极乐观的心态，主动迎接挑战。8.与他人交往多付出真心，而非只考虑自身利益。9.树立终身学习观念，不断更新知识储备。10.面对压力通过运动，倾诉等方
《内心强大不怯场》读书笔记5 mitt_ 笔记
54.雄心是成就起点，能激发潜能，让人坚持进取，助开拓财富路。55.要学习狼的顽强生命力，斗志，忠诚合作，助力应对竞争。56.与困难别装可怜，自强自立才易获真正帮助，获他人敬佩。57.突发状况时，务必保持镇定，冷静应对才能解决问题。58.面对突发问题，可佯装镇定，想出办法保护自身安全。59.相变强大需越挫越勇，强者从不因小磨难放弃，要抓住机遇。60.告别软弱，学会掌控大局，别因他人操控失去自我，要
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

YOLO V4读书笔记