半糖390

yolov3原理加代码的理解

这里是要自信！以下内容是我参考了很多优秀博主优质视频和博客，做的自己对于学习yolov1-v3的总结，希望对于和我一样的小白有所理解和帮助吧！

前言

哈喽呀，好久没有写word了，这里是我记录学习心得的地方，希望自己写出来的东西有啥不对的地方欢迎批评指正哟！前一阵子，最开始作为啥也不会的小白的时候，我看了唐宇迪的课，然后建立了基础的yolov1到yolov3的理解，后来找了个yolov5的代码去理解，我突然发现自己的理论基础还是不牢固，并且代码太难读了，所以现在又重新从yolov1到yolov3建立基础理解。所以给大家的忠诚建议就是面对b站上的种种资源，一定要好好选择，比如唐宇迪的团队力量很大，几乎B站都是他的推销课，说实话，对于啥也不懂的小白或许有用，但对于想学懂目标检测或想深挖这个算法或原理或某个词的概念的小白来说，忠诚建议，他的课属实不适合。那究竟该如何选择视频跟着学呢？我的建议是去b站找播放量上万的那种，或者最少也得七八千播放量吧。再就是评论量偏高的那种（因为团队卖课的会互相评论视频而且评论量就几条，遇到这种就直接pass掉吧哈哈哈）。对于目标检测yolo算法这里，我的建议是先把pytorch基础环境配置搞懂（b站我是土堆），然后跟着视频读文章（b站同济子豪兄），再跟着视频先去理解别人用自己的代码去复现原理（b站Bubbliiiing），再就是去找源码的解读（b站我是土堆、霹雳吧啦Wz、薛定谔的AI，科科带你学，刘二大人、白老师的人工智能课堂）。以上是我作为接触目标检测两个月的小白，觉得不错的b站up主，这些都可以看看，大家加油哇！！！

一、yolov1是什么？

这一部分我就直接简单的说一说，如果有需要的话，就去看子豪兄的视频讲解，他的论文讲解会在他的视频下方提示你去哪里下载【精读AI论文】YOLO V1目标检测，看我就够了_哔哩哔哩_bilibili

1、总体框架

2、整体流程

训练阶段：标签Ground Truth框中心点落在哪个grid cell中就应由哪个grid cell预测这个物体，每个gride cell预测b个bounding boxes（译为先验框或者锚框）与Ground Truth框（译为人工标注框或者真实框）IOU最大的 bounding boxes负责预测这个物体。每个gride cell只检测一个物体。包含/不包含Ground Truth的grid cell/bounding box依损失函数分别处理。

测试阶段：直接获得S×S×（5×B+C）个向量进行非极大值抑制处理得到目标检测的结果，其中S×S是把这个图片划分为多少个网格，5是代表5个参数（x,y,w,h,confidence), B是代表一个种类会产生几个bounding boxes（译为先验框或者锚框），C代表要检测的种类的个数

3、网络结构vgg16

输入大小改为448 * 448，这是通过调整第一个卷积层的步长来实现的；网络使用了很多1*1的卷积层来进行特征降维；最后一个卷积层的输出为(7, 7, 1024)，经过flatten后紧跟两个全连接层，形成一个线性回归，最后一个全连接层又被reshape成(7, 7, 30)，形成对2个box坐标及20个物体类别的预测(PASCAL VOC)。
4、损失函数

二、yolov2是什么？

1、总体框架

输入是416×416的图片，输出是13×13的图片。基本训练和测试的流程和yolov1一样，但它一个种类会产生5个先验框，所以S×S×（5×B+C）这里的B是5，S×S是13×13，C代表要检测的种类的个数。

2.网络结构

因为原文并没有给出具体这个网络是啥样的，所以我在网上搜了半天才找到这个网络结构，方便大家理解。要是想将网络和代码配合着看的话，可以根据我下面的两张图对应着看，有的时候多去思考去推，就会发现这个东西不难。

YOLOv2使用了一个新的分类网络DarkNet19作为特征提取部分，DarkNet19包含19个卷积层、5个最大值池化层。网络使用了较多的3 x 3卷积核，在每一次池化操作后把通道数翻倍。借鉴了network in network的思想，把1 x 1的卷积核置于3 x 3的卷积核之间，用来压缩特征。使用batch normalization稳定模型训练，加速收敛，正则化模型。

这里的layer表示的是第几层，filters是通道数，size是卷积核大小，input是输入大小，output是输出大小，输入和输出一定要对应上。睿智的目标检测6——yolo2详解及其预测代码复现_Bubbliiiing的博客-CSDN博客

其中融合这一处，是将26×26×512进行一个3×3的卷积之后，变成26×26×64，再将其通过passthrough细粒度特性变成13×13×256，最后经过融合，再进行一次卷积后，变成13×13×125（这里是用voc数据集20类，125=（20+5）×5，若用coco数据集80类，则425=（80+5）×5）

3、损失计算

三、yolov3是什么

关于yolov3，我是跟着b站up主Bubbliiiing的视频学的,如果之前有接触一段时间yolo，没弄明白它的话，去看这个视频，就会有很大的收获。

Pytorch 搭建自己的YOLO3目标检测平台（Bubbliiiing 深度学习教程）_哔哩哔哩_bilibili

1、网络结构

具体结构：

输出特征层及先验框大小

YoloV3所使用的主干特征提取网络为Darknet53，它具有两个重要特点：
a、Darknet53具有一个重要特点是使用了残差网络Residual，Darknet53中的残差卷积就是首先进行一次卷积核大小为3X3、步长为2的卷积，该卷积会压缩输入进来的特征层的宽和高，此时我们可以获得一个特征层，我们将该特征层命名为layer。之后我们再对该特征层进行一次1X1的卷积和一次3X3的卷积，并把这个结果加上layer，此时我们便构成了残差结构。通过不断的1X1卷积和3X3卷积以及残差边的叠加，我们便大幅度的加深了网络。残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

b、Darknet53的每一个卷积部分使用了特有的DarknetConv2D结构，每一次卷积的时候进行l2正则化，完成卷积后进行BatchNormalization标准化与LeakyReLU。普通的ReLU是将所有的负值都设为零，Leaky ReLU则是给所有负值赋予一个非零斜率。

2、整体流程

整体流程包括了训练流程和测试流程。

3、损失函数

拿到pred和target后，不可以简单的减一下作为对比，需要进行如下步骤。

A.判断真实框在图片中的位置，判断其属于哪一个网格点去检测。判断真实框和这个特征点的哪个先验框重合程度最高。计算该网格点应该有怎么样的预测结果才能获得真实框，与真实框重合度最高的先验框被用于作为正样本。
B.根据网络的预测结果获得预测框，计算预测框和所有真实框的重合程度，如果重合程度大于一定门限，则将该预测框对应的先验框忽略。其余作为负样本。
C.最终损失由三个部分组成：a、正样本，编码后的长宽与xy轴偏移量与预测值的差距。b、正样本，预测结果中置信度的值与1对比；负样本，预测结果中置信度的值与0对比。c、实际存在的框，种类预测结果与实际结果的对比。

aa.原文作者规定的损失函数计算如下【精读AI论文】YOLO V3目标检测（附YOLOV3代码复现）_哔哩哔哩_bilibili

相应的计算损失的代码如下所示。Pytorch 搭建自己的YOLO3目标检测平台（Bubbliiiing 深度学习教程）_哔哩哔哩_bilibili

import math
from functools import partial

import numpy as np
import torch
import torch.nn as nn

class YOLOLoss(nn.Module):
    def __init__(self, anchors, num_classes, input_shape, cuda, anchors_mask = [[6,7,8], [3,4,5], [0,1,2]]):
        super(YOLOLoss, self).__init__()
        #-----------------------------------------------------------#
        #   13x13的特征层对应的anchor是[116,90],[156,198],[373,326]
        #   26x26的特征层对应的anchor是[30,61],[62,45],[59,119]
        #   52x52的特征层对应的anchor是[10,13],[16,30],[33,23]
        #-----------------------------------------------------------#
        self.anchors        = anchors
        self.num_classes    = num_classes
        self.bbox_attrs     = 5 + num_classes
        self.input_shape    = input_shape
        self.anchors_mask   = anchors_mask

        self.giou           = True
        self.balance        = [0.4, 1.0, 4]
        self.box_ratio      = 0.05
        self.obj_ratio      = 5 * (input_shape[0] * input_shape[1]) / (416 ** 2)
        self.cls_ratio      = 1 * (num_classes / 80)

        self.ignore_threshold = 0.5
        self.cuda           = cuda

    def clip_by_tensor(self, t, t_min, t_max):
        t = t.float()
        result = (t >= t_min).float() * t + (t < t_min).float() * t_min
        result = (result <= t_max).float() * result + (result > t_max).float() * t_max
        return result

    def MSELoss(self, pred, target):
        return torch.pow(pred - target, 2)

    def BCELoss(self, pred, target):
        epsilon = 1e-7
        pred    = self.clip_by_tensor(pred, epsilon, 1.0 - epsilon)
        output  = - target * torch.log(pred) - (1.0 - target) * torch.log(1.0 - pred)
        return output

    def box_giou(self, b1, b2):
        """
        输入为：
        ----------
        b1: tensor, shape=(batch, feat_w, feat_h, anchor_num, 4), xywh
        b2: tensor, shape=(batch, feat_w, feat_h, anchor_num, 4), xywh

        返回为：
        -------
        giou: tensor, shape=(batch, feat_w, feat_h, anchor_num, 1)
        """
        #----------------------------------------------------#
        #   求出预测框左上角右下角
        #----------------------------------------------------#
        b1_xy       = b1[..., :2]
        b1_wh       = b1[..., 2:4]
        b1_wh_half  = b1_wh/2.
        b1_mins     = b1_xy - b1_wh_half
        b1_maxes    = b1_xy + b1_wh_half
        #----------------------------------------------------#
        #   求出真实框左上角右下角
        #----------------------------------------------------#
        b2_xy       = b2[..., :2]
        b2_wh       = b2[..., 2:4]
        b2_wh_half  = b2_wh/2.
        b2_mins     = b2_xy - b2_wh_half
        b2_maxes    = b2_xy + b2_wh_half

        #----------------------------------------------------#
        #   求真实框和预测框所有的iou
        #----------------------------------------------------#
        intersect_mins  = torch.max(b1_mins, b2_mins)
        intersect_maxes = torch.min(b1_maxes, b2_maxes)
        intersect_wh    = torch.max(intersect_maxes - intersect_mins, torch.zeros_like(intersect_maxes))
        intersect_area  = intersect_wh[..., 0] * intersect_wh[..., 1]
        b1_area         = b1_wh[..., 0] * b1_wh[..., 1]
        b2_area         = b2_wh[..., 0] * b2_wh[..., 1]
        union_area      = b1_area + b2_area - intersect_area
        iou             = intersect_area / union_area

        #----------------------------------------------------#
        #   找到包裹两个框的最小框的左上角和右下角
        #----------------------------------------------------#
        enclose_mins    = torch.min(b1_mins, b2_mins)
        enclose_maxes   = torch.max(b1_maxes, b2_maxes)
        enclose_wh      = torch.max(enclose_maxes - enclose_mins, torch.zeros_like(intersect_maxes))
        #----------------------------------------------------#
        #   计算对角线距离
        #----------------------------------------------------#
        enclose_area    = enclose_wh[..., 0] * enclose_wh[..., 1]
        giou            = iou - (enclose_area - union_area) / enclose_area
        
        return giou
        
    def forward(self, l, input, targets=None):
        #----------------------------------------------------#
        #   l代表的是，当前输入进来的有效特征层，是第几个有效特征层
        #   input的shape为  bs, 3*(5+num_classes), 13, 13
        #                   bs, 3*(5+num_classes), 26, 26
        #                   bs, 3*(5+num_classes), 52, 52
        #   targets代表的是真实框。
        #----------------------------------------------------#
        #--------------------------------#
        #   获得图片数量，特征层的高和宽
        #   13和13
        #--------------------------------#
        bs      = input.size(0)
        in_h    = input.size(2)
        in_w    = input.size(3)
        #-----------------------------------------------------------------------#
        #   计算步长
        #   每一个特征点对应原来的图片上多少个像素点
        #   如果特征层为13x13的话，一个特征点就对应原来的图片上的32个像素点
        #   如果特征层为26x26的话，一个特征点就对应原来的图片上的16个像素点
        #   如果特征层为52x52的话，一个特征点就对应原来的图片上的8个像素点
        #   stride_h = stride_w = 32、16、8
        #   stride_h和stride_w都是32。
        #-----------------------------------------------------------------------#
        stride_h = self.input_shape[0] / in_h
        stride_w = self.input_shape[1] / in_w
        #-------------------------------------------------#
        #   此时获得的scaled_anchors大小是相对于特征层的
        #-------------------------------------------------#
        scaled_anchors  = [(a_w / stride_w, a_h / stride_h) for a_w, a_h in self.anchors]
        #-----------------------------------------------#
        #   输入的input一共有三个，他们的shape分别是
        #   bs, 3*(5+num_classes), 13, 13 => batch_size, 3, 13, 13, 5 + num_classes
        #   batch_size, 3, 26, 26, 5 + num_classes
        #   batch_size, 3, 52, 52, 5 + num_classes
        #-----------------------------------------------#
        prediction = input.view(bs, len(self.anchors_mask[l]), self.bbox_attrs, in_h, in_w).permute(0, 1, 3, 4, 2).contiguous()
        
        #-----------------------------------------------#
        #   先验框的中心位置的调整参数
        #-----------------------------------------------#
        x = torch.sigmoid(prediction[..., 0])
        y = torch.sigmoid(prediction[..., 1])
        #-----------------------------------------------#
        #   先验框的宽高调整参数
        #-----------------------------------------------#
        w = prediction[..., 2]
        h = prediction[..., 3]
        #-----------------------------------------------#
        #   获得置信度，是否有物体
        #-----------------------------------------------#
        conf = torch.sigmoid(prediction[..., 4])
        #-----------------------------------------------#
        #   种类置信度
        #-----------------------------------------------#
        pred_cls = torch.sigmoid(prediction[..., 5:])

        #-----------------------------------------------#
        #   获得网络应该有的预测结果
        #-----------------------------------------------#
        y_true, noobj_mask, box_loss_scale = self.get_target(l, targets, scaled_anchors, in_h, in_w)

        #---------------------------------------------------------------#
        #   将预测结果进行解码，判断预测结果和真实值的重合程度
        #   如果重合程度过大则忽略，因为这些特征点属于预测比较准确的特征点
        #   作为负样本不合适
        #----------------------------------------------------------------#
        noobj_mask, pred_boxes = self.get_ignore(l, x, y, h, w, targets, scaled_anchors, in_h, in_w, noobj_mask)

        if self.cuda:
            y_true          = y_true.type_as(x)
            noobj_mask      = noobj_mask.type_as(x)
            box_loss_scale  = box_loss_scale.type_as(x)
        #--------------------------------------------------------------------------#
        #   box_loss_scale是真实框宽高的乘积，宽高均在0-1之间，因此乘积也在0-1之间。
        #   2-宽高的乘积代表真实框越大，比重越小，小框的比重更大。
        #--------------------------------------------------------------------------#
        box_loss_scale = 2 - box_loss_scale
            
        loss        = 0
        obj_mask    = y_true[..., 4] == 1
        n           = torch.sum(obj_mask)
        if n != 0:
            if self.giou:
                #---------------------------------------------------------------#
                #   计算预测结果和真实结果的giou
                #----------------------------------------------------------------#
                giou        = self.box_giou(pred_boxes, y_true[..., :4]).type_as(x)
                loss_loc    = torch.mean((1 - giou)[obj_mask])
            else:
                #-----------------------------------------------------------#
                #   计算中心偏移情况的loss，使用BCELoss效果好一些
                #-----------------------------------------------------------#
                loss_x      = torch.mean(self.BCELoss(x[obj_mask], y_true[..., 0][obj_mask]) * box_loss_scale[obj_mask])
                loss_y      = torch.mean(self.BCELoss(y[obj_mask], y_true[..., 1][obj_mask]) * box_loss_scale[obj_mask])
                #-----------------------------------------------------------#
                #   计算宽高调整值的loss
                #-----------------------------------------------------------#
                loss_w      = torch.mean(self.MSELoss(w[obj_mask], y_true[..., 2][obj_mask]) * box_loss_scale[obj_mask])
                loss_h      = torch.mean(self.MSELoss(h[obj_mask], y_true[..., 3][obj_mask]) * box_loss_scale[obj_mask])
                loss_loc    = (loss_x + loss_y + loss_h + loss_w) * 0.1

            loss_cls    = torch.mean(self.BCELoss(pred_cls[obj_mask], y_true[..., 5:][obj_mask]))
            loss        += loss_loc * self.box_ratio + loss_cls * self.cls_ratio

        loss_conf   = torch.mean(self.BCELoss(conf, obj_mask.type_as(conf))[noobj_mask.bool() | obj_mask])
        loss        += loss_conf * self.balance[l] * self.obj_ratio
        # if n != 0:
        #     print(loss_loc * self.box_ratio, loss_cls * self.cls_ratio, loss_conf * self.balance[l] * self.obj_ratio)
        return loss

    def calculate_iou(self, _box_a, _box_b):
        #-----------------------------------------------------------#
        #   计算真实框的左上角和右下角
        #-----------------------------------------------------------#
        b1_x1, b1_x2 = _box_a[:, 0] - _box_a[:, 2] / 2, _box_a[:, 0] + _box_a[:, 2] / 2
        b1_y1, b1_y2 = _box_a[:, 1] - _box_a[:, 3] / 2, _box_a[:, 1] + _box_a[:, 3] / 2
        #-----------------------------------------------------------#
        #   计算先验框获得的预测框的左上角和右下角
        #-----------------------------------------------------------#
        b2_x1, b2_x2 = _box_b[:, 0] - _box_b[:, 2] / 2, _box_b[:, 0] + _box_b[:, 2] / 2
        b2_y1, b2_y2 = _box_b[:, 1] - _box_b[:, 3] / 2, _box_b[:, 1] + _box_b[:, 3] / 2

        #-----------------------------------------------------------#
        #   将真实框和预测框都转化成左上角右下角的形式
        #-----------------------------------------------------------#
        box_a = torch.zeros_like(_box_a)
        box_b = torch.zeros_like(_box_b)
        box_a[:, 0], box_a[:, 1], box_a[:, 2], box_a[:, 3] = b1_x1, b1_y1, b1_x2, b1_y2
        box_b[:, 0], box_b[:, 1], box_b[:, 2], box_b[:, 3] = b2_x1, b2_y1, b2_x2, b2_y2

        #-----------------------------------------------------------#
        #   A为真实框的数量，B为先验框的数量
        #-----------------------------------------------------------#
        A = box_a.size(0)
        B = box_b.size(0)

        #-----------------------------------------------------------#
        #   计算交的面积
        #-----------------------------------------------------------#
        max_xy  = torch.min(box_a[:, 2:].unsqueeze(1).expand(A, B, 2), box_b[:, 2:].unsqueeze(0).expand(A, B, 2))
        min_xy  = torch.max(box_a[:, :2].unsqueeze(1).expand(A, B, 2), box_b[:, :2].unsqueeze(0).expand(A, B, 2))
        inter   = torch.clamp((max_xy - min_xy), min=0)
        inter   = inter[:, :, 0] * inter[:, :, 1]
        #-----------------------------------------------------------#
        #   计算预测框和真实框各自的面积
        #-----------------------------------------------------------#
        area_a = ((box_a[:, 2]-box_a[:, 0]) * (box_a[:, 3]-box_a[:, 1])).unsqueeze(1).expand_as(inter)  # [A,B]
        area_b = ((box_b[:, 2]-box_b[:, 0]) * (box_b[:, 3]-box_b[:, 1])).unsqueeze(0).expand_as(inter)  # [A,B]
        #-----------------------------------------------------------#
        #   求IOU
        #-----------------------------------------------------------#
        union = area_a + area_b - inter
        return inter / union  # [A,B]
    
    def get_target(self, l, targets, anchors, in_h, in_w):
        #-----------------------------------------------------#
        #   计算一共有多少张图片
        #-----------------------------------------------------#
        bs              = len(targets)
        #-----------------------------------------------------#
        #   用于选取哪些先验框不包含物体
        #-----------------------------------------------------#
        noobj_mask      = torch.ones(bs, len(self.anchors_mask[l]), in_h, in_w, requires_grad = False)
        #-----------------------------------------------------#
        #   让网络更加去关注小目标
        #-----------------------------------------------------#
        box_loss_scale  = torch.zeros(bs, len(self.anchors_mask[l]), in_h, in_w, requires_grad = False)
        #-----------------------------------------------------#
        #   batch_size, 3, 13, 13, 5 + num_classes
        #-----------------------------------------------------#
        y_true          = torch.zeros(bs, len(self.anchors_mask[l]), in_h, in_w, self.bbox_attrs, requires_grad = False)
        for b in range(bs):            
            if len(targets[b])==0:
                continue
            batch_target = torch.zeros_like(targets[b])
            #-------------------------------------------------------#
            #   计算出正样本在特征层上的中心点
            #-------------------------------------------------------#
            batch_target[:, [0,2]] = targets[b][:, [0,2]] * in_w
            batch_target[:, [1,3]] = targets[b][:, [1,3]] * in_h
            batch_target[:, 4] = targets[b][:, 4]
            batch_target = batch_target.cpu()
            
            #-------------------------------------------------------#
            #   将真实框转换一个形式
            #   num_true_box, 4
            #-------------------------------------------------------#
            gt_box          = torch.FloatTensor(torch.cat((torch.zeros((batch_target.size(0), 2)), batch_target[:, 2:4]), 1))
            #-------------------------------------------------------#
            #   将先验框转换一个形式
            #   9, 4
            #-------------------------------------------------------#
            anchor_shapes   = torch.FloatTensor(torch.cat((torch.zeros((len(anchors), 2)), torch.FloatTensor(anchors)), 1))
            #-------------------------------------------------------#
            #   计算交并比
            #   self.calculate_iou(gt_box, anchor_shapes) = [num_true_box, 9]每一个真实框和9个先验框的重合情况
            #   best_ns:
            #   [每个真实框最大的重合度max_iou, 每一个真实框最重合的先验框的序号]
            #-------------------------------------------------------#
            best_ns = torch.argmax(self.calculate_iou(gt_box, anchor_shapes), dim=-1)

            for t, best_n in enumerate(best_ns):
                if best_n not in self.anchors_mask[l]:
                    continue
                #----------------------------------------#
                #   判断这个先验框是当前特征点的哪一个先验框
                #----------------------------------------#
                k = self.anchors_mask[l].index(best_n)
                #----------------------------------------#
                #   获得真实框属于哪个网格点
                #----------------------------------------#
                i = torch.floor(batch_target[t, 0]).long()
                j = torch.floor(batch_target[t, 1]).long()
                #----------------------------------------#
                #   取出真实框的种类
                #----------------------------------------#
                c = batch_target[t, 4].long()

                #----------------------------------------#
                #   noobj_mask代表无目标的特征点
                #----------------------------------------#
                noobj_mask[b, k, j, i] = 0
                #----------------------------------------#
                #   tx、ty代表中心调整参数的真实值
                #----------------------------------------#
                if not self.giou:
                    #----------------------------------------#
                    #   tx、ty代表中心调整参数的真实值
                    #----------------------------------------#
                    y_true[b, k, j, i, 0] = batch_target[t, 0] - i.float()
                    y_true[b, k, j, i, 1] = batch_target[t, 1] - j.float()
                    y_true[b, k, j, i, 2] = math.log(batch_target[t, 2] / anchors[best_n][0])
                    y_true[b, k, j, i, 3] = math.log(batch_target[t, 3] / anchors[best_n][1])
                    y_true[b, k, j, i, 4] = 1
                    y_true[b, k, j, i, c + 5] = 1
                else:
                    #----------------------------------------#
                    #   tx、ty代表中心调整参数的真实值
                    #----------------------------------------#
                    y_true[b, k, j, i, 0] = batch_target[t, 0]
                    y_true[b, k, j, i, 1] = batch_target[t, 1]
                    y_true[b, k, j, i, 2] = batch_target[t, 2]
                    y_true[b, k, j, i, 3] = batch_target[t, 3]
                    y_true[b, k, j, i, 4] = 1
                    y_true[b, k, j, i, c + 5] = 1
                #----------------------------------------#
                #   用于获得xywh的比例
                #   大目标loss权重小，小目标loss权重大
                #----------------------------------------#
                box_loss_scale[b, k, j, i] = batch_target[t, 2] * batch_target[t, 3] / in_w / in_h
        return y_true, noobj_mask, box_loss_scale

    def get_ignore(self, l, x, y, h, w, targets, scaled_anchors, in_h, in_w, noobj_mask):
        #-----------------------------------------------------#
        #   计算一共有多少张图片
        #-----------------------------------------------------#
        bs = len(targets)

        #-----------------------------------------------------#
        #   生成网格，先验框中心，网格左上角
        #-----------------------------------------------------#
        grid_x = torch.linspace(0, in_w - 1, in_w).repeat(in_h, 1).repeat(
            int(bs * len(self.anchors_mask[l])), 1, 1).view(x.shape).type_as(x)
        grid_y = torch.linspace(0, in_h - 1, in_h).repeat(in_w, 1).t().repeat(
            int(bs * len(self.anchors_mask[l])), 1, 1).view(y.shape).type_as(x)

        # 生成先验框的宽高
        scaled_anchors_l = np.array(scaled_anchors)[self.anchors_mask[l]]
        anchor_w = torch.Tensor(scaled_anchors_l).index_select(1, torch.LongTensor([0])).type_as(x)
        anchor_h = torch.Tensor(scaled_anchors_l).index_select(1, torch.LongTensor([1])).type_as(x)
        
        anchor_w = anchor_w.repeat(bs, 1).repeat(1, 1, in_h * in_w).view(w.shape)
        anchor_h = anchor_h.repeat(bs, 1).repeat(1, 1, in_h * in_w).view(h.shape)
        #-------------------------------------------------------#
        #   计算调整后的先验框中心与宽高
        #-------------------------------------------------------#
        pred_boxes_x    = torch.unsqueeze(x + grid_x, -1)
        pred_boxes_y    = torch.unsqueeze(y + grid_y, -1)
        pred_boxes_w    = torch.unsqueeze(torch.exp(w) * anchor_w, -1)
        pred_boxes_h    = torch.unsqueeze(torch.exp(h) * anchor_h, -1)
        pred_boxes      = torch.cat([pred_boxes_x, pred_boxes_y, pred_boxes_w, pred_boxes_h], dim = -1)
        
        for b in range(bs):           
            #-------------------------------------------------------#
            #   将预测结果转换一个形式
            #   pred_boxes_for_ignore      num_anchors, 4
            #-------------------------------------------------------#
            pred_boxes_for_ignore = pred_boxes[b].view(-1, 4)
            #-------------------------------------------------------#
            #   计算真实框，并把真实框转换成相对于特征层的大小
            #   gt_box      num_true_box, 4
            #-------------------------------------------------------#
            if len(targets[b]) > 0:
                batch_target = torch.zeros_like(targets[b])
                #-------------------------------------------------------#
                #   计算出正样本在特征层上的中心点
                #-------------------------------------------------------#
                batch_target[:, [0,2]] = targets[b][:, [0,2]] * in_w
                batch_target[:, [1,3]] = targets[b][:, [1,3]] * in_h
                batch_target = batch_target[:, :4].type_as(x)
                #-------------------------------------------------------#
                #   计算交并比
                #   anch_ious       num_true_box, num_anchors
                #-------------------------------------------------------#
                anch_ious = self.calculate_iou(batch_target, pred_boxes_for_ignore)
                #-------------------------------------------------------#
                #   每个先验框对应真实框的最大重合度
                #   anch_ious_max   num_anchors
                #-------------------------------------------------------#
                anch_ious_max, _    = torch.max(anch_ious, dim = 0)
                anch_ious_max       = anch_ious_max.view(pred_boxes[b].size()[:3])
                noobj_mask[b][anch_ious_max > self.ignore_threshold] = 0
        return noobj_mask, pred_boxes

def weights_init(net, init_type='normal', init_gain = 0.02):
    def init_func(m):
        classname = m.__class__.__name__
        if hasattr(m, 'weight') and classname.find('Conv') != -1:
            if init_type == 'normal':
                torch.nn.init.normal_(m.weight.data, 0.0, init_gain)
            elif init_type == 'xavier':
                torch.nn.init.xavier_normal_(m.weight.data, gain=init_gain)
            elif init_type == 'kaiming':
                torch.nn.init.kaiming_normal_(m.weight.data, a=0, mode='fan_in')
            elif init_type == 'orthogonal':
                torch.nn.init.orthogonal_(m.weight.data, gain=init_gain)
            else:
                raise NotImplementedError('initialization method [%s] is not implemented' % init_type)
        elif classname.find('BatchNorm2d') != -1:
            torch.nn.init.normal_(m.weight.data, 1.0, 0.02)
            torch.nn.init.constant_(m.bias.data, 0.0)
    print('initialize network with %s type' % init_type)
    net.apply(init_func)

def get_lr_scheduler(lr_decay_type, lr, min_lr, total_iters, warmup_iters_ratio = 0.05, warmup_lr_ratio = 0.1, no_aug_iter_ratio = 0.05, step_num = 10):
    def yolox_warm_cos_lr(lr, min_lr, total_iters, warmup_total_iters, warmup_lr_start, no_aug_iter, iters):
        if iters <= warmup_total_iters:
            # lr = (lr - warmup_lr_start) * iters / float(warmup_total_iters) + warmup_lr_start
            lr = (lr - warmup_lr_start) * pow(iters / float(warmup_total_iters), 2) + warmup_lr_start
        elif iters >= total_iters - no_aug_iter:
            lr = min_lr
        else:
            lr = min_lr + 0.5 * (lr - min_lr) * (
                1.0 + math.cos(math.pi* (iters - warmup_total_iters) / (total_iters - warmup_total_iters - no_aug_iter))
            )
        return lr

    def step_lr(lr, decay_rate, step_size, iters):
        if step_size < 1:
            raise ValueError("step_size must above 1.")
        n       = iters // step_size
        out_lr  = lr * decay_rate ** n
        return out_lr

    if lr_decay_type == "cos":
        warmup_total_iters  = min(max(warmup_iters_ratio * total_iters, 1), 3)
        warmup_lr_start     = max(warmup_lr_ratio * lr, 1e-6)
        no_aug_iter         = min(max(no_aug_iter_ratio * total_iters, 1), 15)
        func = partial(yolox_warm_cos_lr ,lr, min_lr, total_iters, warmup_total_iters, warmup_lr_start, no_aug_iter)
    else:
        decay_rate  = (min_lr / lr) ** (1 / (step_num - 1))
        step_size   = total_iters / step_num
        func = partial(step_lr, lr, decay_rate, step_size)

    return func

def set_optimizer_lr(optimizer, lr_scheduler_func, epoch):
    lr = lr_scheduler_func(epoch)
    for param_group in optimizer.param_groups:
        param_group['lr'] = lr

以上yolov3原作者定义的损失函数公式及博主复现的损失函数的代码，在网上的各种资料中，可以看到各种损失计算，各不相同，但总体损失都是C中提到的。这里的某些数值量在下面的（4、损失函数中的参数计算及人工标注框、先验框、预测框之间计算关系）中有所介绍。

bb.网上的有关损失函数的不同计算，如下框所示，参考文章（最简单）深度理解YOLOV3损失函数及anchor box_恩泽君的博客-CSDN博客

4、损失函数中的参数计算及人工标注框、先验框、预测框之间计算关系

4.1、损失函数中x ^ , y ^ , w ^ , h ^ 参数的获取
在模型训练过程中，我们的ground truth往往是相对于原始图像的四个坐标值，表示bounding box的左上和右下点坐标，而这是肯定不能直接用于模型训练，通过前面边框预测公式我们可以知道，我们需要将ground truth转换成网络模型输出值相同的类型（即：包含标记框中心点相对于anchor box的偏移量和标记框相对于anchor box的尺度变换），因此我们需要经过以下步骤：
步骤一：将原始标记框按原始图像到416×416尺寸变换比例同比例缩放到符合416×416尺寸的大小（简单说就是因为网络输入是416×416大小，所以输入图像会先reshape到这个尺寸，这时要将标记框也同比例进行缩放），然后计算标记框中心点坐标和宽高值。
步骤二：计算标记框在feature map上的中心点坐标和宽高值。将上一步得到的标记框中心点坐标和宽高值都除以stride（比如feature map为13×13，此时stride=416/13=32），得到标记框在feature map上位置信息G x , G y , G w , G h
步骤三：计算标记框相对于anchor box的偏移量和尺度缩放大小。使用下面公式:

其中C x , C y 为feature map上grid cell左上角坐标，P w , P h 为anchor box在feature map上宽高大小，通过将标记框宽高与anchor box宽高比值的对数计算它们的缩放比例，通过取对数而不是直接预测相对形变G w / P w，是因为如果直接计算相对形变，那么要求预测w值要大于0，因为你的框的宽高不可能为负数，因此，该问题变成一个有不等式条件约束的优化问题，没法直接用SGD来做，所以先取一个对数变换将这个不等式约束去掉就可以了。
至此，我们对标记框的偏移量和尺度缩放大小就求出来了，损失函数里面就可以使用x ^ , y ^ , w ^ , h ^

4.2、损失函数中x , y , w , h 参数的获取

在边框预测公式中我们可以了解到网络的输出是可以代表预测框偏移量和尺度缩放大小的，但是这里还是要注意一下，网络输出t x , t y，由于不在0-1范围内（网络输出层激活函数为线性激活函数），跟ground truth的范围不一致，这里就需要经过sigmoid函数使得其偏移量在0-1之间，因此损失函数中参数x , y , w , h由下列公式获得：

4.3、损失函数中的置信度C和P的获取

你也许会问置信度和类概率不是直接就是网络输出的参数吗？其实我们想一下，网络输出其实不是0-1的范围，所以我们还是需要将其归一化到0-1范围内，跟之前处理方法一样，使用一个sigmoid函数即可：

至于标记框的C ^ 就更简单，如果含有标记框则为1，否则直接等于0，同时对于P ^也一样，将标记框相应类别概率设为1，其他设置为0即可

4.4、损失函数中判断有无物体的参数

在损失函数定义时解释过，表示该矩形框是否负责预测一个目标物体，如果该矩形框负责预测一个目标则其大小为1，否则等于0，则跟其相反。所以我们这里就需要确定一个预测框是否负责预测一个目标，怎么确定呢？
首先对于feature map中那些grid cell上没有ground truth的预测框，我们直接就可以认定其为noobj，此时将=0即可。而对于那些含有ground truth的grid cell，我们知道一个尺度的feature map有三个anchors，也就是说现在有三个备选预测框，YOLOV3假定每个cell至多含有一个ground truth，在实际情况中，其实基本也不会出现多于1个的情况，所以我们怎样确定选哪个预测框来预测这个物体呢？这需要在训练中确定，即由那个与ground truth标记框的IOU值最大的预测框预测它，此时=1，而剩余的不与该grund truth匹配，此时=0。

4.5边框预测公式

我们知道网络的输出值t x , t y , t w , t h并不能直接反应预测框的空间信息，而是需要通过一定变换得到，作者使用了下面公式来获取在特征图上预测矩形框，其实这也可以通过之前计算标记框相对偏移量和尺度变换公式中获得：

其中，( c x , c y )代表特征图中当前位置相对左上角网格偏移的网格数坐标，σ()是sigmoid函数，其作用是将坐标归一化到0~1之间，( p w , p h ) 是预设的anchor box映射到特征图中的宽高。所以b x、b y值是预测框在feature map上的中心点坐标，b w、b h是预测框在feature map上宽高值。所以，通过网络输出值t x , c y , t w , t h 。我们就可以得到预测框在feature map上的中心点坐标和宽高值c x , c y , p w , p h 。（这里再说明一点：网络输出值例如t x 由于其输出层使用的是线性激活函数，所以其大小范围并不在0-1之间，所以需要通过sigmoid函数将坐标归一化到0-1之间，使得预测框中心点始终在该网格内，而不至于落在其他网格中去）。
因此我们可以获得预测框在feature map上的中心点坐标和宽高大小，为了能够方便将预测框还原到原图尺寸，往往我们再对其进行归一化可以得到归一化的预测框：

其中W,H分别代表feature map的尺寸大小，比如最后输出feature map为13×13，则W=13,H=13。这样我们得到了正对于输入图片416×416的归一化预测框，但是我们原图往往不是416×416大小，是经过了reshape到416尺寸的操作，所以我们还需要将得到的归一化预测框reshape回去到符合原图尺寸比例的归一化预测框，然后直接乘以原图尺寸大小就可以得到最终的预测框。

五、总结

把理论和代码相结合是最好的学习方法，即使过程有些漫长，但搞懂了之后，真的十分开心！

参考：

【精读AI论文】YOLO V1目标检测，看我就够了_哔哩哔哩_bilibili

睿智的目标检测6——yolo2详解及其预测代码复现_Bubbliiiing的博客-CSDN博客

【精读AI论文】YOLO V3目标检测（附YOLOV3代码复现）_哔哩哔哩_bilibili

Pytorch 搭建自己的YOLO3目标检测平台（Bubbliiiing 深度学习教程）_哔哩哔哩_bilibili

（最简单）深度理解YOLOV3损失函数及anchor box_恩泽君的博客-CSDN博客

睿智的目标检测26——Pytorch搭建yolo3目标检测平台_Bubbliiiing的博客-CSDN博客_睿智的目标检测26

你可能感兴趣的:(yolov1-v3,图像处理,pytorch,深度学习,目标检测,计算机视觉)

AI环境初识网络飞鸥 AI 人工智能
在搭建AI环境时，当前流行的技术涉及多个方面，包括开发框架、深度学习库、硬件支持以及具体的应用技术等。以下是一些主要的技术趋势和流行技术：一、开发框架与深度学习库TensorFlow：由谷歌开发的一个开源机器学习库，广泛用于研究和生产环境。它提供了强大的张量计算能力和灵活的架构，支持广泛的机器学习和深度学习算法。PyTorch：由Facebook推出，也是一个广受欢迎的开源机器学习库。PyTorc
数字人｜通过语音和图片来创建高质量的视频产品媛Gloria Deng AI之眼音视频数字人 talking head AniPortrait框架 AI
简介arXiv上的计算机视觉领域论文：AniPortrait:Audio-DrivenSynthesisofPhotorealisticPortraitAnimationAniPortrait：照片级真实感肖像动画的音频驱动合成核心内容围绕一种新的人像动画合成框架展开。研究内容提出AniPortrait框架：用于生成由音频和参考肖像图像驱动的高质量动画。实现方法：分2个阶段实现第一阶段，从音频中提
覆盖从供应、生产、销售到运营的全过程，引领行业数智化转型新方向的智慧快消开源了 AI服务老曹开源人工智能自动化音视频能源
智慧快消视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。基于多年的深度学习技术研究和业务应用为基础，集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体，是中国首个自主研发、功能完备、开源开放的产业级深度学习平台。基
Selenium+OpenCV处理滑块验证问题刽子手发艺志愿填报项目 selenium opencv webpack
两个文件的主要目的是通过Selenium、ChromeDriver和OpenCV来实现自动化解决滑块验证码的问题。滑块验证码通常要求用户拖动一个滑块到正确的位置，以验证用户是否为真人。下面我将详细讲解这两个文件的工作流程和具体功能的原理。1.cvdemo.java文件这个文件主要包含了一个使用OpenCV进行图像处理的方法getPos，用于检测滑块图像中目标区域的位置。1.1工作流程加载OpenC
金融大模型应用的机遇与挑战 Python程序员罗宾金融人工智能语言模型数据库自然语言处理
大模型本质特征大模型通常指大语言模型（LargeLanguageModel，LLM），是基于深度学习算法的自然语言处理技术，是通用大模型。大模型也在从单一自然语言处理模态向语音、图像等多模态大模型演进。目前国内外推出了众多的大模型，国内就不下上百款，也因此被称为“百模大战”或“千模大战”。但很多所谓的“大模型”仅是叫“大模型”而已，不管参数量多少，都不能称为真正的大模型。参数量是大模型的一个特征，
pytorch torch.triu函数介绍 qq_27390023 pytorch 人工智能 python
torch.triu是PyTorch提供的一个函数，用于生成矩阵的上三角部分。它的名称来源于"triangularupper"（上三角形），作用是将矩阵的下三角部分置为零，只保留对角线及其上方的元素。函数签名torch.triu(input,diagonal=0)→Tensor参数input:输入的张量，一般是一个二维矩阵（Tensor）。diagonal:对角线的偏移量，默认值为0。当diago
深度强化学习算法在金融交易决策中的优化应用【附数据】算法与数据算法
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
基于深度学习的股票短期趋势预测模型设计与实现【附代码】算法与数据深度学习人工智能
，我们首先对股票的基本交易数据进行了清洗和预处理，包括去除异常值、填补缺失值等。同时，我们还挖掘了多个可能影响股票价格走势的因子，如成交量、市盈率、市净率等，并将这些因子作为特征加入到数据集中。通过特征工程，我们进一步扩展了数据集，提高了模型的输入质量。在模型构建方面，我们采用了LSTM网络来处理时间序列数据。LSTM网络具有记忆功能，能够捕捉数据中的长期依赖关系，这对于股票价格走势的预测至关重要
GPU与FPGA加速：硬件赋能AI应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
GPU与FPGA加速：硬件赋能AI应用1.背景介绍1.1人工智能的兴起人工智能(AI)在过去几年中经历了爆炸式增长,成为推动科技创新的核心动力。从语音识别和计算机视觉,到自然语言处理和推荐系统,AI已广泛应用于各个领域。然而,训练和部署AI模型需要大量计算资源,这对传统的CPU架构提出了巨大挑战。1.2硬件加速的必要性为满足AI算法对计算能力的巨大需求,硬件加速技术应运而生。专用硬件如GPU(图形
DeepSeek 与网络安全：AI 在网络安全领域的应用与挑战一ge科研小菜菜人工智能运维网络
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言在当今数字化时代，网络安全已成为国家、企业和个人面临的重要挑战。从传统的病毒、木马攻击，到高级持续性威胁（APT）、零日漏洞和供应链攻击，网络威胁的形式日益复杂。与此同时，人工智能（AI）技术的快速发展正在为网络安全提供全新的解决方案，而DeepSeek作为AI领域的新兴力量，也正在探索如何利用深度学习和大规模语言模型（LLM）加强网络安
手撸 chatgpt 大模型:单词向量化编码和绝对位置编码算法 coding 迪斯尼 chatgpt 算法人工智能大语言模型
在上一节中，我们将每个单词转换为一个表示数字的标记（token）。现在，我们需要将这个数字映射到一个向量上，这个向量称为嵌入（embedding）。在深度学习中，所有无法通过传统数据结构描述的对象都会被用一个向量表示，例如图像、语音、单词、音频等。最初，向量中的各个字段会被初始化为随机数，然后通过大量的数据和深度学习模型来训练这些向量。训练过程逐步改变向量字段的值，从而使这些字段包含某种“知识”。
三维扫描自动化智能检测系统：为品质护航，为效率加速 CASAIM 人工智能 3d 计算机视觉
产品质量是企业的生命线。然而，传统的检测方式往往依赖人工操作，不仅效率低下，还容易因人为因素导致检测结果不准确。自动化智能检测系统是一种集成了先进传感器技术、图像处理算法和人工智能的高科技设备。它能够自动识别和检测物体的尺寸、形状质量指标，并实时生成检测报告。通过智能化的检测流程，企业可以实现生产过程的全自动化质量控制，确保每一项产品都符合高标准的质量要求。CASAIM作为快速批量处理的自动化智能
Deepseek在【python】三帧差法实现运动目标检测百态老人 python 目标检测目标跟踪
deepseek在【python】三帧差法实现运动目标检测一、三帧差法原理三帧差法是一种改进的帧差法，通过比较连续的三帧图像来检测运动目标。具体来说，它首先计算前两帧图像之间的差值，再计算后两帧图像之间的差值，最后将这两个差值图像进行“与”运算，以确定运动目标的变化部分。这种方法能够更好地消除“双影”现象，提高目标检测的准确性。二、实现步骤读取视频帧：使用OpenCV库读取视频序列中的连续三帧图像
【python】三帧差法实现运动目标检测 Jackilina_Stone #python 计算机视觉 python 运动目标检测 OD
三帧差法是一种常用的运动目标检测方法，它通过比较连续三帧图像之间的差异来检测运动物体。这种方法尤其适用于背景变化较小的场景。目录1方案2实践①代码②效果图1方案具体步骤如下：①读取视频流：使用cv2.VideoCapture()读取视频文件。②灰度化：将彩色图像转换为灰度图，简化后续计算。③帧间差分：计算连续三帧之间的差分，absdiff函数计算两个灰度图像的绝对差值。然后，将两帧差相加。④阈值处
YOLOv8与DAttention机制的融合：复杂场景下目标检测性能的增强向哆哆 YOLO 目标检测目标跟踪 yolov8
文章目录1.YOLOv8简介2.DAttention(DAT)注意力机制概述2.1DAttention机制的工作原理3.YOLOv8与DAttention(DAT)的结合3.1引入DAT的动机3.2集成方法3.3代码实现4.实验与结果分析4.1实验设置4.2结果分析推理速度性能对比5.深度分析：DAttention在YOLOv8中的作用5.1DAttention的有效性5.2适用于小物体检测5.3
F.interpolate函数 dringlestry 深度学习图片分辨率改变
F.interpolate是PyTorch中用于对张量（通常是图像数据）进行插值操作的函数，常用于调整张量的大小，例如改变图像的分辨率。它支持多种插值方法，包括最近邻插值、双线性插值和三次插值等。语法torch.nn.functional.interpolate(input,size=None,scale_factor=None,mode='nearest',align_corners=None)
生成对抗网络(GAN)：从概念到代码实践(附代码) 全栈你个大西瓜人工智能计算机视觉人工智能 GAN 网络对抗学习手势识别生成器与鉴别器生成对抗网络
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络(附代码)第五章：计算机视觉：神经网络实战之手势识别(附代码)第六章：计算机视觉：目标检测从简单到容易(附代码)第七章：MTCNN人脸检测技术揭秘：原理、实现与实战(附代码)第八章：探索YOLO技术：目标检测的高
MTCNN 人脸检测技术揭秘：原理、实现与实战(附代码) 全栈你个大西瓜人工智能计算机视觉人工智能 MTCNN 人脸检测卷积神经网络
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络(附代码)第五章：计算机视觉：神经网络实战之手势识别(附代码)第六章：计算机视觉：目标检测从简单到容易(附代码)第七章：MTCNN人脸检测技术揭秘：原理、实现与实战(附代码)第八章：探索YOLO技术：目标检测的高
目前（2025年2月）计算机视觉（CV）领域一些表现优异的深度学习模型空空转念深度学习系列计算机视觉深度学习人工智能
按任务类型分类介绍：图像分类CoCa：结合对比学习和生成学习，通过对比损失对齐图像和文本嵌入，并使用标题生成损失预测文本标记。它在图像分类、跨模态检索和图像描述等任务中表现出色，且仅需极少的任务特定微调。PaLI：这是一个多模态模型，结合了40亿参数的视觉Transformer（ViT）和多种大型语言模型（LLM），并在包含100多种语言的100亿图像和文本数据集上进行训练。PaLI在图像描述、视
地平线 3D 目标检测 bev_sparse 参考算法 - V2.0 算法自动驾驶
该示例为参考算法，仅作为在征程6上模型部署的设计参考，非量产算法简介在自动驾驶视觉感知系统中，为了获得环绕车辆范围的感知结果，通常需要融合多摄像头的感知结果。目前更加主流的感知架构则是选择在特征层面进行多摄像头融合。其中比较有代表性的路线就是这两年很火的BEV方法，继TeslaOpenAIDay公布其BEV感知算法之后，相关研究层出不穷，感知效果取得了显著提升，BEV也几乎成为了多传感器特征融合的
Python——生成AIGC图像朱剑君 AIGC 人工智能 python
文章目录一、背景介绍二、效果图展示三、完整代码四、分步解释五、实用建议1）提示词技巧2）性能优化3）常见问题处理4）扩展功能建议六、注意事项1.硬件要求2.法律合规3.模型安全一、背景介绍AIGC（AI-GeneratedContent），即由人工智能生成的内容，涵盖了文本、图像、音频、视频等各种形式。通过深度学习、生成对抗网络（GAN）和扩散模型等技术，AIGC能够生成高度逼真、具有艺术性的内容
图像处理：模拟色差的生成何以为皇图像处理人工智能
图像处理：模拟色差的实战案例在做瓷砖瑕疵检测的过程中，需要检测色差。但在实际生产环境中，瓷砖色差检测的数据量较少，无法直接获取足够的数据来训练和优化深度学习模型。于是就考虑通过人为生成色差数据的方式来扩充数据集，进行色差的模拟。1.什么是色差？色差（ColorDifference）是指两种颜色之间的视觉差异。在色彩科学中，CIEDE2000是目前最先进的色差计算方法之一。然而，CIEDE1976也
python工具——pypinyin 汉字转换拼音 xiaoming0018 python python list
把汉字转成拼音后可以进行深度学习分类，做内容识别1.安装pipinstallpypinyin将汉字转换为拼音并生成slug字符串importpypinyinfrompypinyinimportStylecontent=pypinyin.slug('汉语拼音')print(content)#E:\python\>pythonpinyin.py#han-yu-pin-yin修改分隔字符串importp
AI如何预测比赛结果：体育预测技术全解析翱翔的猪脑花人工智能
利用人工智能技术构建一个完整的体育预测系统，涵盖数据收集、模型构建到部署应用的完整流程。一、系统架构设计1.整体架构数据采集层数据处理层模型训练层预测服务层应用展示层2.技术选型Python3.8+TensorFlow/PyTorchScikit-learnPandas/NumpyFlask/FastAPI二、数据收集与处理1.数据源集成python复制importrequestsimportpa
淘系图搜API接入与使用全解析数据小爬虫.网站开发-Brad 各大电商平台api 国际平台API 1688 python 算法前端框架需求分析 AI编程
淘系图搜API接入与使用全解析一、接口概述淘系图搜API（即淘宝/天猫以图搜货接口）允许开发者通过上传商品图片，获取淘宝平台上的相似商品列表。其核心技术基于阿里巴巴的深度学习模型，支持服饰、家居、3C等多品类识别，广泛应用于比价、找同款、商品推荐等场景。二、接入准备资质要求：企业开发者需提供营业执照、应用场景说明（如“电商比价工具”）。个人开发者权限受限，建议通过第三方API服务商（如数位、Dat
深度学习革命背后：DBN、AlexNet、GAN 等神级架构，究竟藏着怎样的 AI 崛起密码？（附deepseek） universe_code 人工智能 python 深度学习经验分享
深度学习革命**3.深度学习革命（2006年至今）****2006年：深度学习奠基——深度信念网络（DBN）****2012年：AlexNet崛起****2014年：架构创新潮****生成对抗网络（GAN）****残差网络（ResNet）****Transformer****总结**补充（deepseek）一、核心技术原理1.**混合专家架构（MoE）**2.**多头潜在注意力（MLA）**3.*
整理：4篇论文知识蒸馏引领高效模型新时代 mslion 多模态人工智能知识蒸馏
知识蒸馏（KnowledgeDistillation）是当前机器学习研究中的一个重要方向，特别是在模型压缩和效率优化等任务中。传统的深度学习模型往往依赖于复杂的大型网络，以获取卓越的性能。然而，这些庞大的模型对计算资源和存储空间的需求，使得它们在实际应用中，尤其是在边缘设备或移动端部署中面临巨大挑战。知识蒸馏技术致力于解决这一问题，其核心思想是通过一个“教师模型”向一个更小、更高效的“学生模型”传
基于Roboflow平台的数据集导出与YOLOv8目标检测训练实战步入烟尘 YOLO系列创新涨点超专栏 YOLO 目标检测人工智能 Roboflow YOLOv8
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录基于Roboflow平台的数据集导出与YOLOv8目标检测训练实战1.什么是Roboflow？2.创
RK3588 Linux板端推理时报错Segmentation fault解决办法 kennyooooo linux 目标检测 yolo 嵌入式硬件
目录问题解决生成core文件修改core文件存储路径Ubuntu20.04下的异常状况利用core文件进行调试问题最近在使用rk3588跑官方提供的yolov5模型demo，能够完成单张图片的目标检测，但是在运行视频流demo时，系统报错：segmentationfault(coredumped)此时没有再给出更多的报错信息，不太好debug，在网上阅读了一些博客现在整理一下。解决在Linux下遇
人工智能训练师如何做图像数据标注，从情感分析和实体分析两个个场景分析小宝哥Code 人工智能训练师人工智能
在人工智能训练中，图像情感分析和图像实体分析是两个重要的应用场景。高质量的图像数据标注对于训练情感识别模型和目标检测/语义分割模型至关重要。本指南将详细介绍：情感分析标注（EmotionAnalysis）实体分析标注（EntityRecognition）自动化标注工具Python代码示例数据格式与存储标注数据质量评估1.情感分析（EmotionAnalysis）标注1.1情感分析简介图像情感分析（
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class