汀、人工智能

深度学习应用篇-计算机视觉-目标检测[4]：综述、边界框bounding box、锚框（Anchor box）、交并比、非极大值抑制NMS、SoftNMS

【深度学习入门到进阶】必看系列，含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等

专栏详细介绍：【深度学习入门到进阶】必看系列，含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等

本专栏主要方便入门同学快速掌握相关知识。后续会持续把深度学习涉及知识原理分析给大家，让大家在项目实操的同时也能知识储备，知其然、知其所以然、知何由以知其所以然。

声明：部分项目为网络经典项目方便大家快速学习，后续会不断增添实战环节（比赛、论文、现实应用等）

专栏订阅：

深度学习入门到进阶专栏
深度学习应用项目实战篇

深度学习应用篇-计算机视觉-目标检测[4]：综述、边界框bounding box、锚框（Anchor box）、交并比、非极大值抑制NMS、SoftNMS

1.目标检测综述

对计算机而言，能够“看到”的是图像被编码之后的数字，它很难理解高层语义概念，比如图像或者视频帧中出现的目标是人还是物体，更无法定位目标出现在图像中哪个区域。目标检测的主要目的是让计算机可以自动识别图片或者视频帧中所有目标的类别，并在该目标周围绘制边界框，标示出每个目标的位置，如图1 所示。

图1 图像分类和目标检测示意图

图1(a)是图像分类任务，只需对这张图片进行类别识别。
图1(b)是目标检测任务，不仅要识别出这一张图片中的类别为斑马，还要标出图中斑马的位置。

1.1 应用场景

如图2 所示，如今的目标检测不论在日常生活中还是工业生产中都有着非常多的应用场景。

消费娱乐：智能手机的人脸解锁以及支付APP中的人脸支付；自动售货机使用的商品检测；视频网站中图片、视频审核等；
智慧交通：自动驾驶中的行人检测、车辆检测、红绿灯检测等；
工业生产：工业生产中的零件计数、缺陷检测；设备巡检场景下的设备状态监控；厂区中的烟火检测、安全帽检测等；
智慧医疗：眼底、肺部等器官病变检测；新冠疫情中的口罩检测等。

图2 目标检测应用场景

1.2 目标检测发展历程

在图像分类任务中，我们会先使用卷积神经网络提取图像特征，然后再用这些特征预测分类概率，根据训练样本标签建立起分类损失函数，开启端到端的训练，如图3 所示。

图3 图像分类流程示意图

但对于目标检测问题，按照图3 的流程则行不通。因为在对整张图提取特征的过程中无法体现出不同目标之间的区别，最终也就没法分别标示出每个物体所在的位置。

为了解决这个问题，结合图片分类任务取得的成功经验，我们可以将目标检测任务进行拆分。假设我们使用某种方式在输入图片上生成一系列可能包含物体的区域，这些区域称为候选区域。对于每个候选区域，可以单独当成一幅图像来看待，使用图像分类模型对候选区域进行分类，看它属于哪个类别或者背景（即不包含任何物体的类别）。上一节我们已经学过如何解决图像分类任务，使用卷积神经网络对一幅图像进行分类不再是一件困难的事情。

那么，现在问题的关键就是如何产生候选区域？比如我们可以使用穷举法来产生候选区域，如图4 所示。

图4 候选区域

A为图像上的某个像素点，B为A右下方另外一个像素点，A、B两点可以确定一个矩形框，记作AB。

如图4(a)所示：A在图片左上角位置，B遍历除A之外的所有位置，生成矩形框 $A_1B_1, …, A_1B_n, …$
如图4(b)所示：A在图片中间某个位置，B遍历A右下方所有位置，生成矩形框 $A_kB_1, …, A_kB_n, …$

当A遍历图像上所有像素点，B则遍历它右下方所有的像素点，最终生成的矩形框集合 ${A_iB_j}$ 将会包含图像上所有可以选择的区域。

只要我们对每个候选区域的分类足够的准确，则一定能找到跟实际物体足够接近的区域来。穷举法也许能得到正确的预测结果，但其计算量也是非常巨大的，其所生成的总候选区域数目约为 $\frac{W^2 H^2}{4}$ ，假设 $H = W = 100$ ，总数将会达到 $2.5 \times 10^{7}$ 个，如此多的候选区域使得这种方法几乎没有什么实用性。但是通过这种方式，我们可以看出，假设分类任务完成的足够完美，从理论上来讲检测任务也是可以解决的，亟待解决的问题是如何设计出合适的方法来产生候选区域。

科学家们开始思考，是否可以应用传统图像算法先产生候选区域，然后再用卷积神经网络对这些区域进行分类？

2013年，Ross Girshick等人于首次将CNN的方法应用在目标检测任务上，他们使用传统图像算法Selective Search产生候选区域，取得了极大的成功，这就是对目标检测领域影响深远的区域卷积神经网络(R-CNN^[1])模型。
2015年，Ross Girshick对此方法进行了改进，提出了Fast R-CNN^[2]模型。通过将不同区域的物体共用卷积层的计算，大大缩减了计算量，提高了处理速度，而且还引入了调整目标物体位置的回归方法，进一步提高了位置预测的准确性。
2015年，Shaoqing Ren等人提出了Faster R-CNN^[3]模型，提出了RPN的方法来产生物体的候选区域，这一方法不再需要使用传统的图像处理算法来产生候选区域，进一步提升了处理速度。
2017年，Kaiming He等人提出了Mask R-CNN^[4]模型，只需要在Faster R-CNN模型上添加比较少的计算量，就可以同时实现目标检测和物体实例分割两个任务。

以上都是基于R-CNN系列的著名模型，对目标检测方向的发展有着较大的影响力。此外，还有一些其他模型，比如SSD^[5]、YOLO^[6,7,8]、R-FCN^[9]等也都是目标检测领域流行的模型结构。图5 为目标检测综述文章^[10]中的一幅图，梳理了近些年目标检测算法的发展流程。

图5 目标检测算法发展流程

其中，由于上文所述的R-CNN的系列算法将目标检测任务分成两个阶段，先在图像上产生候选区域，再对候选区域进行分类并预测目标物体位置，所以它们通常被叫做两阶段检测算法。而SSD和YOLO系列算法则是使用一个网络同时产生候选区域并预测出物体的类别和位置，所以它们通常被叫做单阶段检测算法。

上文中提到，穷举法来获取候选区域是不现实的。因此在后来的经典算法中，常用的一个思路是使用Anchor提取候选目标框，Anchor是预先设定好比例的一组候选框集合，在图片上进行滑动就可以获取候选区域了。

由于这类算法都是使用Anchor提取候选目标框。在特征图的每一个点上，对Anchor进行分类和回归。所以这些算法也统称为基于Anchor的算法。

但是这种基于Anchor的方法，在实际应用中存在一些问题:

Anchor是人为手工设计的，那我们换个数据集，应该设置多少？设置多大？长宽比如何设置？
Anchor这种密集框，数量多，训练时如何选择正负样本？
Anchor设置也导致超参数较多，实际业务扩展中，相对来说，就有点麻烦。

由于上述缺点的存在，近些年研究者们还提出了另外一类效果优异的算法，这些算法不再使用anchor回归预测框，因此也称作Anchor-free的算法，例如：CornerNet^[11]和CenterNet^[12]等。图6 为大家简单罗列了经典的Anchor-base和Anchor-free的算法。

图6 基于深度学习的目标检测算法发展流程

Anchor-base和Anchor-free的算法也各具优势，下表为大家简单对比了几类算法各自的优缺点。

	Anchor-Based单阶段	Anchor-Based两阶段	Anchor-Free
网络结构	简单	复杂	简单
精度	优	更优	较优
预测速度	快	稍慢	快
超参数	较多	多	相对少
扩展性	一般	一般	较好

1.3 常用数据集

在目标检测领域，常用的开源数据集主要包含以下4个：Pascal VOC^[13]、COCO^[14]、Object365^[15]、OpenImages^[16]。这些数据集的类别数、图片数、目标框的总数量各不相同，因此难易也各不相同。这里整理了4个数据集的具体情况，如下表所示。

数据集	类别数	train图片数，box数	val图片数，box数	boxes/Image
Pascal VOC-2012	20	5717, 1.3万+	5823， 1.3万+	2.4
COCO	80	118287， 4万+	5000，3.6万+	7.3
Object365	365	600k, 9623k	38k, 479k	16
OpenImages18	500	1643042, 86万+	100000，69.6万+	7.0

Pascal VOC-2012：VOC数据集是 PASCAL VOC挑战赛使用的数据集，包含了20种常见类别的图片，是目标检测领域的经典学术数据集之一。
COCO：COCO数据集是一个经典的大规模目标检测、分割、姿态估计数据集，图片数据主要从复杂的日常场景中截取，共80类。目前的学术论文经常会使用COCO数据集进行精度评测。
Object365：旷世科技发布的大规模通用物体检测数据集，共365类。
OpenImages18：谷歌发布的超大规模数据集，共500类。

参考文献

[1] Rich feature hierarchies for accurate object detection and semantic segmentation

[2] Fast R-CNN

[3] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

[4] Mask R-CNN

[5] SSD: Single Shot MultiBox Detector

[6] You Only Look Once: Unified, Real-Time Object Detection

[7] YOLO9000: Better, Faster, Stronger

[8] YOLOv3: An Incremental Improvement

[9] R-FCN: Object Detection via Region-based Fully Convolutional Networks

[10] Object Detection in 20 Years: A Survey

[11] CornerNet: Detecting Objects as Paired Keypoints

[12] Objects as Points

[13] Pascal VOC

[14] COCO

[15] Object365

[16] OpenImages

2.边界框（bounding box）

在检测任务中，我们需要同时预测物体的类别和位置，因此需要引入一些跟位置相关的概念。通常使用边界框（bounding box，bbox）来表示物体的位置，边界框是正好能包含物体的矩形框，如图1 所示，图中3个人分别对应3个边界框。

图1 边界框

通常表示边界框的位置有两种方式：

即 $x_1, y_1, x_2, y_2)$ ，其中 $x_1, y_1)$ 是矩形框左上角的坐标， $x_2, y_2)$ 是矩形框右下角的坐标。图1 中3个红色矩形框用 $x y x y$ 格式表示如下：

左： $(40.93, 141.1, 226.99, 515.73)$ 。
中： $(214.29, 325.03, 399.82, 631.37)$ 。
右： $(247.2, 131.62, 480.0, 639.32)$ 。

$x y w h$ ，即 $(x, y, w, h)$ ，其中 $(x, y)$ 是矩形框中心点的坐标， $w$ 是矩形框的宽度， $h$ 是矩形框的高度。

在检测任务中，训练数据集的标签里会给出目标物体真实边界框所对应的 $x_1, y_1, x_2, y_2)$ ，这样的边界框也被称为真实框（ground truth box），图1 画出了3个人像所对应的真实框。模型会对目标物体可能出现的位置进行预测，由模型预测出的边界框则称为预测框（prediction box）。

要完成一项检测任务，我们通常希望模型能够根据输入的图片，输出一些预测的边界框，以及边界框中所包含的物体的类别或者说属于某个类别的概率，例如这种格式: $L, P, x_1, y_1, x_2, y_2]$ ，其中 $L$ 是预测出的类别标签， $P$ 是预测物体属于该类别的概率。一张输入图片可能会产生多个预测框，接下来让我们一起学习如何完成这项任务。

注意：

在阅读代码时，请注意使用的是哪一种格式的表示方式。
图片坐标的原点在左上角， $x$ 轴向右为正方向， $y$ 轴向下为正方向。

3.锚框（Anchor box）

目标检测算法通常会在输入图像中采样大量的区域，然后判断这些区域中是否包含我们感兴趣的目标，并调整区域边缘从而更准确地预测目标的真实边界框（ground-truth bounding box）。不同的模型使用的区域采样方法可能不同。这里我们介绍其中的一种方法：它以每个像素为中心生成多个大小和宽高比（aspect ratio）不同的边界框。这些边界框被称为锚框（anchor box）。

在目标检测任务中，我们会先设定好锚框的大小和形状，再以图像上某一个点为中心画出这些锚框，将这些锚框当成可能的候选区域。

目前，常用的锚框尺寸选择方法有：

人为经验选取
k-means聚类
作为超参数进行学习

模型对这些候选区域是否包含物体进行预测，如果包含目标物体，则还需要进一步预测出物体所属的类别。还有更为重要的一点是，模型需要预测出微调的幅度。这是因为锚框位置是固定的，它不大可能刚好跟物体边界框重合，所以需要在锚框的基础上进行微调以形成能准确描述物体位置的预测框。

在训练过程中，模型通过学习不断的调整参数，最终能学会如何判别出锚框所代表的候选区域是否包含物体，如果包含物体的话，物体属于哪个类别，以及物体边界框相对于锚框位置需要调整的幅度。而不同的模型往往有着不同的生成锚框的方式。

在下图中，以像素点[300, 500]为中心可以使用下面的程序生成3个框，如图2 中蓝色框所示，其中锚框A1跟人像区域非常接近。

图2 锚框

#画图展示如何绘制边界框和锚框
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
from matplotlib.image import imread
import math

#定义画矩形框的程序    
def draw_rectangle(currentAxis, bbox, edgecolor = 'k', facecolor = 'y', fill=False, linestyle='-'):
    # currentAxis，坐标轴，通过plt.gca()获取
    # bbox，边界框，包含四个数值的list， [x1, y1, x2, y2]
    # edgecolor，边框线条颜色
    # facecolor，填充颜色
    # fill, 是否填充
    # linestype，边框线型

    # patches.Rectangle(xy, width, height,linewidth,edgecolor,facecolor,fill, linestyle)
    # xy:左下角坐标; width:矩形框的宽; height:矩形框的高; linewidth:线宽; edgecolor:边界颜色; facecolor:填充颜色; fill:是否填充; linestyle:线断类型
    rect=patches.Rectangle((bbox[0], bbox[1]), bbox[2]-bbox[0]+1, bbox[3]-bbox[1]+1, linewidth=1,
                           edgecolor=edgecolor,facecolor=facecolor,fill=fill, linestyle=linestyle)
    currentAxis.add_patch(rect)

    
plt.figure(figsize=(10, 10))
#传入图片路径
filename = '/home/aistudio/work/images/section3/000000086956.jpg'
im = imread(filename)
plt.imshow(im)

#使用xyxy格式表示物体真实框
bbox1 = [214.29, 325.03, 399.82, 631.37]
bbox2 = [40.93, 141.1, 226.99, 515.73]
bbox3 = [247.2, 131.62, 480.0, 639.32]

currentAxis=plt.gca()
#绘制3个真实框
draw_rectangle(currentAxis, bbox1, edgecolor='r')
draw_rectangle(currentAxis, bbox2, edgecolor='r')
draw_rectangle(currentAxis, bbox3,edgecolor='r')

#绘制锚框
def draw_anchor_box(center, length, scales, ratios, img_height, img_width):
    """
    以center为中心，产生一系列锚框
    其中length指定了一个基准的长度
    scales是包含多种尺寸比例的list
    ratios是包含多种长宽比的list
    img_height和img_width是图片的尺寸，生成的锚框范围不能超出图片尺寸之外
    """
    bboxes = []
    for scale in scales:
        for ratio in ratios:
            h = length*scale*math.sqrt(ratio)
            w = length*scale/math.sqrt(ratio) 
            x1 = max(center[0] - w/2., 0.)
            y1 = max(center[1] - h/2., 0.)
            x2 = min(center[0] + w/2. - 1.0, img_width - 1.0)
            y2 = min(center[1] + h/2. - 1.0, img_height - 1.0)
            print(center[0], center[1], w, h)
            bboxes.append([x1, y1, x2, y2])

    for bbox in bboxes:
        draw_rectangle(currentAxis, bbox, edgecolor = 'b')

img_height = im.shape[0]
img_width = im.shape[1] 
#绘制锚框
draw_anchor_box([300., 500.], 100., [2.0], [0.5, 1.0, 2.0], img_height, img_width)

################# 以下为添加上图中的文字说明和箭头###############################
plt.text(285, 285, 'G1', color='red', fontsize=20)
plt.arrow(300, 288, 30, 40, color='red', width=0.001, length_includes_head=True, \
         head_width=5, head_length=10, shape='full')

plt.text(190, 320, 'A1', color='blue', fontsize=20)
plt.arrow(200, 320, 30, 40, color='blue', width=0.001, length_includes_head=True, \
         head_width=5, head_length=10, shape='full')

plt.text(160, 370, 'A2', color='blue', fontsize=20)
plt.arrow(170, 370, 30, 40, color='blue', width=0.001, length_includes_head=True, \
         head_width=5, head_length=10, shape='full')

plt.text(115, 420, 'A3', color='blue', fontsize=20)
plt.arrow(127, 420, 30, 40, color='blue', width=0.001, length_includes_head=True, \
         head_width=5, head_length=10, shape='full')

plt.show()

锚框的概念最早在Faster rcnn^[1]目标检测算法中被提出，后来被YOLOv2^[2]等各种目标检测算法借鉴。对比于早期目标检测算法中使用的滑动窗口或Selective Search方法，使用锚框来提取候选区域大大减少了时间开销。而对比YOLOv1^[3]中直接回归坐标值来计算检测框，使用锚框可以简化目标检测问题，使得网络仅仅学习锚框的位置偏移量即可，从而使得网络模型更容易学习。

[1] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

[2] YOLO9000: Better, Faster, Stronger

[3] You Only Look Once: Unified, Real-Time Object Detection

4.交并比

在目标检测任务中，通常会使用交并比（Intersection of Union，IoU）作为衡量指标，来衡量两个矩形框之间的关系。例如在基于锚框的目标检测算法中，我们知道当锚框中包含物体时，我们需要预测物体类别并微调锚框的坐标，从而获得最终的预测框。此时，判断锚框中是否包含物体就需要用到交并比，当锚框与真实框交并比足够大时，我们就可以认为锚框中包含了该物体；而锚框与真实框交并比很小时，我们就可以认为锚框中不包含该物体。此外，在后面NMS的计算过程中，同样也要使用交并比来判断不同矩形框是否重叠。

交并比这一概念来源于数学中的集合，用来描述两个集合 $A$ 和 $B$ 之间的关系，它等于两个集合的交集里面所包含的元素个数，除以它们的并集里面所包含的元素个数，具体计算公式如下：

$\frac{A\cap B}{A \cup B}$

我们将用这个概念来描述两个框之间的重合度。两个框可以看成是两个像素的集合，它们的交并比等于两个框重合部分的面积除以它们合并起来的面积。下图“交集”中青色区域是两个框的重合面积，下图“并集”中蓝色区域是两个框的相并面积。用这两个面积相除即可得到它们之间的交并比，如图1 所示。

图1 交并比

假设两个矩形框A和B的位置分别为：

$A: [x_{a1}, y_{a1}, x_{a2}, y_{a2}]$

$B: [x_{b1}, y_{b1}, x_{b2}, y_{b2}]$

假如位置关系如图2 所示：

图2 计算交并比

如果二者有相交部分，则相交部分左上角坐标为：

$x_1 = max(x_{a1}, x_{b1}), \ \ \ \ \ y_1 = max(y_{a1}, y_{b1})$

相交部分右下角坐标为：

$x_2 = min(x_{a2}, x_{b2}), \ \ \ \ \ y_2 = min(y_{a2}, y_{b2})$

计算先交部分面积：

$max(x_2 - x_1 + 1.0, 0) \cdot max(y_2 - y_1 + 1.0, 0)$

矩形框A和B的面积分别是：

$S_A = (x_{a2} - x_{a1} + 1.0) \cdot (y_{a2} - y_{a1} + 1.0)$

$S_B = (x_{b2} - x_{b1} + 1.0) \cdot (y_{b2} - y_{b1} + 1.0)$

计算相并部分面积：

$union = S_A + S_B - intersection$

计算交并比：

$\frac{intersection}{union}$

交并比实现代码如下：

当矩形框的坐标形式为xyxy时

import numpy as np

#计算IoU，矩形框的坐标形式为xyxy
def box_iou_xyxy(box1, box2):
    # 获取box1左上角和右下角的坐标
    x1min, y1min, x1max, y1max = box1[0], box1[1], box1[2], box1[3]
    # 计算box1的面积
    s1 = (y1max - y1min + 1.) * (x1max - x1min + 1.)
    # 获取box2左上角和右下角的坐标
    x2min, y2min, x2max, y2max = box2[0], box2[1], box2[2], box2[3]
    # 计算box2的面积
    s2 = (y2max - y2min + 1.) * (x2max - x2min + 1.)
    
    # 计算相交矩形框的坐标
    xmin = np.maximum(x1min, x2min)
    ymin = np.maximum(y1min, y2min)
    xmax = np.minimum(x1max, x2max)
    ymax = np.minimum(y1max, y2max)
    # 计算相交矩形行的高度、宽度、面积
    inter_h = np.maximum(ymax - ymin + 1., 0.)
    inter_w = np.maximum(xmax - xmin + 1., 0.)
    intersection = inter_h * inter_w
    # 计算相并面积
    union = s1 + s2 - intersection
    # 计算交并比
    iou = intersection / union
    return iou


bbox1 = [100., 100., 200., 200.]
bbox2 = [120., 120., 220., 220.]
iou = box_iou_xyxy(bbox1, bbox2)
print('IoU is {}'.format(iou))

当矩形框的坐标形式为xywh时

import numpy as np

#计算IoU，矩形框的坐标形式为xywh
def box_iou_xywh(box1, box2):
    x1min, y1min = box1[0] - box1[2]/2.0, box1[1] - box1[3]/2.0
    x1max, y1max = box1[0] + box1[2]/2.0, box1[1] + box1[3]/2.0
    s1 = box1[2] * box1[3]

    x2min, y2min = box2[0] - box2[2]/2.0, box2[1] - box2[3]/2.0
    x2max, y2max = box2[0] + box2[2]/2.0, box2[1] + box2[3]/2.0
    s2 = box2[2] * box2[3]

    xmin = np.maximum(x1min, x2min)
    ymin = np.maximum(y1min, y2min)
    xmax = np.minimum(x1max, x2max)
    ymax = np.minimum(y1max, y2max)
    inter_h = np.maximum(ymax - ymin, 0.)
    inter_w = np.maximum(xmax - xmin, 0.)
    intersection = inter_h * inter_w

    union = s1 + s2 - intersection
    iou = intersection / union
    return iou

bbox1 = [100., 100., 200., 200.]
bbox2 = [120., 120., 220., 220.]
iou = box_iou_xywh(bbox1, bbox2)
print('IoU is {}'.format(iou))

为了直观的展示交并比的大小跟重合程度之间的关系，图3 示意了不同交并比下两个框之间的相对位置关系，从 IoU = 0.95 到 IoU = 0。

图3 不同交并比下两个框之间相对位置示意图

问题：

什么情况下两个矩形框的IoU等于1？

答案：两个矩形框完全重合。
什么情况下两个矩形框的IoU等于0？

答案：两个矩形框完全不相交。

5.非极大值抑制NMS

在实际的目标检测过程中，不管是用什么方式获取候选区域，都会存在一个通用的问题，那就是网络对同一个目标可能会进行多次检测。这也就导致对于同一个物体，会产生多个预测框。因此需要消除重叠较大的冗余预测框。具体的处理方法就是非极大值抑制（NMS）。

假设使用模型对图片进行预测，一共输出了11个预测框及其得分，在图上画出预测框如图1 所示。在每个人像周围，都出现了多个预测框，需要消除冗余的预测框以得到最终的预测结果。

图1 预测框示意图

输出11个预测框及其得分的代码实现如下：

#画图展示目标物体边界框
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
from matplotlib.image import imread
import math

#定义画矩形框的程序    
def draw_rectangle(currentAxis, bbox, edgecolor = 'k', facecolor = 'y', fill=False, linestyle='-'):
    # currentAxis，坐标轴，通过plt.gca()获取
    # bbox，边界框，包含四个数值的list， [x1, y1, x2, y2]
    # edgecolor，边框线条颜色
    # facecolor，填充颜色
    # fill, 是否填充
    # linestype，边框线型
    
    # patches.Rectangle(xy, width, height,linewidth,edgecolor,facecolor,fill, linestyle)
    # xy:左下角坐标; width:矩形框的宽; height:矩形框的高; linewidth:线宽; edgecolor:边界颜色; facecolor:填充颜色; fill:是否填充; linestyle:线断类型
    rect=patches.Rectangle((bbox[0], bbox[1]), bbox[2]-bbox[0]+1, bbox[3]-bbox[1]+1, linewidth=1,
                           edgecolor=edgecolor,facecolor=facecolor,fill=fill, linestyle=linestyle)
    currentAxis.add_patch(rect)

    
plt.figure(figsize=(10, 10))
#传入图片路径
filename = '/home/aistudio/work/images/section3/000000086956.jpg'
im = imread(filename)
plt.imshow(im)

currentAxis=plt.gca()

#预测框位置，由网络预测得到
boxes = np.array([[4.21716537e+01, 1.28230896e+02, 2.26547668e+02, 6.00434631e+02],
       [3.18562988e+02, 1.23168472e+02, 4.79000000e+02, 6.05688416e+02],
       [2.62704697e+01, 1.39430557e+02, 2.20587097e+02, 6.38959656e+02],
       [4.24965363e+01, 1.42706665e+02, 2.25955185e+02, 6.35671204e+02],
       [2.37462646e+02, 1.35731537e+02, 4.79000000e+02, 6.31451294e+02],
       [3.19390472e+02, 1.29295090e+02, 4.79000000e+02, 6.33003845e+02],
       [3.28933838e+02, 1.22736115e+02, 4.79000000e+02, 6.39000000e+02],
       [4.44292603e+01, 1.70438187e+02, 2.26841858e+02, 6.39000000e+02],
       [2.17988785e+02, 3.02472412e+02, 4.06062927e+02, 6.29106628e+02],
       [2.00241089e+02, 3.23755096e+02, 3.96929321e+02, 6.36386108e+02],
       [2.14310303e+02, 3.23443665e+02, 4.06732849e+02, 6.35775269e+02]])

#预测框得分，由网络预测得到
scores = np.array([0.5247661 , 0.51759845, 0.86075854, 0.9910175 , 0.39170712,
       0.9297706 , 0.5115228 , 0.270992  , 0.19087596, 0.64201415, 0.879036])

#画出所有预测框
for box in boxes:
    draw_rectangle(currentAxis, box)

这里使用非极大值抑制（Non-Maximum Suppression, NMS）来消除冗余框。基本思想是，如果有多个预测框都对应同一个物体，则只选出得分最高的那个预测框，剩下的预测框被丢弃掉。

如何判断两个预测框对应的是同一个物体呢，标准该怎么设置？

如果两个预测框的类别一样，而且他们的位置重合度比较大，则可以认为他们是在预测同一个目标。非极大值抑制的做法是，选出某个类别得分最高的预测框，然后看哪些预测框跟它的IoU大于阈值，就把这些预测框给丢弃掉。这里IoU的阈值是超参数，需要提前设置，这里我们参考YOLOv3算法，里面设置的是0.5。

比如在上面的程序中，boxes里面一共对应11个预测框，scores给出了它们预测"人"这一类别的得分，NMS的具体做法如下。

Step0：创建选中列表，keep_list = []
Step1：对得分进行排序，remain_list = [ 3, 5, 10, 2, 9, 0, 1, 6, 4, 7, 8]，
Step2：选出boxes[3]，此时keep_list为空，不需要计算IoU，直接将其放入keep_list，keep_list = [3]， remain_list=[5, 10, 2, 9, 0, 1, 6, 4, 7, 8]
Step3：选出boxes[5]，此时keep_list中已经存在boxes[3]，计算出IoU(boxes[3], boxes[5]) = 0.0，显然小于阈值，则keep_list=[3, 5], remain_list = [10, 2, 9, 0, 1, 6, 4, 7, 8]
Step4：选出boxes[10]，此时keep_list=[3, 5]，计算IoU(boxes[3], boxes[10])=0.0268，IoU(boxes[5], boxes[10])=0.0268 = 0.24，都小于阈值，则keep_list = [3, 5, 10]，remain_list=[2, 9, 0, 1, 6, 4, 7, 8]
Step5：选出boxes[2]，此时keep_list = [3, 5, 10]，计算IoU(boxes[3], boxes[2]) = 0.88，超过了阈值，直接将boxes[2]丢弃，keep_list=[3, 5, 10]，remain_list=[9, 0, 1, 6, 4, 7, 8]
Step6：选出boxes[9]，此时keep_list = [3, 5, 10]，计算IoU(boxes[3], boxes[9]) = 0.0577，IoU(boxes[5], boxes[9]) = 0.205，IoU(boxes[10], boxes[9]) = 0.88，超过了阈值，将boxes[9]丢弃掉。keep_list=[3, 5, 10]，remain_list=[0, 1, 6, 4, 7, 8]
Step7：重复上述Step6直到remain_list为空。

非极大值抑制的具体实现代码如下面的nms函数的定义。

#非极大值抑制
def nms(bboxes, scores, score_thresh, nms_thresh):
    """
    nms
    """
    inds = np.argsort(scores)
    inds = inds[::-1]
    keep_inds = []
    while(len(inds) > 0):
        cur_ind = inds[0]
        cur_score = scores[cur_ind]
        # if score of the box is less than score_thresh, just drop it
        if cur_score < score_thresh:
            break

        keep = True
        for ind in keep_inds:
            current_box = bboxes[cur_ind]
            remain_box = bboxes[ind]
            iou = box_iou_xyxy(current_box, remain_box)
            if iou > nms_thresh:
                keep = False
                break
        if keep:
            keep_inds.append(cur_ind)
        inds = inds[1:]

    return np.array(keep_inds)

最终得到keep_list=[3, 5, 10]，也就是预测框3、5、10被最终挑选出来了，如图2 所示。

图2 NMS结果示意图

整个过程的实现代码如下：

#画图展示目标物体边界框
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
from matplotlib.image import imread
import math

#定义画矩形框的程序    
def draw_rectangle(currentAxis, bbox, edgecolor = 'k', facecolor = 'y', fill=False, linestyle='-'):
    # currentAxis，坐标轴，通过plt.gca()获取
    # bbox，边界框，包含四个数值的list， [x1, y1, x2, y2]
    # edgecolor，边框线条颜色
    # facecolor，填充颜色
    # fill, 是否填充
    # linestype，边框线型
    # patches.Rectangle需要传入左上角坐标、矩形区域的宽度、高度等参数
    rect=patches.Rectangle((bbox[0], bbox[1]), bbox[2]-bbox[0]+1, bbox[3]-bbox[1]+1, linewidth=1,
                           edgecolor=edgecolor,facecolor=facecolor,fill=fill, linestyle=linestyle)
    currentAxis.add_patch(rect)

    
plt.figure(figsize=(10, 10))

filename = '/home/aistudio/work/images/section3/000000086956.jpg'
im = imread(filename)
plt.imshow(im)

currentAxis=plt.gca()

boxes = np.array([[4.21716537e+01, 1.28230896e+02, 2.26547668e+02, 6.00434631e+02],
       [3.18562988e+02, 1.23168472e+02, 4.79000000e+02, 6.05688416e+02],
       [2.62704697e+01, 1.39430557e+02, 2.20587097e+02, 6.38959656e+02],
       [4.24965363e+01, 1.42706665e+02, 2.25955185e+02, 6.35671204e+02],
       [2.37462646e+02, 1.35731537e+02, 4.79000000e+02, 6.31451294e+02],
       [3.19390472e+02, 1.29295090e+02, 4.79000000e+02, 6.33003845e+02],
       [3.28933838e+02, 1.22736115e+02, 4.79000000e+02, 6.39000000e+02],
       [4.44292603e+01, 1.70438187e+02, 2.26841858e+02, 6.39000000e+02],
       [2.17988785e+02, 3.02472412e+02, 4.06062927e+02, 6.29106628e+02],
       [2.00241089e+02, 3.23755096e+02, 3.96929321e+02, 6.36386108e+02],
       [2.14310303e+02, 3.23443665e+02, 4.06732849e+02, 6.35775269e+02]])
 
scores = np.array([0.5247661 , 0.51759845, 0.86075854, 0.9910175 , 0.39170712,
       0.9297706 , 0.5115228 , 0.270992  , 0.19087596, 0.64201415, 0.879036])

left_ind = np.where((boxes[:, 0]<60) * (boxes[:, 0]>20))
left_boxes = boxes[left_ind]
left_scores = scores[left_ind]

colors = ['r', 'g', 'b', 'k']

# 画出最终保留的预测框
inds = nms(boxes, scores, score_thresh=0.01, nms_thresh=0.5)
# 打印最终保留的预测框是哪几个
print(inds)
for i in range(len(inds)):
    box = boxes[inds[i]]
    draw_rectangle(currentAxis, box, edgecolor=colors[i])

需要说明的是当数据集中含有多个类别的物体时，需要做多分类非极大值抑制，其实现原理与非极大值抑制相同，区别在于需要对每个类别都做非极大值抑制，实现代码如下面的multiclass_nms所示。

#多分类非极大值抑制
def multiclass_nms(bboxes, scores, score_thresh=0.01, nms_thresh=0.45, pre_nms_topk=1000, pos_nms_topk=100):
    """
    This is for multiclass_nms
    """
    batch_size = bboxes.shape[0]
    class_num = scores.shape[1]
    rets = []
    for i in range(batch_size):
        bboxes_i = bboxes[i]
        scores_i = scores[i]
        ret = []
        # 对每个类别都进行NMS操作
        for c in range(class_num):
            scores_i_c = scores_i[c]
            keep_inds = nms(bboxes_i, scores_i_c, score_thresh, nms_thresh)
            if len(keep_inds) < 1:
                continue
            keep_bboxes = bboxes_i[keep_inds]
            keep_scores = scores_i_c[keep_inds]
            keep_results = np.zeros([keep_scores.shape[0], 6])
            keep_results[:, 0] = c
            keep_results[:, 1] = keep_scores[:]
            keep_results[:, 2:6] = keep_bboxes[:, :]
            ret.append(keep_results)
        if len(ret) < 1:
            rets.append(ret)
            continue
        ret_i = np.concatenate(ret, axis=0)
        scores_i = ret_i[:, 1]
        if len(scores_i) > pos_nms_topk:
            inds = np.argsort(scores_i)[::-1]
            inds = inds[:pos_nms_topk]
            ret_i = ret_i[inds]

        rets.append(ret_i)

    return rets

6.Soft NMS

6.1Soft NMS 提出背景

NMS（非极大值抑制）方法是目标检测任务中常用的后处理方法，其基本思想是：如果有多个预测框都对应同一个物体，则只选出得分最高的那个预测框，剩下的预测框被丢弃掉。在这种方法的处理下，可以有效地减少冗余的检测框。但是，传统的 NMS 算法会存在以下缺点：IOU阈值难以确定，阈值太小，则容易发生漏检现象，当两个相同类别的物体重叠非常多的时候，类别得分较低的物体则会被舍弃；阈值太大，则难以消除大部分冗余框。

因此，在《Improving Object Detection With One Line of Code》^[1]论文中，作者提出了 Soft NMS 方法来有效减轻上述问题。

6.2 Soft NMS 算法流程

假设当前得分最高的检测框为 $M$ ，对于另一个类别得分为 $s_i$ 的检测框 $b_i$ ，传统的 NMS 算法的计算方式可以表示为下式：

$s_i = \{\begin{matrix} s_i,iou(M,b_i)si={si,iou(M,bi)<Nt0,iou(M,bi)≥Nt$

而 Soft NMS 算法的计算方式可以表示为下式：

$s_i = \{\begin{matrix} s_i,iou(M,b_i)si={si,iou(M,bi)<Ntsi(1−iou(M,bi)),iou(M,bi)≥Nt$

但是，如果使用上述公式进行 Soft NMS 的计算，当IOU大于阈值时，边框得分会发生一个较大的变化。此时，检测结果有可能会也就会因此受到较大的影响。因此， Soft NMS 算法中，还提出了另一种边框得分的计算方式，如下式所示。
$s_i = s_ie^{-\frac {{iou(M,b_i)^2}}{\sigma}},\forall b_i\notin D$
此时，新的边界框得分变化较小，在后续的计算过程中也就又有了被计算为正确检测框的机会。

6.3 Soft NMS 算法示例

这里使用一个简单示例来说明 Soft NMS 算法的计算过程以及其与标准NMS算法的差异。

图1 SoftNMS算法示例

假设使用马匹检测模型对上述图像进行预测，得到如上的两个检测结果。其中红色检测框中的马匹类别得分为0.95，绿色虚线检测框中的马匹类别得分为0.8。可以看到，距离镜头更近的马匹几乎将距离镜头远的马匹完全遮挡住了，此时，两个检测框的IOU是非常大的。

在传统NMS算法中，对于这种检测框的IOU非常大，超过预先设定的阈值的情况，会仅仅保留得分最大的检测框，将得分较小的检测框的得分直接置0。此时，绿色虚线框中的马匹也就直接被舍弃掉了。但是，这两个检测框本身分别对应了两个不同的马匹，因此，这种NMS的方法会造成漏检的现象。

而在SoftNMS算法中，绿色虚线的检测框对应的新得分则不会被置0，而是使用上文中提到的两种计算方式进行计算。此时，绿色虚线框中的马匹不会直接被舍弃掉，而是降低了类别得分，继续参与后续计算。对应原图中的情况，两个马匹则有很大的概率在最后同时被保留，避免了漏检现象的发生。

参考文献

[1] 《Improving Object Detection With One Line of Code》

你可能感兴趣的:(#,深度学习应用项目实战篇,计算机视觉,深度学习,目标检测,人工智能,神经网络)

深度学习篇---Opencv中的机器学习和深度学习 Ronin-Lotus 深度学习篇图像处理篇深度学习 opencv 机器学习 python
文章目录前言一、OpenCV中的机器学习1.概述2.使用步骤步骤1：准备数据步骤2：创建模型步骤3：训练模型步骤4：预测3.优点简单易用轻量级实时性4.缺点特征依赖性能有限二、OpenCV中的深度学习1.概述图像分类（如ResNet、MobileNet）目标检测（如YOLO、SSD）语义分割（如DeepLab）人脸检测（如OpenFace）2.使用步骤步骤1：加载模型步骤2：准备输入数据步骤3：推
7款敏捷项目管理系统对比，让进度追踪更高效敏捷
本文主要分享7款主流敏捷项目管理系统：1.PingCode；2.TAPD；3.YesDev；4.Jira；5.Targetprocess；6.GitLab（国内版本）；7.ClickUp。在如今快速变化的商业环境中，项目管理工具越来越成为团队高效协作和成功交付的关键。尤其是对于采用敏捷方法的团队来说，选择合适的敏捷项目管理系统不仅能够提升工作效率，还能帮助团队更好地适应市场需求和项目变更。然而，面
慕慕手记项目日记 2025-3-7 项目基本环境搭建 Martinenbule 慕慕手记项目日志 python 开发语言
慕慕手记项目日记2025-3-7今日的日记主要是对SQLAIChemy框架应用的一些收尾，当然主要还是先学会使用。我的收藏文章功能开发@app.route("/")defmy_favorite():username=request.args.get("username")#先查询收藏表里的user_id再查询文章表，实现多表查询all_article=db_session.query(User,A
【架构论文-1】面向服务架构（SOA） W Y 架构架构设计
【摘要】本文以我参加公司的“生产线数字孪生”项目为例，论述了“面向服务架构设计及其应用”。该项目的目标是构建某车企的数字孪生平台，在虚拟场景中能够仿真还原真实产线的动作和节拍，实现虚实联动，从而提前规避问题，节约成本，预测节拍，进行故障诊断和预测维护，从而完成系统和设备产线的优化。在此项目中，我担任系统架构师以及主要管理人员，主导了项目的开发，架构设计，项目管理等工作。本文首先分析了面向服务架构的
5分钟掌握SQLite数据库操作？C#中的轻量级数据库解决方案墨瑾轩一起学学C#【二】数据库 sqlite c#
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣在现代软件开发中，选择合适的数据库对于应用程序的性能和可维护性至关重要。对于小型项目或嵌入式系统，轻量级且易于使用的SQLite是一个理想的选择。今天，我要为你详细介绍如何使用C#来操作SQLite数据库。通过本文，你将从头到尾了解如何创建、连接、插入、查询和
面试基础---分布式架构基础：CAP 理论与 BASE WeiLai1112 后端面试 redis junit java 架构分布式后端
分布式架构基础：CAP理论与BASE理论深度解析引言在互联网大厂的高并发、高可用场景下，分布式系统的设计是至关重要的。CAP理论和BASE理论是分布式系统设计的基石，理解这些理论对于设计高可用、高性能的分布式系统至关重要。本文将深入探讨CAP理论和BASE理论，结合实际项目案例和源码分析，帮助读者深入理解其实现原理。1.CAP理论CAP理论是分布式系统设计的基础理论之一，由EricBrewer在2
Django+Vue创建项目前后端分离我就是我是好孩子啊 django vue.js python
转载掘金文章详细介绍了如何搭建项目https://juejin.cn/post/7028812676230807582Django的TemplateView指向生成的前端dist文件即可.1、找到project目录的urls.py，使用通用视图创建最简单的模板控制器，访问『/』时直接返回index.html:fromdjango.conf.urlsimporturlfromdjango.views
前后端分离实践 hinihaoaaa JS 前后端分离
前后端分离并不是什么新鲜事，到处都是前后端分离的实践。然而一些历史项目在从一体化Web设计转向前后端分离的架构时，仍然不可避免的会遇到各种各样的问题。由于层出不穷的问题，甚至会有团队质疑，一体化好好的，为什么要前后端分离？说到底，并不是前后分离不好，只是可能不适合，或者说……设计思维还没有转变过来……一体式Web架构示意前后分离式Web架构示意为什么要前后端分离比为什么要前后端分离更现实的问题是什
【深度学习模型高效部署】tensorRT_Pro深度解读：部署深度学习模型的高效方案云博士的AI课堂深度学习哈佛博后带你玩转机器学习深度学习人工智能 tensorRT_Pro TensorRT 高性能推理机器学习模型部署
以下内容将对tensorRT_Pro项目做一个系统的介绍，包括其核心价值、主要功能、应用案例以及关键的示例代码（附详细解释），帮助你快速了解并上手如何基于TensorRT在NVIDIAGPU上实现高性能推理。一、项目概述GitHub-shouxieai/tensorRT_Pro:C++librarybasedontensorrtintegrationtensorRT_Pro是由开发者shouxie
开源替代Manus项目深度解析与API能力全景对比 YuKeeHgg Manus AI ai Manus
本文为原创作者：YuKeeHggAI代理工具Manus因其卓越的任务自动化能力而备受瞩目，特别是在分析简历、创建网站等复杂任务上表现出色。然而，其邀请码机制导致获取成本高昂且访问受限。为应对这一问题，开源社区迅速推出了OWL、OpenManus和OpenHands三个免费替代方案。这些项目不仅降低了使用门槛，还提供了类似的功能，体现了技术开放与共享的精神。本文将对这三个项目进行详细分析，涵盖背景、
redis分布式锁 JLiuli redis 分布式锁 java
什么是分布式锁在分布式系统下，通过锁机制来控制资源的访问，与传统的单体项目中的synchronized,他是基于jvm的锁，即在一个springboot服务下能保证线程同步的问题，但现在我们大部分的项目部署不局限于一台服务器，此时会出现多把jvm锁无法保证对数据的互斥原则。分布式锁就像是把锁单独抽出来为一个应用，让所有springboot项目公用同一把锁。分布式锁的特点1.互斥性：任意时刻锁只能被
【HarmonyOS开发案例】项目通用功能-demo 太空人_喜之郎 OpenHarmony 鸿蒙 HarmonyOS harmonyos 华为前端 linux 鸿蒙移动开发鸿蒙系统
补充：控制屏幕方向、判断屏幕方向、获取设备类型。用于提前判断类型，提前加载不同布局。import{promptAction,window}from'@kit.ArkUI'import{resourceManager}from'@kit.LocalizationKit'@Entry@ComponentstructPage41{build(){Column({space:5}){Button('设置当
uniapp微信小程序消息订阅 youhebuke225 微信小程序与uniapp uni-app 微信小程序小程序
在uni-app中开发微信小程序时，如果你想要实现消息订阅功能，主要是依赖于微信小程序自身的消息订阅系统。微信小程序提供了订阅消息的能力，允许用户订阅一次性的消息通知，如支付成功通知、物流到达通知等。以下是如何在uni-app项目中实现微信小程序消息订阅的基本步骤：1.注册消息模板首先，你需要在微信小程序的后台（微信公众平台）注册你需要的消息模板。这些模板定义了消息的格式和内容。注册完成后，你会获
神经网络图像识别技术,神经网络如何识别图像小浣熊的技术神经网络机器学习深度学习
什么是神经网络神经网络可以指向两种，一个是生物神经网络，一个是人工神经网络。生物神经网络：一般指生物的大脑神经元，细胞，触点等组成的网络，用于产生生物的意识，帮助生物进行思考和行动。人工神经网络（ArtificialNeuralNetworks，简写为ANNs）也简称为神经网络（NNs）或称作连接模型（ConnectionModel），它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法
人工神经网络的基本属性,神经网络四个基本属性小浣熊的技术神经网络机器学习深度学习
什么是神经网络神经网络可以指向两种，一个是生物神经网络，一个是人工神经网络。生物神经网络：一般指生物的大脑神经元，细胞，触点等组成的网络，用于产生生物的意识，帮助生物进行思考和行动。人工神经网络（ArtificialNeuralNetworks，简写为ANNs）也简称为神经网络（NNs）或称作连接模型（ConnectionModel），它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法
GitHub注册-创建数据库-本地项目推送GitHub远程数据库-(入门级教程) WuQingZhao git TortoiseGit GitHub github git
1.首先我们下载三个软件(git/TortoiseGit/中文包)应用简介：Git:开源的分布式版本控制系统(命令形式推送代码至本地/远程仓库)TortoiseGit:简化复杂的命令形式(图形界面的选项鼠标操作推送)中文包：tortoisegit的翻译包协同学习B站视频：https://www.bilibili.com/video/BV1k34y1175x?share_source=copy_we
金融数据分析（十）人均国内生产总值的增长率于科技人文间徘徊金融数据分析 python 数据分析
案例（四）宏观金融数据分析项目一：利用世界银行公开数据平台提供的宏观经济数据比较最近40年间A国与B国的人均国内生产总值的增长率（图表输出）数据可通过此网页中的下载链接获取：https://data.worldbank.org.cn/?locations=CN-US#-*-coding:utf-8-*-"""CreatedonMonSept229:11:592020@author:mly"""im
计算机毕业设计Python+uniapp今日健康饮食食谱小程序(小程序+源码+LW) Python毕设源码程序高学长 python 课程设计 uni-app
计算机毕业设计Python+uniapp今日健康饮食食谱小程序(小程序+源码+LW)该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+uni+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+UNI等等组成，B/S模式+pychram
全星FMEA软件：高效管理与卓越体验的完美融合全星007 汽车制造芯片软件工程
全星FMEA软件：高效管理体验在当今复杂多变的汽车电子行业，FMEA（失效模式与影响分析）作为保障产品可靠性的关键工具，其管理的高效性与准确性至关重要。全星FMEA软件系统凭借其卓越的性能与贴心的设计，成为企业不可或缺的得力助手，深受行业广泛认可与推荐。全星FMEA软件系统为项目管理提供了强大的支持，能够将FMEA资料集中管理，形成一个清晰、有序的资料库。无论是团队协作还是个人工作，企业都能随时查
全星FMEA软件：企业高效提升研发项目FMEA作业效率的精致之选全星007 汽车设计规范低代码制造
全星FMEA软件系统是一款高效、智能的失效模式及影响分析工具，广泛应用于汽车、电子、机械等行业。该系统基于2019版FMEA手册开发，严格遵循七步方法，能够全面识别潜在风险并提前制定应对措施。FMEA软件系统的适用范围全星FMEA软件系统功能特点1.自动化分析：系统内置丰富的数据库和算法模型，可自动生成FMEA表格，进行风险优先级排序，并推荐优化措施，大幅提升分析效率。2.知识库管理：支持企业FM
全星《研发管理 APQP 软件系统》：汽车电子行业的卓越之选全星007 汽车
《全星研发管理APQP软件系统》：汽车电子行业的卓越之选汽车电子行业的研发管理，正面临着前所未有的挑战与机遇。全星研发管理APQP软件系统应运而生，为行业研发管理体系建设化解难题。研发管理软件系统APQP软件系统--强力赋能汽车部件开发管理《全星研发管理APQP软件系统》在通用传统项目管理系统功能的基础上，深度契合汽车质量管理IATF16949和VDA体系。APQP、FMEA、PPAP、SPC、M
数据挖掘实战-基于Catboost算法的艾滋病数据可视化与建模分析艾派森数据挖掘实战合集 python 人工智能数据挖掘信息可视化数据分析
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
在vue2项目中el-table表格的表头和内容错位问题白小水i vue.js elementui 前端
一、问题描述以及产生原因问题描述：当el-table表格有横向滚动条和纵向滚动条，把横向滚动条拉到最右边，表格的表头会和内容错位（表头和内容列不对齐）问题产生原因：在el-table有纵向滚动条时，el-table__body-wrapper+纵向滚动条的宽度是100%，故表格内容区域宽度不足100%，而表头el-table__header-wrapper的宽度仍为100%，表格内容实际宽度小于表
基于YOLOv5的无人机农田监测系统实现与UI界面设计深度学习&目标检测实战项目 YOLO 无人机 ui 深度学习分类目标检测
一、引言随着无人机技术和深度学习算法的快速发展，农业领域逐渐引入了智能化监测手段。无人机农田监测结合了无人机的高空拍摄能力和计算机视觉技术，能够实时获取农田的图像数据，并对作物生长状态、病虫害检测、土地使用情况等进行智能分析。深度学习中的目标检测技术，如YOLOv5，能够帮助实现精准的农田监测，提供自动化的解决方案。在这篇博客中，我们将介绍如何利用YOLOv5进行无人机农田监测，如何使用图形用户界
Keras深度学习实战——手写文字识别鱼弦机器学习设计类系统深度学习 keras 人工智能
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）Keras深度学习实战——手写文字识别1.介绍本教程将介绍如何使用Keras深度学习框架进行手写文字识别。手写文字识别是指将手写文字转换为相应的文本，该文本可
Mark Github上的一个项目，VLM-R1。GRPO为什么促使MLLM在部分垂域比SFT更好的表现朱韬韬 github GRPO SFT
项目地址：GitHub-om-ai-lab/VLM-R1:SolveVisualUnderstandingwithReinforcedVLMs最近做毕设，看到VLM-R1项目，一个有趣的现象：在Grounding任务中，GRPO训练的模型不仅展现出更稳定的训练曲线，其域外泛化能力更是远超传统SFT方法。这种差异在OCR等视觉-语言交叉任务中尤为显著。在追求大模型垂直领域落地的道路上，我们是否过度依
Manus：一夜爆火的“AI全能员工”如何重塑人工智能边界？阿新- 人工智能人工智能 Manus
引言：从“助手”到“执行者”的颠覆性跨越2025年3月6日，一款名为‌Manus‌的AI代理突然刷爆技术圈——其封闭测试邀请码在黑市被炒至10万元，甚至引发科技博主集体“求码”热潮‌。不同于传统AI仅提供建议，Manus能像人类一样‌自主完成全流程操作‌：从解压简历生成报告到编写代码部署网站，甚至联动硬件设备‌。这场技术风暴为何兴起？它将对AI领域带来哪些变革？分析一、Manus的核心突破：从“大
基于Simulink的单个PWM信号的傅里叶分析&特定谐波抑制科研辅导帮傅立叶分析
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理
基于pandas的哪吒2电影评论数据分析 2302_80651048 数据分析大数据数据挖掘
一、项目背景《哪吒2》作为国产动画电影的续作，凭借前作积累的口碑与IP效应，上映后引发广泛讨论。为深入理解观众对影片的真实反馈，挖掘市场评价中的关键信息，本项目基于电影评论数据集，从评分、情感倾向、地域分布、时间趋势等多维度展开分析，旨在为电影制作方、宣发团队及行业研究者提供数据驱动的决策支持。二、分析目标观众评价洞察：解析评分分布与情感倾向，识别影片的核心优势与争议点。用户行为分析：探索评论时间
研究发现，LLM基于数据的内在含义进行表示，并以其主导语言推理新加坡内哥谈技术人工智能自然语言处理语言模型深度学习 copilot
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/【本周AI新闻:Deepseek崛起背后：AI智能代理时代正式到来？】https://w
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL