耿鬼喝椰汁

YOLOv5【预测detect.py逐行源码及参数调参解析】超详细解读！！！建议收藏✨✨！

之前的文章介绍了YOLOv5的网络结构与目录结构源码的详细解读，今天带来的是YOLOv5的 detect.py 代码逐行解读以及注释，废话不多说，让我们一起学习YOLOv5的 detect.py 源码吧！

YOLOv5所使用版本：v6.1（由于YOLOV5版本一直在更新，不同版本代码略有差异，但差别不大，可供用来学习。）

YOLOv5 源码地址：GitHub - ultralytics/yolov5 at v6.1

其他学习YOLOv5直通车：

YOLOv5【使用云GPU进行训练】超详细教程！！！

YOLOv5【使用云GPU连接本地Pycharm进行训练】超详细教程！！！

YOLOv5【网络结构】超详细解读！！✨✨

YOLOv5【目录结构源码】超详细解读！！！

YOLOv5【detect.py源码及参数】超详细注释解读！！

detect.py 执行主要流程

detect.py 执行主要流程分为四大块，主要流程如下✨✨：1.导入相关的库及配置文件---->2.导入完包以后执行main函数---->3.执行main函数时用到parse_opt()这个函数，它的功能主要是解析参数，在parse_opt()执行完成之后，会将opt传给函数main()---->4.main()函数中调用了函数run()，run()主要分为了七个部分：（1）传入参数、（2）初始化配置、（3）保存结果、（4）加载模型的权重、（5）加载待预测的数据、（6）执行模型的推理过程、（7）打印输出信息。

接下来让我们按照执行流程来依次解析detect.py源码把！！！✨✨

一、导入相关的库及配置文件

我们先从 detect.py 导入库以及相关配置文件开始介绍

1.1 `✨`导入所需要的相关库`✨`

'''------------------1.1✨导入所需要的相关库✨--------------------'''
import argparse # 解析命令行参数的库
import os # 与操作系统进行交互的文件库 包含文件路径操作与解析
import sys # 包含了与python解释器和它的环境有关的函数。
from pathlib import Path # Path能够更加方便得对字符串路径进行处理
 
import cv2 # 开源的库平台计算机视觉库。有很强大的图片处理功能，可实现图像处理和计算机视觉方面的很多通用算法。
import torch #pytorch 深度学习库
import torch.backends.cudnn as cudnn #提供了一个接口，用于使用cuDNN库，在NVIDIA GPU上高效地进行深度学习

1.argparse：这个库允许用户为Python脚本指定命令行参数。它简化了处理命令行输入的过程，它是一个用于命令行参数解析的模块，通过在程序中定义好我们需要的参数，argparse 将会从 sys.argv 中解析出这些参数，并自动生成帮助和使用信息。

2.os：这个库提供了一种与操作系统交互的方式，比如创建和删除目录，列出文件等等。它提供了多种操作系统的接口，通过os模块提供的操作系统接口，我们可以对操作系统里文件、终端、进程等进行操作。

3.sys：这个库提供了访问解释器使用或维护的一些变量（如传递给Python脚本的命令行参数），以及与解释器强烈交互的函数，它是与python解释器交互的一个接口，该模块提供对解释器使用或维护的一些变量的访问和获取，它提供了许多函数和变量来处理 Python 运行时环境的不同部分。

4.pathlib：这个库提供了一种面向对象的方式来与文件系统交互，可以让代码更简洁、更易读。

5.cv2：这个库是一个开源的库平台计算机视觉库。有很强大的图片处理功能，可实现图像处理和计算机视觉方面的很多通用算法。

6.torch：这个库是主要的Pytorch库。它提供了构建、训练和评估神经网络的工具。

7.torch.backends. cudnn：导入了torch.backends.cudnn库，它提供了一个接口，用于使用cuDNN库，在NVIDIA GPU上高效地进行深度学习。cudnn模块是一个PyTorch库的扩展。

1.2 ✨路径代码✨

这段代码主要作用：将当前项目添加到系统路径上，并将项目的绝对路径转换成相对路径保存在ROOT中。

'''----------------------1.2✨路径代码✨----------------------'''
FILE = Path(__file__).resolve()  # __file__指的是当前文件(即detect.py),FILE最终保存着当前文件的绝对路径,比如D://yolov5/detect.py
ROOT = FILE.parents[0]  # YOLOv5 root directory  ROOT保存着当前项目的父目录,比如 D://yolov5
if str(ROOT) not in sys.path:  # sys.path即当前python环境可以运行的路径,假如当前项目不在该路径中,就无法运行其中的模块,所以就需要加载路径
    sys.path.append(str(ROOT))  # add ROOT to PATH  把ROOT添加到运行路径上
ROOT = Path(os.path.relpath(ROOT, Path.cwd()))  # relative ROOT设置为相对路径

1. FILE = Path(__file__).resolve() ：获取detect.py在电脑中的绝对路径。

2.ROOT = FILE.parents[0] ：接使用parents[0]属性获取该文件的父级目录，即YOLOv5根目录，并将其赋值给变量ROOT。

3.if str(ROOT) not in sys.path:
sys.path.append(str(ROOT)) ：如果ROOT不在sys.path中，就将ROOT添加到运行路径上，以便Python能够找到该目录中的其他模块。

4.ROOT = Path(os.path.relpath(ROOT, Path.cwd())) ：将ROOT路径对象相对于当前工作目录转换为一个相对路径，并将结果赋值给ROOT变量。

这样做原因：在不同的操作系统和环境下，路径的表示方式可能有所不同。将路径表示为相对路径可以确保代码在不同的环境中具有相同的行为。

1.3 ✨导入自定义辅助库✨

这段代码导入了YOLOv5的许多辅助模块，以便进行物体检测和识别的相关任务。上一步已经加载路径，现在进行导入，顺序不可以调换。具体来说，代码从如下几个文件中导入了部分函数和类：

'''-------------------- 1.3  ✨导入自定义辅助库✨-----------------'''
from models.common import DetectMultiBackend   #定义了一些通用的函数和类，比如图像的处理、非极大值抑制等等。
from utils.datasets import IMG_FORMATS, VID_FORMATS, LoadImages, LoadStreams   #定义了两个类，LoadImages和LoadStreams，它们可以加载图像或视频帧，并对它们进行一些预处理，以便进行物体检测或识别。
from utils.general import (LOGGER, check_file, check_img_size, check_imshow, check_requirements, colorstr,
                           increment_path, non_max_suppression, print_args, scale_coords, strip_optimizer, xyxy2xywh)    #定义了一些常用的工具函数，比如检查文件是否存在、检查图像大小是否符合要求、打印命令行参数等等。
from utils.plots import Annotator, colors, save_one_box  #定义了Annotator类，可以在图像上绘制矩形框和标注信息。
from utils.torch_utils import select_device, time_sync   #定义了一些与PyTorch有关的工具函数，比如选择设备、同步时间等等。

1.models.common.py：这个文件定义了一些通用的函数和类，比如图像的处理、非极大值抑制等等。

2.utils.datasets.py：这个文件定义了两个类，LoadImages和LoadStreams，它们可以加载图像或视频帧，并对它们进行一些预处理，以便进行物体检测或识别。

3.utils.general.py：这个文件定义了一些常用的工具函数，比如检查文件是否存在、检查图像大小是否符合要求、打印命令行参数等等。

4.utils.plots.py：这个文件定义了Annotator类，可以在图像上绘制矩形框和标注信息。

5.utils.torch_utils.py：这个文件定义了一些与PyTorch有关的工具函数，比如选择设备、同步时间等等。

通过导入这些辅助模块，可以更方便地进行目标检测的相关任务，并且减少了代码的复杂度和冗余。

二、main() 函数

这是程序的主函数。它调用了 check_requirements() 函数和 run() 函数，并将命令行参数 opt 转换为字典作为参数传递给 run() 函数。

'''----------------------二、main函数-------------------------'''
def main(opt):
    # 检查环境/打印参数,主要是requrement.txt的包是否安装，用彩色显示设置的参数
    check_requirements(exclude=('tensorboard', 'thop'))
    # 执行run()函数
    run(**vars(opt))
 
 
# 命令使用
# python detect.py --weights runs/train/exp_yolov5s/weights/best.pt --source  data/images/fishman.jpg # webcam
if __name__ == "__main__":
    opt = parse_opt() # 解析参数
    main(opt) # 执行主函数

1.check_requirements(exclude=('tensorboard', 'thop')) ：检查程序所需的依赖项是否已安装。

2.run(**vars(opt)) ：将 opt 变量的属性和属性值作为关键字参数传递给 run() 函数。

3.if name == ‘main’：就是控制执行代码的过程，让的文件作为脚本直接执行，才会被执行，而 import 到其他脚本中是不会被执行的。

4.opt = parse_opt() ：解析命令行传进的参数。该段代码分为三部分，第一部分定义了一些可以传导的参数类型，第二部分对于imgsize部分进行了额外的判断（640*640），第三部分打印所有参数信息，opt变量存储所有的参数信息，并返回。

5.main(opt)：执行命令行参数。该段代码分为两部分，第一部分首先完成对于requirements.txt的检查，检测这些依赖包有没有安装；第二部分，将opt变量参数传入，执行run函数。

三、parse_opt()函数

执行main函数时用到并parse_opt()这个函数，它的功能主要是为模型进行推理时提供参数，在parse_opt()执行完成之后，会将opt传给函数main()。

接下来让我们逐行解析一下 parse_opt() 函数的相关参数：

3.1 '--weights' ⭐

parser.add_argument('--weights', nargs='+', type=str, default=ROOT / 'yolov5s.pt', help='model path(s)')

这个参数是指定权重文件的路径，默认是yolov5s.pt，可以使用自己训练的权重，也可以使用官网提供的权重，下载好后放在根目录就好。默认官网的权重yolov5s.pt (yolov5n.pt/yolov5s.pt/yolov5m.pt/yolov5l.pt/yolov5x.pt/区别在于网络的宽度和深度以此增加)。

下图是官方提供的预训练权重：

3.2 '--source' ⭐

 parser.add_argument('--source', type=str, default=ROOT / 'data/images', help='file/dir/URL/glob, 0 for webcam')

这个设置的参数是：指定网络输入的测试数据的路径文件夹，可以是图片/视频路径，也可以是'0'(电脑自带摄像头)，也可以指定具体的文件或者扩展名。默认是 data/images 文件夹，测试的时候默认测试此文件夹下的图片。

3.3 '--data' ⭐

parser.add_argument('--data', type=str, default=ROOT / 'data/coco128.yaml', help='(optional) dataset.yaml path')

这个设置的参数是：配置数据的文件路径，默认为COCO128数据集的配置文件路径。包括数据集的下载路径和一些基本信息，在预测时如果不自己指定数据集，系统会自己下载coco128数据集。

3.4 '--imgsz' ⭐

parser.add_argument('--imgsz', '--img', '--img-size', nargs='+', type=int, default=[640], help='inference size h,w')

这个设置的参数是：模型在检测图片前会把图片resize成640 × 640的尺寸，然后再输入进网络里。

3.5 '--conf-thres' ⭐

 parser.add_argument('--conf-thres', type=float, default=0.25, help='confidence threshold')

这个设置的参数是：置信度阈值，默认为 0.25。表示预测置信度大于0.5的值才会被框选出来。置信度：指网络对检测出来的目标正确的相信程度。当参数设置为0时，网络只要认为检测目标有一丢丢的正确，就会被框选出来。

（为了方便理解接下来我分别将--conf-thres设置为0，0.25，0.67来看一下检测结果）

--conf-thres=0
--conf-thres=0.25
--conf-thres=0.67

3.6 '--iou-thres' ⭐

parser.add_argument('--iou-thres', type=float, default=0.45, help='NMS IoU threshold')

这个设置的参数是：非极大抑制时的 IoU 阈值，默认为 0.45.

3.6.1 NMS与IoU✨

非极大值抑制算法（NMS）：执行目标检测任务时，可能对同一目标进行多次检测，得到多个检测框。而NMS算法时一种确保对每个对象只得到一个检测框的方法。

IoU：计算的是 “预测的边框” 和 “真实的边框” 的交集和并集的比值。IoU的值越高也说明A框与B框重合程度越高，代表模型预测越准确。反之，IoU越低模型性能越差。

关于NMS与IoU详细可以看我之前的这篇文章：直通车

✨✨非极大值抑制的流程如下✨✨：

根据置信度得分进行排序
选择置信度最高的边界框添加到最终输出列表中，将其从边界框列表中删除
计算所有边界框的面积
计算置信度最高的边界框与其它候选框的IoU。
删除IoU大于阈值的边界框
重复上述过程，直至边界框列表为空。

3.6.2 设置阈值例子✨

（为了方便理解接下来我分别将--iou-thres设置为0.45，0.9，1来看一下检测结果）

--iou-thres=0.45
--iou-thres=0.8
--iou-thres=1

3.7 '--max-det' ⭐

parser.add_argument('--max-det', type=int, default=1000, help='maximum detections per image')

这个设置的参数是：保留的最大检测框（检测目标）数量，每张图片中检测目标的个数最多为1000类。

（为了方便理解接下来我分别将--max-det设置为0，1，3，6来看一下检测结果）

--max-det=0
--max-det=1
--max-det=2
--max-det=6

3.8 '--device' ⭐

parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu')

这个设置的参数是：预测时使用的设备，按照自己需求可以选择GPU或CPU。填写的是cuda 设备的 ID（例如 0,1,2,3或者是 'cpu'），显卡编号可以使用nvidia-smi指令来查看。

注意： action='store_true' ⭐

action=store_true是argparse模块中的一个参数，用于指定当命令行参数存在时，将其值设置为True。如果命令行参数不存在，则该值将保持为默认值（通常为False）。这个参数通常用于开关选项，我们要去使用命令行参数去激活他。

举例说明：

import argparse
 
parser = argparse.ArgumentParser(description='test.py')
parser.add_argument('--cuda', type=bool, default=True,  help='use cuda')
parser.add_argument('--cpu',action='store_true',help='use cpu')
args = parser.parse_args()
 
print("cuda: ",args.cuda)
print("cpu: ",args.cpu)

如果运行命令为：python test.py

则输出为：

cuda:  True
cpu:  False

如果运行命令为：python test.py --cpu

则输出为：

cuda:  True
cpu:  True

action=store_true 相当于一个开关，要使用命令行参数（python test.py --参数）打开这个开关，接下来我们看下面几个例子吧：

3.9 '--view-img' ⭐

parser.add_argument('--view-img', action='store_true', help='show results')

这个设置的参数是：是否将检测结果实时的展示出来（一闪而过）。

（因为有action=store_true，为了方便理解接下来我使用命令行参数，并展示下结果）

终端输入：

python detect.py --view-img

如果我使用命令行参数指定了这个参数的话，就相当于打开了--view-img 的开关，那么模型每检测出一张就会显示出一张，直到所有图片检测完成。如果我不用命令行参数指定这个参数，那么模型就不会一张一张的显示出来，其他有action=store_true的参数同理。

结果图如下：

3.10 '--save-txt' ⭐

parser.add_argument('--save-txt', action='store_true', help='save results to *.txt')

这个设置的参数是：是否将检测结果（类别信息以及检测框位置信息）保存起来，并保存成.txt 格式。

（因为有action=store_true，为了方便理解接下来我使用命令行参数展示下结果）

终端输入：

python detect.py --save-txt

可以看到输出结果多了一个labels 文件夹：

打开文件夹可以看见每张预测图片对应的.txt文件：

每个文件里都保存着检测的结果包含：类别信息以及检测框位置信息（红框：类别，黄框：位置信息）。

3.11 '--save-conf' ⭐

  parser.add_argument('--save-conf', action='store_true', help='save confidences in --save-txt labels')

这个设置的参数是：是否将检测结果的置信度保存起来，并保存成.txt 格式。

注意：必须和--save-txt 配合使用！！！单独使用不报错，但是也没有效果。

即终端输入：（这里面命令行参数进行了组合使用，同理，其他命令行参数也可以组合使用！）

python detect.py --save-txt --save-conf

可以看到和上面相比多了一行数据（绿框），这行代表的就是置信度（红框：类别，黄框：位置信息，绿框：置信度）。

3.12 '--save-conf' ⭐

parser.add_argument('--save-crop', action='store_true', help='save cropped prediction boxes')

这个设置的参数是：是否把模型检测的结果裁剪下来，并保存在crops文件夹下。

（因为有action=store_true，为了方便理解接下来我使用命令行参数展示下结果）

终端输入：

python detect.py --save-crop

可以看到exp文件夹下多了一个crops文件夹，将相同种检测的类别保存在一个文件夹下：

下面展示一下几张裁剪下来的person图，这里展示海贼王的啦哈哈哈哈~~

YOLOv5【预测detect.py逐行源码及参数调参解析】超详细解读！！！建议收藏✨✨！_第10张图片

YOLOv5【预测detect.py逐行源码及参数调参解析】超详细解读！！！建议收藏✨✨！_第11张图片

YOLOv5【预测detect.py逐行源码及参数调参解析】超详细解读！！！建议收藏✨✨！_第12张图片

YOLOv5【预测detect.py逐行源码及参数调参解析】超详细解读！！！建议收藏✨✨！_第13张图片

3.13 '--nosave' ⭐

parser.add_argument('--nosave', action='store_true', help='do not save images/videos')

这个设置的参数是：不保存图片、视频等预测结果。不设置--nosave 在runs/detect/exp*/会出现预测的结果，若设置了--nosave，则只会产生空文件夹，文件夹里无任何预测结果。

（因为有action=store_true，为了方便理解接下来我使用命令行参数展示下结果）

终端输入：

python detect.py --nosave

只会产生一个空的exp（exp25），无任何预测结果。

注意：我们可以利用这个参数以及结合上面的其他参数来获取我们想要的检测结果相关信息！！！比如：

正常的预测exp文件夹只有预测之后的图片：

我们完全可以利用命令行参数来获取我们想要的检测结果信息，比如我们不想要预测之后的图片，只想要检测结果裁剪后的图片以及label，我们可以结合--nosave将检测图片清空不保存，再使用--save-crop与--sace-label来获取裁剪后的图片及label：

（为了方便理解接下来我使用命令行参数展示下结果）

终端输入：

detect.py --nosave --save-crop --save-txt

可以看到产生的文件夹exp26中只显示我们想要的检测结果的信息

3.14 '--classes' ⭐

parser.add_argument('--classes', nargs='+', type=int, help='filter by class: --classes 0, or --classes 0 2 3')

这个设置的参数是：根据类别编号，仅检测指定类别，检测类别可以多个。

注意：nargs=‘+’ 与‘action=store_true’ 一样都使用命令行参数。nargs是用来说明传入的参数个数，’+’ 表示传入至少一个参数，若关联多个参数，在命令行运行时，输入两个数字，以空格隔开就好。

若只检测‘0’这个类别，则可在终端输入：
python detect.py --classes 0
若要检测多个类别（‘0‘，’1‘，’4‘），则在终端输入：
python detect.py --class 0 1 4
(不同类别直接用空格隔开。)

接下来说一下classes（类别）参数，可以参考coco128.yaml 配置文件，里面介绍了80种类别，类别编号从0开始，依次往下排列：

在上图中可以看到人’person‘这个参数为第一个，因此它的编号为’0‘，那我这里给classes指定参数为’0‘，意思就是说只检测编号为’0‘的’person‘这个类别，为了方便理解接下来我使用命令行参数展示下结果：

终端输入：

python detect.py --nosave --classes 0

检测结果：

未使用--classes命令参数
--classes=0（person）

3.15 '--agnostic-nms' ⭐

 parser.add_argument('--agnostic-nms', action='store_true', help='class-agnostic NMS')

这个设置的参数是：是否使用类别不敏感的非极大抑制（即不考虑类别信息），默认为False。

在训练阶段是不需要nms处理的，只有在验证或者是测试阶段才需要将预测结果进行非极大值抑制处理，让每个类都能独立执行NMS，在所有的边框上添加一个偏移量。偏移量仅取决于类ID，并且足够大，以便来自不同类的框不会重叠，来挑选最佳的正样本。

比如待检测图像中有一个长得很像梨的苹果，那在识别时这个苹果可能会被同时框上2个框：一个梨，一个苹果，开启agnostic-nms后，让两个类都能独立执行NMS，只框出一个正样本最佳的框。

3.16 '--arugment' ⭐

parser.add_argument('--augment', action='store_true', help='augmented inference')

这个设置的参数是：是否使用数据增强进行推理，默认为False。

（因为有action=store_true，为了方便理解接下来我使用命令行参数展示下结果）

终端输入：

python detect.py --augment

未使用--augment命令参数
使用--augment命令参数

可以看到效果挺明显，一些数据被增强了。

3.17 '--arugment' ⭐

parser.add_argument('--visualize', action='store_true', help='visualize features')

这个设置的参数是：可视化特征图。若开启了参数，exp文件夹就会产生对应检测图片的文件夹，文件夹里是该图片的特征图信息文件。

（因为有action=store_true，为了方便理解接下来我使用命令行参数展示下结果）

终端输入：

python detect.py --visualize

可以看到多生成了三个文件夹，文件夹里面是对于图片的特征图信息文件：

文件夹内特征图信息文件：

.npy格式的文件就是保存的模型文件，可以使用numpy读写。.png是特征图的图片文件。

下面可以看一下保存下来的特征图（以海贼图为例）：

stage0
stage3
stage17
stage23

3.18 '--update' ⭐

parser.add_argument('--update', action='store_true', help='update all models')

这个设置的参数是：对所有模型进行strip_optimizer操作，去除pt文件中的优化器等信息，默认为False。

3.19 '--project' ⭐

parser.add_argument('--project', default=ROOT / 'runs/detect', help='save results to project/name')

这个设置的参数是：预测结果保存的项目目录路径，默认为 'ROOT/runs/detect'。

3.20 '--name' ⭐

parser.add_argument('--name', default='exp', help='save results to project/name')

这个设置的参数是：预测结果保存的子目录名称，默认为 'exp'。

3.21 '--exist-ok' ⭐

parser.add_argument('--exist-ok', action='store_true', help='existing project/name ok, do not increment')

这个设置的参数是：覆盖已有结果。若指定了此参数，预测的结果保存在上一次保存的文件夹中，若不指定，每次预测结果则会保存一个新的文件夹中。

3.22 '--line-thickness' ⭐

 parser.add_argument('--line-thickness', default=3, type=int, help='bounding box thickness (pixels)')

这个设置的参数是：画 bounding box （检测框）时的线条宽度，默认为 3，数值越大，线条越粗（过粗会遮挡检测目标）。

--line-thickness=3
--line-thickness=15

3.23 '--hide-labels' ⭐

parser.add_argument('--hide-labels', default=False, action='store_true', help='hide labels')

这个设置的参数是：隐藏标签信息，只保留检测框。

（因为有action=store_true，为了方便理解接下来我使用命令行参数展示下结果）

终端输入：

python detect.py --hide-labels

未使用--line-thickness命令参数
使用--line-thickness命令参数

3.24 '--hide-conf' ⭐

parser.add_argument('--hide-conf', default=False, action='store_true', help='hide confidences')

这个设置的参数是：隐藏置信度。

（因为有action=store_true，为了方便理解接下来我使用命令行参数展示下结果）

终端输入：

python detect.py --hide-conf

未使用--hide-conf命令参数
使用--hide-conf命令参数

3.25 '--half' ⭐

parser.add_argument('--half', action='store_true', help='use FP16 half-precision inference')

这个设置的参数是：是否使用 FP16 半精度进行推理，默认为 False。

3.26 '--dnn' ⭐

parser.add_argument('--dnn', action='store_true', help='use OpenCV DNN for ONNX inference')

这个设置的参数是：是否使用 OpenCV DNN 进行 ONNX 推理，默认为 False。

上面两个参数都没使用过，不太熟悉，对 Open CV感兴趣的可以看看这篇文章：直通车OpenCV函数大全（超级详细版）-python操作_opencv函数文档_耿鬼喝椰汁的博客-CSDN博客

四、run()函数

main()函数中调用了函数run()，run()主要分为了七个部分：（1）传入参数、（2）初始化配置、（3）保存结果、（4）加载模型的权重、（5）加载待预测的数据、（6）执行模型的推理过程、（7）打印输出信息。

接下来让我们按照执行流程来依次解析run函数吧！！！✨✨

4.1 传入参数 ✨✨

这段代码定义了run（）函数，并设置了一系列参数，用于指定物体检测或识别的相关参数，在3.1-3.26中已经做了详细介绍。

'''------------------------4.1 传入参数 ✨✨-------------------------'''
@torch.no_grad() # 该标注使得方法中所有计算得出的tensor的requires_grad都自动设置为False，也就是说不进行梯度的计算(当然也就没办法反向传播了)， 节约显存和算
def run(weights=ROOT / 'yolov5s.pt',  # model.pt path(s) 事先训练完成的权重文件，比如yolov5s.pt,默认 weights/，假如使用官方训练好的文件（比如yolov5s）,则会自动下载
        source=ROOT / 'data/images',  # file/dir/URL/glob, 0 for webcam 预测时的输入数据，可以是文件/路径/URL/glob, 输入是0的话调用摄像头作为输入，默认data/images/
        # data=ROOT / 'data/coco128.yaml',  # dataset.yaml path, data文件路径，包括类别/图片/标签等信息
        imgsz=(640, 640),  # inference size (pixels)  预测时的放缩后图片大小(因为YOLO算法需要预先放缩图片), 两个值分别是height, width。默认640*640
        conf_thres=0.25,  # confidence threshold 置信度阈值, 高于此值的bounding_box才会被保留。默认0.25，用在nms中
        iou_thres=0.45,  # NMS IOU threshold IOU阈值,高于此值的bounding_box才会被保留。默认0.45，用在nms中
        max_det=1000,  # maximum detections per image 一张图片上检测的最大目标数量，用在nms中
        device='',  # cuda device, i.e. 0 or 0,1,2,3 or cpu 所使用的GPU编号，如果使用CPU就写cpu
        view_img=False,  # show results 是否展示预测之后的图片或视频，默认False
        save_txt=False,  # save results to *.txt 是否将预测的框坐标以txt文件形式保存, 默认False, 使用--save-txt 在路径runs/detect/exp*/labels/*.txt下生成每张图片预测的txt文件
        save_conf=False,  # save confidences in --save-txt labels 是否将结果中的置信度保存在txt文件中，默认False
        save_crop=False,  # save cropped prediction boxes 是否保存裁剪后的预测框，默认为False, 使用--save-crop 在runs/detect/exp*/crop/剪切类别文件夹/ 路径下会保存每个接下来的目标
        nosave=False,  # do not save images/videos 不保存图片、视频, 要保存图片，不设置--nosave 在runs/detect/exp*/会出现预测的结果
        classes=None,  # filter by class: --class 0, or --class 0 2 3 过滤指定类的预测结果
        agnostic_nms=False,  # class-agnostic NMS 进行NMS去除不同类别之间的框, 默认False
        augment=False,  # augmented inference TTA测试时增强/多尺度预测，可以提分
        visualize=False,  # visualize features 是否可视化网络层输出特征
        update=False,  # update all models 如果为True,则对所有模型进行strip_optimizer操作,去除pt文件中的优化器等信息,默认为False
        project=ROOT / 'runs/detect',  # save results to project/name 预测结果保存的路径
        name='exp',  # save results to project/name 结果保存文件夹的命名前缀
        exist_ok=False,  # existing project/name ok, do not increment True: 推理结果覆盖之前的结果 False: 推理结果新建文件夹保存,文件夹名递增
        line_thickness=3,  # bounding box thickness (pixels) 绘制Bounding_box的线宽度
        hide_labels=False,  # hide labels 若为True: 隐藏标签
        hide_conf=False,  # hide confidences  若为True: 隐藏置信度
        half=False,  # use FP16 half-precision inference 是否使用半精度推理（节约显存）
        dnn=False,  # use OpenCV DNN for ONNX inference 是否使用OpenCV DNN预测
        ):

这里再介绍下这些参数：
1.weights：  模型权重文件的路径，默认为YOLOv5s的权重文件路径。
2.source：  输入图像或视频的路径或URL，或者使用数字0指代摄像头，默认为YOLOv5自带的测试图像文件夹。
3.data：  数据集文件的路径，默认为COCO128数据集的配置文件路径。
4.imgsz：  输入图像的大小，默认为640x640。
5.conf_thres：  置信度阈值，默认为0.25。
6.iou_thres：  非极大值抑制的IoU阈值，默认为0.45。
7.max_det：  每张图像的最大检测框数，默认为1000。
8.device：  使用的设备类型，默认为空，表示自动选择最合适的设备。
9.view_img：  是否在屏幕上显示检测结果，默认为False。
10.save_txt：  是否将检测结果保存为文本文件，默认为False。
11.save_conf：  是否在保存的文本文件中包含置信度信息，默认为False。
12.save_crop：  是否将检测出的目标区域保存为图像文件，默认为False。
13.nosave：  是否不保存检测结果的图像或视频，默认为False。
14.classes：  指定要检测的目标类别，默认为None，表示检测所有类别。
15.agnostic_nms：是否使用类别无关的非极大值抑制，默认为False。
16.augment：  是否使用数据增强的方式进行检测，默认为False。
17.visualize：  是否可视化模型中的特征图，默认为False。
18.update：  是否自动更新模型权重文件，默认为False。
19.project：  结果保存的项目文件夹路径，默认为“runs/detect”。
20.name：  结果保存的文件名，默认为“exp”。
21.exist_ok：  如果结果保存的文件夹已存在，是否覆盖，默认为False，即不覆盖。
22.line_thickness：  检测框的线条宽度，默认为3。
23.hide_labels：  是否隐藏标签信息，默认为False，即显示标签信息。
24.hide_conf：  是否隐藏置信度信息，默认为False，即显示置信度信息。
25.half：  是否使用FP16的半精度推理模式，默认为False。
26.dnn：  是否使用OpenCV DNN作为ONNX推理的后端，默认为False。

4.2 初始化配置 ✨✨

这段代码主要用于处理输入来源。定义了一些布尔值区分输入是图片、视频、网络流还是摄像头。首先将source转换为字符串类型，然后判断是否需要保存输出结果。如果nosave和source的后缀不是.txt，则会保存输出结果。
接着根据source的类型，确定输入数据的类型：

若source的后缀是图像或视频格式之一，那么将is_file设置为True；
若source以rtsp://、rtmp://、http://、https://开头，那么将is_url设置为True；
若source是数字或以.txt结尾或是一个URL，那么将webcam设置为True；
若source既是文件又是URL，那么会调用check_file函数下载文件。

'''------------------------4.2 初始化配置 ✨✨---------------------'''
    source = str(source)   # 输入的路径变为字符串
    save_img = not nosave and not source.endswith('.txt')  # 是否保存图片和txt文件，如果nosave(传入的参数)为false且source的结尾不是txt则保存图片
    is_file = Path(source).suffix[1:] in (IMG_FORMATS + VID_FORMATS)   
    # 判断source是不是视频/图像文件路径
    # Path()提取文件名。suffix：最后一个组件的文件扩展名。若source是"D://YOLOv5/data/1.jpg"， 则Path(source).suffix是".jpg"， Path(source).suffix[1:]是"jpg"
    # 而IMG_FORMATS 和 VID_FORMATS两个变量保存的是所有的视频和图片的格式后缀。
    is_url = source.lower().startswith(('rtsp://', 'rtmp://', 'http://', 'https://'))  
    # 判断source是否是链接
    # .lower()转化成小写 .upper()转化成大写 .title()首字符转化成大写，其余为小写, .startswith('http://')返回True or Flase
    webcam = source.isnumeric() or source.endswith('.txt') or (is_url and not is_file)  
    # 判断是source是否是摄像头
    # .isnumeric()是否是由数字组成，返回True or False
    if is_url and is_file:
        source = check_file(source)    # 返回文件。如果source是一个指向图片/视频的链接,则下载输入数据

1. source = str(source) ：将输入的路径变为字符串。

2.save_img = not nosave and not source.endswith('.txt') ：是否保存图片和txt文件，如果nosave(传入的参数)为false且source的结尾不是txt则保存图片。

3.is_file = Path(source).suffix[1:] in (IMG_FORMATS + VID_FORMATS) ：判断source是不是视频/图像文件路径。Path()用来提取文件名。suffix：最后一个组件的文件扩展名。若source是"D://YOLOv5/data/1.jpg"，则Path(source).suffix是".jpg"， Path(source).suffix[1:]是"jpg"而IMG_FORMATS 和 VID_FORMATS两个变量保存的是所有的视频和图片的格式后缀。

4. is_url = source.lower().startswith(('rtsp://', 'rtmp://', 'http://', 'https://')) ： 1.判断source是否是链接 2. .lower()转化成小写 .upper()转化成大写 .title()首字符转化成大写，其余为小写, .startswith('http://')返回True or Flase。

5. webcam = source.isnumeric() or source.endswith('.txt') or (is_url and not is_file) ：判断是source是否是摄像头。.isnumeric()是否是由数字组成，返回True or False

6. if is_url and is_file:
source = check_file(source) ：返回文件。如果source是一个指向图片/视频的链接,则下载输入数据。

4.3 保存预测结果 ✨✨

这段代码主要是用于创建保存输出结果的目录。创建一个新的文件夹exp（在runs文件夹下）来保存运行的结果。

'''----------------------------4.3 保存预测结果 ✨✨------------------------'''
    save_dir = increment_path(Path(project) / name, exist_ok=exist_ok)   # save_dir是保存运行结果的文件夹名，是通过递增的方式来命名的。第一次运行时路径是“runs\detect\exp”，第二次运行时路径是“runs\detect\exp1”
    (save_dir / 'labels' if save_txt else save_dir).mkdir(parents=True, exist_ok=True)  # 根据前面生成的路径创建文件夹

1.save_dir = increment_path(Path(project) / name, exist_ok=exist_ok) ：save_dir是保存运行结果的文件夹名，是通过递增的方式来命名的。第一次运行时路径是“runs\detect\exp”，第二次运行时路径是“runs\detect\exp1” 。
2.(save_dir / 'labels' if save_txt else save_dir).mkdir(parents=True, exist_ok=True) ：根据前面生成的路径创建文件夹。

首先代码中的 project 指 run 函数中的 project，对应的是 runs/detect 的目录，name 对应 run 函数中的“name=exp”，然后进行拼接操作。使用increment_path函数来确保目录不存在，如果存在，则在名称后面添加递增的数字。然后判断 save_txt 是否为 true，save_txt 在 run 函数以及 parse_opt() 函数中都有相应操作，如果传入save_txt，新建 “labels” 文件夹存储结果。如果目录已经存在，而exist_ok为False，那么会抛出一个异常，指示目录已存在。如果exist_ok为True，则不会抛出异常，而是直接使用已经存在的目录。

4.4 加载模型权重 ✨✨

这段代码主要是用于选择设备、初始化模型和检查图像大小。首先调用select_device函数选择设备，如果device为空，则使用默认设备。然后使用DetectMultiBackend类来初始化模型，接着从模型中获取stride、names和pt等参数，最后调用check_img_size函数检查图像大小是否符合要求，如果不符合则进行调整。

'''-------------------------4.4 加载模型权重 ✨✨-----------------------'''
    device = select_device(device)   # 获取设备 CPU/CUDA
    model = DetectMultiBackend(weights, device=device, dnn=dnn) # DetectMultiBackend定义在models.common模块中，是我们要加载的网络，其中weights参数就是输入时指定的权重文件（比如yolov5s.pt）
    stride, names, pt, jit, onnx = model.stride, model.names, model.pt, model.jit, model.onnx
     #stride：推理时所用到的步长，默认为32， 大步长适合于大目标，小步长适合于小目标
     #names：保存推理结果名的列表，比如默认模型的值是['person', 'bicycle', 'car', ...] 
     #pt: 加载的是否是pytorch模型（也就是pt格式的文件）
     #jit：当某段代码即将第一次被执行时进行编译，因而叫“即时编译”
     #onnx：利用Pytorch我们可以将model.pt转化为model.onnx格式的权重，在这里onnx充当一个后缀名称，
     #model.onnx就代表ONNX格式的权重文件，这个权重文件不仅包含了权重值，也包含了神经网络的网络流动信息以及每一层网络的输入输出信息和一些其他的辅助信息。

    imgsz = check_img_size(imgsz, s=stride)   #确保输入图片的尺寸imgsz能整除stride=32 如果不能则调整为能被整除并返回
 
    half &= pt and device.type != 'cpu'  # half precision only supported by PyTorch on CUDA
    if pt:
        model.model.half() if half else model.model.float()    # 如果不是CPU，使用半进度(图片半精度/模型半精度)

1. device = select_device(device) ：获取设备 CPU/CUDA。

2.model = DetectMultiBackend(weights, device=device, dnn=dnn) ： DetectMultiBackend定义在models.common模块中，是我们要加载的网络，其中weights参数就是输入时指定的权重文件（比如yolov5s.pt）

3.stride, names, pt, jit, onnx = model.stride, model.names, model.pt, model.jit, model.onnx：

stride：推理时所用到的步长，默认为32，大步长适合于大目标，小步长适合于小目标。

names：保存推理结果名的列表，比如默认模型的值是['person', 'bicycle', 'car', ...] 。

pt: 加载的是否是pytorch模型（也就是pt格式的文件）。

jit：当某段代码即将第一次被执行时进行编译，因而叫“即时编译”。

onnx：利用Pytorch我们可以将model.pt转化为model.onnx格式的权重，在这里onnx充当一个后缀名称。

model.onnx就代表ONNX格式的权重文件，这个权重文件不仅包含了权重值，也包含了神经网络的网络流动信息以及每一层网络的输入输出信息和一些其他的辅助信息。

4. imgsz = check_img_size(imgsz, s=stride) ：确保输入图片的尺寸imgsz能整除stride=32 如果不能则调整为能被整除并返回。

5. half &= pt and device.type != 'cpu' # half precision only supported by PyTorch on CUDA
if pt:
model.model.half() if half else model.model.float() ：如果不是CPU，使用半进度(图片半精度/模型半精度)

4.5 加载待预测的数据 ✨✨

这段代码通过输入的 source 参数来判断数据输入源（是摄像头还是从source文件下读取的）。

若输入源是摄像头：使用 LoadStreams 加载视频流，并设置 cudnn.benchmark = True 以加速常量图像大小的推理。

若输入源是source文件下读取的（图片/视频）：则使用 LoadImages 加载图像。bs：batch_size（批量大小），这里表示 1 或视频流中的帧数，vid_path 和 vid_writer 分别是视频路径和视频编写器，初始化为长度为 batch_size 的空列表。

'''---------------------------4.5 加载待预测的数据 ✨✨-----------------------'''
    # Dataloader 通过不同的输入源来设置不同的数据加载方式
    if webcam: # 使用摄像头作为输入
        view_img = check_imshow() # 检测cv2.imshow()方法是否可以执行，不能执行则抛出异常
        cudnn.benchmark = True  # 该设置可以加速预测
        dataset = LoadStreams(source, img_size=imgsz, stride=stride, auto=pt and not jit)# 加载输入数据流
        '''
         source：输入数据源；image_size 图片识别前被放缩的大小；stride：识别时的步长， 
         auto的作用可以看utils.augmentations.letterbox方法，它决定了是否需要将图片填充为正方形，如果auto=True则不需要
        '''
        bs = len(dataset)  # batch_size 批大小
    else: # 直接从source文件下读取图片
        dataset = LoadImages(source, img_size=imgsz, stride=stride, auto=pt and not jit)
        bs = 1  
    # 保存视频的路径
    vid_path, vid_writer = [None] * bs, [None] * bs # 前者是视频路径,后者是一个cv2.VideoWriter对

1. if webcam: ：判断是否使用摄像头作为输入
2. view_img = check_imshow() ：检测cv2.imshow()方法是否可以执行，不能执行则抛出异常。
3. cudnn.benchmark = True ：该设置可以加速预测
4. dataset = LoadStreams(source, img_size=imgsz, stride=stride, auto=pt and not jit) ：加载输入数据流。

source：输入数据源；image_size 图片识别前被放缩的大小；stride：识别时的步长，

auto的作用可以看utils.augmentations.letterbox方法，它决定了是否需要将图片填充为正方形，如果auto=True则不需要。

5. bs = len(dataset) ：batch_size 批大小。
6.else:
dataset = LoadImages(source, img_size=imgsz, stride=stride, auto=pt and not jit)
bs = 1：判断，若不是从摄像头读取数据，则直接从source文件下读取数据。
7. vid_path, vid_writer = [None] * bs, [None] * bs ：前者是视频路径,后者是一个cv2.VideoWriter对

4.6 执行模型推理过程 ✨✨

执行模型推理过程：把图片或者视频输入模型，产生一个预测结果，并用检测框标记出来。
步骤：1. 让模型进行一个预热，然后定义 dt，seen 两个变量，遍历 dataset ，整理图片信息并进行向前推理、NMS操作；2.进行预测，根据 run 函数里面的置信度以及IOU参数，进行信息过滤；对检测框进行后续处理，画框选择，坐标映射（640*640坐标映射为原图坐标），是否保存绘画结果。

4.6.1 ‘warmup’ 模型预热 ⭐

这段代码让模型进行了一个预热，然后定义 dt，seen 两个变量，遍历 dataset ，整理图片信息。

'''--------------------4.6.1 ‘warmup’ 模型预热⭐-------------------------'''
# Run inference
    model.warmup(imgsz=(1 if pt else bs, 3, *imgsz), half=half)  # warmup
    dt, seen = [0.0, 0.0, 0.0], 0  # dt: 存储每一步骤的耗时 ,seen: 计数功能，已经处理完了多少帧图片
    for path, im, im0s, vid_cap, s in dataset:
      '''
          path：文件路径（即source）
          im: resize后的图片（经过了放缩操作）
          im0s: 原始图片
          vid_cap=none
          s： 图片的基本信息，比如路径，大小
        '''
         '''以下部分整理图片信息'''
        t1 = time_sync() # 获取当前时间
        im = torch.from_numpy(im).to(device) # 将图片放到指定设备(如GPU)上识别。#torch.size=[3,640,480]
        im = im.half() if half else im.float()  # uint8 to fp16/32 # 把输入从整型转化为半精度/全精度浮点数。
        im /= 255  # 0 - 255 to 0.0 - 1.0 归一化，所有像素点除以255
        if len(im.shape) == 3:
            im = im[None]  # expand for batch dim 添加一个第0维。缺少batch这个尺寸，所以将它扩充一下，变成[1，3,640,480]
        t2 = time_sync() # 获取当前时间
        dt[0] += t2 - t1 # 记录该阶段耗时

1.model.warmup(imgsz=(1 if pt else bs, 3, *imgsz), half=half) ： warmup，进行模型热身。
2.dt, seen = [0.0, 0.0, 0.0], 0 ：dt: 存储每一步骤的耗时 ,seen: 计数功能，已经处理完了多少帧图片
3.for path, im, im0s, vid_cap, s in dataset:

path：文件路径（即source）

im: resize后的图片（经过了放缩操作）

im0s: 原始图片

vid_cap=none

s：图片的基本信息，比如路径，大小

'''以下部分整理图片信息'''
4. t1 = time_sync() ：获取当前时间。
5.im = torch.from_numpy(im).to(device) ：将图片放到指定设备(如GPU)上识别。
6. im = im.half() if half else im.float() ：把输入从整型转化为半精度/全精度浮点数。
7.im /= 255 # 0 - 255 to 0.0 - 1.0 ：归一化，所有像素点除以255。
8.if len(im.shape) == 3:
im = im[None] # expand for batch dim ：添加一个第0维。缺少batch这个尺寸，所以将它扩充一下。
9.t2 = time_sync() ：获取当前时间。
10.dt[0] += t2 - t1 ：记录该阶段耗时。

4.6.2 'Inference'与'NMS' 推理以及非极大值抑制 ⭐

'''-----------------4.6.2 'Inference'与'NMS' 推理以及非极大值抑制  ⭐--------------------'''
    # Inference
        visualize = increment_path(save_dir / Path(path).stem, mkdir=True) if visualize  # 可视化文件路径。如果为True则保留推理过程中的特征图，保存在runs文件夹中else False
        # 推理结果，pred保存的是所有的bound_box的信息，
        pred = model(im, augment=augment, visualize=visualize) #模型预测出来的所有检测框，torch.size=[1,18900,85]
        t3 = time_sync()
        dt[1] += t3 - t2
    # NMS
        # 执行非极大值抑制，返回值为过滤后的预测框
        pred = non_max_suppression(pred, conf_thres, iou_thres, classes, agnostic_nms, max_det=max_det)
        '''
         pred: 网络的输出结果
         conf_thres： 置信度阈值
         iou_thres： iou阈值
         classes: 是否只保留特定的类别 默认为None
         agnostic_nms： 进行nms是否也去除不同类别之间的框
         max_det: 检测框结果的最大数量 默认1000
        '''
        # 预测+NMS的时间
        dt[2] += time_sync() - t3

这段代码让模型对每张图片向前推理且使用NMS去除多余框。

1.# Inference：
（1）visualize = increment_path(save_dir / Path(path).stem, mkdir=True) if visualize else False：可视化文件路径。如果为True则保留推理过程中的特征图，保存在runs文件夹中。
（2） pred = model(im, augment=augment, visualize=visualize) ：推理结果，pred保存的是所有的bound_box的信息，。
t3 = time_sync()
dt[1] += t3 - t2
2.#NMS：执行非极大值抑制，返回值为过滤后的预测框。
（1）pred = non_max_suppression(pred, conf_thres, iou_thres, classes, agnostic_nms, max_det=max_det)

pred: 网络的输出结果

conf_thres：置信度阈值

iou_thres： iou阈值

classes: 是否只保留特定的类别默认为None

agnostic_nms：进行nms是否也去除不同类别之间的框

max_det: 检测框结果的最大数量默认1000

（2）dt[2] += time_sync() - t3 # 预测+NMS的时间

4.6.3 ‘Process predictions’ 预测过程 ⭐

这段代码比较长，我们接下来分开讲解：

✨✨✨✨✨✨✨✨✨✨✨✨✨✨（一）✨✨✨✨✨✨✨✨✨✨✨✨✨✨

这段代码使用了一个循环来遍历检测结果列表中的每个物体，并对每个物体进行处理。具体描述如下：

for循环中的变量“i”是一个索引变量，表示当前正在处理第几个数据，而变量"det"则表示当前数据的检测结果。循环体中的第一行代码 "seen += 1" 用于增加一个计数器，记录已处理的物体数量。
接下来，根据if语句进行判断是否使用网络摄像头来判断处理单张数据or批量数据。

若使用的是网络摄像头，则代码会遍历每个数据并复制一份备份到变量"im0"中，同时将当前数据的路径和计数器记录到变量"p"和"frame"中。最后，将当前处理的数据索引和相关信息记录到字符串变量"s"中。
如果没有使用网络摄像头，则会直接使用"im0s"变量中的图像，将图像路径和计数器记录到变量"p"和"frame"中。同时，还会检查数据集中是否有"frame"属性，如果有，则将其值记录到变量"frame"中。

# Process predictions
        # 把所有的检测框画到原图中
        for i, det in enumerate(pred):  # per image 每次迭代处理一张图片
            '''
            i：每个batch的信息
            det:表示5个检测框的信息
            '''
            seen += 1 #seen是一个计数的功能
            if webcam:  # 如果输入源是webcam则batch_size>=1 取出dataset中的一张图片
                p, im0, frame = path[i], im0s[i].copy(), dataset.count
                s += f'{i}: ' # s后面拼接一个字符串i
            else:
                p, im0, frame = path, im0s.copy(), getattr(dataset, 'frame', 0)
            '''
                大部分我们一般都是从LoadImages流读取本都文件中的照片或者视频 所以batch_size=1
                   p: 当前图片/视频的绝对路径 如 F:\yolo_v5\yolov5-U\data\images\bus.jpg
                   s: 输出信息 初始为 ''
                   im0: 原始图片 letterbox + pad 之前的图片
                   frame: 视频流,此次取的是第几张图片
            '''

1. for i, det in enumerate(pred): ： per image 每次迭代处理一张图片。

i：每个batch的信息

det:表示5个检测框的信息

2. seen += 1 ：seen是一个计数的功能。
3. if webcam: ：如果输入源是webcam则batch_size>=1 取出dataset中的一张图片。
4. p, im0, frame = path[i], im0s[i].copy(), dataset.count
s += f'{i}: ' ： s后面拼接一个字符串i
5.else:
p, im0, frame = path, im0s.copy(), getattr(dataset, 'frame', 0)

p: 当前图片/视频的绝对路径如 D:\yolo_v5\data\images\bus.jpg

s: 输出信息初始为 ' '

im0: 原始图片 letterbox + pad 之前的图片

frame: 视频流,此次取的是第几张图片

✨✨✨✨✨✨✨✨✨✨✨✨✨✨（二）✨✨✨✨✨✨✨✨✨✨✨✨✨✨

这段代码功能：1.将图像路径转换为"Path"对象。使用"save_dir"变量中的路径和图像文件名来构建保存检测结果图像的完整路径，并将其保存在变量"save_path"中。根据数据集的模式（"image"或"video"）来构建保存检测结果标签的文件路径，并将其保存在变量"txt_path"中。
2.在处理图像路径和文件路径之后，将图像的尺寸信息添加到字符串变量"s"中，以便于打印。接着，计算归一化增益"gn"，并将其保存在变量中，以便后续使用。
3.根据是否需要保存截取图像的标志"save_crop"来选择是否要对原始图像进行复制，以备保存截取图像时使用。并创建了一个"Annotator"对象，以便于在图像上绘制检测结果。

p = Path(p)  #首先将图像路径转换为"Path"对象。
            save_path = str(save_dir / p.name)  # 图片/视频的保存路径save_path 
            txt_path = str(save_dir / 'labels' / p.stem) + ('' if dataset.mode == 'image' else f'_{frame}')   # 设置保存框坐标的txt文件路径，每张图片对应一个框坐标信息
            s += '%gx%g ' % im.shape[2:]   # 设置输出图片信息。图片shape (w, h)
            gn = torch.tensor(im0.shape)[[1, 0, 1, 0]]  # 得到原图的宽和高
            imc = im0.copy() if save_crop else im0  # for save_crop # 保存截图。如果save_crop的值为true，则将检测到的bounding_box单独保存成一张图片。
            annotator = Annotator(im0, line_width=line_thickness, example=str(names))   # 得到一个绘图的类，类中预先存储了原图、线条宽度、类名。

p = Path(p) ：首先将图像路径转换为"Path"对象。
1.save_path = str(save_dir / p.name) ：图片/视频的保存路径save_path
2.txt_path = str(save_dir / 'labels' / p.stem) + ('' if dataset.mode == 'image' else f'_{frame}') ：设置保存框坐标的txt文件路径，每张图片对应一个框坐标信息。
3.s += '%gx%g ' % im.shape[2:] ：设置输出图片信息。
4.gn = torch.tensor(im0.shape)[[1, 0, 1, 0]] ：得到原图的宽和高
5.imc = im0.copy() if save_crop else im0 ：保存检测截图。如果save_crop的值为true，则将检测到的bounding_box单独保存成一张图片。
6.annotator = Annotator(im0, line_width=line_thickness, example=str(names)) ：得到一个绘图的类，类中预先存储了原图、线条宽度、类名。

✨✨✨✨✨✨✨✨✨✨✨✨✨✨（三）✨✨✨✨✨✨✨✨✨✨✨✨✨✨

这段代码功能：首先，将检测结果中的物体坐标从缩放后的图像大小还原回原始图像的大小。这里使用了一个名为"scale_coords"的函数来进行缩放，该函数的作用是将物体坐标从缩放前的大小变换到缩放后的大小。最后遍历每个物体，将其类别和数量添加到字符串变量"s"中。

            if len(det):    # 判断有没有框
                det[:, :4] = scale_coords(im.shape[2:], det[:, :4], im0.shape).round() #scale_coords：坐标映射功能 
                #将预测信息映射到原图
                # 将标注的bounding_box大小调整为和原图一致（因为训练时原图经过了放缩）此时坐标格式为xyxy

# 打印检测到的类别数量
                for c in det[:, -1].unique():
                    n = (det[:, -1] == c).sum()  # 检测每个类别
                    s += f"{n} {names[int(c)]}{'s' * (n > 1)}, "  # 加入到字符串中

1.if len(det): ：判断有没有框
2.det[:, :4] = scale_coords(im.shape[2:], det[:, :4], im0.shape).round() ： scale_coords：坐标映射功能。将预测信息映射到原图并将标注的bounding_box大小调整为和原图一致（因为训练时原图经过了放缩）此时坐标格式为xyxy。

3.for c in det[:, -1].unique(): ：打印检测到的类别数量
4.n = (det[:, -1] == c).sum() ：检测每个类别
5.s += f"{n} {names[int(c)]}{'s' * (n > 1)}, " ：加入到字符串中。

✨✨✨✨✨✨✨✨✨✨✨✨✨✨（四）✨✨✨✨✨✨✨✨✨✨✨✨✨✨

这段代码是打印目标检测结果的一些操作.
这段代码功能：

1.如果存在目标检测结果，则代码会执行下一步操作，这里是将检测结果写入文件或在图像上添加框并保存。

2.如果需要将检测结果写入文件，则将检测结果中的物体坐标转换为相对于原始图像的归一化坐标，并将其写入到以图像文件名命名的".txt"文件中。在写入文件时，代码将包含类别、位置和可选置信度等信息。文件的保存路径是变量"txt_path"。

3.如果需要保存检测结果图像或者在图像上绘制框，每个物体添加一个边界框，并将其标记在图像上。具体来说，将边界框选择一个颜色，并在边界框周围添加标签（可选）。

4.如果需要将边界框截取出来保存，则调用名为"save_one_box"的函数，将边界框从图像中截取出来，并将其保存到特定的文件夹中。

这些操作都是基于一些设置变量（如"save_txt"、"save_img"等）来控制的，这些变量决定了检测结果是否应该写入文件或图像。

5.最后，如果需要在窗口中查看检测结果，则代码会在图像上绘制边界框并显示图像。

# Write results
                for *xyxy, conf, cls in reversed(det):     # 保存预测结果：txt/图片画框/crop-image
                    if save_txt:  # 将每个图片的预测信息分别存入save_dir/labels下的xxx.txt中 每行: class_id + score + xywh
                        xywh = (xyxy2xywh(torch.tensor(xyxy).view(1, 4)) / gn).view(-1).tolist()  # normalized xywh   # 将xyxy(左上角+右下角)格式转为xywh(中心点+宽长)格式，并归一化，转化为列表再保存
                        line = (cls, *xywh, conf) if save_conf else (cls, *xywh)  # line的形式是： ”类别 x y w h“，若save_conf为true，则line的形式是：”类别 x y w h 置信度“
                        with open(txt_path + '.txt', 'a') as f:
                            f.write(('%g ' * len(line)).rstrip() % line + '\n') # 写入对应的文件夹里，路径默认为“runs\detect\exp*\labels”
                     if save_img or save_crop or view_img:  # 在原图上画框+将预测到的目标剪切出来保存成图片，保存在save_dir/crops下，在原图像画图或者保存结果
                        c = int(cls)  # integer class # 类别标号
                        label = None if hide_labels else (names[c] if hide_conf else f'{names[c]} {conf:.2f}') # 类别名
                        annotator.box_label(xyxy, label, color=colors(c, True))  #绘制边框
                        if save_crop:
                            save_one_box(xyxy, imc, file=save_dir / 'crops' / names[c] / f'{p.stem}.jpg', BGR=True)     # 在原图上画框+将预测到的目标剪切出来保存成图片，保存在save_dir/crops下（单独保存）

✨✨✨✨✨✨✨✨✨✨✨✨✨✨（五）✨✨✨✨✨✨✨✨✨✨✨✨✨✨

这段代码是实现在输出窗口实时查看检测结果：
若需要在窗口中实时查看检测结果，则会使用OpenCV库中的函数将图像显示在窗口中，并等待1毫秒以便继续下一帧的检测。
代码会检查是否已经为当前图像创建了窗口（if p not in windows），并在必要时创建窗口，并使用图像名称来命名该窗口。窗口的名称是由变量"p"指定的图像路径名。
若检测到图像尚未在窗口中打开，则代码会创建一个新窗口并将图像显示在窗口中。如果图像已经在窗口中打开，则代码会直接更新窗口中的图像。

# Print time (inference-only)
            # 打印耗时
            LOGGER.info(f'{s}Done. ({t3 - t2:.3f}s)')
 
            # Stream results
            # 如果设置展示，则show图片 / 视频
            im0 = annotator.result() # im0是绘制好的图片
            # 显示图片
            if view_img:
                cv2.imshow(str(p), im0)
                cv2.waitKey(1)  # 暂停 1 millisecond

✨✨✨✨✨✨✨✨✨✨✨✨✨✨（六）✨✨✨✨✨✨✨✨✨✨✨✨✨✨

这段代码是设置保存图片和视频：
首先“save_img”判断是否是图片，如果是则保存路径和图片；如果是视频或流，需要重新创建视频文件。

# Save results (image with detections)
            # 设置保存图片/视频
            if save_img: # 如果save_img为true,则保存绘制完的图片
                if dataset.mode == 'image': # 如果是图片,则保存
                    cv2.imwrite(save_path, im0)
                else:  # 'video' or 'stream'  如果是视频或者"流"
                    if vid_path[i] != save_path:  # new video  vid_path[i] != save_path,说明这张图片属于一段新的视频,需要重新创建视频文件
                        vid_path[i] = save_path
                        # 以下的部分是保存视频文件
                        if isinstance(vid_writer[i], cv2.VideoWriter):
                            vid_writer[i].release()  # release previous video writer
                        if vid_cap:  # video
                            fps = vid_cap.get(cv2.CAP_PROP_FPS)  # 视频帧速率 FPS
                            w = int(vid_cap.get(cv2.CAP_PROP_FRAME_WIDTH)) # 获取视频帧宽度
                            h = int(vid_cap.get(cv2.CAP_PROP_FRAME_HEIGHT)) # 获取视频帧高度
                        else:  # stream
                            fps, w, h = 30, im0.shape[1], im0.shape[0]
                            save_path += '.mp4'
                        vid_writer[i] = cv2.VideoWriter(save_path, cv2.VideoWriter_fourcc(*'mp4v'), fps, (w, h))
                    vid_writer[i].write(im0)

✨✨✨✨✨✨✨✨✨✨✨✨✨✨（七）✨✨✨✨✨✨✨✨✨✨✨✨✨✨

这段代码是指打印时间（仅限推断）。

# 打印耗时
            LOGGER.info(f'{s}Done. ({t3 - t2:.3f}s)')

这预测阶段简直太多了，我要看哭了让我们接着往下看吧：

4.6.4 ‘Print result’ 输出结果 ⭐

这部分代码用于打印结果，记录了一些总共的耗时，以及信息保存。输出结果包括每张图片的预处理、推理和NMS时间，以及结果保存的路径。如果update为True，则将模型更新，以修复SourceChangeWarning。

'''-------------------4.6.4 ‘Print result’ 输出结果  ⭐--------------------'''
    # Print results
    t = tuple(x / seen * 1E3 for x in dt)  # speeds per image 平均每张图片所耗费时间
    LOGGER.info(f'Speed: %.1fms pre-process, %.1fms inference, %.1fms NMS per image at shape {(1, 3, *imgsz)}' % t)
    if save_txt or save_img:
        s = f"\n{len(list(save_dir.glob('labels/*.txt')))} labels saved to {save_dir / 'labels'}" if save_txt else '' # 标签保存的路径
        LOGGER.info(f"Results saved to {colorstr('bold', save_dir)}{s}")
    if update:
        strip_optimizer(weights)  # update model (to fix SourceChangeWarning)

到目前为止，detect.py代码注释讲解就完成啦！！！！

五、detect.py代码注释整合

'''------------------1.1✨导入所需要的相关库✨--------------------'''
import argparse  # 解析命令行参数的库
import os  # 与操作系统进行交互的文件库 包含文件路径操作与解析
import sys  # 包含了与python解释器和它的环境有关的函数。
from pathlib import Path  # Path能够更加方便得对字符串路径进行处理

import cv2  # 开源的库平台计算机视觉库。有很强大的图片处理功能，可实现图像处理和计算机视觉方面的很多通用算法。
import torch  # pytorch 深度学习库
import torch.backends.cudnn as cudnn  # 提供了一个接口，用于使用cuDNN库，在NVIDIA GPU上高效地进行深度学习
'''----------------------1.2✨路径代码✨----------------------'''
FILE = Path(__file__).resolve()  # __file__指的是当前文件(即detect.py),FILE最终保存着当前文件的绝对路径,比如D://yolov5/detect.py
ROOT = FILE.parents[0]  # YOLOv5 root directory  ROOT保存着当前项目的父目录,比如 D://yolov5
if str(ROOT) not in sys.path:  # sys.path即当前python环境可以运行的路径,假如当前项目不在该路径中,就无法运行其中的模块,所以就需要加载路径
    sys.path.append(str(ROOT))  # add ROOT to PATH  把ROOT添加到运行路径上
ROOT = Path(os.path.relpath(ROOT, Path.cwd()))  # relative ROOT设置为相对路径
'''-------------------- 1.3✨导入自定义辅助库✨-----------------'''
from models.common import DetectMultiBackend   #定义了一些通用的函数和类，比如图像的处理、非极大值抑制等等。
from utils.datasets import IMG_FORMATS, VID_FORMATS, LoadImages, LoadStreams   #定义了两个类，LoadImages和LoadStreams，它们可以加载图像或视频帧，并对它们进行一些预处理，以便进行物体检测或识别。
from utils.general import (LOGGER, check_file, check_img_size, check_imshow, check_requirements, colorstr,
                           increment_path, non_max_suppression, print_args, scale_coords, strip_optimizer, xyxy2xywh)    #定义了一些常用的工具函数，比如检查文件是否存在、检查图像大小是否符合要求、打印命令行参数等等。
from utils.plots import Annotator, colors, save_one_box  #定义了Annotator类，可以在图像上绘制矩形框和标注信息。
from utils.torch_utils import select_device, time_sync   #定义了一些与PyTorch有关的工具函数，比如选择设备、同步时间等等。

'''------------------------4.1 传入参数 ✨✨-------------------------'''
@torch.no_grad() # 该标注使得方法中所有计算得出的tensor的requires_grad都自动设置为False，也就是说不进行梯度的计算(当然也就没办法反向传播了)， 节约显存和算
def run(weights=ROOT / 'yolov5s.pt',  # model.pt path(s) 事先训练完成的权重文件，比如yolov5s.pt,默认 weights/，假如使用官方训练好的文件（比如yolov5s）,则会自动下载
        source=ROOT / 'data/images',  # file/dir/URL/glob, 0 for webcam 预测时的输入数据，可以是文件/路径/URL/glob, 输入是0的话调用摄像头作为输入，默认data/images/
        # data=ROOT / 'data/coco128.yaml',  # dataset.yaml path, data文件路径，包括类别/图片/标签等信息
        imgsz=(640, 640),  # inference size (pixels)  预测时的放缩后图片大小(因为YOLO算法需要预先放缩图片), 两个值分别是height, width。默认640*640
        conf_thres=0.25,  # confidence threshold 置信度阈值, 高于此值的bounding_box才会被保留。默认0.25，用在nms中
        iou_thres=0.45,  # NMS IOU threshold IOU阈值,高于此值的bounding_box才会被保留。默认0.45，用在nms中
        max_det=1000,  # maximum detections per image 一张图片上检测的最大目标数量，用在nms中
        device='',  # cuda device, i.e. 0 or 0,1,2,3 or cpu 所使用的GPU编号，如果使用CPU就写cpu
        view_img=False,  # show results 是否展示预测之后的图片或视频，默认False
        save_txt=False,  # save results to *.txt 是否将预测的框坐标以txt文件形式保存, 默认False, 使用--save-txt 在路径runs/detect/exp*/labels/*.txt下生成每张图片预测的txt文件
        save_conf=False,  # save confidences in --save-txt labels 是否将结果中的置信度保存在txt文件中，默认False
        save_crop=False,  # save cropped prediction boxes 是否保存裁剪后的预测框，默认为False, 使用--save-crop 在runs/detect/exp*/crop/剪切类别文件夹/ 路径下会保存每个接下来的目标
        nosave=False,  # do not save images/videos 不保存图片、视频, 要保存图片，不设置--nosave 在runs/detect/exp*/会出现预测的结果
        classes=None,  # filter by class: --class 0, or --class 0 2 3 过滤指定类的预测结果
        agnostic_nms=False,  # class-agnostic NMS 进行NMS去除不同类别之间的框, 默认False
        augment=False,  # augmented inference TTA测试时增强/多尺度预测，可以提分
        visualize=False,  # visualize features 是否可视化网络层输出特征
        update=False,  # update all models 如果为True,则对所有模型进行strip_optimizer操作,去除pt文件中的优化器等信息,默认为False
        project=ROOT / 'runs/detect',  # save results to project/name 预测结果保存的路径
        name='exp',  # save results to project/name 结果保存文件夹的命名前缀
        exist_ok=False,  # existing project/name ok, do not increment True: 推理结果覆盖之前的结果 False: 推理结果新建文件夹保存,文件夹名递增
        line_thickness=3,  # bounding box thickness (pixels) 绘制Bounding_box的线宽度
        hide_labels=False,  # hide labels 若为True: 隐藏标签
        hide_conf=False,  # hide confidences  若为True: 隐藏置信度
        half=False,  # use FP16 half-precision inference 是否使用半精度推理（节约显存）
        dnn=False,  # use OpenCV DNN for ONNX inference 是否使用OpenCV DNN预测
        ):
    '''------------------------4.2 初始化配置 ✨✨---------------------'''
    source = str(source)  # 输入的路径变为字符串
    save_img = not nosave and not source.endswith('.txt')  # 是否保存图片和txt文件，如果nosave(传入的参数)为false且source的结尾不是txt则保存图片
    is_file = Path(source).suffix[1:] in (IMG_FORMATS + VID_FORMATS)
    # 判断source是不是视频/图像文件路径
    # Path()提取文件名。suffix：最后一个组件的文件扩展名。若source是"D://YOLOv5/data/1.jpg"， 则Path(source).suffix是".jpg"， Path(source).suffix[1:]是"jpg"
    # 而IMG_FORMATS 和 VID_FORMATS两个变量保存的是所有的视频和图片的格式后缀。
    is_url = source.lower().startswith(('rtsp://', 'rtmp://', 'http://', 'https://'))
    # 判断source是否是链接
    # .lower()转化成小写 .upper()转化成大写 .title()首字符转化成大写，其余为小写, .startswith('http://')返回True or Flase
    webcam = source.isnumeric() or source.endswith('.txt') or (is_url and not is_file)
    # 判断是source是否是摄像头
    # .isnumeric()是否是由数字组成，返回True or False
    if is_url and is_file:
        source = check_file(source)  # 返回文件。如果source是一个指向图片/视频的链接,则下载输入数据
'''----------------------------4.3 保存预测结果 ✨✨------------------------'''
        save_dir = increment_path(Path(project) / name,
                                  exist_ok=exist_ok)  # save_dir是保存运行结果的文件夹名，是通过递增的方式来命名的。第一次运行时路径是“runs\detect\exp”，第二次运行时路径是“runs\detect\exp1”
        (save_dir / 'labels' if save_txt else save_dir).mkdir(parents=True, exist_ok=True)  # 根据前面生成的路径创建文件夹
'''-------------------------4.4 加载模型权重 ✨✨-----------------------'''
device = select_device(device)  # 获取设备 CPU/CUDA
model = DetectMultiBackend(weights, device=device,
                           dnn=dnn)  # DetectMultiBackend定义在models.common模块中，是我们要加载的网络，其中weights参数就是输入时指定的权重文件（比如yolov5s.pt）
stride, names, pt, jit, onnx = model.stride, model.names, model.pt, model.jit, model.onnx
# stride：推理时所用到的步长，默认为32， 大步长适合于大目标，小步长适合于小目标
# names：保存推理结果名的列表，比如默认模型的值是['person', 'bicycle', 'car', ...]
# pt: 加载的是否是pytorch模型（也就是pt格式的文件）
# jit：当某段代码即将第一次被执行时进行编译，因而叫“即时编译”
# onnx：利用Pytorch我们可以将model.pt转化为model.onnx格式的权重，在这里onnx充当一个后缀名称，
# model.onnx就代表ONNX格式的权重文件，这个权重文件不仅包含了权重值，也包含了神经网络的网络流动信息以及每一层网络的输入输出信息和一些其他的辅助信息。

imgsz = check_img_size(imgsz, s=stride)  # 确保输入图片的尺寸imgsz能整除stride=32 如果不能则调整为能被整除并返回

half &= pt and device.type != 'cpu'  # half precision only supported by PyTorch on CUDA
if pt:
    model.model.half() if half else model.model.float()  # 如果不是CPU，使用半进度(图片半精度/模型半精度)
    '''---------------------------4.5 加载待预测的数据 ✨✨-----------------------'''
    # Dataloader 通过不同的输入源来设置不同的数据加载方式
    if webcam:  # 使用摄像头作为输入
        view_img = check_imshow()  # 检测cv2.imshow()方法是否可以执行，不能执行则抛出异常
        cudnn.benchmark = True  # 该设置可以加速预测
        dataset = LoadStreams(source, img_size=imgsz, stride=stride, auto=pt and not jit)  # 加载输入数据流
        '''
         source：输入数据源；image_size 图片识别前被放缩的大小；stride：识别时的步长， 
         auto的作用可以看utils.augmentations.letterbox方法，它决定了是否需要将图片填充为正方形，如果auto=True则不需要
        '''
        bs = len(dataset)  # batch_size 批大小
    else:  # 直接从source文件下读取图片
        dataset = LoadImages(source, img_size=imgsz, stride=stride, auto=pt and not jit)
        bs = 1
        # 保存视频的路径
    vid_path, vid_writer = [None] * bs, [None] * bs  # 前者是视频路径,后者是一个cv2.VideoWriter对
'''--------------------4.6.1 ‘warmup’ 模型预热⭐-------------------------'''
# Run inference
    model.warmup(imgsz=(1 if pt else bs, 3, *imgsz), half=half)  # warmup
    dt, seen = [0.0, 0.0, 0.0], 0  # dt: 存储每一步骤的耗时 ,seen: 计数功能，已经处理完了多少帧图片
    for path, im, im0s, vid_cap, s in dataset:
      '''
          path：文件路径（即source）
          im: resize后的图片（经过了放缩操作）
          im0s: 原始图片
          vid_cap=none
          s： 图片的基本信息，比如路径，大小
        '''
         '''以下部分整理图片信息'''
        t1 = time_sync() # 获取当前时间
        im = torch.from_numpy(im).to(device) # 将图片放到指定设备(如GPU)上识别。#torch.size=[3,640,480]
        im = im.half() if half else im.float()  # uint8 to fp16/32 # 把输入从整型转化为半精度/全精度浮点数。
        im /= 255  # 0 - 255 to 0.0 - 1.0 归一化，所有像素点除以255
        if len(im.shape) == 3:
            im = im[None]  # expand for batch dim 添加一个第0维。缺少batch这个尺寸，所以将它扩充一下，变成[1，3,640,480]
        t2 = time_sync() # 获取当前时间
        dt[0] += t2 - t1 # 记录该阶段耗时
'''-----------------4.6.2 'Inference'与'NMS' 推理以及非极大值抑制  ⭐--------------------'''
    # Inference
        visualize = increment_path(save_dir / Path(path).stem, mkdir=True) if visualize  # 可视化文件路径。如果为True则保留推理过程中的特征图，保存在runs文件夹中else False
        # 推理结果，pred保存的是所有的bound_box的信息，
        pred = model(im, augment=augment, visualize=visualize) #模型预测出来的所有检测框，torch.size=[1,18900,85]
        t3 = time_sync()
        dt[1] += t3 - t2
    # NMS
        # 执行非极大值抑制，返回值为过滤后的预测框
        pred = non_max_suppression(pred, conf_thres, iou_thres, classes, agnostic_nms, max_det=max_det)
        '''
         pred: 网络的输出结果
         conf_thres： 置信度阈值
         iou_thres： iou阈值
         classes: 是否只保留特定的类别 默认为None
         agnostic_nms： 进行nms是否也去除不同类别之间的框
         max_det: 检测框结果的最大数量 默认1000
        '''
        # 预测+NMS的时间
        dt[2] += time_sync() - t3
# Process predictions
        # 把所有的检测框画到原图中
        for i, det in enumerate(pred):  # per image 每次迭代处理一张图片
            '''
            i：每个batch的信息
            det:表示5个检测框的信息
            '''
            seen += 1 #seen是一个计数的功能
            if webcam:  # 如果输入源是webcam则batch_size>=1 取出dataset中的一张图片
                p, im0, frame = path[i], im0s[i].copy(), dataset.count
                s += f'{i}: ' # s后面拼接一个字符串i
            else:
                p, im0, frame = path, im0s.copy(), getattr(dataset, 'frame', 0)
            '''
                大部分我们一般都是从LoadImages流读取本都文件中的照片或者视频 所以batch_size=1
                   p: 当前图片/视频的绝对路径 如 F:\yolo_v5\yolov5-U\data\images\bus.jpg
                   s: 输出信息 初始为 ''
                   im0: 原始图片 letterbox + pad 之前的图片
                   frame: 视频流,此次取的是第几张图片
            '''
p = Path(p)  #首先将图像路径转换为"Path"对象。
            save_path = str(save_dir / p.name)  # 图片/视频的保存路径save_path
            txt_path = str(save_dir / 'labels' / p.stem) + ('' if dataset.mode == 'image' else f'_{frame}')   # 设置保存框坐标的txt文件路径，每张图片对应一个框坐标信息
            s += '%gx%g ' % im.shape[2:]   # 设置输出图片信息。图片shape (w, h)
            gn = torch.tensor(im0.shape)[[1, 0, 1, 0]]  # 得到原图的宽和高
            imc = im0.copy() if save_crop else im0  # for save_crop # 保存截图。如果save_crop的值为true，则将检测到的bounding_box单独保存成一张图片。
            annotator = Annotator(im0, line_width=line_thickness, example=str(names))   # 得到一个绘图的类，类中预先存储了原图、线条宽度、类名。

           if len(det):# 判断有没有框
           det[:, :4] = scale_coords(im.shape[2:], det[:, :4], im0.shape).round() #scale_coords：坐标映射功能
                #将预测信息映射
# 打印检测到的类别数量
                for c in det[:, -1].unique():
                    n = (det[:, -1] == c).sum()  # 检测每个类别
                    s += f"{n} {names[int(c)]}{'s' * (n > 1)}, "  # 加入到字符串中
# Write results
                for *xyxy, conf, cls in reversed(det):     # 保存预测结果：txt/图片画框/crop-image
                    if save_txt:  # 将每个图片的预测信息分别存入save_dir/labels下的xxx.txt中 每行: class_id + score + xywh
                        xywh = (xyxy2xywh(torch.tensor(xyxy).view(1, 4)) / gn).view(-1).tolist()  # normalized xywh   # 将xyxy(左上角+右下角)格式转为xywh(中心点+宽长)格式，并归一化，转化为列表再保存
                        line = (cls, *xywh, conf) if save_conf else (cls, *xywh)  # line的形式是： ”类别 x y w h“，若save_conf为true，则line的形式是：”类别 x y w h 置信度“
                        with open(txt_path + '.txt', 'a') as f:
                            f.write(('%g ' * len(line)).rstrip() % line + '\n') # 写入对应的文件夹里，路径默认为“runs\detect\exp*\labels”
                     if save_img or save_crop or view_img:  # 在原图上画框+将预测到的目标剪切出来保存成图片，保存在save_dir/crops下，在原图像画图或者保存结果
                        c = int(cls)  # integer class # 类别标号
                        label = None if hide_labels else (names[c] if hide_conf else f'{names[c]} {conf:.2f}') # 类别名
                        annotator.box_label(xyxy, label, color=colors(c, True))  #绘制边框
                        if save_crop:
                            save_one_box(xyxy, imc, file=save_dir / 'crops' / names[c] / f'{p.stem}.jpg', BGR=True)     # 在原图上画框+将预测到的目标剪切出来保存成图片，保存在save_dir/crops下（单独保存）
# Print time (inference-only)
            # 打印耗时
            LOGGER.info(f'{s}Done. ({t3 - t2:.3f}s)')
 
            # Stream results
            # 如果设置展示，则show图片 / 视频
            im0 = annotator.result() # im0是绘制好的图片
            # 显示图片
            if view_img:
                cv2.imshow(str(p), im0)
                cv2.waitKey(1)  # 暂停 1 millisecond
# Save results (image with detections)
            # 设置保存图片/视频
            if save_img: # 如果save_img为true,则保存绘制完的图片
                if dataset.mode == 'image': # 如果是图片,则保存
                    cv2.imwrite(save_path, im0)
                else:  # 'video' or 'stream'  如果是视频或者"流"
                    if vid_path[i] != save_path:  # new video  vid_path[i] != save_path,说明这张图片属于一段新的视频,需要重新创建视频文件
                        vid_path[i] = save_path
                        # 以下的部分是保存视频文件
                        if isinstance(vid_writer[i], cv2.VideoWriter):
                            vid_writer[i].release()  # release previous video writer
                        if vid_cap:  # video
                            fps = vid_cap.get(cv2.CAP_PROP_FPS)  # 视频帧速率 FPS
                            w = int(vid_cap.get(cv2.CAP_PROP_FRAME_WIDTH)) # 获取视频帧宽度
                            h = int(vid_cap.get(cv2.CAP_PROP_FRAME_HEIGHT)) # 获取视频帧高度
                        else:  # stream
                            fps, w, h = 30, im0.shape[1], im0.shape[0]
                            save_path += '.mp4'
                        vid_writer[i] = cv2.VideoWriter(save_path, cv2.VideoWriter_fourcc(*'mp4v'), fps, (w, h))
                    vid_writer[i].write(im0)
# 打印耗时
            LOGGER.info(f'{s}Done. ({t3 - t2:.3f}s)')
'''-------------------4.6.4 ‘Print result’ 输出结果  ⭐--------------------'''
    # Print results
    t = tuple(x / seen * 1E3 for x in dt)  # speeds per image 平均每张图片所耗费时间
    LOGGER.info(f'Speed: %.1fms pre-process, %.1fms inference, %.1fms NMS per image at shape {(1, 3, *imgsz)}' % t)
    if save_txt or save_img:
        s = f"\n{len(list(save_dir.glob('labels/*.txt')))} labels saved to {save_dir / 'labels'}" if save_txt else '' # 标签保存的路径
        LOGGER.info(f"Results saved to {colorstr('bold', save_dir)}{s}")
    if update:
        strip_optimizer(weights)  # update model (to fix SourceChangeWarning)
def parse_opt():
    parser = argparse.ArgumentParser()
    """ 
      weights: 训练的权重路径,可以使用自己训练的权重,也可以使用官网提供的权重
       默认官网的权重yolov5s.pt(yolov5n.pt/yolov5s.pt/yolov5m.pt/yolov5l.pt/yolov5x.pt/区别在于网络的宽度和深度以此增加)
      source: 测试数据，可以是图片/视频路径，也可以是'0'(电脑自带摄像头),也可以是rtsp等视频流, 默认data/images
       data: 配置数据文件路径, 包括image/label/classes等信息, 训练自己的文件, 需要作相应更改, 可以不用管
       如果设置了只显示个别类别即使用了--classes = 0 或二者1, 2, 3等, 则需要设置该文件，数字和类别相对应才能只检测某一个类
      imgsz: 网络输入图片大小, 默认的大小是640
      conf-thres: 置信度阈值， 默认为0.25
      iou-thres:  做nms的iou阈值, 默认为0.45
      max-det: 保留的最大检测框数量, 每张图片中检测目标的个数最多为1000类
      device: 设置设备CPU/CUDA, 可以不用设置
      view-img: 是否展示预测之后的图片/视频, 默认False, --view-img 电脑界面出现图片或者视频检测结果
      save-txt: 是否将预测的框坐标以txt文件形式保存, 默认False, 使用--save-txt 在路径runs/detect/exp*/labels/*.txt下生成每张图片预测的txt文件
      save-conf: 是否将置信度conf也保存到txt中, 默认False
      save-crop: 是否保存裁剪预测框图片, 默认为False, 使用--save-crop 在runs/detect/exp*/crop/剪切类别文件夹/ 路径下会保存每个接下来的目标
      nosave: 不保存图片、视频, 要保存图片，不设置--nosave 在runs/detect/exp*/会出现预测的结果
      classes: 设置只保留某一部分类别, 形如0或者0 2 3, 使用--classes = n, 则在路径runs/detect/exp*/下保存的图片为n所对应的类别, 此时需要设置data
      agnostic-nms: 进行NMS去除不同类别之间的框, 默认False
      augment: TTA测试时增强/多尺度预测
      visualize: 是否可视化网络层输出特征
      update: 如果为True,则对所有模型进行strip_optimizer操作,去除pt文件中的优化器等信息,默认为False
      project:保存测试日志的文件夹路径
      name:保存测试日志文件夹的名字, 所以最终是保存在project/name中
      exist_ok: 是否重新创建日志文件, False时重新创建文件
      line-thickness: 画框的线条粗细
      hide-labels: 可视化时隐藏预测类别
      hide-conf: 可视化时隐藏置信度
      half: 是否使用F16精度推理, 半进度提高检测速度
      dnn: 用OpenCV DNN预测
       """
    parser.add_argument('--weights', nargs='+', type=str, default=ROOT / 'yolov5s.pt', help='model path(s)')
    parser.add_argument('--source', type=str, default=ROOT / 'data/images', help='file/dir/URL/glob, 0 for webcam')
    parser.add_argument('--data', type=str, default=ROOT / 'data/coco128.yaml', help='(optional) dataset.yaml path')
    parser.add_argument('--imgsz', '--img', '--img-size', nargs='+', type=int, default=[640], help='inference size h,w')
    parser.add_argument('--conf-thres', type=float, default=0.25, help='confidence threshold')
    parser.add_argument('--iou-thres', type=float, default=0.45, help='NMS IoU threshold')
    parser.add_argument('--max-det', type=int, default=1000, help='maximum detections per image')
    parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu')
    parser.add_argument('--view-img', action='store_true', help='show results')
    parser.add_argument('--save-txt', action='store_true', help='save results to *.txt')
    parser.add_argument('--save-conf', action='store_true', help='save confidences in --save-txt labels')
    parser.add_argument('--save-crop', action='store_true', help='save cropped prediction boxes')
    parser.add_argument('--nosave', action='store_true', help='do not save images/videos')
    parser.add_argument('--classes', nargs='+', type=int, help='filter by class: --classes 0, or --classes 0 2 3')
    parser.add_argument('--agnostic-nms', action='store_true', help='class-agnostic NMS')
    parser.add_argument('--augment', action='store_true', help='augmented inference')
    parser.add_argument('--visualize', action='store_true', help='visualize features')
    parser.add_argument('--update', action='store_true', help='update all models')
    parser.add_argument('--project', default=ROOT / 'runs/detect', help='save results to project/name')
    parser.add_argument('--name', default='exp', help='save results to project/name')
    parser.add_argument('--exist-ok', action='store_true', help='existing project/name ok, do not increment')
    parser.add_argument('--line-thickness', default=3, type=int, help='bounding box thickness (pixels)')
    parser.add_argument('--hide-labels', default=False, action='store_true', help='hide labels')
    parser.add_argument('--hide-conf', default=False, action='store_true', help='hide confidences')
    parser.add_argument('--half', action='store_true', help='use FP16 half-precision inference')
    parser.add_argument('--dnn', action='store_true', help='use OpenCV DNN for ONNX inference')
    opt = parser.parse_args()
    opt.imgsz *= 2 if len(opt.imgsz) == 1 else 1  # expand
    print_args(FILE.stem, opt)
    return opt
'''----------------------二、main函数-------------------------'''
def main(opt):
    # 检查环境/打印参数,主要是requrement.txt的包是否安装，用彩色显示设置的参数
    check_requirements(exclude=('tensorboard', 'thop'))
    # 执行run()函数
    run(**vars(opt))
 
 
# 命令使用
# python detect.py --weights runs/train/exp_yolov5s/weights/best.pt --source  data/images/fishman.jpg # webcam
if __name__ == "__main__":
    opt = parse_opt() # 解析参数
    main(opt) # 执行主函数

这篇YOLOv5的detect.py学习和总结到这里就结束啦，如果有什么问题可以在评论区留言呀~

如果帮助到大家，可以一键三连支持下~

其他学习YOLOv5直通车：

YOLOv5【使用云GPU进行训练】超详细教程！！！

YOLOv5【使用云GPU连接本地Pycharm进行训练】超详细教程！！！

YOLOv5【网络结构】超详细解读！！✨✨

YOLOv5【目录结构源码】超详细解读！！！

YOLOv5【detect.py源码及参数】超详细注释解读！！

你可能感兴趣的:(YOLOv5,人工智能,YOLO,目标检测,计算机视觉)

AI 生成 PPT 网站介绍与优缺点分析 KL_lililli 人工智能 powerpoint
随着人工智能技术不断发展，利用AI自动生成PPT已成为提高演示文稿制作效率的热门方式。本文将介绍几款主流的AIPPT工具，重点列出免费使用机会较多的网站，并对各平台的优缺点进行详细分析，帮助用户根据自身需求选择合适的工具。1.免费及免费试用机会较多的网站1.1Tome网址：Tome–TheAIassistantforsales简介：Tome是一款专注于AI助力讲故事与演示制作的工具，用户只需输入简
机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
AI算力要变天了？一文搞懂ASIC和GPU asicgpuai芯片
近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。这是否意味着AI算力市场即将变天？随着人工智能技术的飞速发展，AI算力的重要性日益凸显。从早期的简单模型训练到如今的大规模语言模型如ChatGPT等的出现，对算力的需求呈爆发式增长。01那什么是ASIC和GPU？ASIC：定制化
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
YOLOv8 改进：添加 AKConv（任意采样形状和任意数目参数的卷积）鱼弦人工智能时代 YOLO
YOLOv8改进：添加AKConv（任意采样形状和任意数目参数的卷积）引言在目标检测领域中，YOLO（YouOnlyLookOnce）系列因其速度和效率而受到广泛关注。为了进一步优化模型性能，可以引入创新的卷积操作，例如AKConv，即“任意采样形状和任意数目参数的卷积”。这种卷积能够灵活地调整采样策略，以更好地适应输入特征。技术背景传统卷积运算在采样位置和参数数量上具有固定性，这限制了其对复杂几
利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元墨夶数据库学习资料1 人工智能 mysql 物联网
在工业4.0和智能制造的大背景下，如何确保生产设备的高效稳定运行成为企业竞争力的核心要素之一。传统的事后维修方式已经难以满足现代制造业的需求，而基于人工智能（AI）的预测性维护系统则为这一挑战提供了全新的解决方案。今天，我们将深入探讨如何结合AI技术和MySQL数据库，打造一个智能、高效的工业物联网（IIoT）健康监测平台，助力企业在激烈的市场竞争中脱颖而出。一、为什么选择AI+MySQL？1.A
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现） @M_J_Y@ 目标检测 YOLO 计算机视觉目标检测 python
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现）各位读者麻烦给个star或者fork，求求了。YOLOV8双分支模型架构图YOLOV8多模态目标检测前言：环境配置要求1.数据集DroneVehicle数据集(可见光+热红外)2.数据集文件格式(labeles:YOLO格式)3.权重文件下载4.配置模型yaml文件和数据集yaml文件5.训练6.测试7.打印模型信息8.o
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

YOLOv5【预测detect.py逐行源码及参数调参解析】超详细解读！！！建议收藏✨✨！

detect.py 执行主要流程

一、导入相关的库及配置文件

1.1 ✨导入所需要的相关库✨

1.2 ✨路径代码✨

1.3 ✨导入自定义辅助库✨

二、main() 函数

三、parse_opt()函数

3.1 '--weights' ⭐

3.2 '--source' ⭐

3.3 '--data' ⭐

3.4 '--imgsz' ⭐

3.5 '--conf-thres' ⭐

3.6 '--iou-thres' ⭐

3.6.1 NMS与IoU✨

3.6.2 设置阈值例子✨

3.7 '--max-det' ⭐

3.8 '--device' ⭐

注意： action='store_true' ⭐

3.9 '--view-img' ⭐

3.10 '--save-txt' ⭐

3.11 '--save-conf' ⭐

3.12 '--save-conf' ⭐

3.13 '--nosave' ⭐

3.14 '--classes' ⭐

3.15 '--agnostic-nms' ⭐

3.16 '--arugment' ⭐

3.17 '--arugment' ⭐

3.18 '--update' ⭐

3.19 '--project' ⭐

3.20 '--name' ⭐

3.21 '--exist-ok' ⭐

3.22 '--line-thickness' ⭐

3.23 '--hide-labels' ⭐

3.24 '--hide-conf' ⭐

3.25 '--half' ⭐

3.26 '--dnn​​​' ⭐

四、run()函数

4.1 传入参数 ✨✨

4.2 初始化配置 ✨✨

4.3 保存预测结果 ✨✨

4.4 加载模型权重 ✨✨

4.5 加载待预测的数据 ✨✨

4.6 执行模型推理过程 ✨✨

4.6.1 ‘warmup’ 模型预热 ⭐

4.6.2 'Inference'与'NMS' 推理以及非极大值抑制 ⭐

4.6.3 ‘Process predictions’ 预测过程 ⭐

4.6.4 ‘Print result’ 输出结果 ⭐

五、detect.py代码注释整合

你可能感兴趣的:(YOLOv5,人工智能,YOLO,目标检测,计算机视觉)

1.1 `✨`导入所需要的相关库`✨`

3.26 '--dnn' ⭐