Sylvan Ding

基于YOLOv5的中式快餐店菜品识别系统

摘要

本文基于YOLOv5v6.1提出了一套适用于中式快餐店的菜品识别自助支付系统，综述了食品识别领域的发展现状，简要介绍了YOLOv5模型的历史背景、发展优势和网络结构。在数据集预处理过程中，通过解析UNIMIB2016，构建了一套行之有效的标签格式转换与校验流程，解决了YOLOv5中文件路径问题、标签格式转换问题和因EXIF信息的存在而导致的标记错位问题。在模型训练阶段，配置了云服务器，引入了Weights and Bias可视化工具，实现了在线监督训练和sweep超参数调优的功能，在sweep中使用hyperband剪枝算法加速了sweep过程，并且给出了对于训练过程中可能出现的问题的解决方法。最后介绍了目标识别领域的评价指标和YOLOv5的损失函数，分析了sweep超参数调优的结果，选取最优参数组合训练模型，通过分析样本分布、PR曲线等，选取最佳预测置信度，大幅提升了预测精度和召回率，部署了模型并制作了客户端。

引言

随着智能信息化时代的到来，人工智能与传感技术取得了巨大进步，在智能交通、智能家居、智能医疗等民生领域产生积极正面影响。其中，社交网络、移动网络和物联网等新兴技术产生了食品大数据，这些大数据与人工智能，尤其是快速发展的深度学习催生了新的交叉研究领域食品计算。现在，在智慧健康、食品智能装备、智慧餐饮、智能零售及智能家居等方面都可以找到食品大数据与人工智能相结合的例子。

人工智能时代下的食品图像识别是当前计算机视觉研究的重要领域之一。我们希望研发一种可快速且高效识别菜品的校园菜肴识别系统，在校园食堂中应用本系统，可缩短收银员计算价格的时间、简化收银步骤；可协助管理者精准备餐、减少库存的浪费；就餐者还可以即时看见摄入的食物营养价值，实现膳食平衡；另外，可迅速实现食品的安全溯源，避免出现食品安全情况。

传统的食物图像识别方法是选择图像特征，然后使用某些方法（比如SIFT、HOG）提取图像特征点，再将特征点用矢量表示，最后采用机器学习的方法训练分类器（如SVM、K-Means）。传统食物图像识别提取特定特征或者关键点对食物进行分类，但在实际应用中，拍摄的图像会受到环境的光照强度、噪声干扰、环境光等外部因素的干扰，导致拍摄图像质量参差，从而影响最终的检测结果同一事物的颜色形状会有差异，不同食物直接的颜色形状也会相同。所以传统的图像识别方法很难准确识别出食物。

深度学习的发展使得当前大部分工作均采用卷积神经网络，思路是先对菜品图像中不同的菜品区域进行检测或分割，然后对其区域进行识别。从2014年开始，基于深度学习的目标检测网络井喷式爆发，先是二阶段网络，如R-CNN、Fast-RCNN、Mask-RCNN等，自2016年Joseph等提出You only Look Once(YOLOv1)以来学者者们的视野，开启了单阶段目标检测网络的新纪元。YOLO均是对单阶段目标检测模型改进的研究，为各研究领域提供了更快、更好的目标检测方法，也为单阶段目标检测算法的实际应用提供了重要理论保障。例如 Aguilar 等人微调物体检测算法 YOLOv2 来进行多种食物检测和识别。又如 Pandey 等人微调了 AlexNet、GoogLeNet、ResNet等三种CNN网络，然后基于微调的网络提取和融合来自不同网络的视觉特征，通过集成学习方法实现菜品图像识别。随着深度学习的发展，卷积神经网络（CNN）在各领域中获得不俗的效果，菜品识别也围绕卷积神经网络展开研究，不仅提出了新的方法，也提升了检测精度。

2020 年 6 月 10 日 YOLOv5 发布，随着版本迭代更新，其已成为现今最先进的目标检测技术之一。YOLOv5 使用Pytorch框架，对用户非常友好，能够方便地训练自己的数据集；能够直接对视频甚至网络摄像头端口输入进行有效推理，有着高达140FPS的目标识别速度；能够轻松的将Pytorch权重文件转化为安卓使用的ONXX格式，或者通过CoreML转化为IOS格式，以便直接部署到手机应用端。

YOLO的核心思想就是将整张图片作为网络的输入，利用“分而治之”的思想，对图片进行网格划分，直接在输出层回归边界框的检测位置及其所属的类别。与Faster R-CNN相比，YOLO产生的背景错误要少得多。通过使用YOLO来消除Faster RCNN的背景检测，可以显着提高模型性能。实验表明YOLO v5可以达到比Faster R-CNN更快的收敛速度，并且在小目标的检测上比SSD模型更加准确。

数据集

数据集来源和说明

本文所使用的托盘食物数据集来源于 UNIMIB2016 Food Database. 此数据集在真实餐厅环境中收集而来，每张照片的尺寸为 (3264, 2448)，包含一个托盘和托盘上不同的食物，有些食物放在餐具垫上而非碟子中。有时，多种菜会被放置在同一碟子中，这给图像分割带来了困难。此外，图像畸变和光线环境等影响也会给分割和识别带来挑战。

The dataset has been collected in a real canteen environment. The particularities of this setting are that each image depicts different foods on a tray, and some foods (e.g. fruit, bread and dessert) are placed on the placemats rather than on plates. Sides are often served in the same plate as the main dish making it difficulty to separate the two. Moreover, the acquisition of the images has been performed in a semi-controlled settings so the images present visual distortions as well as illumination changes due to shadows. These characteristics make this dataset challenging requiring both the segmentation of the trays for food localization, and a robust way to deal with multiple foods.

如图3所示，在数据集中，许多类别的食物非常相似，例如，有四种不同的“Pasta al sugo”，其中添加了其他主要成分（如鱼肉、蔬菜或者其他的一些肉类）。最后，托盘上可能有其他物品造成干扰，比如有智能手机、钱包、校园卡等等。

Figure 3, many food classes have a very similar appearance. For example, we have four different “Pasta al sugo”, but with other main ingredients (e.g. fish, vegetables, or meat) added. Finally, on the tray there can be other “noisy” objects that must be ignored during the recognition. For example, we may find cell phones, wallets, id cards, and other personal items. For these reasons we need to design of a very accurate recognition algorithm.

数据集处理

作者团队一共收集了1442张照片，去除模糊和重复照片后，将剩余有效图片保存在UNIMIB2016-images中。其中，包含1027张照片，共计73种菜品，总计3616个菜品实例。一些种类的食物只是在成分上有所不同，所以命名为“FoodName 1”, “FoodName 2”.

接下来，处理UNIMIB2016-annotations.zip中的annotations.mat文件，将其转换为yolo格式。

在UNIMIB2016-annotations中，存有annotations.mat标记文件，.mat文件是Matlab的Map对象(Map object)，其介绍如下：

A Map object is a data structure that allows you to retrieve values using a corresponding key. Keys can be real numbers or character vectors. As a result, they provide more flexibility for data access than array indices, which must be positive integers. Values can be scalar or nonscalar arrays.

MAT文件解析

若使用scipy.io.loadmat工具解析.mat文件，如需要加载annotations.mat，在Map object多级嵌套时，解析可能出现意想不到的错误，故编写Matlab脚本将annotations.mat文件解析为YOLOv5所需的标记文件格式。

% .
% ├── annotations.mat
% ├── demo.m
% ├── formatted_annotations
% │   ├── 20151127_114556.txt
% │   ├── 20151127_114946.txt
% │   ├── 20151127_115133.txt
% │   ├── ...
% │   └── 20151221_135642.txt
% └── load_annotations.m

%% load_annotations.m

clc; clear;

% output path
output = './formatted_annotations/';

% Load the annotations in a map structure
load('annotations.mat');

% Each entry in the map corresponds to the annotations of an image.
% Each entry contains many cell tuples as annotated food
% A tuple is composed of 8 cells with the annotated:
% - (1) item category (food for all tuples)
% - (2) item class (e.g. pasta, patate, ...)
% - (3) item name
% - (4) boundary type (polygonal for all tuples)
% - (5) item's boundary points [x1,y1,x2,y2,...,xn,yn]
% - (6) item's bounding box [x1,y1,x2,y2,x3,y3,x4,y4]

image_names = annotations.keys;

n_images = numel(image_names);

for j = 1 : n_images
    
    image_name = image_names{j};
    tuples = annotations(image_name);
    count = size(tuples,1);
    coordinate_mat = cell2mat(tuples(:,6));
    
    % open file
    file_path = [output image_name '.txt'];
    ffile = fopen(file_path, 'w');
    
    % write file
    for k = 1 : count
        item = tuples(k,:);
        fprintf(ffile, '%s %d %d %d %d %d %d %d %d\n', ...
            string(item(2)), ...  % item class
            coordinate_mat(k,:)); % item's bounding box
    end
    
    % close file
    fclose(ffile);
    
end

%% fprintf
% Write data to text file
% https://www.mathworks.com/help/matlab/ref/fprintf.html

运行上述Matlab脚本文件，在./formatted_annotations文件夹下生成以图片名命名的*.txt文件，每一行的格式为class x1 y1 x2 y2 x3 y3 x4 y4.

bounding box如图所示：(xy1左上，xy3右下)

数据集有效性检验

下载并解压 [UNIMIB2016-images.zip]，./original文件夹内为所有图片数据。将 original文件夹重命名为images，今后该文件夹用来存放图片数据，否则YOLOv5模型训练会发生错误，具体原因请看一文彻底解决YOLOv5训练找不到标签问题。编写check_dataset.py，检查formatted_annotations中标签文件是否和images中图像文件一一对应，删除无效的标签和不匹配的标签。

# UNIMIB2016
# ├── UNIMIB2016-annotations
# │   ├── check_dataset.py <--
# │   └── formatted_annotations
# └── images

# check_dataset.py

import os

# path of formatted_annotations
f_path = os.path.join(os.getcwd(), 'formatted_annotations')

# path of images
img_path = os.path.join(os.getcwd(), os.pardir, 'images')


def check_dataset():
    annotations = [i[:-4] for i in os.listdir(f_path)]
    imgs = [i[:-4] for i in os.listdir(img_path)]

    for annotation in annotations:
        label = annotation + '.txt'
        label_path = os.path.join(f_path, label)

        try:
            if annotation not in imgs:
                # remove annotation which is not in images
                print('not found image: {}, remove its annotation'.format(annotation))
                print(label_path)
                raise FileExistsError

            else:
                # check extra spaces in a line
                with open(label_path) as f:
                    lines = f.readlines()
                    for line in lines:
                        item = line.split()
                        if len(item) > 9:
                            print('wrong label format: {}, {}'.format(annotation, line))
                            raise FileExistsError

        except FileExistsError:
            os.remove(label_path)
            print('os.remove({})'.format(label_path))


if __name__ == '__main__':
    check_dataset()

部分输出如下，check_dataset.py检查出21份在images中找不到对应图片的*.txt标记文件，检查出1份在类别标签中含有空格的*.txt标记文件，剔除这22份无效标记文件后，formatted_annotations中还剩余1005份有效标记文件。

食物类别统计

编写class_count.py，生成formatted_annotations中所有食品种类的统计数据：

# UNIMIB2016
# ├── UNIMIB2016-annotations
# │   ├── check_dataset.py
# │   ├── class_count.py <--
# │   └── formatted_annotations
# └── images

# class_count.py

import os
import pandas as pd

# formatted_annotations path
path = os.path.join(os.getcwd(), 'formatted_annotations')

# output path
output = os.path.join(os.getcwd(), 'class_counts_result.csv')

# read file list of formatted_annotations
annotations = os.listdir(path)

if __name__ == '__main__':
    labels = []
    for annotation in annotations:
        with open(os.path.join(path, annotation)) as file:
            for line in file:
                item = line.split()
                cls = item[0]
                labels.append(cls)
    counts = pd.Series(labels).value_counts()
    counts.to_csv(output, header=False)

分类统计结果存于class_counts_result.csv. 部分统计数据如下：（未进行上一目有前性检验前共73个分类），按出现次数从高到低，从0开始为每个分类进行编号。

Class	Num
pane	479
mandarini	198
carote	161
patate/pure	151
cotoletta	148
fagiolini	131
yogurt	130

标签格式转换

接下来编写python脚本，将这些数据转换为YOLOv5所需格式：

编写toYolo.py，将formatted_annotations中所有*.txt转换为Yolo格式，将生成的结果存于labels中。

# UNIMIB2016
# ├── UNIMIB2016-annotations
# │   ├── check_dataset.py
# │   ├── class_count.py
# │   ├── toYolo.py <--
# │   ├── class_counts_result.csv
# │   └── formatted_annotations (1005)
# ├── labels
# └── images (1005)

# toYolo.py

import os
from PIL import Image

# formatted_annotations path
path = os.path.join(os.getcwd(), 'formatted_annotations')

# path of images
img_path = os.path.join(os.getcwd(), os.pardir, 'images')

# output path
output_path = os.path.join(os.getcwd(), os.pardir, 'labels')

# class count file path
class_file_path = os.path.join(os.getcwd(), 'class_counts_result.csv')


def convert_box(size, box):
    # convert VOC to yolo format
    dw, dh = 1. / size[0], 1. / size[1]
    x, y, w, h = (box[0] + box[1]) / 2.0, (box[2] + box[3]) / 2.0, box[1] - box[0], box[3] - box[2]
    return [x * dw, y * dh, w * dw, h * dh]


def convert_bbox(ibb):
    # convert ibb to VOC format
    # ibb = [x1,y1,x2,y2,x3,y3,x4,y4]
    X = ibb[0::2]
    Y = ibb[1::2]
    xmin = min(X)
    ymin = min(Y)
    xmax = max(X)
    ymax = max(Y)
    return xmin, ymin, xmax, ymax


def get_classes():
    # output: class list
    cf = open(class_file_path, 'r')
    clss = [line.split(',')[0] for line in cf.readlines()]
    cf.close()
    return clss


def toYolo():
    # read file list of formatted_annotations
    annotations = os.listdir(path)

    # get class list
    clss = get_classes()

    # convert every annotation in ./formatted_annotations/ to yolo format
    for annotation in annotations:

        with open(os.path.join(path, annotation)) as file, open(os.path.join(output_path, annotation), 'w') as opfile:

            # read img
            img_f_path = os.path.join(img_path, annotation[:-4] + '.jpg')
            img = Image.open(img_f_path)

            # get img size
            size = img.size

            # process every item in ./formatted_annotations/*.txt
            for line in file:
                item = line.split(' ')

                # get class num
                cls = item[0]
                cls_num = clss.index(cls)

                # get bbox coordinates
                item_bounding_box = list(map(float, item[1:]))
                xmin, ymin, xmax, ymax = convert_bbox(item_bounding_box)
                b = [xmin, xmax, ymin, ymax]
                bb = convert_box(size, b)

                # append item to output file: ../labels/*.txt
                item_str = list(map(str, [cls_num] + bb))
                line_yolo = ' '.join(item_str)
                opfile.write(line_yolo + '\n')

            print(annotation)


if __name__ == '__main__':
    toYolo()

数据集校验

图片修正

由于 EXIF Rotation Information 的存在，在 YOLOv5 使用的 cv2 读取图片时，对图片参考系的选取产生影响，导致labels偏离原图片，故需要对图片进行修正，具体原因请查阅 yolov5踩坑记录：标签错位（PIL读取图片方向异常）。

修正前（标记错位）

修正后

修正代码

# UNIMIB2016
# ├── UNIMIB2016-annotations
# │   ├── check_dataset.py
# │   ├── class_count.py
# │   ├── toYolo.py
# │   ├── class_counts_result.csv
# │   └── formatted_annotations
# ├── rectify_imgs.py <--
# ├── labels (1005)
# └── images (1005)

# rectify_imgs.py

import os
from PIL import Image
import numpy as np

# image type
img_type = '.jpg'

# image folder path
path = os.path.join(os.getcwd(), 'images')


def rectify_imgs():
    for img_name in os.listdir(path):
        if not img_name[-4:] == img_type:
            continue
        img_path = os.path.join(path, img_name)
        img = Image.open(img_path)
        img_rectified = Image.fromarray(np.asarray(img))
        img_rectified.save(img_path)
        print(img_name)


if __name__ == '__main__':
    rectify_imgs()

标签正确性检验

完成上述所有数据集准备工作后，编写labels_shower.py模块，随机选取n张图片，使用 YOLOv5内的图像加载和标记函数，校验 labels文件夹中标记是否正确转换。

# .
# ├── datasets
# │   └── UNIMIB2016
# │       ├── UNIMIB2016-annotations
# │       ├── images
# │       ├── labels
# │       └── split
# └── yolov5
#     └── labels_shower.py <--

# labels_shower.py

import os
import yaml
import numpy as np
from random import sample
from utils.general import xywhn2xyxy
from utils.plots import Annotator
from utils.general import cv2
from utils.datasets import LoadImages
from utils.plots import Colors

n = 5  # how many images you want to show

# file path set

# ../datasets/UNIMIB2016/labels/
labels_path = os.path.join(os.path.pardir, 'datasets', 'UNIMIB2016', 'labels')
# ../datasets/UNIMIB2016/images/
imgs_path = os.path.join(os.path.pardir, 'datasets', 'UNIMIB2016', 'images')
# data/UNIMIB2016.yaml
cls_path = os.path.join(os.getcwd(), 'data', 'UNIMIB2016.yaml')

# model data preparation
# you shouldn't change them
pt = True
stride = 2
imgsz = (640, 640)
datasets = os.listdir(labels_path)
line_thickness = 3  # bounding box thickness (pixels)
colors = Colors()  # create instance for 'from utils.plots import colors'
with open(cls_path, errors='ignore') as f:
    names = yaml.safe_load(f)['names']  # class names


def labels_shower():
    sources = sample(datasets, n)

    for source in sources:
        # Add bbox to image
        with open(os.path.join(labels_path, source)) as file:
            lines = file.readlines()
            dataset = LoadImages(os.path.join(imgs_path, source[:-4] + '.jpg'),
                                 img_size=imgsz, stride=stride, auto=pt)
            im0s = dataset.__iter__().__next__()[2]
            im0 = im0s.copy()
            annotator = Annotator(im0, line_width=line_thickness, example=str(names))

            for line in lines:
                annot = line.split()
                c = int(annot[0])  # integer class
                label = names[c]
                xywhn = np.asarray([[float(i) for i in annot[1:]]])
                xyxy = xywhn2xyxy(xywhn, w=annotator.im.shape[1], h=annotator.im.shape[0])
                annotator.box_label(xyxy.tolist()[0], label, color=colors(c, True))

            im0 = annotator.result()

            cv2.imshow(str(source[:-4] + '.jpg'), im0)
            # press ESC to destroy cv2 windows
            if cv2.waitKey(0) == 27:
                cv2.destroyAllWindows()


if __name__ == '__main__':
    labels_shower()

YOLOv5 网络结构

YOLOv5模型集成了FPN多尺度检测及Mosaic数据增强和SPP结构，整体结构可以分为四个模块，具体为：输入端(Input)、主干特征提取网络(Backbone) 、Neck与输出层(Prediction) 。

输入端

输入端(Input)主要包括了Mosaic数据增强、自适应锚框计算和自适应图片缩放三大部分。

Mosaic数据增强是将数据集图片以随机缩放、随机裁剪、随机排布的方式进行拼接
自适应锚框计算是指在网络训练中，网络在初始锚框的基础上输出预测框，进而和真实框进行比对，计算两者差距，再反向迭代，更新网络参数
自适应图片缩放常用的方式是将原始图片统一缩放到一个标准尺寸，再送入检测网络中

主干特征提取网络

主干特征网络提取网络Backbone由Focus结构和CSP结构组成。YOLOv5中分别设计和使用了两种不同的CSP结构，其中CSP1_X结构应用于主干特征提取网络中，同时在Neck中使用了另一种CSP2_X结构。使用CPS模块有如下优点：

增强网络的学习能力，使得训练出的模型，既能保持轻量化，又能有较高的准确性
有效降低了计算瓶颈，通过较少的计算量获得较高是检测性能
降低内存成本，使得训练使用一个GPU即可完成训练

Neck层

Neck层由FPN和PAN组成。FPN是通过向上采样的方法将上层的特征进行传输融合，从而得到预测特征图，其中含有两个PAN结构。通过下采样操作，将低层的特征信息和高层特征进行融合，输出预测的特征图。

FPN采用了自顶向下的结构，这样就可以进行对于强语义特征的传输；特征金字塔采用了自底向上的结构，这样就可以进行对于强定位特征的传输，这两者经过练手结合后，就可以将每一个检测层做到特征聚合，这样就成功提高了特征提取的能力。

输出端

输出端(Prediction)，即网络预测层，负责在特征图上应用anchors，并生成带有类概率、目标得分和坐标的输出向量，并进行NMS非极大值抑制处理，最后输出预测结果。

Adam优化器

本文选用Adam作为模型训练过程中梯度下降的优化器，Adam优化器是AdaGrad和RMSPropAdam参数优化器的结合，它具有如下优点：

实现简单、计算高效、对内存需求少
参数的更新不受梯度伸缩变换影响
参数具有很好的解释性、且通常无需调整调整或者微调
更新步长能够被限制在大致的的范围内
自动调整学习率

激活函数选择

隐藏层激活函数

隐藏层使用带泄露的ReLU（Leaky ReLU）激活函数，在输入 $x\lt 0$ 时，保持一个很小的梯度 $\gamma$ ，这样神经元非激活时也能有一个非零的梯度可以更新参数，避免永远不能被激活。

采用ReLU激活函数只需要进行加、减、乘和比较的操作，计算上更加高效，ReLU函数也被认为具有生物学合理性（Biological Plausibility），比如单侧抑制、宽兴奋边界（即兴奋程度高）。Sigmoid型激活函数会导致一个非稀疏性的神经网络，而ReLU却具有很好的稀疏性。

在优化方面，相比Sigmoid型函数的两端饱和，ReLU函数左饱和函数且 $x\gt 0$ 时导数为 $1$ ，在一定程度上缓解了神经网络梯度消失的问题，加速梯度下降的收敛速度。

输出层激活函数

输出层使用了Sigmoid型激活函数。使用Sigmoid型函数，其输出可以直接看成一个概率分布，使得神经网络可以更好地统计学习模型进行结合，并且它还可以看成一个软性门（Soft Gate），用来控制其他的神经元输出信息的数量。

模型优化

YOLOv5 的模型优化内容包括：

Focus层优化：使用一个卷积层 Conv(k=6, s=2, p=2) 替换掉 backbone 中的 Focus 层；
SPP层优化：SSP空间金字塔池化层的作用是使卷积神经网络（CNN）能够输入任意大小的图片，在CNN的最后一层卷积层后面加入一层SSP层，它能使不同任意尺寸的特征图通过SSP层之后都能输出一个固定长度的向量。然后将这个固定长度的向量输入到全连接层，进行后续的分类检测任务。SPP层只通过指定三次卷积核大小，将来自CBL模块的数据进行三次池化并拼接，然后再过一个CBL，有效避免了对图像区域剪裁、缩放操作导致的图像失真等问题，解决了卷积神经网络对图像重复特征提取的问题，大大提高了产生候选框的速度，且节省了计算成本，增强特征图特征表达能力；
C3层优化：Bottleneck 为基本残差块，被堆叠嵌入到C3模块中进行特征学习，它利用两个Conv模块将通道数先减小再扩大对齐，以此提取特征信息，并使用shortcut控制是否进行残差连接。在C3模块中，输入特征图会通过两个分支，第一个分支先经过一个Conv模块，之后通过堆叠的Botleneck模块对特征进行学习；另一分支作为残差连接，仅通过一个Conv模块。两分支最终按通道进行拼接后，再通过一个Conv模块进行输出。在backbone结构的最后一层的C3层改用shorcut短连接，因为原先的骨干网络最后一层是C3，而现在是SPPF层。所以最后一层改用shortcut层，这样能够使网络正常训练。

本地环境搭建

创建虚拟环境
克隆YOLOv5项目
安装依赖库

git clone https://github.com/ultralytics/yolov5
(venv) ➜  food_detect pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/

当前项目结构

.
├── venv
├── datasets
│   └── UNIMIB2016
│       ├── images (1005)
│       └── labels (1005)
└── yolov5

注：上述目录结构中只列写了项目的关键文件和文件夹.

W&B配置

Weights & Biases可被用作替代tensorboard的监督模型训练过程的可视化工具，拥有如下几个优点：

其已经兼容各种深度学习框架(Pytorch/Tensorflow/Keras)
界面简洁无需与服务器连接，甚至可在移动端随时随地登录自己的account浏览模型训练情况
其不仅可以monitor深度学习loss、reward等与训练强相关的标量，还会监督CPU、GPU等硬件占用率等参数
不仅作为Dashboard显示一些curve，还可通过设置可视化model的weights以调整接下来的调参策略等
通过训练呈现的各种分析Dashboard或可视化界面可直接创建report导出pdf分享

W&B由以下四个组件构成：

Dashboard: 实验跟踪
Artifacts: 数据集版本控制、模型版本控制
Sweeps: 超参数优化
Reports: 保存和共享可重现的结果

基于上述优势，本项目选择W&B作为模型训练和结果可视化的管理平台。版本号如下，虽然YOLOv5v6.1推荐使用wandb version 0.12.10 or below.

版本号
0.12.11

# From the command line, install and log in to wandb, Copy this key and paste it into your command line when asked to authorize your account
pip install wandb==0.12.11
wandb login

环境配置说明表

YOLOv5	v6.1
wandb	0.12.11
IDE	PyCharm
python	3.8
OS	MacOS

模型训练准备

预训练模型的选取

在预训练模型的选择上，为了同时兼顾菜品识别的速率和准确性，我们选择最近才发布的预训练模型YOLOv5s6. （22 Feb 2022, v6.1）

在COCO数据集上，虽然YOLOv5n在识别速度上远超其他模型，但精度相对较低。而YOLOv5s在保持着较高识别速度的前提下，识别准确性优于YOLOv5n。在近期更新的版本中，YOLOv5s6模型识别的准确性进一步提高，识别速度也有所提升，模型参数量大幅减少，故选择该预训练模型。

下载模型：YOLOv5s6.pt，放置于yolov5/文件夹下.

训练集和验证集的划分

编写脚本，将datasets/UNIMIB2016/labels中的有效数据按7:3划分训练集和验证集，验证集也做测试集之用。最终，训练集数据量为703，验证集为302. 将结果存入UNIMIB2016目录下的train.txt和test.txt.

# .
# ├── venv
# ├── datasets
# │   └── UNIMIB2016
# │       ├── splitDataset.py <--
# │       ├── images (1005)
# │       └── labels (1005)
# └── yolov5

# splitDataset.py

import os
import random
from random import shuffle

# labels relative path
# ./labels
ya_path = os.path.join(os.getcwd(), 'labels')

# images path (relative to 'dataset root dir' in UNIMIB2016.yaml)
# ./images/
img_path = os.path.join(os.getcwd(), 'images')

# output files name
output_train = 'train.txt'
output_test = 'test.txt'

# the percentage of train set
train_percent = .7


def splitDataset():
    all_samples = os.listdir(ya_path)
    num = len(all_samples)

    train_num = int(train_percent * num)

    # shuffle samples list
    random.seed(82322)
    shuffle(all_samples)

    train_set = all_samples[:train_num]
    test_set = all_samples[train_num:]

    # generate train set file
    with open(os.path.join(os.getcwd(), output_train), 'w') as f:
        for item in train_set:
            f.write(os.path.join(img_path, item[:-4] + '.jpg') + '\n')

    # generate test set file
    with open(os.path.join(os.getcwd(), output_test), 'w') as f:
        for item in test_set:
            f.write(os.path.join(img_path, item[:-4] + '.jpg') + '\n')

    print('train set num = ' + str(train_num))
    print('test set num = ' + str(num - train_num))


if __name__ == '__main__':
    splitDataset()

模型训练文件配置

UNIMIB2016.yaml

新建yolov5/data/UNIMIB2016.yaml，内容设置如下：

# UNIMIB2016 dataset http://www.ivl.disco.unimib.it/activities/food-recognition/ (1027 available photos)
# parent
# ├── yolov5
# └── datasets
#     └── UNIMIB2016  ← downloads here


path: ../datasets/UNIMIB2016  # dataset root dir
train: train.txt  # train images (relative to 'path') 703 images
val: test.txt  # val images (relative to 'path') 302 images
test: test.txt # test images (optional) 302 images

# Classes
nc: 73  # number of classes
names: [ 'pane', 'mandarini', 'carote', 'patate/pure', 'cotoletta', 'fagiolini', 'yogurt', 'budino', 'spinaci', 'scaloppine',
         'pizza', 'pasta_sugo_vegetariano', 'mele', 'pasta_pesto_besciamella_e_cornetti', 'zucchine_umido',
         'lasagna_alla_bolognese', 'arancia', 'pasta_sugo_pesce', 'patatine_fritte', 'pasta_cozze_e_vongole', 'arrosto',
         'riso_bianco', 'medaglioni_di_carne', 'torta_salata_spinaci_e_ricotta', 'pasta_zafferano_e_piselli',
         'patate/pure_prosciutto', 'torta_salata_rustica_(zucchine)', 'insalata_mista', 'pasta_mare_e_monti',
         'polpette_di_carne', 'pasta_pancetta_e_zucchine', 'pasta_ricotta_e_salsiccia', 'orecchiette_(ragu)', 'pizzoccheri',
         'finocchi_gratinati', 'pere', 'pasta_tonno', 'riso_sugo', 'pasta_tonno_e_piselli', 'piselli', 'torta_salata_3',
         'torta_salata_(alla_valdostana)', 'banane', 'salmone_(da_menu_sembra_spada_in_realta)', 'pesce_2_(filetto)',
         'bruscitt', 'guazzetto_di_calamari', 'pasta_e_fagioli', 'pasta_sugo', 'arrosto_di_vitello', 'stinco_di_maiale',
         'minestra_lombarda', 'finocchi_in_umido', 'pasta_bianco', 'cavolfiore', 'merluzzo_alle_olive', 'zucchine_impanate',
         'pesce_(filetto)', 'torta_crema_2', 'roastbeef', 'rosbeef', 'cibo_bianco_non_identificato', 'torta_crema',
         'passato_alla_piemontese', 'pasta_e_ceci', 'crema_zucca_e_fagioli', 'focaccia_bianca', 'minestra',
         'torta_cioccolato_e_pere', 'torta_ananas', 'rucola', 'strudel', 'insalata_2_(uova' ]  # class names

my_train.py

创建 yolov5/my_train.py，编写单次训练的启动程序，并设置模型各个参数：（这一步也可融入下一目中进行——超参优化）

my_train.py使用预置超参数data/hyps/hyp.scratch-myself.yaml，优化器Adam，输入图像尺寸640，batch size = 16.

# my_train

import train

params = {'weights': 'yolov5s6.pt',
          'cfg': 'hub/yolov5s6.yaml',
          'data': 'UNIMIB2016.yaml',
          'hyp': 'data/hyps/hyp.scratch-myself.yaml',
          'epochs': 300,
          'batch_size': 16,
          'imgsz': 640,
          'optimizer': 'Adam'}

if __name__ == '__main__':
    train.run(**params)

图像增强

数据增强也叫数据扩增，意思是在不实质性的增加数据的情况下，让有限的数据产生等价于更多数据的价值。

在yolov5/data/hyps目录下，作者提供的初始超参数就包含了图像增强的参数，如下图所示（hyp.scratch-med.yaml）：

图例为一次运行时（batch_size=16），经过mosaic、hsv、flip up-down、flip left-right后得到的增强图片。

超参数调优

YOLOv5的开发团队在 PR #3938 中添加了对于 W&B sweep 的支持。所以，对于YOLOv5s6预训练模型的超参数调优，我们使用W&B提供的sweep工具。

参数和配置

编写yolov5/utils/loggers/wandb/sweep.yaml，确定项目路径配置和超参数搜索范围、方法等：

# sweep.yaml
# Hyperparameters for training
program: utils/loggers/wandb/sweep.py
method: random
metric:
  name: metrics/mAP_0.5
  goal: maximize
early_terminate:
  type: hyperband
  min_iter: 3
  eta: 3

parameters:
  # hyperparameters: set either min, max range or values list
  data:
    value: "data/UNIMIB2016.yaml"
  weights:
    value: "yolov5s6.pt"
  cfg:
    value: "models/hub/yolov5s6.yaml"
  epochs:
    value: 100
  imgsz:
    value: 640
  optimizer:
    value: "Adam"
  batch_size:
    values: [4, 8, 16]

  lr0:
    distribution: uniform
    min: 0.005
    max: 0.015
  lrf:
    distribution: uniform
    min: 0.005
    max: 0.015
  momentum:
    distribution: uniform
    min: 0.92
    max: 0.95
  weight_decay:
    distribution: uniform
    min: 4e-4
    max: 5e-4
  warmup_epochs:
    value: 3.0
  warmup_momentum:
    value: 0.8
  warmup_bias_lr:
    value: 0.1
  box:
    distribution: uniform
    min: 0.045
    max: 0.055
  cls:
    distribution: uniform
    min: 0.45
    max: 0.55
  cls_pw:
    value: 1.0
  obj:
    distribution: uniform
    min: 0.95
    max: 1.05
  obj_pw:
    value: 1.0
  iou_t:
    distribution: uniform
    min: 0.18
    max: 0.22
  anchor_t:
    value: 4.0
  fl_gamma:
    value: 0.0
  hsv_h:
    value: 0.015
  hsv_s:
    value: 0.7
  hsv_v:
    value: 0.4
  degrees:
    value: 8.0
  translate:
    value: 0.005
  scale:
    value: 0.20
  shear:
    value: 0.0
  perspective:
    value: 0.0
  flipud:
    value: 0.7
  fliplr:
    value: 0.7
  mosaic:
    value: 0.95
  mixup:
    value: 0
  copy_paste:
    value: 0

超参数调优的目标是最大化[email protected]
最优超参数搜索方法使用random，每次迭代时随机地在超参数搜索范围中选择一组参数
参数范围的选取根据data/hyps/hyp.scratch-low.yaml来确定，hyp.scratch-low.yaml也被用来作为 baseline，在开始 sweep 前先以该参数训练模型
sweeping过程中，使用hyperband方法对表现较差的迭代进行减枝（prune），提前结束该次超参尝试，加速模型超参数优化速度。参数设置： $\eta=3$ , $min\_iter=3$ . 意味着每轮运行将在[3, 9, 27, 81]次brackets时，对模型优化目标进行评估，及时终止无效的运行

Random search chooses a random set of values on each iteration.

Hyperparameters. Default hyperparameters are in hyp.scratch.yaml. We recommend you train with default hyperparameters first before thinking of modifying any. In general, increasing augmentation hyperparameters will reduce and delay overfitting, allowing for longer trainings and higher final mAP.

Hyperband stopping evaluates whether a program should be stopped or permitted to continue at one or more pre-set iteration counts, called “brackets”. When a run reaches a bracket, its metric value is compared to all previous reported metric values and the run is terminated if its value is too high (when the goal is minimization) or low (when the goal is maximization).

调优程序运行（sweep）

运行超参数调优程序，迭代次数100次.

# get the sweep id
wandb sweep --project YOLOv5 utils/loggers/wandb/sweep.yaml

# set a target to automatically stop the sweep
NUM=100 
# input the sweep id got in preceding step
SWEEPID="xxxxxxxx" 
# run an agent by nohup
nohup wandb agent --count $NUM sylvanding/YOLOv5/$SWEEPID > ./sweeping.log 2>&1 &

模型训练

云服务器选取

本项目的模型训练使用MistGPU平台提供的带有GPU加速功能的主机. 服务器的配置如下：

操作系统	Linux-4.18.0-15-generic-x86_64-with-glibc2.27
显卡	NVIDIA GeForce GTX 1080 Ti
显存	11 Gbps
CPU	Intel Xeon CPU E5-2678 v3 @ 2.50GHz

YOLOv5开发环境配置如下：

Python version	3.8.13
W&B CLI Version	0.12.11
PyTorch	1.11.0
Opencv	4.5.5
Cuda/cudnn	Cuda10.1/cudnn7.6.5

服务器环境配置

安装python3.8

# python3.8 安装
1. 以root用户或具有sudo访问权限的用户身份运行以下命令，以更新软件包列表并安装必备组件：
2. $ sudo apt update
   $ sudo apt install software-properties-common
3. 将Deadsnakes PPA添加到系统的来源列表中：
   $ sudo add-apt-repository ppa:deadsnakes/ppa
4. 启用存储库后，请使用以下命令安装Python 3.8：
   $ sudo apt install python3.8
5. 通过键入以下命令验证安装是否成功：
   $ python3.8 --version

上传项目

项目文件的组织结构如下（整个项目的必要文件均打包到model_training/文件夹下）：

labels/文件夹存有前文得到的yolov5格式.txt标记文件1005份
test.txt, train.txt存放前文划分好的测试集、训练集图片文件路径
yolov5/存放上文修改的yolov5项目
初始时，images文件夹为空，需要编写脚本下载、解压、修正图片，图片压缩文件UNIMIB2016-images.zip
上图UNIMIB2016中缺少rectify_imgs.py，应当添加进来

scp -r -P61500 /Users/sylvanding/Downloads/food_detect/model_training.zip [email protected]:~/

创建虚拟环境和安装项目依赖

pip install virtualenv
whereis python3.8 # get python3.8 path
virtualenv -p /usr/bin/python3.8 venv # use python3.8 as interpreter

source venv/bin/activate
cd yolov5
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/

下载数据和初始化W&B

# 注意：下载速度可能很慢
bash datasets/UNIMIB2016/imageSets_downloads.sh
# 初始化W&B
wandb login

服务器图片处理脚本

编写imageSets_downloads.sh，以下载、解压、修正图片：

#!/bin/bash
# Download UNIMIB2016 dataset 
# http://www.ivl.disco.unimib.it/activities/food-recognition/
# created by Sylvan Ding -- https://blog.csdn.net/IYXUAN
# 2022.04.22 -- [email protected], sylvanding.online

# Example usage: bash datasets/UNIMIB2016/imageSets_downloads.sh
# before execution, you need to install wget and zip!
# parent  ← you should be here
# ├── yolov5
# └── datasets
#     └── UNIMIB2016
#         ├── labels
#         └── images  ← downloads here

# Download/unzip images
d='./datasets/UNIMIB2016/images' # unzip directory
file='UNIMIB2016-images.zip' # images.zip
url='wget http://www.ivl.disco.unimib.it/download/http://www.ivl.disco.unimib.it/minisites/UNIMIB2016/UNIMIB2016-images.zip'
wget $url
echo 'Unzipping...'
unzip -q -j -d $d $file
echo 'Downloaded successfully!'
python3.8 $d/../rectify_imgs.py
echo 'Rectified successfully!'

运行截图

常见错误

Arial.ttf

第一次启动，需要下载 Arial.ttf 字体，卡住.

解决方法：

在自己主机上下载好再上传到服务器，或者用 wget 再服务器上下载再移至指定字体文件夹

wget https://ultralytics.com/assets/Arial.ttf
scp -r -P61500 /Users/sylvanding/Downloads/Arial.ttf [email protected]:/home/mist/.config/Ultralytics/

图片下载速度慢

图片数据集下载速度慢，用腾讯云SVM下载，下载好后传至自己的主机上，再用 MistGPU 提供的云储存上传数据集即可

# 从“云端”拷贝数据集到项目文件夹
cp -v /data/UNIMIB2016-images.zip ~/model_training

Cuda out of memory

出现Cuda is out of memory，内存或显存不足，应该 kill 释放其他占用内存的进程

results.png 生成问题

#7650 When generating results.png, bug happened with disorder on Y-axis of val/box_loss, val/obj_loss and val/cls_loss

结果分析

Metrics

precision & recall

$\frac{TP}{TP+FP} = \frac{TP}{\mathrm{all\ detections}}$

$\frac{TP}{TP+FN} = \frac{TP}{\mathrm{all\ ground\ truths}}$

Precision 指的是预测出的样本中正例比例（查准率）
Recall 指的是所有正例中预测出的正例比例（查全率）
all detections 是所有bounding box的数量
all ground truths是所有ground truths的数量

在目标检测（object detection）中，混淆矩阵的定义如下：

	$Confidence\ge Threshold_2$	$Confidence\lt Threshold_2$
$IoU\ge Threshold_1$	TP	FN
$IoU\lt Threshold_1$	FP	TN

$\frac{\mathrm{area\ of\ overlap}}{\mathrm{area\ of\ union}} = \frac{area(B_p\cap B_{gt})}{area(B_p\cup B_{gt})}$
$Threshold_1$ 为 $I o U$ 阈值
$Threshold_2$ 为 $C o n f i d e n c e$ 分类置信度阈值

mAP

在不同语境下，mAP主要针对COCO数据集，AP主要针对VOC数据集。mAP（mean Average Precision）是 AP 的平均值，即计算在各个分类类别上的 AP 后求平均所得。AP 的求法如下：

根据 BB（bounding box）的 $C o n f i d e n c e$ 由高到低排序
依次以各个 BB 的 $C o n f i d e n c e$ 为 $Threshold_2$ （包括 0、1）
依次计算在此分类置信度下，该分类的 $r e c a l l$ 和 $p r e c i s i o n$ ，绘制 P-R 曲线
根据不同的策略，计算 AUC（area under the curve），即 AP

在VOC物体检测任务中，Pascal VOC 2008 中设置 $Threshold_1=0.5$ ，使用差值平均精确度（interpolated average precision）的评测方法。绘制 P-R 曲线后，选取横轴上的11个点（间隔为0.1）所对应的最大精度，然后再取平均作为最终检测的平均精确度，其表达式如下：

$AP=\frac{1}{11} \sum _{r\in \{0,0.1,\dots , 1 \}} P_{interp} (r)$

$P_{interp} (r) = \mathop {\max } \limits _{r'\ge r} P(r')$

其中， $r$ 是横轴召回率的值， $P_{interp}(r)$ 是 $r$ 时的差值精度， $P (r)$ 是 r 对应的纵轴精度。

在 Pascal VOC 中，检测结果只评测了 $Threshold_1=0.5$ 阈值下的 mAP 值（记为 $m A P @ 0.5$ ）。相比 VOC 而言，COCO 数据集的评测则更加全面。

COCO 评估了在不同的交并比 $[0.5 : 0.05 : 0.95]$ 下的 mAP，并且在最后以这些阈值下的 mAP 的平均作为结果，记为 $m A P @ [0.5 : 0.95]$ . 不仅评估到物体检测模型的分类能力，同时也能体现出检测模型的定位能力。

预测的时候会产生很多FP，为了减少FP的数量，一般检测器的最后都会引入一步Non-maximum Suppression（NMS），以去除一部分重复预测的bounding box，YOLOv5中采用加权NMS的方式。

Loss Function

YOLOv1 的损失函数包括三部分，分别是定位损失、置信度损失和分类损失，其形式如下：

YOLOv5 改进了损失函数，进一步提高了模型的收敛速度和训练稳定性，避免了梯度消失和梯度爆炸。YOLOv5 的损失函数也有三部分构成：

Localization loss 定位损失（又称 box loss，是预测框与 GT 之间的误差）
Confidence loss 置信度损失（又称 obj loss, Objectness of the box）
Classification loss 分类损失（cls loss）

总损失函数是上述三者的加权和，通常置信度损失取最大权重、矩形框损失（或定位损失）和分类损失的权重次之。

YOLOv5 使用 CIoU loss 计算定位损失，置信度和分类损失都用 BCE loss 计算。

定位损失

对于矩形框的预测损失来说，可用 L1、L2 或 smooth L1 损失函数来描述。训练后期，L1 损失函数会导致其值在某范围内波动，难以收敛。虽然 L2 损失函数在 0 点处可导，最终可以收敛，但在训练前期，可能会导致梯度爆炸问题，从而训练没能朝着最优化的方向进行。smooth L1 损失函数将二者优点相结合，即避免了梯度爆炸，又避免了不熟练问题。上述计算矩形框的 L1、L2、smooth L1 损失时有一个共同点，都是分别计算矩形框中心点 x 坐标、中心点 y 坐标、宽、高的损失，最后再将四个损失值相加得到该矩形框的最终损失值。这种计算方法的前提假设是中心点 x 坐标、中心点 y 坐标、宽、高这四个值是相互独立的，实际上它们具有相关性，所以该计算方法存在问题。

于是，IoU系列损失函数（IoU、GIoU、DIoU、CIoU）又被陆续提了出来。IoU loss 关注预测框和 GT 的交并比；GIoU loss 把包围预测框和 GT 的最小矩形框的面积也加入到计算中，解决了 IoU loss 中，当两个矩形框完全没有重叠区域时，无论它们距离多远，它们的 IoU 都为 0，导致梯度也为 0，因而无法优化的情况；DIoU loss，把两矩形框的中心点距离 $\rho$ 、外接矩形框的对角线长度 $c$ 都考虑进去，使训练更稳定、收敛更快。YOLOv5使用 CIoU loss 来衡量矩形框的损失。

CIoU loss 将重叠面积、中心点距离、宽高比同时加入了计算，其计算公式如下：

$\frac{\rho ^2}{c^2} - \alpha v= DIoU - \alpha v$

$\frac{4}{\pi ^2} \left ( \arctan \frac{w_{gt}}{h_{gt}} - \arctan \frac{w_{pred}}{h_{pred}} \right ) ^2$

$\alpha = \frac{v}{1-IoU+v}$

$loss_{CIoU} = 1-CIoU$

其中， $w_{gt}$ 、 $h_{gt}$ 为 GT 宽、高， $w_{pred}$ 、 $h_{pred}$ 为预测框宽、高， $\rho$ 是两框中心点距离， $c$ 是是包围两框的最小矩形框对角线长度， $v$ 是两框宽高比的相似度， $\alpha$ 是 $v$ 的影响因子。

IoU 越大，两框的重叠区域越大，则 $α$ 越大，从而 $v$ 的影响越大，对宽高比的惩罚力度越大，着重优化宽高比；反之，IoU 越小，两框的重叠区域越小， $α$ 越小，从而 $v$ 的影响越小，对两框距离的惩罚力度越大，着重优化距离。

置信度损失

YOLOv5 将一张输入的 $640\times 640$ 图像分割成的 $N\times N$ 网格，每个网格预测 $M$ 个预测框（anchor），所以总共预测了 $M\times N\times N$ 个预测框。每个预测框的预测信息包括矩形框信息、置信度、分类概率。

矩形框：表征目标的大小以及精确位置
置信度：表征预测框的可信程度，取值范围0~1，值越大说明该矩形框中越可能存在目标
分类概率：表征目标的类别

由于并不是每个预测框内都存在目标，所以在训练时首先需要根据标签作初步判断，判断每个预测框内是否存在目标，以此建立 mask 矩阵（矩阵的每个元素是布尔型）。实际上，并非所有预测框都需要计算所有类别的损失函数值，而是根据 mask 矩阵来决定，决定原则如下：

仅 mask 矩阵对应位置为 True 的预测框需要计算 box loss 和 cls loss
所有预测框都要计算 obj loss，但是 mask 为 true 的预测框与 mask为 false 的预测框的置信度标签值不一样

mask 矩阵的布尔值，由 anchor 框的保留或剔除决定，依照 anchor 框和 GT 的宽高比（aspect ratio）决定 anchor 是否保留。

置信度标签的维度应该与神经网络的输出维度保持一致，因此置信度的标签也是维度为 $M\times N\times N$ 的矩阵。计算对应预测框与目标框的 CIoU，使用 CIoU 作为该预测框的置信度标签，对 mask 矩阵为 false 的位置，预测框的置信度标签赋值 0. 当 CIoU 小于 0 时，直接取 0 值作为标签，对 CIoU 做截断。由此得到预测置信度矩阵 P.

假设置信度标签为矩阵 L，那么置信度损失的 BCE loss（二元交叉熵损失）函数定义如下：

$loss_{BCE}(z,x,y)=-L(z,x,y)* \log P(z,x,y) - (1-L(z,x,y))*\log (1-P(z,x,y))$

其中， $\le z \lt M$ , $\le x,y \lt N$ .

从而得到该网络的置信度损失值：

$\left\{\begin{matrix} l_{obj} &=& \frac{1}{num\ of\ (mask=true)} \sum _{mask=true} loss_{BCE}(z,x,y) \\ l_{nobj} &=& \frac{1}{num\ of\ (mask=false)} \sum _{mask=false} loss_{BCE}(z,x,y) \\ loss_{obj} &=& a*l_{obj}+(1-a)*l_{nobj} \end{matrix}\right.$

其中， $a$ 为 mask = true 时的置信度损失权重， $a$ 越大，网络训练时越专注于 mask = true 的正样本情况。为了使训练更专注于正样本，后来 Focal loss 又被提了出来。

分类损失

为了减少过拟合、增加训练的稳定性，YOLOv5 对独热码标签做了平滑操作，如下所示：

$label_{smooth} = label*(1-\alpha )+\alpha /class num$

$\alpha$ 是平滑系数， $l a b e l$ 是经过独热编码后的标签向量。

接着，使用 BCE loss 函数计算矩阵中每个 mask=true 元素的分类损失并累加求平均，得到总的分类损失，计算过程如下：

$\left\{\begin{matrix} loss_{BCE}(z,x,y,c) &=& -L_{smooth}(z,x,y,c)* \log P(z,x,y,c) - (1-L_{smooth}(z,x,y,c))*\log (1-P(z,x,y,c)) \\ loss_{cls} &=& \frac{1}{classnum\ *\ num\ of\ (mask=true)} \sum _{mask=true} loss_{BCE}(z,x,y,c) \\ \end{matrix}\right.$

其中， $L_{smooth}$ 是平滑后的 GT 标签， $0\le c\lt classnum$ 对应样本类别数.

sweep超参数调优结果

相比于AutoML框架的超参数调优，wandb sweeps具有更强的实验管理和数据可视化的能力。wandb sweeps具有一下几个优点：

较好的可视化效果
较小的代码入侵
较好的实验管理

经过sweep后得到的平行坐标图（parallel coordinates plot）、散点图和相关性分析图如下所示。其中，学习率 lr0 对 [email protected]的影响最大，呈负相关趋势。

选取较优参数进行训练

根据 sweep 的结果，选取 [email protected] 值最高的超参数训练模型，具体参数如下所示（未列出参数和data/hyps/hyp.scratch-low.yaml一致，对结果的影响不大）：

weights	yolov5s6.pt
cfg	hub/yolov5s6.yaml
epochs	300
batch_size	16
imgsz	640
optimizer	Adam
lr0	0.01
lrf	0.01
momentum	0.937
anchors	3
hsv_h/s/v	0.015/0.7/0.4
degrees	5.0
flipud/lr	0.5/0.5
mosaic	1.0

结果展示

评价指标

训练结束，训练集的三类损失函数均收敛。在验证集上，模型各个评价指标均高于 0.93. 最佳模型在第 299 次epoch时得到，最佳模型的评价指标如下：

[email protected]	0.983
[email protected]:0.95	0.939
precision	0.954
recall	0.939

混淆矩阵

最终，模型在验证集上的混淆矩阵如下图所示，该混淆矩阵在列上做归一化，那么，对角元素表示每类的召回率，因为一小部分类别样本量太少，所以召回率较低。背景被判定为菜品的现象存在，但误判率极低。

PR曲线

置信度和P、R的关系曲线

后期可依据该图，根据需要选取合适的置信度，调整菜品识别的精度和召回率。（精度和置信度成正比，而召回率和置信度成反比）

F1 Score

F1分数（F1-Score），又称为平衡F分数（BalancedScore），它被定义为精确率和召回率的调和平均数。可以看到，当 Confidence 在 0.7 附近时，F1-Score 最优。

关于训练集中标签分布信息的描述

分类直方图和标记框

显然，从 top-left 图可知，该样本的分类是有偏的，模型在某些小数量分类上的标签可能不优秀。

预测效果展示

模型部署

模型的部署及界面开发拟采用 PyQt5.

Qt is set of cross-platform C++ libraries that implement high-level APIs for accessing many aspects of modern desktop and mobile systems. These include location and positioning services, multimedia, NFC and Bluetooth connectivity, a Chromium based web browser, as well as traditional UI development.

PyQt5 is a comprehensive set of Python bindings for Qt v5. It is implemented as more than 35 extension modules and enables Python to be used as an alternative application development language to C++ on all supported platforms including iOS and Android.

PyQt5 may also be embedded in C++ based applications to allow users of those applications to configure or enhance the functionality of those applications.

客户端制作

学生端拟用 Android 平台开发，管理端拟用网页开发。

总结和展望

食品图像识别在计算机视觉和多媒体等研究领域中具有重要的理论意义和实际应用价值，但目前仍存在诸多问题与挑战。本文基于YOLOv5v6.1提出了一套适用于中式快餐店的菜品识别自助支付系统，综述了食品识别领域的发展现状，简要介绍了YOLOv5模型的历史背景、发展优势和网络结构。在数据集预处理过程中，通过解析UNIMIB2016，构建了一套行之有效的标签格式转换与校验流程，解决了YOLOv5中文件路径问题、标签格式转换问题和因EXIF信息的存在而导致的标记错位问题。在模型训练阶段，配置了云服务器，引入了Weights and Bias可视化工具，实现了在线监督训练和sweep超参数调优的功能，在sweep中使用hyperband剪枝算法加速了sweep过程，并给出了对于训练过程中可能出现的问题的解决方法。最后介绍了目标识别领域的评价指标和YOLOv5的损失函数，分析了sweep超参数调优的结果，选取最优参数组合训练模型，通过分析样本分布、PR曲线等，选取最佳预测置信度，大幅提升了预测精度和召回率，部署了模型并制作了客户端。

本文虽然选取了一组相对优秀的参数组合以提升模型的[email protected]等评价指标，但是并没有针对目标数据集对模型进行优化，比如微调网络结构以提升精度和速度、使用图像加权策略以缓解样本不平衡问题、使用矩阵推理训练模型以加快推理过程并减少冗余信息、改进k-means以聚类生成anchor、对标签进行平滑处理以增强模型的鲁棒性、冻结backbone以便在数据量不足时获得较好的特征提取效果并提升训练速度。

通过本次实验，对YOLOv5模型训练提出了一些改进方法，认识到了现存的技术难题，为后续项目落地打下基础，也证明了项目落地在技术层面上的可行性。

参考文献

YOLOv5 Documentation, https://docs.ultralytics.com/tutorials/train-custom-datasets/
Matlab containers.Map, https://www.mathworks.com/help/matlab/ref/containers.map.html
SCIPY Documentation, https://docs.scipy.org/doc/scipy/reference/generated/scipy.io.loadmat.html
Food recognition: a new dataset, experiments and results (Gianluigi Ciocca, Paolo Napoletano, Raimondo Schettini) In IEEE Journal of Biomedical and Health Informatics, volume 21, number 3, pp. 588-598, IEEE, 2017.
Aguilar E, Remeseiro B, Bolaños M, et al. Grab, pay, and eat: Semantic food detection for smart restaurants[J]. IEEE Transactions on Multimedia, 2018, 20(12): 3266-3275.
闵巍庆,刘林虎,刘宇昕,罗梦江,蒋树强.食品图像识别方法综述[J].计算机学报,2022,45(03):542-566.
董天骄. 基于卷积神经网络的饮食分类与识别[D]. 杭州电子科技大学, 2018.
李成. 基于改进YOLOv5的小目标检测算法研究[J]. 长江信息通信,2021,34(9):30-33. DOI:10.3969/j.issn.1673-1131.2021.09.010.
琚恭伟,焦慧敏,张佳明,等. 基于YOLOv5的医用外科手套左右手识别[J]. 制造业自动化,2021,43(12):189-192. DOI:10.3969/j.issn.1009-0134.2021.12.046.
赵睿,刘辉,刘沛霖,雷音,李达.基于改进YOLOv5s的安全帽检测算法[J/OL].北京航空航天大学学报:1-16[2022-05-01].DOI:10.13700/j.bh.1001-5965.2021.0595.
马琳琳,马建新,韩佳芳,李雅迪.基于YOLOv5s目标检测算法的研究[J].电脑知识与技术,2021,17(23):100-103.DOI:10.14004/j.cnki.ckt.2021.2402.
邱锡鹏, 神经网络与深度学习, 机械工业出版社, https://nndl.github.io, 2020.
Yolov5 系列1— Yolo发展史以及Yolov5模型详解, https://samuel92.blog.csdn.net/article/details/108845799
Yolov5目标检测训练模型学习总结, https://www.cnblogs.com/isLinXu/p/15170963.html
【目标检测】yoloV5算法详解, https://blog.csdn.net/qq_40373651/article/details/121501699
Weights & Biases Documentation, https://docs.wandb.ai
机器学习超参数优化算法-Hyperband, https://www.cnblogs.com/marsggbo/p/10161605.html
深度学习中的数据增强方法都有哪些, https://zhuanlan.zhihu.com/p/61759947
在ubuntu上安装Python有两种方法, https://www.cnblogs.com/yjp372928571/p/12758564.html
使用混淆矩阵分析目标检测, https://zhuanlan.zhihu.com/p/443499860
目标检测中的AP、mAP, https://zhuanlan.zhihu.com/p/88896868
如何衡量目标检测模型的优劣, https://zhuanlan.zhihu.com/p/422645189
计算机视觉中评价指标计算, https://blog.csdn.net/l1076604169/article/details/100731210
yolov5目标检测神经网络——损失函数计算原理, https://zhuanlan.zhihu.com/p/458597638
目标检测Anchor是什么？如何科学设置, https://zhuanlan.zhihu.com/p/112574936
PyQt5 5.15.6, https://pypi.org/project/PyQt5
手把手带你调参Yolo v5 (v6.1)（二）, https://blog.csdn.net/weixin_43694096/article/details/124411509

你可能感兴趣的:(计算机视觉,深度学习,人工智能,计算机视觉,深度学习,yolov5,智慧城市)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
等保测评中的物联网设备安全评估亿林数据物联网安全网络安全等保测评
随着物联网（IoT）技术的飞速发展，物联网设备已经广泛应用于智能家居、智慧城市、工业自动化等多个领域，极大地提升了社会生产力和生活便利性。然而，随着IoT设备数量的激增，其安全性问题也日益凸显，成为我们必须面对的重要课题。在这一背景下，等级保护（等保）测评中的物联网设备安全评估显得尤为重要，它为我们提供了一个有效的安全评估和管理机制。一、物联网设备安全评估的重要性物联网设备的核心理念是实现物物相连
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
模型训练与部署注意事项篇---resize Atticus-Orion 图像处理篇深度学习篇模型训练与部署注意事项篇深度学习计算机视觉人工智能
图像大小的影响在YOLOv系列模型的训练和推理部署过程中，图像大小的选择是影响模型性能（精度、速度、泛化能力）的关键因素之一。两者的关系既相互关联，又存在一定的灵活性，具体可从以下几个方面详细分析：一、核心关系：训练与推理图像大小的“基准一致性”YOLOv模型（如YOLOv5、v7、v8等）的训练和推理图像大小通常以**“基准尺寸”**为核心关联，即训练时设定的图像尺寸会作为模型设计的基础，而推理
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
网络安全行业核心人才需求与职业发展路径 Gappsong874 安全网络安全程序人生职场和发展
在数字化浪潮席卷全球的今天，数据已成为驱动经济、重塑社会的核心资产。从智慧城市到工业互联网，从移动支付到远程医疗，数字技术深度融入人类生活的每个角落。然而，技术赋能的另一面是风险的指数级放大——网络攻击手段日益复杂，数据泄露事件频发，关键基础设施面临瘫痪威胁，甚至国家安全与公民隐私也暴露在未知风险之中。在此背景下，网络安全早已超越技术范畴，成为关乎国家战略、企业存续与个人权益的“数字生命线”。无论
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

基于YOLOv5的中式快餐店菜品识别系统

基于YOLOv5的中式快餐店菜品识别系统

摘要

引言

数据集

数据集来源和说明

数据集处理

MAT文件解析

数据集有效性检验

食物类别统计

标签格式转换

数据集校验

图片修正

修正前（标记错位）

修正后

修正代码

标签正确性检验

YOLOv5 网络结构

输入端

主干特征提取网络

Neck层

输出端

Adam优化器

激活函数选择

隐藏层激活函数

输出层激活函数

模型优化

本地环境搭建

当前项目结构

W&B配置

环境配置说明表

模型训练准备

预训练模型的选取

训练集和验证集的划分

模型训练文件配置

UNIMIB2016.yaml

my_train.py

图像增强

超参数调优

参数和配置

调优程序运行（sweep）

模型训练

云服务器选取

服务器环境配置

安装python3.8

上传项目

创建虚拟环境和安装项目依赖

下载数据和初始化W&B

服务器图片处理脚本

运行截图

常见错误

Arial.ttf

图片下载速度慢

Cuda out of memory

results.png 生成问题

结果分析

Metrics

precision & recall

mAP

Loss Function

定位损失

置信度损失

分类损失

sweep超参数调优结果

选取较优参数进行训练

结果展示

评价指标

混淆矩阵

PR曲线

置信度和P、R的关系曲线

F1 Score

关于训练集中标签分布信息的描述

相关性直方图

分类直方图和标记框

预测效果展示

模型部署

客户端制作

总结和展望

参考文献

你可能感兴趣的:(计算机视觉,深度学习,人工智能,计算机视觉,深度学习,yolov5,智慧城市)