英特尔边缘计算社区

零基础：训练并部署 TensorFlow 版 YOLOv5 模型

概述

目标检测是计算机视觉上的一个重要任务，本文介绍的是 YOLO算法，其全称是 You Only Look Once: Unified, Real-Time Object Detection，它是目标检测中实现端到端目标检测的佼佼者，从YOLOv1 到 YOLOv5 其中在数据处理、网络结构上都做了不少优化，而 YOLOv5 能够达到体积更小、精度更好，本文就从零开始介绍如何通过用 TensorFlow 对 YOLOv5 进行搭建训练和部署。本实例源码可在点击以下链接：https://github.com/Yunying-CN/Yolov5-TF。

1.安装 Tensorflow2.x

为了提高训练速度减少训练时长，在训练阶段最好在配有 GPU的本地服务器或者云服务器上进行。本例以 Linux 64 位下的Python 3.8 版本为例，可选择下载对应的安装包。在保存安装包的路径下打开终端，运行命令进行安装 TensorFlow。这里安装的是 Tensorflow2.3.0-gpu 版本，搭配 cuda10.1 和对应的 cudnn，也可以直接通过 pip 安装命令来下载安装，如果速度较慢可以修改下载的源。

$sudo apt-get install python-pip python-dev
$pip3 install --upgrade pip
$pip3 install tensorflow-gpu==2.3.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成后，可以终端打开 python 并导入 Tensorflow 来查看版本来验证是否安装成功。

$python3>>import tensorflow as tf>>tf.version

2.训练 YOLOv5 网络

YOLO 是经典的目标检测识别网络，而 YOLOv5 是 YOLO 系列中识别率最高而且速度最快的目标检测识别模型。YOLOv5模型属于监督学习，训练模型的样本需要包括物体的位置坐标（矩形框）和物体所属的类别。将数据集中的图片作为网络输入，物体的类别和坐标作为标签信息，对网络进行训练，得到网络对物体检测和识别的能力。

2.1 数据集

本实例以开源的 Pascal Voc2012 数据集。Pascal VOC2012作为基准数据之一，在对象检测、图像分割网络对比实验与模型效果评估中被频频使用，Pascal VOC2012 数据集主要是针对视觉任务中监督学习提供标签数据，它一共包含有 20 个类别，分别为：aeroplane、bicycle、bird、boat、bottle、bus、car、cat、chair、cow、dining table、dog、horse、motorbike、person、potted plant、sheep、sofa、train、tv/monitor，训练图像有 5717 张，目标数 13609 个，测试图像有 11540 张，目标数 27450 个。Pascal Voc2012数据集可以在官网上进行下载 (http://host.robots.ox.ac.uk/pascal/VOC/voc2012/)，也可以在终端通过命令下载数据集并解压。

$wget http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar -O ./data/voc2012.tar
$mkdir -p ./data/voc
$tar -xf ./data/voc2012.tar -C ./data/voc
$ls ./data/voc

里面包括有 Annotations、ImageSets、JPEGImages、Segmenta-tionClass SegmentationObject 五个文件夹，Annotations 文件夹中保存了进行目标检测任务时的标签文件为 .xml 格式，标签文件名与图片名一一对应。.xml 文档记录了该图片的尺寸信息以及图片中识别物体的类别和其具体位置信息。ImageSets包含三个子文件夹 Layout、Main、Segmentation，其中 Main 存放的是分类和检测的数据集分割文件，JPEGImages 存放 .jpg 格式的图片文件，SegmentationClass 存放按照类别进行分割的图片，SegmentationObject 存放按照物体进行分割的图片。

如果想制作自己的数据集，也可以通过使用 LabelImg 工具，框选出图像中所需识别物体的位置和标记该物体的类别并将所有所识别的类型保存在 .names 文件中。

2.2 生成 TFRecord 文件

为了高效的读取数据，可以将数据进行序列化存储，便于网络流式读取数据，TFRecord 是存储二进制序列数据的文件格式，只占用一个内存块，保存记录的方法可以任意的数据转换为TensorFlow 所支持的格式，这种方法可以使 TensorFlow 的数据集更容易与网络应用架构相匹配。在生成 TFRecord 文件中需要保存训练图片及图片中物体的类别和位置信息。

import os
from absl import app, flags, logging
from absl.flags import FLAGS
import tensorflow as tf
import lxml.etree
import tqdm

flags.DEFINE_string(‘data_dir’, ‘./data/voc/VOCdevkit/VOC2012/’,
’path to PASCAL VOC dataset’)
flags.DEFINE_enum(‘split’, ‘val’, [
‘train’, ‘val’], ‘specify train or val spit’)
flags.DEFINE_string(‘output_file’, ‘./data/voc2012_train.tfrecord’, ‘outpot dataset’)
flags.DEFINE_string(‘classes’, ‘./data/voc2012.names’, ‘classes file’)

def build_example(annotation, class_map):img_path = os.path.join(
FLAGS.data_dir, ‘JPEGImages’, annotation[‘filename’])
img_raw = open(img_path, ‘rb’).read()
width = int(annotation[‘size’][‘width’])
height = int(annotation['size’][‘height’])
xmin = []
ymin = []
xmax = []
ymax = []
classes = []
classes_text = []
if ‘object’ in annotation:
for obj in annotation[‘object’]:
xmin.append(float(obj[‘bndbox’][‘xmin’]) / width)
ymin.append(float(obj[‘bndbox’]['ymin’]) / height)
xmax.append(float(obj[‘bndbox’][‘xmax’]) / width)
ymax.append(float(obj[‘bndbox’][‘ymax’]) / height)
classes_text.append(obj[‘name’].encode(‘utf8’))
classes.append(class_map[obj[‘name’]])
example = tf.train.Example(features=tf.train.Features(feature={‘image/encoded’: tf.train.Feature(bytes_list=tf.train.BytesList(value=[img_raw])),
’image/object/bbox/xmin’: tf.train.Feature(float_list=tf.train.FloatList(value=xmin)),
’image/object/bbox/xmax’: tf.train.Feature(float_list=tf.train.FloatList(value=xmax)),
’image/object/bbox/ymin’: tf.train.Feature(float_list=tf.train.FloatList(value=ymin)),
’image/object/bbox/ymax’: tf.train.Feature(float_list=tf.train.FloatList(value=ymax)),
’image/object/class/text’: tf.train.Feature(bytes_list=tf.train.BytesList(value=classes_text)),
’image/object/class/label’: tf.train.Feature(int64_list=tf.train.Int64List(value=classes)),}))return example
def parse_xml(xml):
if not len(xml):
return {xml.tag: xml.text}
result = {}
for child in xml:
child_result = parse_xml(child)
if child.tag != ‘object’:
result[child.tag] = child_result[child.tag]
else:
if child.tag not in result:
result[child.tag] =[]
result[child.tag].append(child_result[child.tag])
return {xml.tag: result}
def main(_argv):
class_map = {name: idx for idx, name in enumerate(open(FLAGS.classes).read().splitlines())}
writer = tf.io.TFRecordWriter(FLAGS.output_file)
image_list = open(os.path.join(
FLAGS.data_dir, ‘ImageSets’, ‘Main’, ‘%s.txt’ % FLAGS.split)).
read().splitlines()
logging.info(“Image list loaded: %d”, len(image_list))for name in tqdm.tqdm(image_list):
annotation_xml = os.path.join(FLAGS.data_dir, ‘Annotations’, name + ‘.xml’)
annotation_xml = lxml.etree.fromstring(open(annotation_xml).read())
annotation = parse_xml(annotation_xml)[‘annotation’]tf_example = build_example(annotation, class_map)writer.write(tf_example.SerializeToString())
writer.close()
logging.info(“Done”)

if name == ‘main’:
app.run(main)

2.3 YOLOv5 网络结构

YOLOv5 目标检测网络中一共有 4 个版本，分别是 YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 四个模型，通过用 .yaml文件来配置模型。在 yaml 文件里面分别定义了各个参数变量如 : nc 代表分类目标的数量，depth_multiple 即网络深度表示 channel 的缩放系数，即将配置里面的 backbone和 head 部分有关通道的设置。而 width_multiple 即网络宽度表示BottleneckCSP模块的层缩放系数，将所有的BottleneckCSP 模块的 number 系数乘上该参数即为最终的层个数。通过这参数就可以实现不同大小不同复杂度的模型设计，4 个版本的 YOLOv5 也做了不同的设计。Anchors 为预设锚定框，预设了 640 × 640 图像大小下 9 种锚定框的尺寸。此外还有模型的主干网络backbone和通用检测层head，head 主要用于最终检测部分。它在特征图上应用锚定框并生成带有类概率、对象得分和边界框的最终输出向量。以下是以YOLOv5s.yaml 为例。

#Parameters
nc: 20 # number of classes
depth_multiple: 0.67 # model depth multiple
width_multiple: 0.75 # layer channel multiple
anchors:
-[10,13, 16,30, 33,23] # P3/8-
-[30,61, 62,45, 59,119] # P4/16
-[116,90, 156,198, 373,326] # P5/32
#YOLOv5 backbone
backbone:
#[from, number, module, args]
[[-1, 1, Focus, [64, 3]], # 0-P1/2
[-1, 1, Conv, [128, 3, 2]], # 1-P2/4
[-1, 3, C3, [128]],
[-1, 1, Conv, [256, 3, 2]], # 3-P3/8
[-1, 9, C3, [256]],
[-1, 1, Conv, [512, 3, 2]], # 5-P4/16
[-1, 9, C3, [512]],
[-1, 1, Conv, [1024, 3, 2]], # 7-P5/32
[-1, 1, SPP, [1024, [5, 9, 13]]],
[-1, 3, C3, [1024, False]], # 9
]
#YOLOv5 head
head:
[[-1, 1, Conv, [512, 1, 1]],
[-1, 1, Upsample, [None, 2, ‘nearest’]],
[[-1, 6], 1, Concat, [-1]], # cat backbone P4
[-1, 3, C3, [512, False]], # 13
[-1, 1, Conv, [256, 1, 1]],
[-1, 1, Upsample, [None, 2, ‘nearest’]],
[[-1, 4], 1, Concat, [-1]], # cat backbone P3
[-1, 3, C3, [256, False]], # 17 (P3/8-small)
[-1, 1, Conv, [256, 3, 2]],
[[-1, 14], 1, Concat, [-1]], # cat head P4
[-1, 3, C3, [512, False]], # 20 (P4/16-medium)
[-1, 1, Conv, [512, 3, 2]],
[[-1, 10], 1, Concat, [-1]], # cat head P5
[-1, 3, C3, [1024, False]], # 23 (P5/32-large)
[[17, 20, 23], 1, Detect, [nc, anchors]], # Detect(P3, P4, P5)
]

2.4 YOLOv5 网络模块

YOLOv5 网络可以分为输入图像、backbone 主干网络以获得图像的特征图、head 检测头用作预测目标物体和位置，neck为对特征图在输入 head 前的特殊处理，4 个部分组成整个网络。而这 4 部分由几个不同的模块堆叠得到。

2.4.1 CBL 模块

CBL 为卷积模块，YOLOv5 主干网络中的 CBL 模块以 Convolu-tion + Batch Normalization + Activation 的形式，对输入数据进行卷积计算、批标准化计算和经过一个激活函数，其中的激活函数选用 LeakyRelu，对网络加入非线性并加快网络的收敛速度。

2.4.2 Focus 模块

从 .yaml 配置文件中可以看到在 backbone 主干网络中包含了focus 模块，focus 模块是对图片进行切片操作，通过在图片中每间隔 1 个像素取值，得到 4 张图片，使得图片的长和宽分别减半，通道数扩展为原来的 4 倍，该操作类似于 2 倍下采样但是保证了图片信息没有丢失，以 YOLOV5s 为例，原始的 640 × 640 × 3 的图像通过 Focus 模块，输出得到 320 × 320 × 12 的特征图。

2.4.3 bottleneck 模块

Bottleneck模块可以通过卷积计算改变数据的通道数，bottleneck 瓶颈层有多种形式，其标准形式为进行一个 1 × 1和 3 × 3 的卷积后加上其本身的短路连接，而 BottleneckCSP是几个标准 bottleneck 的堆叠，YOLOV5 网络中的 C3 模块与 BottleneckCSP 模块类似，只是在 C3 中的卷积计算后加上了 BN 层和激活函数积操作。

2.4.4 SPP 模块

在目标检测中，通常输入图像的尺寸大小并不固定，为了得到统一大小的特征图，从 YOLOv3 开始引入了 SPP 空间金字塔池化模块，通过使用 CBL 模块使其通道数减半，然后将输入经过三个不同尺寸大小的最大池化层，连同输入通过 concat级联在一起，最后通过 CBL 模块使通道数减半，保证不同大小的输入在池化后的特征图长和宽能保持一致。

2.4.5 Upsample 模块

在进行预测前，网络对都特征图做了两次向上采样，得到 3 个不同尺寸大小的特征图，使图像的长和宽分别扩展为原来的 2倍，这能够使得相对较大或较小的物体都能更好地识别。
import tensorflow as tf
from tensorflow.keras.layers import Layer, Conv2D, BatchNormalization, MaxPool2D
from tensorflow import keras
import math
import numpy as np

class Conv2d(keras.layers.Layer):
def init(self, c1, c2, k, s=1, g=1, bias=True, w=None):
super(Conv2d, self).init()
assert g == 1, "TF v2.2 Conv2D does not support ‘groups’ argument"
self.conv = keras.layers.Conv2D(
c2, k, s, ‘VALID’,use_bias=bias,
kernel_initializer=keras.initializers.Constant(w.weight.permute(2, 3, 1, 0).numpy()),
bias_initializer=keras.initializers.Constant(w.bias.numpy())
if bias else None )
def call(self, inputs):
return self.conv(inputs)

class LeakyRelu(object):
def call(self, x):
return tf.nn.leaky_relu(x)

class Conv(Layer):
def init(self, filters, kernel_size, strides, padding=‘SAME’, groups=1):
super(Conv, self).init()
self.conv = Conv2D(filters, kernel_size, strides, padding, groups=groups, use_bias=False,
kernel_initializer=tf.random_normal_initializer (stddev=0.01),
kernel_regularizer=tf.keras.regularizers.L2(5e-4))
self.bn = BatchNormalization()
self.activation = LeakyRelu()
def call(self, x):
return self.activation(self.bn(self.conv(x)))
self.conv = Conv2D(filters, kernel_size, strides, padding, groups=groups, use_bias=False,
kernel_initializer=tf.random_normal_initializer(stddev=0.01),kernel_regularizer=tf.keras.regularizers.L2(5e-4))
self.bn = BatchNormalization()
self.activation = LeakyRelu()
def call(self, x):
return self.activation(self.bn(self.conv(x)))

class Focus(Layer):
def init(self, filters, kernel_size, strides=1, padding=‘SAME’):
super(Focus, self).init()
self.conv = Conv(filters, kernel_size, strides, padding)def call(self, x):
return self.conv(tf.concat([x[…, ::2, ::2, :],
x[…, 1::2, ::2, :],
x[…, ::2, 1::2, :],
x[…, 1::2, 1::2, :]],
axis=-1))

class Bottleneck(Layer):
def init(self, units, shortcut=True, expansion=0.5):
super(Bottleneck, self).init()
self.conv1 = Conv(int(units * expansion), 1, 1)
self.conv2 = Conv(units, 3, 1)
self.shortcut = shortcut
def call(self, x):
if self.shortcut:
return x + self.conv2(self.conv1(x))
return self.conv2(self.conv1(x))

class BottleneckCSP(Layer):
def init(self, units, n_layer=1, shortcut=True, expansion=0.5):
super(BottleneckCSP, self).init()
units_e = int(units * expansion)
self.conv1 = Conv(units_e, 1, 1)
self.conv2 = Conv2D(units_e, 1, 1, use_bias=False, kernel_initializer=tf.random_normal_initializer(stddev=0.01))self.conv3 = Conv2D(units_e, 1, 1, use_bias=False, kernel_initializer=tf.random_normal_initializer(stddev=0.01))self.conv4 = Conv(units, 1, 1)
self.bn =BatchNormalization(momentum=0.03)
self.activation = LeakyRelu()
self.modules = tf.keras.Sequential([Bottleneck(units_e, shortcut, expansion=1.0) for _ in range(n_layer)])
class BottleneckCSP(Layer):
def init(self, units, n_layer=1, shortcut=True, expansion=0.5):
super(BottleneckCSP, self).init()
units_e = int(units * expansion)
self.conv1 = Conv(units_e, 1, 1)
self.conv2 = Conv2D(units_e, 1, 1, use_bias=False, kernel_initializer=tf.random_normal_initializer(stddev=0.01))self.conv3 = Conv2D(units_e, 1, 1, use_bias=False, kernel_initializer=tf.random_normal_initializer(stddev=0.01))self.conv4 = Conv(units, 1, 1)
self.bn = BatchNormalization(momentum=0.03)
self.activation = LeakyRelu()
self.modules = tf.keras.Sequential([Bottleneck(units_e, shortcut, expansion=1.0) for _ in range(n_layer)])
def call(self, x):
y1 = self.conv3(self.modules(self.conv1(x)))
y2 = self.conv2(x)
return self.conv4(self.activation(self.bn(tf.concat([y1, y2], axis=-1))))

class SPP(Layer):
def init(self, units, kernels=(5, 9, 13)):
super(SPP, self).init()
units_e = units // 2 # Todo:
self.conv1 = Conv(units_e, 1, 1)
self.conv2 = Conv(units, 1, 1)
self.modules = [MaxPool2D(pool_size=x, strides=1, padding=‘SAME’) for x in kernels]
def call(self, x):
x = self.conv1(x)
return self.conv2(tf.concat([x] + [module(x) for module in self.modules], axis=-1))

class SPPCSP(Layer):
#Cross Stage Partial Networks
def init(self, units, n=1, shortcut=False, expansion=0.5, kernels=(5, 9, 13)):
super(SPPCSP, self).init()
units_e = int(2 * units * expansion)
self.conv1 = Conv(units_e, 1, 1)
self.conv2 = Conv2D(units_e, 1, 1, use_bias=False, kernel_initializer=tf.random_normal_initializer(stddev=0.01))self.conv3 = Conv(units_e, 3, 1)
self.conv4 = Conv(units_e, 1, 1)
self.modules = [MaxPool2D(pool_size=x, strides=1, padding=‘same’) for x in kernels]
self.conv5 = Conv(units_e, 1, 1)
self.conv6 = Conv(units_e, 3, 1)
self.bn = BatchNormalization()self.act = LeakyRelu()self.conv7 = Conv(units, 1, 1)
def call(self, x):
x1 = self.conv4(self.conv3(self.conv1(x)))
y1 = self.conv6(self.conv5(tf.concat([x1] + [module(x1) for module in self.modules], axis=-1)))
y2 = self.conv2(x)
return self.conv7(self.act(self.bn(tf.concat([y1, y2], axis=-1))))
class Upsample(Layer):
def init(self, i=None, ratio=2, method=‘bilinear’):
super(Upsample, self).init()
self.ratio = ratio
self.method = method

def call(self, x):
return tf.image.resize(x, (tf.shape(x)[1] * self.ratio, tf.shape(x)[2] * self.ratio), method=self.method)

2.5 网络和损失函数

读取 .yaml 文件中的 backbone 和 head 结构可以以序列形式把上述定义好的网络模块堆叠起来完成网络框架。

在损失计算中，分类任务和置信度任务都是通过二元交叉熵损失函数计算，再通过 gamma 和 alpha 的 Focal Loss 来调整权重，而边界框是通过以 GIOU 来计算其损失函数。

def parse_model(yaml_dict): # model_dict, input_
channels(3)
anchors, nc = yaml_dict[‘anchors’], yaml_dict[‘nc’]
depth_multiple, width_multiple = yaml_dict[‘depth_multiple’], yaml_dict[‘width_multiple’]
num_anchors = (len(anchors[0]) // 2)
if isinstance(anchors, list) else anchorsoutput_dims = num_anchors * (nc + 5)
layers = []
#from, number, module, args
for i, (f, number, module, args) in enumerate(yaml_dict[‘backbone’] + yaml_dict[‘head’]):
#all component is a Class, initialize here, call in self.forward
module = eval(module) if isinstance(module, str) else module
for j, arg in enumerate(args):
try:
args[j] = eval(arg) if isinstance(arg, str) else arg except:
pass
number = max(round(number * depth_multiple), 1) if number > 1 else number
if module in [Conv2D, Conv, Bottleneck, SPP, Focus, BottleneckCSP, C3]:
c2 = args[0]
c2 = math.ceil(c2 * width_multiple / 8) * 8 if c2 != output_dims else c2
args = [c2, args[1:]]
if module in [BottleneckCSP, C3, SPPCSP]:
args.insert(1, number)
number = 1
modules = tf.keras.Sequential([module(*args) for _ in range(number)]) if number >
1 else module(*args)
modules.i, modules.f = i,
flayers.append(modules)
return layers

class Model(object):
#model, channels, classes
def init(self, cfg=‘yolov5s.yaml’, ch=3, nc=20, model=None, imgsz=(640, 640)):
super(Model, self).init()
if isinstance(cfg, dict):
self.yaml = cfg # model dict
else: # is *.yaml
import yaml # for torch hub
self.yaml_file = Path(cfg).name
with open(cfg) as f:
self.yaml = yaml.load(f, Loader=yaml.FullLoader) # model dict
self.imgsz =imgsz
#Define model
if nc and nc != self.yaml[‘nc’]:
print(‘Overriding %s nc=%g with nc=%g’% (cfg, self.yaml[‘nc’], nc))
self.yaml[‘nc’] = nc # override yaml valueself.model = parse_model(self.yaml)
if isinstance(model, Detect):
#transfer the anchors to grid coordinator, 3 * 3 * 2
model.anchors /= tf.reshape(module.stride, [-1, 1, 1])
def call(self, img_size, name=‘yolo’):
x = tf.keras.Input([img_size, img_size, 3])
output = self.forward(x)
return tf.keras.Model(inputs=x, outputs=output, name=name)
def forward(self, inputs, tf_nms=False, agnostic_nms=False, topk_per_class=100, topk_all=100, iou_thres=0.45, conf_thres=0.25):
y = [] # outputs
x = inputs
for i, m in enumerate(self.model):
if m.f != -1:
if isinstance(m.f, int):
x = y[m.f]
x = y[m.f]
else:
x = [x if j == -1 else y[j] for j in m.f]
x = m(x) # run
y.append(x)
return x

class Loss(object):
def init(self, anchors, iou_thres, num_classes=20, img_size=640, label_smoothing=0):
self.anchors = anchors
self.strides = [8, 16, 32]
self.iou_thres = iou_thres
self.num_classes = num_classes
self.img_size = img_size
self.bce_conf = tf.keras.losses.BinaryCrossentropy(reduction=tf.keras.losses.Reduction.NONE)
self.bce_class = tf.keras.losses.BinaryCrossentropy(reduction=tf.keras.losses.Reduction.NONE,label_smoothing=label_smoothing)
def call(self, y_true, y_pred):
iou_loss_all = obj_loss_all = class_loss_all = tf.zeros(1)
balance = [4.0, 1.0, 0.4] if len(y_pred) == 3 else [4.0, 1.0, 0.25, 0.06]
for i, (pred, true) in enumerate(zip(y_pred, y_true)):
true_box, true_obj, true_class = tf.split(true, (4, 1, -1),

axis=-1)
pred_box, pred_obj, pred_class = tf.split(pred, (4, 1, -1), axis=-1)
if tf.shape(true_class)[-1] == 1 and self.num_classes > 1:
true_class = tf.squeeze(tf.one_hot(tf.cast(true_class, tf.dtypes.int32),
depth=self.num_classes, axis=-1), -2)
box_scale = 2 - 1.0 * true_box[…, 2] * true_box[…, 3] / (self.img_size ** 2)
obj_mask = tf.squeeze(true_obj, -1) # obj or noobj
background_mask = 1.0 - obj_mask
conf_focal = tf.squeeze(tf.math.pow(true_obj - pred_obj, 2), -1)
#giou loss
iou = bbox_iou(pred_box, true_box, xyxy=False, giou=True) iou_loss = (1 - iou) * obj_mask * box_scale # batch_size * grid * grid * 3
#confidence loss
conf_loss = self.bce_conf(true_obj, pred_obj)
conf_loss = conf_focal * (obj_mask * conf_loss + background_mask * conf_loss)
#class loss
class_loss = obj_mask * self.bce_class(true_class, pred_class)
iou_loss = tf.reduce_mean(tf.reduce_sum(iou_loss, axis=[1, 2, 3]))
conf_loss = tf.reduce_mean(tf.reduce_sum(conf_loss, axis=[1, 2, 3]))class_loss = tf.reduce_mean(tf.reduce_sum(class_loss, axis=[1, 2, 3]))
iou_loss_all += iou_loss * balance[i]
obj_loss_all += conf_loss * balance[i]
class_loss_all += class_loss * self.num_classes * balance[i] # to balance the 3 loss

return (iou_loss_all, obj_loss_all, class_loss_all)

def bbox_iou(bbox1, bbox2, xyxy=False, giou=False, diou=False, ciou=False, epsilon=1e-9):
assert bbox1.shape == bbox2.shape
#giou loss: https://arxiv.org/abs/1902.09630
if xyxy:
b1x1, b1y1, b1x2, b1y2 = bbox1[…, 0], bbox1[…, 1], bbox1[…, 2], bbox1[…, 3]
b2x1, b2y1, b2x2, b2y2 = bbox2[…, 0], bbox2[…, 1], bbox2[…, 2], bbox2[…, 3]
else: # xywh -> xyxy
b1x1, b1x2 = bbox1[…, 0] - bbox1[…, 2] / 2, bbox1[…, 0] + bbox1[…, 2] / 2
b1y1, b1y2 = bbox1[…, 1] - bbox1[…, 3] / 2, bbox1[…, 1] + bbox1[…, 3] / 2
b2x1, b2x2 = bbox2[…, 0] - bbox2[…, 2] / 2, bbox2[…, 0] + bbox2[…, 2] / 2
b2y1, b2y2 = bbox2[…, 1] - bbox2[…, 3] / 2, bbox2[…, 1] + bbox2[…, 3] / 2

#intersection area
inter = tf.maximum(tf.minimum(b1x2, b2x2) - tf.maximum(b1x1, b2x1), 0) *
tf.maximum(tf.minimum(b1y2, b2y2) - tf.maximum(b1y1, b2y1), 0)

#union areaw1, h1 = b1x2 - b1x1 + epsilon, b1y2 - b1y1 + epsilonw2, h2 = b2x2 - b2x1+ epsilon, b2y2 - b2y1 + epsilonunion = w1 * h1 + w2 * h2 - inter + epsilon

#Giouiou = inter / union

cw = tf.maximum(b1x2, b2x2) - tf.minimum(b1x1, b2x1)ch = tf.maximum(b1y2, b2y2) - tf.minimum(b1y1, b2y1)enclose_area = cw * ch + epsilongiou = iou - 1.0 * (enclose_area - union) / enclose_areareturn tf.clip_by_value(giou, -1, 1)

2.6 传入训练数据设置训练参数

在完成网络的搭建后，需要从上述生成得到的 TFRecord 文件中读取训练数据，需要设置网络的分类类别数，根据 batch size 分批把数据放入网络中，并且设置网络训练轮数、优化器和学习率等，并将训练的网络模型保存为 .pb 或 .pbtxt 文件。

from absl import app, flags, logging
from absl.flags import FLAGS
import tensorflow as tf
import numpy as np
import cv2import time
from models.yolo import *
from data.dataset import *

flags.DEFINE_string(‘dataset’, ‘./data/voc2012_train.tfrecord’, ‘path to dataset’)
flags.DEFINE_string(‘val_dataset’, ‘./data/voc2012_val.tfrecord’, ‘path to validation dataset’)
flags.DEFINE_string(‘yaml_dir’, ‘./models/yolov5s.yaml’, ‘path to yaml file’)
flags.DEFINE_string(‘classes’, ‘./data/voc2012.names’, ‘path to classes file’)
flags.DEFINE_integer(‘epochs’, 20, ‘number of epochs’)
flags.DEFINE_integer(‘batch_size’, 8, ‘batch size’)
flags.DEFINE_integer(‘img_size’, 640, ‘image size’)
flags.DEFINE_float(‘learning_rate’, 1e-3, ‘learning rate’)
flags.DEFINE_integer(‘num_classes’, 20, ‘number of classes in the model’)
flags.DEFINE_boolean(‘multi_gpu’, False, ‘Use if wishing to train with more than 1 GPU.’)
flags.DEFINE_float(‘label_smoothing’, 0.02, ‘label smoothing’)
flags.DEFINE_integer(‘yolo_max_boxes’, 100, ‘yolo max boxes’)

def transform(image, label):label_encoder = anchor_label.encode(label)return image, label_encoder

def main(_argv):train_dataset = load_tfrecord_dataset(FLAGS.batch_size,FLAGS.dataset, FLAGS.classes, FLAGS.size)Yolo = Model(cfg=FLAGS.yaml_dir)anchors = Yolo.model[-1].anchorsstride = Yolo.model[-1].stridenum_classes = FLAGS.num_classes
anchor_label = AnchorLabeler(anchors,grids=FLAGS.img_size / stride,img_size=FLAGS.img_size,assign_method=‘wh’,extend_offset=‘True’)train_dataset = train_dataset.map(transform, num_parallel_calls=tf.data.experimental.AUTOTUNE)train_dataset = train_dataset.batch(FLAGS.batch_size).prefetch(tf.data.experimental.AUTOTUNE)print(train_dataset)Yolo_loss = Loss(anchors, iou_thres=0.3,num_classes=num_classes,label_smoothing=FLAGS.label_smoothing,img_size=FLAGS.img_size)optimizer = tf.keras.optimizers.Adam(lr=FLAGS.learning_rate)Yolo = Yolo(FLAGS.img_size)for epoch in range(0, FLAGS.epochs):for step, (image, target) in enumerate(train_dataset):with tf.GradientTape() as tape:output = Yolo(image) iou_loss, conf_loss, prob_loss = Yolo_loss(target, output)pred_loss = iou_loss+conf_loss+prob_losstotal_loss = tf.reduce_sum(pred_loss)grads = tape.gradient(total_loss, Yolo.trainable_variables)optimizer.apply_gradients(zip(grads, Yolo.trainable_variables))
logging.info("{}train{}, {}, {}".format(epoch, step, total_loss.numpy(),list(map(lambda x: np.sum(x.numpy()), pred_loss))))tf.saved_model.save(Yolo, ‘/data/Yolov5/weights/’)

if name==‘main’:app.run(main)

运行 train.py 脚本文件开始训练，此处要注意 cuda 和 cudnn的安装，使得 TensorFlow 能够成功调用 GPU 进行训练，效果如下。

训练完成后保存的网络模型 saved_model.pb 和 Variables 参数文件夹将保存在项目中的 weights 文件路径下。

3. 部

3.1 安装 OpenVINO™ 工具套件

登录 https://www.intel.cn/content/www/cn/zh/developer/tools/openvino-toolkit/overview.html 官网，选择部署的操作系统和版本等进行下载和安装，本文的所有实现基于Windows 操作系统下的 2021.4.1 LTS 版本。

3.2 转换 OpenVINO™ 工具套件的 IR 格式

在安装 OpenVINO™ 工具套件后的目录下 \deployment_tools\model_optimizer 中，通过 mo_tf.py 脚本文件进行转换，由于此处TensorFlow保存得到的.pb只保存了网络结构，网络参数保存在 Variables 文件夹下，所以不能只将 .pb 文件作为输入进行转换，需要以 .pb 文件和Variables 文件夹的目录作为输入，并指定输出路径。如果 .pb没有明确输入图像的尺寸大小，需要加入 --input_shape 参数指定图像尺寸 ,–data_type 为设置数据格式为 32 位浮点数。

$python mo_tf.py --saved_model_dir <.pb文件夹路径>–input_shape [1,640,640,3] --output_dir <输出文件夹路径> --data_type FP32

运行成功之后会在输出文件夹路径下获得.xml和.bin文件，.xml 和 .bin 是 OpenVINO™ 工具套件中的模型存储方式，后续将基于 .bin 和 .xml 文件进行部署，效果如下。

3.3 推理部署

此实例将在 C++ 上进行推理部署，在部署中包括有引擎初始化、数据准备、推理、结果处理等方面。引擎初始化需要读入转化后的模型文件并获取图像的输入输出信息。在数据准备中需要将输入图像缩放到 640*640 的尺寸大小并将通道输入改为 RGB。然后将输入填充在 blob 中，进行推理。得到 3 个检测头，分别对应 80、40 和 20 的栅格尺寸，并依次对结果进行解析。最后通过 NMS 剔除多余的候选框。

// 导入头文件
#include
#include
using namespace InferenceEngine;
using namespace std;
using namespace cv;
int main() {
// 初始化推理引擎
Core ie;
// 读取转换得到的 .xml 和 .bin 文件
CNNNetwork network = ie.ReadNetwork("./openvino/yolov5s.xml", “./openvino/yolov5s.bin”);

// 获取设置输入输出格式
// 从模型中获取输入数据的格式信息
InputsDataMap inputsInfo = network.getInputsInfo();InputInfo::Ptr& input = inputsInfo.begin()->second;string inputs_name = inputsInfo.begin()->first;
ICNNNetwork::InputShapes inputShapes = network.getInputShapes();network.reshape(inputShapes);

// 从模型中获取推断结果的格式
OutputsDataMap outputsInfo = network.getOutputsInfo();vector OutputsBlobs_names;for (auto& item_out : outputsInfo) {OutputsBlobs_names.push_back(item_out.first);item_out.second->setPrecision(Precision::FP32);}

// 获取可执行网络 , 这里的 CPU 指的是推断运行的器件 , 可选"GPU"ExecutableNetwork executable_network = ie.LoadNetwork(network, “CPU”);

// 推理请求
InferRequest infer_request = executable_network.CreateInferRequest();InferenceEngine::Blob::Ptr lrInputBlob = infer_request.GetBlob(inputs_name);float* buffer = lrInputBlob->buffer().as();
// 输入推理图像
Mat src = cv::imread("./img/test.jpg");size_t h = lrInputBlob->getTensorDesc().getDims()[2];size_t w = lrInputBlob->getTensorDesc().getDims()[3];size_t image_size = h * w;

Mat inframe = src.clone();cv::resize(src, src, Size(640, 640));cv::cvtColor(src, src, COLOR_BGR2RGB);InferenceEngine::LockedMemory blobMapped = InferenceEngine::asInferenceEngine::MemoryBlob(lrInputBlob)->wmap();float* blob_data = blobMapped.as();

//nchw
for (size_t row = 0; row < h; row++) {for (size_t col = 0; col < w; col++) {for (size_t ch = 0; ch < 3; ch++) {blob_data[image_size*ch + row * w + col] = float(src.at(row, col)[ch]) / 255.0f;
}
}
}

// 执行推理
infer_request.Infer();
// 设置置信度阈值和 NMS 阈值
float _cof_threshold = 0.1;float _nms_area_threshold = 0.5;
// 获取各层结果
vector origin_rect;
vector origin_rect_cof;int s[3] = { 80,40,20 };vector Blob::Ptr blobs;int i = 0;for (auto OutputsBlob_name : OutputsBlobs_names) {Blob::Ptr OutputBlob = infer_request.GetBlob(OutputsBlob_name);parse_yolov5(OutputBlob, s[i], _cof_threshold, origin_rect, origin_rect_cof);++i;}
// 后处理获得最终检测结果
vector final_id;

// 进行 NMS 处理，过滤重叠多余的候选框dnn::NMSBoxes(origin_rect, origin_rect_cof, _cof_threshold, _nms_area_threshold,
// 根据 final_id 获取最终结果
for (size_t i = 0; i < final_id.size(); ++i)
{
int idx = final_id[i];Rect box = origin_rect[idx];cv::rectangle(inframe, box, Scalar(140, 199, 0), 1, 8, 0);
}

cv::imwrite("./img/output.jpg", inframe);
}

此处要注意的是网络输出的结果需要进行转换处理，将中心点坐标转化为角点坐标和剔除置信度较低的候选框。

bool Detector::parse_yolov5(const Blob::Ptr &blob,int net_grid,float cof_threshold,vector & o_rect,vector& o_rect_cof){vector anchors = get_anchors(net_grid);

LockedMemory blobMapped = as(blob)->rmap();const float *output_blob = blobMapped.as();

//n 个类是 n+5
int item_size = 25;
size_t anchor_n = 3;
for(int n=0;n for(int i=0;i for(int j=0;j {
double box_prob = output_blob[nnet_gridnet_griditem_size + inet_grid*item_size + j *item_size+ 4];box_prob = sigmoid(box_prob);

// 框置信度不满足则整体置信度不满足
if(box_prob < cof_threshold)continue;

// 将中心点坐标转化为角点坐标
double x = output_blob[nnet_gridnet_grid*item_size +

inet_griditem_size + jitem_size + 0];double y = output_blob[nnet_gridnet_griditem_size +

inet_griditem_size + jitem_size + 1];double w = output_blob[nnet_gridnet_griditem_size +

inet_griditem_size + jitem_size + 2];double h = output_blob[nnet_gridnet_griditem_size +

inet_griditem_size + j item_size+ 3];double max_prob = 0;int idx=0;for(int t=5;t<25;++t){double tp= output_blob[nnet_gridnet_griditem_size +

inet_griditem_size + j *item_size+ t];
tp = sigmoid(tp);
if(tp > max_prob){
max_prob = tp;
idx = t;
}
}
float cof = box_prob * max_prob;
// 剔除边框置信度小于阈值的边框
if(cof < cof_threshold)
continue;

x = (sigmoid(x)*2 - 0.5 + j)*640.0f/net_grid;
y = (sigmoid(y)*2 - 0.5 + i)*640.0f/net_grid;
w = pow(sigmoid(w)2,2) * anchors[n2];
h = pow(sigmoid(h)2,2) * anchors[n2 + 1];
double r_x = x - w/2;
double r_y = y - h/2;Rect rect = Rect(round(r_x),round(r_y),round(w),round(h));
o_rect.push_back(rect);
o_rect_cof.push_back(cof);}
if(o_rect.size() == 0) return false;else return true;
}

double Detector::sigmoid(double x){return (1 / (1 + exp(-x)));
}

vector Detector::get_anchors(int net_grid){vector anchors(6);int anchor_80[6] = {10,13, 16,30, 33,23};int anchor_40[6] = {30,61, 62,45, 59,119};int anchor_20[6] = {116,90, 156,198, 373,326};if(net_grid == 80){ anchors.insert(anchors.begin(), anchor_80, anchor_80 + 6); }else if(net_grid == 40){ anchors.insert(anchors.begin(), anchor_40, anchor_40 + 6); }else if(net_grid == 20){ anchors.insert(anchors.begin(), anchor_20, anchor_20 + 6); }return anchors;}

运行以上的 main.cpp 工程，可以输出得到图像的检测结果画出候选的边界框并将结果保存为 img 文件夹下的 ouput.jpg。

4.性能测

Intel® DevCloud for the Edge 支持在英特尔的硬件平台上主动构建原型并试验面向计算机视觉的 AI 工作负载。可以使用 OpenVINO™ 工具套件以及 CPU、GPU 和 VPU 和 FPGA 的组合来测试模型的性能。Intel® DevCloud 使用 Jupyter* Notebook 直接在 web 浏览器中执行代码，并立即看到可视化结果。通过转换得到的 .xml 和 .bin 文件在不同边缘节点进行测试来分析性能，具体操作可以参考 https://bizwebcast.intel.cn/dev/articleDetails.html?id=95，测试结果见表4-1。

你可能感兴趣的:(OpenVINO,tensorflow,目标检测,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1