英特尔边缘计算社区

零基础：训练并部署TensorFlow版YOLOv5模型

概述：

目标检测是计算机视觉上的一个重要任务，本文介绍的是YOLO算法，其全称是You Only Look Once: Unified, Real-Time Object Detection，它是目标检测中实现端到端目标检测的佼佼者，从YOLOv1到YOLOv5其中在数据处理、网络结构上都做了不少优化，而YOLOv5能够达到体积更小、精度更好，本文就从零开始介绍如何通过用TensorFlow 对YOLOv5进行搭建训练和部署。本实例源码可在点击以下链接：https://github.com/Yunying-CN/Yolov5-TF

1.安装Tensorflow2.x

为了提高训练速度减少训练时长，在训练阶段最好在配有GPU的本地服务器或者云服务器上进行。本例以Linux 64位下的Python 3.8版本为例，可选择下载对应的安装包。在保存安装包的路径下打开终端，运行命令进行安装TensorFlow。这里安装的是Tensorflow2.3.0-gpu版本，搭配cuda10.1和对应的cudnn，也可以直接通过pip安装命令来下载安装，如果速度较慢可以修改下载的源。

$sudo apt-get install python-pip python-dev

$pip3 install --upgrade pip

$pip3 install tensorflow-gpu==2.3.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成后，可以终端打开python并导入Tensorflow来查看版本来验证是否安装成功。

$python3

>>import tensorflow as tf

>>tf.__version__

2.训练YOLOv5网络

YOLO是经典的目标检测识别网络，而YOLOv5是YOLO系列中识别率最高而且速度最快的目标检测识别模型。YOLOv5模型属于监督学习，训练模型的样本需要包括物体的位置坐标（矩形框）和物体所属的类别。将数据集中的图片作为网络输入，物体的类别和坐标作为标签信息，对网络进行训练，得到网络对物体检测和识别的能力。

2.1●数据集

本实例以开源的Pascal Voc2012数据集。Pascal VOC2012作为基准数据之一，在对象检测、图像分割网络对比实验与模型效果评估中被频频使用，Pascal VOC2012数据集主要是针对视觉任务中监督学习提供标签数据，它一共包含有20个类别，分别为：aeroplane、bicycle、bird、boat、bottle、bus、car、cat、chair、cow、dining table、dog、horse、motorbike、person、

potted plant、sheep、sofa、train、tv/monitor，训练图像有5717张，目标数13609个，测试图像有11540张，目标数27450个。Pascal Voc2012数据集可以在官网上进行下载(http://host.robots.ox.ac.uk/pascal/VOC/voc2012/)，也可以在终端通过命令下载数据集并解压。

$wget http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar -O ./data/voc2012.tar

$mkdir -p ./data/voc

$tar -xf ./data/voc2012.tar -C ./data/voc

$ls ./data/voc

里面包括有Annotations、ImageSets、JPEGImages、SegmentationClass 和SegmentationObject 五个文件夹，Annotations 文件夹中保存了进行目标检测任务时的标签文件为.xml格式，标签文件名与图片名一一对应。.xml文档记录了该图片的尺寸信息以及图片中识别物体的类别和其具体位置信息。ImageSets包含三个子文件夹 Layout、Main、Segmentation，其中 Main 存放的是分类和检测的数据集分割文件，JPEGImages 存放.jpg 格式的图片文件，SegmentationClass 存放按照类别进行分割的图片，SegmentationObject 存放按照物体进行分割的图片。

如果想制作自己的数据集，也可以通过使用LabelImg工具，框选出图像中所需识别物体的位置和标记该物体的类别并将所有所识别的类型保存在.names文件中。

2.2●生成TFRecord文件

为了高效的读取数据，可以将数据进行序列化存储，便于网络流式读取数据，TFRecord是存储二进制序列数据的文件格式，只占用一个内存块，保存记录的方法可以任意的数据转换为TensorFlow所支持的格式，这种方法可以使TensorFlow的数据集更容易与网络应用架构相匹配。在生成TFRecord文件中需要保存训练图片及图片中物体的类别和位置信息。

import os
from absl import app, flags, logging
from absl.flags import FLAGS
import tensorflow as tf
import lxml.etree
import tqdm
flags.DEFINE_string('data_dir', './data/voc/VOCdevkit/VOC2012/',
                    'path to PASCAL VOC dataset')
flags.DEFINE_enum('split', 'val', [
                  'train', 'val'], 'specify train or val spit')
flags.DEFINE_string('output_file', './data/voc2012_train.tfrecord', 'outpot dataset')
flags.DEFINE_string('classes', './data/voc2012.names', 'classes file') def build_example(annotation, class_map):
    img_path = os.path.join(
        FLAGS.data_dir, 'JPEGImages', annotation['filename'])
    img_raw = open(img_path, 'rb').read()
    width = int(annotation['size']['width'])

  height = int(annotation['size']['height'])
    xmin = []
    ymin = []
    xmax = []
    ymax = []
    classes = []
    classes_text = []
    if 'object' in annotation:
        for obj in annotation['object']:
            xmin.append(float(obj['bndbox']['xmin']) / width)
            ymin.append(float(obj['bndbox']['ymin']) / height)
            xmax.append(float(obj['bndbox']['xmax']) / width)
            ymax.append(float(obj['bndbox']['ymax']) / height)
            classes_text.append(obj['name'].encode('utf8'))            classes.append(class_map[obj['name']])
    example = tf.train.Example(features=tf.train.Features(feature={
        'image/encoded': tf.train.Feature(bytes_list=tf.train.BytesList(value=[img_raw])),
        'image/object/bbox/xmin':           tf.train.Feature(float_list=tf.train.FloatList(value=xmin)),
        'image/object/bbox/xmax':           tf.train.Feature(float_list=tf.train.FloatList(value=xmax)),
        'image/object/bbox/ymin':           tf.train.Feature(float_list=tf.train.FloatList(value=ymin)),
        'image/object/bbox/ymax':           tf.train.Feature(float_list=tf.train.FloatList(value=ymax)),
        'image/object/class/text':          tf.train.Feature(bytes_list=tf.train.BytesList(value=classes_text)),
        'image/object/class/label':           tf.train.Feature(int64_list=tf.train.Int64List(value=classes)),
    }))
    return exampledef parse_xml(xml):
    if not len(xml):
        return {xml.tag: xml.text}
    result = {}
    for child in xml:
        child_result = parse_xml(child)
        if child.tag != 'object':
            result[child.tag] = child_result[child.tag]
        else:
            if child.tag not in result:
                result[child.tag] = []
            result[child.tag].append(child_result[child.tag])
    return {xml.tag: result}

def main(_argv):
    class_map = {name: idx for idx, name in enumerate(
        open(FLAGS.classes).read().splitlines())}
    writer = tf.io.TFRecordWriter(FLAGS.output_file)
    image_list = open(os.path.join(
        FLAGS.data_dir, 'ImageSets', 'Main', '%s.txt' % FLAGS.split)).read().splitlines()
    logging.info("Image list loaded: %d", len(image_list))
    for name in tqdm.tqdm(image_list):
        annotation_xml = os.path.join(
            FLAGS.data_dir, 'Annotations', name + '.xml')
        annotation_xml = lxml.etree.fromstring(open(annotation_xml).read())        annotation = parse_xml(annotation_xml)['annotation']
        tf_example = build_example(annotation, class_map)
        writer.write(tf_example.SerializeToString())
    writer.close()
    logging.info("Done")
if __name__ == '__main__':
    app.run(main)

2.3●YOLOv5网络结构

YOLOv5目标检测网络中一共有4个版本，分别是YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四个模型，通过用.yaml文件来配置模型。在yaml文件里面分别定义了各个参数变量如: nc代表分类目标的数量，depth_multiple即网络深度表示channel的缩放系数，即将配置里面的backbone和head部分有关通道的设置。而width_multiple即网络宽度表示BottleneckCSP模块的层缩放系数，将所有的BottleneckCSP模块的number系数乘上该参数即为最终的层个数。通过这参数就可以实现不同大小不同复杂度的模型设计，4个版本的YOLOv5也做了不同的设计。Anchors为预设锚定框，预设了640×640图像大小下9种锚定框的尺寸。此外还有模型的主干网络backbone和通用检测层head，head主要用于最终检测部分。它在特征图上应用锚定框并生成带有类概率、对象得分和边界框的最终输出向量。以下是以YOLOv5s.yaml为例。

# Parameters
nc: 20  # number of classes
depth_multiple: 0.67  # model depth multiple
width_multiple: 0.75  # layer channel multiple
anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32
# YOLOv5 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Focus, [64, 3]],  # 0-P1/2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 9, C3, [256]],
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 1, Conv, [1024, 3, 2]],  # 7-P5/32
   [-1, 1, SPP, [1024, [5, 9, 13]]],
   [-1, 3, C3, [1024, False]],  # 9
  ]
# YOLOv5 head
head:
  [[-1, 1, Conv, [512, 1, 1]],
   [-1, 1, Upsample, [None, 2, 'nearest']],
   [[-1, 6], 1, Concat, [-1]],  # cat backbone P4
   [-1, 3, C3, [512, False]],  # 13

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, Concat, [-1]],  # cat backbone P3
   [-1, 3, C3, [256, False]],  # 17 (P3/8-small)

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 14], 1, Concat, [-1]],  # cat head P4
   [-1, 3, C3, [512, False]],  # 20 (P4/16-medium)

   [-1, 1, Conv, [512, 3, 2]],
   [[-1, 10], 1, Concat, [-1]],  # cat head P5
   [-1, 3, C3, [1024, False]],  # 23 (P5/32-large)
   [[17, 20, 23], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)
  ]

2.4●YOLOv5网络模块

YOLOv5网络可以分为输入图像、backbone主干网络以获得图像的特征图、head检测头用作预测目标物体和位置，neck为对特征图在输入head前的特殊处理，4个部分组成整个网络。而这4部分由几个不同的模块堆叠得到。

2.4.1. CBL模块
CBL为卷积模块，YOLOv5主干网络中的CBL模块以Convolution + Batch Normalization + Activation的形式，对输入数据进行卷积计算、批标准化计算和经过一个激活函数，其中的激活函数选用LeakyRelu，对网络加入非线性并加快网络的收敛速度。

2.4.2. Focus模块
从.yaml 配置文件中可以看到在backbone主干网络中包含了focus模块，focus模块是对图片进行切片操作，通过在图片中每间隔1个像素取值，得到4张图片，使得图片的长和宽分别减半，通道数扩展为原来的4倍，该操作类似于2倍下采样但是保证了图片信息没有丢失，以YOLOV5s为例，原始的640 × 640 × 3的图像通过Focus模块，输出得到320 × 320 × 12的特征图。

2.4.3. bottleneck模块
Bottleneck模块可以通过卷积计算改变数据的通道数，bottleneck瓶颈层有多种形式，其标准形式为进行一个1×1和3×3的卷积后加上其本身的短路连接，而BottleneckCSP是几个标准bottleneck的堆叠，YOLOV5网络中的C3模块与BottleneckCSP模块类似，只是在C3中的卷积计算后加上了BN层和激活函数积操作。

2.4.4. SPP模块
在目标检测中，通常输入图像的尺寸大小并不固定，为了得到统一大小的特征图，从YOLOv3开始引入了SPP空间金字塔池化模块，通过使用CBL模块使其通道数减半，然后将输入经过三个不同尺寸大小的最大池化层，连同输入通过concat级联在一起，最后通过CBL模块使通道数减半，保证不同大小的输入在池化后的特征图长和宽能保持一致。

2.4.5. Upsample模块
在进行预测前，网络对都特征图做了两次向上采样，得到3个不同尺寸大小的特征图，使图像的长和宽分别扩展为原来的2倍，这能够使得相对较大或较小的物体都能更好地识别。

import tensorflow as tf
from tensorflow.keras.layers import Layer, Conv2D, BatchNormalization, MaxPool2D
from tensorflow import kerasimport math
import numpy as np



class Conv2d(keras.layers.Layer):
    def __init__(self, c1, c2, k, s=1, g=1, bias=True, w=None):
        super(Conv2d, self).__init__()
        assert g == 1, "TF v2.2 Conv2D does not support 'groups' argument"
        self.conv = keras.layers.Conv2D(
            c2, k, s, 'VALID', use_bias=bias,
            kernel_initializer=keras.initializers.Constant(w.weight.permute(2, 3, 1, 0).numpy()),
            bias_initializer=keras.initializers.Constant(w.bias.numpy()) if bias else None )
    def call(self, inputs):
        return self.conv(inputs)
class LeakyRelu(object):
    def __call__(self, x):
        return tf.nn.leaky_relu(x)

class Conv(Layer):
    def __init__(self, filters, kernel_size, strides, padding='SAME', groups=1):
        super(Conv, self).__init__()
        self.conv = Conv2D(filters, kernel_s

        self.conv = Conv2D(filters, kernel_size, strides, padding, groups=groups,                         use_bias=False,
                       kernel_initializer=tf.random_normal_initializer(stddev=0.01),
                       kernel_regularizer=tf.keras.regularizers.L2(5e-4))
        self.bn = BatchNormalization()
        self.activation = LeakyRelu()
    def call(self, x):
        return self.activation(self.bn(self.conv(x)))



class Focus(Layer):
    def __init__(self, filters, kernel_size, strides=1, padding='SAME'):
        super(Focus, self).__init__()
        self.conv = Conv(filters, kernel_size, strides, padding)
    def call(self, x):
        return self.conv(tf.concat([x[..., ::2, ::2, :],
                                    x[..., 1::2, ::2, :],
                                    x[..., ::2, 1::2, :],
                                    x[..., 1::2, 1::2, :]],
                                   axis=-1))

class Bottleneck(Layer):
    def __init__(self, units, shortcut=True, expansion=0.5):
        super(Bottleneck, self).__init__()
        self.conv1 = Conv(int(units * expansion), 1, 1)
        self.conv2 = Conv(units, 3, 1)
        self.shortcut = shortcut
    def call(self, x):
        if self.shortcut:
            return x + self.conv2(self.conv1(x))
        return self.conv2(self.conv1(x))



class BottleneckCSP(Layer):
    def __init__(self, units, n_layer=1, shortcut=True, expansion=0.5):
        super(BottleneckCSP, self).__init__()
        units_e = int(units * expansion)
        self.conv1 = Conv(units_e, 1, 1)
        self.conv2 = Conv2D(units_e, 1, 1, use_bias=False,         kernel_initializer=tf.random_normal_initializer(stddev=0.01))
        self.conv3 = Conv2D(units_e, 1, 1, use_bias=False,      kernel_initializer=tf.random_normal_initializer(stddev=0.01))
        self.conv4 = Conv(units, 1, 1)
        self.bn = BatchNormalization(momentum=0.03)
        self.activation = LeakyRelu()
        self.modules = tf.keras.Sequential([Bottleneck(units_e, shortcut, expansion=1.0) for  _ in range(n_layer)])

    def call(self, x):
class BottleneckCSP(Layer):
    def __init__(self, units, n_layer=1, shortcut=True, expansion=0.5):
        super(BottleneckCSP, self).__init__()
        units_e = int(units * expansion)
        self.conv1 = Conv(units_e, 1, 1)
        self.conv2 = Conv2D(units_e, 1, 1, use_bias=False,                           kernel_initializer=tf.random_normal_initializer(stddev=0.01))
        self.conv3 = Conv2D(units_e, 1, 1, use_bias=False,                     kernel_initializer=tf.random_normal_initializer(stddev=0.01))
        self.conv4 = Conv(units, 1, 1)
        self.bn = BatchNormalization(momentum=0.03)
        self.activation = LeakyRelu()
        self.modules = tf.keras.Sequential([Bottleneck(units_e, shortcut, expansion=1.0) for _ in range(n_layer)])
    def call(self, x):
        y1 = self.conv3(self.modules(self.conv1(x)))
        y2 = self.conv2(x)
        return self.conv4(self.activation(self.bn(tf.concat([y1, y2], axis=-1)))) class SPP(Layer):
    def __init__(self, units, kernels=(5, 9, 13)):
        super(SPP, self).__init__()
        units_e = units // 2  # Todo:
        self.conv1 = Conv(units_e, 1, 1)
        self.conv2 = Conv(units, 1, 1)
        self.modules = [MaxPool2D(pool_size=x, strides=1, padding='SAME') for x in kernels]
    def call(self, x):
        x = self.conv1(x)
        return self.conv2(tf.concat([x] + [module(x) for module in self.modules], axis=-1))
class SPPCSP(Layer):
    # Cross Stage Partial Networks
    def __init__(self, units, n=1, shortcut=False, expansion=0.5, kernels=(5, 9, 13)):
        super(SPPCSP, self).__init__()
        units_e = int(2 * units * expansion)
        self.conv1 = Conv(units_e, 1, 1)
        self.conv2 = Conv2D(units_e, 1, 1, use_bias=False,                   kernel_initializer=tf.random_normal_initializer(stddev=0.01))
        self.conv3 = Conv(units_e, 3, 1)
        self.conv4 = Conv(units_e, 1, 1)
        self.modules = [MaxPool2D(pool_size=x, strides=1, padding='same') for x in kernels]
        self.conv5 = Conv(units_e, 1, 1)
        self.conv6 = Conv(units_e, 3, 1)
        self.bn = BatchNormalization()
        self.act = LeakyRelu()
        self.act = LeakyRelu()
        self.conv7 = Conv(units, 1, 1)
    def call(self, x):
        x1 = self.conv4(self.conv3(self.conv1(x)))
        y1 = self.conv6(self.conv5(tf.concat([x1] + [module(x1) for module in self.modules], axis=-1)))
        y2 = self.conv2(x)
        return self.conv7(self.act(self.bn(tf.concat([y1, y2], axis=-1))))
class Upsample(Layer):
    def __init__(self, i=None, ratio=2, method='bilinear'):
        super(Upsample, self).__init__()
        self.ratio = ratio
        self.method = method

    def call(self, x):
        return tf.image.resize(x, (tf.shape(x)[1] * self.ratio, tf.shape(x)[2] * self.ratio), method=self.method)

2.5●网络和损失函数

读取.yaml文件中的backbone和head结构可以以序列形式把上述定义好的网络模块堆叠起来完成网络框架。

在损失计算中，分类任务和置信度任务都是通过二元交叉熵损失函数计算，再通过gamma和alpha的Focal Loss来调整权重，而边界框是通过以GIOU来计算其损失函数。

def parse_model(yaml_dict):  # model_dict, input_channels(3)
        anchors, nc = yaml_dict['anchors'], yaml_dict['nc']
        depth_multiple, width_multiple = yaml_dict['depth_multiple'],                                          yaml_dict['width_multiple']
        num_anchors = (len(anchors[0]) // 2) if isinstance(anchors, list) else anchors
        output_dims = num_anchors * (nc + 5)
        layers = []
        # from, number, module, args
        for i, (f, number, module, args) in enumerate(yaml_dict['backbone'] +                     yaml_dict['head']):
            # all component is a Class, initialize here, call in self.forward
            module = eval(module) if isinstance(module, str) else module
            for j, arg in enumerate(args):
                try:
                    args[j] = eval(arg) if isinstance(arg, str) else arg                                except:
                    pass
            number = max(round(number * depth_multiple), 1) if number > 1 else number

            if module in [Conv2D, Conv, Bottleneck, SPP, Focus, BottleneckCSP, C3]:
                c2 = args[0]
                c2 = math.ceil(c2 * width_multiple / 8) * 8 if c2 != output_dims else c2
                args = [c2, *args[1:]]
                if module in [BottleneckCSP, C3, SPPCSP]:
                    args.insert(1, number)
                    number = 1
            modules = tf.keras.Sequential(*[module(*args) for _ in range(number)]) if number >                        1 else module(*args)   
            modules.i, modules.f = i, f
            layers.append(modules)
        return layers class Model(object):    # model, channels, classes
    def __init__(self, cfg='yolov5s.yaml', ch=3, nc=20, model=None, imgsz=(640, 640)):             super(Model, self).__init__()
        if isinstance(cfg, dict):
            self.yaml = cfg  # model dict
        else:  # is *.yaml
            import yaml  # for torch hub
            self.yaml_file = Path(cfg).name
            with open(cfg) as f:
                self.yaml = yaml.load(f, Loader=yaml.FullLoader)  # model dict
        self.imgsz =imgsz
        # Define model
        if nc and nc != self.yaml['nc']:
            print('Overriding %s nc=%g with nc=%g' % (cfg, self.yaml['nc'], nc))
            self.yaml['nc'] = nc  # override yaml value
        self.model = parse_model(self.yaml)
        if isinstance(model, Detect):
            # transfer the anchors to grid coordinator, 3 * 3 * 2
            model.anchors /= tf.reshape(module.stride, [-1, 1, 1])        
    def __call__(self, img_size, name='yolo'):
        x = tf.keras.Input([img_size, img_size, 3])
        output = self.forward(x)
        return tf.keras.Model(inputs=x, outputs=output, name=name)    
    def forward(self, inputs, tf_nms=False, agnostic_nms=False, topk_per_class=100, topk_all=100, iou_thres=0.45, conf_thres=0.25):
        y = []  # outputs
        x = inputs
        for i, m in enumerate(self.model):
            if m.f != -1:  
                if isinstance(m.f, int):
                    x = y[m.f]
                    x = y[m.f]
                else:
                    x = [x if j == -1 else y[j] for j in m.f]
            x = m(x)  # run
            y.append(x)
        return x



class Loss(object):
      def __init__(self, anchors, iou_thres, num_classes=20, img_size=640, label_smoothing=0):
        self.anchors = anchors
        self.strides = [8, 16, 32]
        self.iou_thres = iou_thres
        self.num_classes = num_classes
        self.img_size = img_size
        self.bce_conf =  tf.keras.losses.BinaryCrossentropy(reduction=tf.keras.losses.Reduction.NONE)
        self.bce_class =  tf.keras.losses.BinaryCrossentropy(reduction=tf.keras.losses.Reduction.NONE,
                                                            label_smoothing=label_smoothing)   
      def __call__(self, y_true, y_pred):
        iou_loss_all = obj_loss_all = class_loss_all = tf.zeros(1)
        balance = [4.0, 1.0, 0.4] if len(y_pred) == 3 else [4.0, 1.0, 0.25, 0.06]
        for i, (pred, true) in enumerate(zip(y_pred, y_true)):
            true_box, true_obj, true_class = tf.split(true, (4, 1, -1), axis=-1)
            pred_box, pred_obj, pred_class = tf.split(pred, (4, 1, -1), axis=-1)
            if tf.shape(true_class)[-1] == 1 and self.num_classes > 1:
                true_class = tf.squeeze(tf.one_hot(tf.cast(true_class, tf.dtypes.int32),          depth=self.num_classes, axis=-1), -2)
            box_scale = 2 - 1.0 * true_box[..., 2] * true_box[..., 3] / (self.img_size ** 2)
            obj_mask = tf.squeeze(true_obj, -1)  # obj or noobj
            background_mask = 1.0 - obj_mask
            conf_focal = tf.squeeze(tf.math.pow(true_obj - pred_obj, 2), -1)
            # giou loss
            iou = bbox_iou(pred_box, true_box, xyxy=False, giou=True)           
            iou_loss = (1 - iou) * obj_mask * box_scale  # batch_size * grid * grid * 3
            # confidence loss
            conf_loss = self.bce_conf(true_obj, pred_obj)
            conf_loss = conf_focal * (obj_mask * conf_loss + background_mask * conf_loss)               # class loss
            class_loss = obj_mask * self.bce_class(true_class, pred_class)
            iou_loss = tf.reduce_mean(tf.reduce_sum(iou_loss, axis=[1, 2, 3]))
            conf_loss = tf.reduce_mean(tf.reduce_sum(conf_loss, axis=[1, 2, 3]))
            class_loss = tf.reduce_mean(tf.reduce_sum(class_loss, axis=[1, 2, 3]))

            iou_loss_all += iou_loss * balance[i]
            iou_loss_all += iou_loss * balance[i]
            obj_loss_all += conf_loss * balance[i]
            class_loss_all += class_loss * self.num_classes * balance[i]  # to balance the 3 loss

        return (iou_loss_all, obj_loss_all, class_loss_all)



def bbox_iou(bbox1, bbox2, xyxy=False, giou=False, diou=False, ciou=False, epsilon=1e-9):
    assert bbox1.shape == bbox2.shape
    # giou loss: https://arxiv.org/abs/1902.09630
    if xyxy:
        b1x1, b1y1, b1x2, b1y2 = bbox1[..., 0], bbox1[..., 1], bbox1[..., 2], bbox1[..., 3]
        b2x1, b2y1, b2x2, b2y2 = bbox2[..., 0], bbox2[..., 1], bbox2[..., 2], bbox2[..., 3]
    else:  # xywh -> xyxy
        b1x1, b1x2 = bbox1[..., 0] - bbox1[..., 2] / 2, bbox1[..., 0] + bbox1[..., 2] / 2
        b1y1, b1y2 = bbox1[..., 1] - bbox1[..., 3] / 2, bbox1[..., 1] + bbox1[..., 3] / 2
        b2x1, b2x2 = bbox2[..., 0] - bbox2[..., 2] / 2, bbox2[..., 0] + bbox2[..., 2] / 2
        b2y1, b2y2 = bbox2[..., 1] - bbox2[..., 3] / 2, bbox2[..., 1] + bbox2[..., 3] / 2

    # intersection area
    inter = tf.maximum(tf.minimum(b1x2, b2x2) - tf.maximum(b1x1, b2x1), 0) * \
            tf.maximum(tf.minimum(b1y2, b2y2) - tf.maximum(b1y1, b2y1), 0)

    # union area
    w1, h1 = b1x2 - b1x1 + epsilon, b1y2 - b1y1 + epsilon
    w2, h2 = b2x2 - b2x1+ epsilon, b2y2 - b2y1 + epsilon
    union = w1 * h1 + w2 * h2 - inter + epsilon

    # Giou
    iou = inter / union

    cw = tf.maximum(b1x2, b2x2) - tf.minimum(b1x1, b2x1)
    ch = tf.maximum(b1y2, b2y2) - tf.minimum(b1y1, b2y1)
    enclose_area = cw * ch + epsilon
    giou = iou - 1.0 * (enclose_area - union) / enclose_area
    return tf.clip_by_value(giou, -1, 1)

2.6●传入训练数据设置训练参数

在完成网络的搭建后，需要从上述生成得到的TFRecord文件中读取训练数据，需要设置网络的分类类别数，根据batch size分批把数据放入网络中，并且设置网络训练轮数、优化器和学习率等，并将训练的网络模型保存为.pb或.pbtxt文件。

from absl import app, flags, logging
from absl.flags import FLAGS
import tensorflow as tf
import numpy as np
import cv2
import time
from models.yolo import *
from data.dataset import *

flags.DEFINE_string('dataset', './data/voc2012_train.tfrecord', 'path to dataset')
flags.DEFINE_string('val_dataset', './data/voc2012_val.tfrecord', 'path to validation dataset')
flags.DEFINE_string('yaml_dir', './models/yolov5s.yaml', 'path to yaml file')
flags.DEFINE_string('classes', './data/voc2012.names', 'path to classes file')
flags.DEFINE_integer('epochs', 20, 'number of epochs')
flags.DEFINE_integer('batch_size', 8, 'batch size')
flags.DEFINE_integer('img_size', 640, 'image size')
flags.DEFINE_float('learning_rate', 1e-3, 'learning rate')
flags.DEFINE_integer('num_classes', 20, 'number of classes in the model')
flags.DEFINE_boolean('multi_gpu', False, 'Use if wishing to train with more than 1 GPU.')
flags.DEFINE_float('label_smoothing', 0.02, 'label smoothing')
flags.DEFINE_integer('yolo_max_boxes', 100, 'yolo max boxes')

def transform(image, label):
    label_encoder = anchor_label.encode(label)
    return image, label_encoder

def main(_argv):
    train_dataset = load_tfrecord_dataset(FLAGS.batch_size,
        FLAGS.dataset, FLAGS.classes, FLAGS.size)
    Yolo = Model(cfg=FLAGS.yaml_dir)
    anchors = Yolo.model[-1].anchors
    stride = Yolo.model[-1].stride
    num_classes = FLAGS.num_classes
    anchor_label = AnchorLabeler(anchors,
                                          grids=FLAGS.img_size / stride,
                                          img_size=FLAGS.img_size,
                                          assign_method='wh',
                                          extend_offset='True')
    train_dataset = train_dataset.map(transform,      num_parallel_calls=tf.data.experimental.AUTOTUNE)
    train_dataset =  train_dataset.batch(FLAGS.batch_size).prefetch(tf.data.experimental.AUTOTUNE)
    print(train_dataset)
   Yolo_loss = Loss(anchors, iou_thres=0.3,
                        num_classes=num_classes,
                        label_smoothing=FLAGS.label_smoothing,
                        img_size=FLAGS.img_size)
    optimizer = tf.keras.optimizers.Adam(lr=FLAGS.learning_rate)
    Yolo = Yolo(FLAGS.img_size)
    for epoch in range(0, FLAGS.epochs):
        for step, (image, target) in enumerate(train_dataset):
            with tf.GradientTape() as tape:
                output = Yolo(image)            
                iou_loss, conf_loss, prob_loss = Yolo_loss(target, output)
                pred_loss = iou_loss+conf_loss+prob_loss
                total_loss = tf.reduce_sum(pred_loss)
            grads = tape.gradient(total_loss, Yolo.trainable_variables)
            optimizer.apply_gradients(zip(grads, Yolo.trainable_variables))
            logging.info("{}_train_{}, {}, {}".format(epoch, step, total_loss.numpy(),
                list(map(lambda x: np.sum(x.numpy()), pred_loss))))
            tf.saved_model.save(Yolo, '/data/Yolov5/weights/')
if __name__=='__main__':
    app.run(main)

运行train.py脚本文件开始训练，此处要注意cuda和cudnn的安装，使得TensorFlow能够成功调用GPU进行训练，效果如下。

训练完成后保存的网络模型saved_model.pb和Variables参数文件夹将保存在项目中的weights文件路径下。

3.部署

登录官网：

https://www.intel.cn/content/www/cn/zh/developer/tools/openvino-toolkit/overview.html

选择部署的操作系统和版本等进行下载和安装，本文的所有实现基于Windows操作系统下的2021.4.1 LTS版本。

3.2●转换OpenVINO™ 工具套件的IR格式

$python mo_tf.py --saved_model_dir <.pb文件夹路径> --input_shape [1,640,640,3] --output_dir <输出文件夹路径> --data_type FP32

运行成功之后会在输出文件夹路径下获得.xml和.bin文件，.xml和.bin是OpenVINO™ 工具套件中的模型存储方式，后续将基于.bin和.xml文件进行部署，效果如下。

3.3●推理部署

此实例将在C++上进行推理部署，在部署中包括有引擎初始化、数据准备、推理、结果处理等方面。引擎初始化需要读入转化后的模型文件并获取图像的输入输出信息。在数据准备中需要将输入图像缩放到640*640的尺寸大小并将通道输入改为RGB。然后将输入填充在blob中，进行推理。得到3个检测头，分别对应80、40和20的栅格尺寸，并依次对结果进行解析。最后通过NMS剔除多余的候选框。

// 导入头文件

#include

#include

using namespace InferenceEngine;

using namespace std;

using namespace cv;

int main() {

     // 初始化推理引擎

     Core ie;

     // 读取转换得到的.xml和.bin文件

     CNNNetwork network = ie.ReadNetwork("./openvino/yolov5s.xml", "./openvino/yolov5s.bin");



     // 获取设置输入输出格式

     // 从模型中获取输入数据的格式信息  

     InputsDataMap inputsInfo = network.getInputsInfo();

     InputInfo::Ptr& input = inputsInfo.begin()->second;

     string inputs_name = inputsInfo.begin()->first;

     ICNNNetwork::InputShapes inputShapes = network.getInputShapes();

     network.reshape(inputShapes);



     // 从模型中获取推断结果的格式

     OutputsDataMap outputsInfo = network.getOutputsInfo();

     vectorOutputsBlobs_names;

     for (auto& item_out : outputsInfo) {

         OutputsBlobs_names.push_back(item_out.first);

         item_out.second->setPrecision(Precision::FP32);

     }



     // 获取可执行网络,这里的CPU指的是推断运行的器件,可选"GPU"

     ExecutableNetwork executable_network = ie.LoadNetwork(network, "CPU");



     // 推理请求

     InferRequest infer_request = executable_network.CreateInferRequest();

     //输入推理图像

     Mat src = cv::imread("./img/test.jpg");

     size_t h = lrInputBlob->getTensorDesc().getDims()[2];

     size_t w = lrInputBlob->getTensorDesc().getDims()[3];

     size_t image_size = h * w;



     Mat inframe = src.clone();

     cv::resize(src, src, Size(640, 640));

     cv::cvtColor(src, src, COLOR_BGR2RGB);

     InferenceEngine::LockedMemory<void> blobMapped = InferenceEngine::as(lrInputBlob)->wmap();

     float* blob_data = blobMapped.as<float*>();



     //nchw

     for (size_t row = 0; row < h; row++) {

         for (size_t col = 0; col < w; col++) {

              for (size_t ch = 0; ch < 3; ch++) {

                   blob_data[image_size*ch + row * w + col] = float(src.at(row, col)[ch]) / 255.0f;

              }

         }

     }



     //执行推理

     infer_request.Infer();

     //设置置信度阈值和NMS阈值

     float _cof_threshold = 0.1;

     float _nms_area_threshold = 0.5;

     //获取各层结果

     vectororigin_rect;

     vector<float> origin_rect_cof;

     int s[3] = { 80,40,20 };

     vectorblobs;

     int i = 0;

     for (auto OutputsBlob_name : OutputsBlobs_names) {

         Blob::Ptr OutputBlob = infer_request.GetBlob(OutputsBlob_name);

         parse_yolov5(OutputBlob, s[i], _cof_threshold, origin_rect, origin_rect_cof);

         ++i;

     }

     //后处理获得最终检测结果

     vector<int> final_id;



//根据final_id获取最终结果

    for (size_t i = 0; i < final_id.size(); ++i)

     {

         int idx = final_id[i];

         Rect box = origin_rect[idx];

         cv::rectangle(inframe, box, Scalar(140, 199, 0), 1, 8, 0);

     }



     cv::imwrite("./img/output.jpg", inframe);

}

此处要注意的是网络输出的结果需要进行转换处理，将中心点坐标转化为角点坐标和剔除置信度较低的候选框

bool Detector::parse_yolov5(const Blob::Ptr &blob,int net_grid,float cof_threshold,

    vector&o_rect,vector<float>& o_rect_cof){

vector<int> anchors = get_anchors(net_grid);



    LockedMemory<const void> blobMapped = as(blob)->rmap();

const float *output_blob = blobMapped.as<float *>();



    //n个类是n+5

    int item_size = 25;

    size_t anchor_n = 3;

    for(int n=0;n<anchor_n;++n)

        for(int i=0;i<net_grid;++i)

            for(int j=0;j<net_grid;++j)

            {

                double box_prob = output_blob[n*net_grid*net_grid*item_size +                                      i*net_grid*item_size + j *item_size+ 4];

                box_prob = sigmoid(box_prob);



                //框置信度不满足则整体置信度不满足

                if(box_prob < cof_threshold)

                    continue;



                //将中心点坐标转化为角点坐标

                double x = output_blob[n*net_grid*net_grid*item_size +                                         i*net_grid*item_size + j*item_size + 0];

                double y = output_blob[n*net_grid*net_grid*item_size +                                         i*net_grid*item_size + j*item_size + 1];

                double w = output_blob[n*net_grid*net_grid*item_size +                                         i*net_grid*item_size + j*item_size + 2];

                double max_prob = 0;

                int idx=0;

                for(int t=5;t<25;++t){

                    double tp= output_blob[n*net_grid*net_grid*item_size +                                   i*net_grid*item_size + j *item_size+ t];

                    tp = sigmoid(tp);

                    if(tp > max_prob){

                        max_prob = tp;

                        idx = t;

                    }

                }

                float cof = box_prob * max_prob;               

                //剔除边框置信度小于阈值的边框

                if(cof < cof_threshold)

                    continue;



                x = (sigmoid(x)*2 - 0.5 + j)*640.0f/net_grid;

                y = (sigmoid(y)*2 - 0.5 + i)*640.0f/net_grid;

                w = pow(sigmoid(w)*2,2) * anchors[n*2];

                h = pow(sigmoid(h)*2,2) * anchors[n*2 + 1];

                double r_x = x - w/2;

                double r_y = y - h/2;

                Rect rect = Rect(round(r_x),round(r_y),round(w),round(h));

                o_rect.push_back(rect);

                o_rect_cof.push_back(cof);

            }

    if(o_rect.size() == 0) return false;

    else return true;

}



double Detector::sigmoid(double x){

    return (1 / (1 + exp(-x)));

}



vector<int> Detector::get_anchors(int net_grid){

    vector<int> anchors(6);

    int anchor_80[6] = {10,13, 16,30, 33,23};

    int anchor_40[6] = {30,61, 62,45, 59,119};

    int anchor_20[6] = {116,90, 156,198, 373,326};

    if(net_grid == 80){ anchors.insert(anchors.begin(), anchor_80, anchor_80 + 6); }

    else if(net_grid == 40){ anchors.insert(anchors.begin(), anchor_40, anchor_40 + 6); }

    else if(net_grid == 20){ anchors.insert(anchors.begin(), anchor_20, anchor_20 + 6); }

    return anchors;

}

运行以上的main.cpp工程，可以输出得到图像的检测结果画出候选的边界框并将结果保存为img文件夹下的ouput.jpg。

4.性能测试

Intel® DevCloud for the Edge 支持在英特尔的硬件平台上主动构建原型并试验面向计算机视觉的 AI 工作负载。可以使用OpenVINO™ 工具套件以及 CPU、GPU 和 VPU 和 FPGA 的组合来测试模型的性能。Intel® DevCloud 使用 Jupyter* Notebook 直接在 web 浏览器中执行代码，并立即看到可视化结果。通过转换得到的.xml和.bin文件在不同边缘节点进行测试来分析性能，具体操作可以参考https://bizwebcast.intel.cn/dev/articleDetails.html?id=95，测试结果见表4-1。

你可能感兴趣的:(开发者分享,tensorflow,深度学习,人工智能)

【AI论文】PaSa：一款用于全面学术论文搜索的大型语言模型（LLM）代理东临碣石82 人工智能语言模型自然语言处理
摘要：我们推出了PaSa，这是一款由大型语言模型驱动的高级论文搜索代理。PaSa能够自主做出一系列决策，包括调用搜索工具、阅读论文以及选择相关参考文献，从而最终为复杂的学术查询提供全面且准确的结果。我们使用强化学习方法和一个合成数据集AutoScholarQuery对PaSa进行了优化，该数据集包含3.5万个细粒度的学术查询以及来自顶级人工智能会议出版物的相应论文。此外，我们还开发了RealSch
DOTS Unity.Physics物理引擎碰撞事件处理 Unity_RAIN unity 游戏引擎
最近DOTS发布了正式的版本,同时基于DOTS的理念实现了一套高性能的物理引擎，今天我们给大家分享和介绍一下这个物理引擎的碰撞事件处理以及核心相关概念。Unity.Physics物理引擎的主要流程与PipelineUnity.Physics物理引擎做仿真迭代计算的时候主要通过以下步骤来执行:step1:从entity里面的ECS组件中获取我们当前的物体的状态数据;step2:做粗略的broadph
基于OpenCV的道路损伤识别 Srlua小谢传知代码论文复现 python 图形图像
✨✨欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。我是Srlua小谢，在这里我会分享我的知识和经验。希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。记得先点赞后阅读哦~所属专栏：传知代码论文复现欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨目录一、背景介绍二、算法原理（一）中值滤波（二）直方图均衡化（三）调节阈值（
ChatGPT写作助手：论文写作必备提示词一览学境思源AcademicIdeas 学境思源 ChatGPT AI写作 chatgpt
随着人工智能技术的发展，ChatGPT在学术写作领域的应用越来越广泛。它不仅能够帮助撰写论文，还可以通过不同的提示词完成构思、文献综述、数据分析、润色等任务，极大提升写作效率。今天的内容将分享ChatGPT在论文写作中最常用的提示词，帮助学术工作者更好地利用这一工具，从构思到定稿，全方位提升写作体验与效率。1.论文构思与选题目的：帮助确定研究方向、制定研究问题和目标。常用提示词：“提出一个关于[主
AI写代码工具：程序员的效率利器与职业发展新机遇前端
在如今竞争激烈的职业环境中，个人职业发展至关重要。提升工作效率，专注于核心竞争力，已成为每位职场人士，特别是程序员的共同追求。而随着人工智能技术的飞速发展，各种AI写代码工具应运而生，为程序员们提供了前所未有的效率提升和职业发展新机遇。本文将深入探讨AI代码生成工具如何帮助程序员提升效率，掌握新技术，并最终促进职业发展。提升效率，专注核心竞争力程序员的工作常常涉及大量重复性的代码编写，例如前端页面
AI代码生成器赋能跨平台开发：效率提升与未来展望前端
跨平台开发一直以来都是软件开发领域的一大挑战。开发者们常常面临着效率低下、开发成本高昂以及不同平台适配性差等难题。为了在iOS、Android、Web等多个平台上部署应用，开发者需要编写大量的平台特定代码，这不仅耗时费力，而且容易出错，极大增加了项目开发的复杂性和风险。然而，随着人工智能技术的快速发展，特别是AI代码生成器的出现，为解决这些难题带来了新的希望，为跨平台开发带来了革命性的变革。智能适
AI代码生成器赋能跨平台开发：效率提升与未来展望前端
跨平台开发一直以来都是软件开发领域的一大挑战。开发者们常常面临着效率低下、开发成本高昂以及不同平台适配性差等难题。为了在iOS、Android、Web等多个平台上部署应用，开发者需要编写大量的平台特定代码，这不仅耗时费力，而且容易出错，极大增加了项目开发的复杂性和风险。然而，随着人工智能技术的快速发展，特别是AI代码生成器的出现，为解决这些难题带来了新的希望，为跨平台开发带来了革命性的变革。智能适
ELK Stack：日志管理与分析的神兵利器 Aries263 elk jenkins 运维
在当今的数字化时代，数据是企业运营的核心。而日志数据，作为数据的重要组成部分，对于监控、分析和故障排查具有不可替代的作用。ELKStack（Elasticsearch、Logstash和Kibana的组合）凭借其强大的日志收集、处理和可视化能力，成为了众多企业和开发者首选的日志管理与分析工具。本文将深入探讨ELKStack的工作原理、应用场景以及如何使用它来构建高效的日志管理系统。一、ELKSta
chat4.0国内版下载西里.中国 | CiiLii.Com gpt chatgpt
由于我无法直接提供应用程序的下载链接，特别是当涉及到具体的版本号和地区限制时，我建议您通过官方渠道或可信赖的应用商店来下载chat4.0国内版。chat4.0国内版下载-chatgpt模型以下是一些可能的步骤：访问手机应用商店（如AppStore、GooglePlayStore等），在搜索框中输入“chat4.0国内版”或相关关键词。在搜索结果中找到官方或可信赖的开发者发布的chat4.0国内版应
在 PyTorch 训练中使用 `tqdm` 显示进度条 weixin_48705841 pytorch 人工智能 python
在PyTorch训练中使用tqdm显示进度条在深度学习的训练过程中，实时查看训练进度是非常重要的，它可以帮助我们更好地理解训练的效率，并及时调整模型或优化参数。使用tqdm库来为训练过程添加进度条是一个非常有效的方式，本文将介绍如何在PyTorch中结合tqdm来动态显示训练进度。1.安装tqdm库首先，如果你还没有安装tqdm，可以通过pip命令进行安装：pipinstalltqdmtqdm是一
【在 PyTorch 中使用 tqdm 显示训练进度条，并解决常见错误TypeError: ‘module‘ object is not callable】 weixin_48705841 人工智能
在PyTorch中使用tqdm显示训练进度条，并解决常见错误TypeError:'module'objectisnotcallable在进行深度学习模型训练时，尤其是在处理大规模数据时，实时了解训练过程中的进展是非常重要的。为了实现这一点，我们可以使用tqdm库，它可以非常方便地为你提供进度条显示。1.什么是tqdm？TQDM是一个快速、可扩展的Python进度条库。它可以用来显示迭代的进度，帮助
OpenCompass评测大模型辣条少年人工智能
OpenCompass简介上海人工智能实验室科学家团队于2024.01.30正式发布了大模型开源开放评测体系“司南”(OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。OpenCompass平台广泛支持超过100种HuggingFace和API模型，融合了100多个数据集，包含约40万个问题，用以从八个维度评估模型。其高效的分布式评估系统能够快速且全面地评估十亿级规
AI写代码工具：ScriptEcho助力前端开发培训前端
引言在当今数字化迅速发展的时代，编程培训的重要性愈发凸显。无论是初学者还是资深开发者，都需要不断更新自己的知识，以应对技术迭代带来的挑战。而在前端开发领域，开发者们面临着诸多挑战，包括日益复杂的项目需求和不断更新的技术栈。为了提高开发效率，减轻开发者的负担，AI写代码工具应运而生，其中，ScriptEcho作为一款前沿的AI编程助手，正在改变这一领域的游戏规则。前端开发的现状传统开发流程的复杂性传
销售易CRM：引领数字化转型，助力企业智能增长人工智能程序员
在全球数字化浪潮下，企业对智能化、数字化转型的需求愈发迫切。销售易CRM作为中国领先的企业级智能CRM解决方案提供商，凭借其强大的产品能力、丰富的行业经验和卓越的服务品质，成为众多知名企业的首选合作伙伴。本文将深入分析销售易CRM的核心优势，以及其如何助力企业实现数字化转型与业务增长。一、销售易CRM的核心优势领先的技术实力销售易CRM基于自主研发的新一代智能商业引擎，将人工智能、大数据分析等前沿
销售易与Salesforce：CRM市场的龙争虎斗 crmsaas
在当今数字化时代，客户关系管理软件在企业运营中扮演着至关重要的角色。销售易和Salesforce作为两款备受瞩目的CRM软件，各自具有独特的特点和优势。销售易是连续8年成为唯一入选Gartner销售自动化魔力象限的中国CRM厂商，并且在多项能力指标上超越国际厂商。在中国，销售易在大中型企业市场占有率排名第一，它通过整合移动、社交、人工智能、大数据和物联网技术，提供了全面的业务管理解决方案，被多家5
SwiftUI 2.0实现动态粘性页脚动画指南一曲歌长安
本文还有配套的精品资源，点击获取简介：在SwiftUI2.0中创建类似Medium.com的动态粘性页脚，涉及视图构建、环境值跟踪、自定义组件设计、动画实现以及响应式布局，以增强用户体验并提升应用程序的互动性。开发者将学习到如何通过滚动位置的变化来控制页脚的透明度和尺寸，并通过动画使交互更为流畅自然。1.SwiftUI核心概念理解SwiftUI是苹果公司推出的一套声明式UI框架，它使得开发者可以使
深度学习模型开发文档 Ares代码行者深度学习
深度学习模型开发文档1.简介2.深度学习模型开发流程3.数据准备3.1数据加载3.2数据可视化4.构建卷积神经网络(CNN)5.模型训练5.1定义损失函数和优化器5.2训练过程6.模型评估与优化6.1模型评估6.2超参数调优7.模型部署8.总结参考资料1.简介深度学习是人工智能的一个分支，利用多层神经网络从数据中提取特征并进行学习。它被广泛应用于图像识别、自然语言处理、语音识别等领域。本文将以构建
AI 基础设施的儿童保护：智能化儿童安全监护系统 AI天才研究院【精选大厂面试题详解】大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI基础设施的儿童保护：智能化儿童安全监护系统随着人工智能技术的快速发展，AI基础设施在儿童保护方面发挥着越来越重要的作用。智能化儿童安全监护系统通过应用AI技术，为儿童的安全保驾护航。本文将探讨该领域的典型问题/面试题库和算法编程题库，并给出详尽的答案解析说明和源代码实例。1.AI技术在儿童保护中的应用题目：请简要介绍AI技术在儿童保护中的几种应用。答案：AI技术在儿童保护中的应用主要包括：人脸
2024全球十大工程成就：文生视频大模型Sora引领AI时代前端
2024年，中国工程院院刊《Engineering》公布了备受瞩目的“2024全球十大工程成就”，这不仅是对过去一年工程科技领域杰出贡献的肯定，更标志着全球科技发展进入一个新的阶段。这十大成就涵盖了航天探索、生物医学、人工智能、新能源等多个领域，体现了当今科技前沿的最高水平。其中，文生视频大模型Sora的入选尤为引人注目，它代表着AI代码生成技术在内容创作领域的突破性进展，预示着未来内容生产方式的
PHP简单项目案例（改进版）小邱同志~ PHP php web 程序设计 mysql 数据库
最近开学php，下午闲着没事干，想着做个小项目练练手，也就是用php写个网页，对数据库里的东西实现增删改查，下面给大家分享一下，由于本人的业务能力尚浅，大家有啥建议我很欢迎哦！简单效果：1.打开网页呈现数据库数据：2.删除功能，添加信息功能。3.信息修改功能（带数据进页面）下面便是源码：数据库文件：（数据库名：dataphp表名：student）/*SQLyog企业版-MySQLGUIv8.14M
大数据平台Bug Bash大扫除最佳实践京东云开发者大数据 bug bash
作者：尹伟一、背景随着越来越多的"新人"在日常工作以及大促备战中担当大任，我们发现仅了解自身系统业务已不能满足日常系统开发运维需求。为此，大数据平台部门组织了一次BugBash活动，既能提升自己对兄弟产品的理解和使用，又能促使自家产品功能日趋完善。今天来给大家分享一些实际操作过程和经验总结~二、什么是BugBash？BugBash，顾名思义就是缺陷大扫除。通常由QA主导发起，团队全员放下手中的活，
CES Asia 2025优惠期倒计时5天，科技盛宴即将开启赛逸展张胜科技
随着时间的推移，备受瞩目的CESAsia2025优惠期已进入最后5天倒计时。作为亚洲顶级的消费电子盛会，CESAsia2025将汇聚众多国内外知名的科技企业，展示涵盖智能家居、智能出行、虚拟现实、人工智能等热门赛道的顶尖成果，是行业交流、商贸合作、趋势洞察的绝佳平台。在这最后的优惠时段内，参展商们仍有机会享受到展位费用的梯度折扣，越早锁定，优惠力度越大，还能优先挑选心仪展位，获得额外的宣传推广资源
AI Agent 原理解析及应用场景深度洞察 power-辰南大模型算法实战工程人工智能 ai agent 大模型
在当今科技飞速发展的时代，AIAgent作为人工智能领域的重要分支，正以其独特的智能特性和广泛的应用潜力，逐渐渗透到各个行业和我们生活的方方面面。它为解决复杂问题、提升系统效率和实现智能化交互提供了全新的途径。本文将深入剖析AIAgent的原理，并详细探讨其在多个领域的关键应用场景。一、AIAgent的定义与基本概念AIAgent，即人工智能代理，是一种能够感知其所处环境，并基于所感知的信息自主地
深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解） Charmve #AI学习指导：从入门到进阶软件安装环境配置计算机视觉实战文档详细开放源码 cuda linux gpu anaconda ubuntu
关注“迈微AI研习社”，内容首发于公众号作者：伍天舟、马曾欧、陈信达入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。俗话说，环境配不对，学习两行泪。如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。一、Win
Redis 7.0 新特性助力：小红书利用 I/O 多线程模型应对高并发挑战真想骂* redis 数据库缓存
在当今的互联网环境中，高并发问题一直是众多平台开发者和技术运维人员面临的重大挑战。特别是在像小红书这样的社交电商平台上，用户访问量巨大，数据交互频繁，如何在高并发场景下保持系统的稳定性和高效性，成为了一项至关重要的任务。Redis作为一款轻量级、高性能的键值对存储系统，凭借其独特的特性和不断优化的新版本，成为了小红书应对高并发挑战的得力助手。本文将深入探讨Redis7.0的新特性——I/O多线程模
在亚马逊云科技上用AI提示词优化功能写出漂亮提示词（下）佛州小李哥人工智能 aws 亚马逊云科技云计算语言模型 ai 科技
提示工程（PromptEngineering）对各位小伙伴们来说是再熟悉不过了，提示词工程技术是通过编写指令词，指导开发者们调用AI基础模型（FMs）获得期望的响应。但是经常写提示词的朋友们会知道，为了获取理想的输出，我们可能需要花费数月时间不断进行实验和调整才能得到最优的提示词，同时不同基础模型的提示词最佳实践也不尽相同，这意味着我们要设计兼容不同模型类别的提示词。此外提示词通常是与特定模型和特
联邦学习中客户端发送的梯度是vector而不是tensor wzx_Eleven 联邦学习机器学习网络安全人工智能
在联邦学习中，当本地使用神经网络或深度学习模型时，训练的梯度通常是与模型参数（权重和偏置）相对应的梯度数据。具体来说，梯度的类型和形状取决于模型的结构（例如，卷积神经网络、全连接网络等），以及模型的层数、每层的神经元数量等因素。1.梯度类型：梯度是一个张量：在神经网络中，梯度通常是一个张量（tensor），每一层的梯度张量的形状和该层的权重形状相匹配。具体来说，梯度是损失函数对每个参数的偏导数，表
《论文阅读》用于产生移情反应的迭代联想记忆模型 ACL2024 365JHWZGo 情感对话论文阅读回复生成 ACL 2024 共情回复 empathetic
《论文阅读》用于产生移情反应的迭代联想记忆模型ACL2024前言简介任务定义模型架构EncodingDialogueInformationCapturingAssociatedInformationPredictingEmotionandGeneratingResponse损失函数问题前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《
1. 基于大模型能力，如何提炼出优质prompt（入门版）姚瑞南 prompt系列课程人工智能 AIGC chatgpt
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）本文简介：入门版：基于大模型能力，如何提炼出优质prompt提示词的重要性和价值大模型基础能力简介prompt的基本定义如何定义优质的promptprompt的万能公式与套路prom
从System Prompt来看GPT-3.5到GPT-4的进化 herosunly 大模型 system prompt gpt-3 chatgpt gpt4 gpt4o
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看GPT-3.5到GPT-4的进化之路，希
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1