AI小白一枚

目标检测之YOLOv1源码解析

在前几天，我就已经介绍了YOLOv1目标检测的原理，后来也把tensorflow实现代码仔细看了一遍，于是就把源码解析一下。关于yolo目标检测的原理请参考前面一篇文章：目标检测之深入理解YOLOv1。

一、准备工作

下载源码，本文所使用的yolo源码来源于网址：https://github.com/hizhangp/yolo_tensorflow
下载训练所使用的数据集，我们仍然使用以VOC 2012数据集为例，下载地址为：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar。
yolo源码所在目录下，创建一个目录data,然后在data里面创建一个pascal_voc目录，用来保存与VOC 2012数据集相关的数据，我们把下载好的数据集解压到该目录下，如下图所示，其中VOCdevkit为数据集解压得到的文件，剩余三个文件夹我们先不用理会，后面会详细介绍。
下载与训练模型，即YOLO_small文件，我们把下载好之后的文件解压放在weights文件夹下面。下载链接：https://drive.google.com/file/d/0B5aC8pI-akZUNVFZMmhmcVRpbTA/view?usp=sharing
根据自己的需求修改配置文件yolo/config.py。
运行train.py文件，开始训练。
运行test.py文件，开始测试。

二、YOLOv1代码文件结构

如果你按照上面我说的步骤配置好文件之后，源代码结构就会如下图所示：

简单的介绍一下每个文件的功能：

data文件夹，存放数据集以及训练时生成的模型，缓存文件。
test文件夹，用来存放测试时用到的图片。
utils文件夹，包含两个文件一个是pascal_voc.py，主要用来获取训练集图片文件，以及生成对应的标签文件，为yolo网络训练做准备。另一个文件是timer.py用来计时。
yolo文件夹，也包含两个文件，config.py包含yolo网络的配置参数，yolo_net.py文件包含yolo网络的结构。
train.py文件用来训练yolo网络。
test.py文件用来测试yolo网络。

三、代码解析

1、config.py文件解析

首先我们从配置文件进行讲解，具体代码和注释如下：

import os

DATA_PATH = 'data' # 所有数据所在的根目录
PASCAL_PATH = os.path.join(DATA_PATH, 'pascal_voc') # voc数据集所在的目录
CACHE_PATH = os.path.join(PASCAL_PATH, 'cache') # 保存生成的数据集标签缓冲文件所在文件夹
OUTPUT_DIR = os.path.join(PASCAL_PATH, 'output') # 保存生成的网络模型和日志所在的文件夹
WEIGHTS_DIR = os.path.join(PASCAL_PATH, 'weights') # 检查点文件所在的目录

WEIGHTS_FILE = None
# WEIGHTS_FILE = os.path.join(DATA_PATH, 'weights', 'YOLO_small.ckpt')
CLASSES = ['aeroplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus',
           'car', 'cat', 'chair', 'cow', 'diningtable', 'dog', 'horse',
           'motorbike', 'person', 'pottedplant', 'sheep', 'sofa',
           'train', 'tvmonitor'] # voc数据集类别名
FLIPPED = True # 使用水平镜像,扩大数据集


#
# 模型参数
#
IMAGE_SIZE = 448 # 输入训练图片大小
CELL_SIZE = 7 # 单元网格大小 一张图片分为7*7个网格
BOXES_PER_CELL = 2 # 每个cell里面有2个bbox
ALPHA = 0.1 # 激活函数leakyrelu的alpha值
DISP_CONSOLE = False # 控制台输出信息
OBJECT_SCALE = 1.0 # 有目标时,置信度权重
NOOBJECT_SCALE = 1.0 # 无目标时,置信度权重
CLASS_SCALE = 2.0 # 类别权重
COORD_SCALE = 5.0 #bbox边界框权重


#
# 训练参数
#

GPU = '0'
LEARNING_RATE = 0.0001 # 初始学习率
DECAY_STEPS = 30000 # 退化学习率衰减步数
DECAY_RATE = 0.1 # 衰减率
STAIRCASE = True
BATCH_SIZE = 2 # 每次训练的bacth
MAX_ITER = 15000 # 训练的最大次数
SUMMARY_ITER = 10 # 日志文件保存的间隔
SAVE_ITER = 1000 # 模型保存的间隔步数


#
# 测试时的参数设置
#

THRESHOLD = 0.2 # scores的阈值
IOU_THRESHOLD = 0.5 # 进行nms时的IOU阈值

2、yolo_net.py文件解析

yolo网络的建立是通过yolo文件夹中的yolo_net.py文件的代码实现的，yolo_net.py文件定义了YOLONet类，该类包含了网路初始化(__init__())，建立网络(build_networks)和loss函数(loss_layer())等方法。

import numpy as np
import tensorflow as tf
import yolo.config as cfg

slim = tf.contrib.slim


class YOLONet(object):
    def __init__(self, is_training=True):
        """
        构造函数
        利用config文件对网络参数进行初始化,同时定义网络的输入和输出size等信息
        其中 offset的作用应该是一个定长的偏移
        boundary1和boundary2的作用是在输出信息中确定各种信息的长度(如类别,置信度等)
        其中 boundary1指的是对于所有cell的类别的预测的张量维度,所以是self.cell_size * self.cell_size * self.num_class
        boundary2 指的是在类别之后每个cell所对应的bounding box的数量总和,所以是boundary1 + self.cell_size * self.cell_size * self.boxes_per_cell
        """
        self.classes = cfg.CLASSES # voc数据集的类别名
        self.num_class = len(self.classes) # 类别的数量 20
        self.image_size = cfg.IMAGE_SIZE # 进行训练时图像的大小448*448
        self.cell_size = cfg.CELL_SIZE # 将一个图片划分为cell_size * cell_size个网格
        self.boxes_per_cell = cfg.BOXES_PER_CELL # 每个cell中的boxes个数
        self.output_size = (self.cell_size * self.cell_size) *\
            (self.num_class + self.boxes_per_cell * 5) # 最后一层输出的size大小1470=7*7*(2*5+20)
        self.scale = 1.0 * self.image_size / self.cell_size # 图片缩放比例 划分后每个网格的大小
        self.boundary1 = self.cell_size * self.cell_size * self.num_class # 输出类别的维度
        self.boundary2 = self.boundary1 +\
            self.cell_size * self.cell_size * self.boxes_per_cell # 输出boxes的维度

        # 损失函数loss的权重
        self.object_scale = cfg.OBJECT_SCALE # 有物体时的权重值
        self.noobject_scale = cfg.NOOBJECT_SCALE # 无物体时的权重值
        self.class_scale = cfg.CLASS_SCALE # 类别损失的权重值
        self.coord_scale = cfg.COORD_SCALE # boxes的(x,y,w,h)的权重值

        self.learning_rate = cfg.LEARNING_RATE # 初始学习率
        self.batch_size = cfg.BATCH_SIZE # 训练时的bacth
        self.alpha = cfg.ALPHA # leaky_relu的修正激活系数
        """
        1.生成self.cell_size * self.boxes_per_cell个np.arange(self.cell_size)
        np.array([np.arange(self.cell_size)] * self.cell_size * self.boxes_per_cell)
        
        2.对生成的array进行reshape,reshape后的形状是2*7*7,即2个7*7
        3.最后进行转置
        """
        # shape = [7,7,2]
        self.offset = np.transpose(np.reshape(np.array(
            [np.arange(self.cell_size)] * self.cell_size * self.boxes_per_cell),
            (self.boxes_per_cell, self.cell_size, self.cell_size)), (1, 2, 0))

        # 训练时输入图像的占位符,shape = [None,448,448,3]
        self.images = tf.placeholder(
            tf.float32, [None, self.image_size, self.image_size, 3],
            name='images')
        # 构建网络 获取YOLOV1网络的输出(不经过激活函数的输出) shape = [None,1470]
        self.logits = self.build_network(
            self.images, num_outputs=self.output_size, alpha=self.alpha,
            is_training=is_training)

        # 判断是否是训练模式
        if is_training:
            # 设置标签占位符, shape = [None,7,7,25]
            self.labels = tf.placeholder(
                tf.float32,
                [None, self.cell_size, self.cell_size, 5 + self.num_class])
            # 设置损失函数
            self.loss_layer(self.logits, self.labels)
            self.total_loss = tf.losses.get_total_loss() # 加入权重正则化之后的损失函数
            tf.summary.scalar('total_loss', self.total_loss) # 将损失以表量的形式显示,该变量命名为total_loss

    # yolov1的网络结构
    def build_network(self,
                      images,
                      num_outputs,
                      alpha,
                      keep_prob=0.5,
                      is_training=True,
                      scope='yolo'):
        """
        images:输入图像占位符,shape = [None,448,448,3]
        num_outputs :标量,网络输出节点数1470
        alpha: leaky_relu的修正系数
        keep_prob:弃权 保留率
        is_training：训练？
        scope：命名空间

        return : 返回网络最后一层,激活函数处理之前的值,shape = [None,1470]
        """
        #定义变量命名空间
        with tf.variable_scope(scope):
            with slim.arg_scope( # 定义共享参数,使用l2正则化
                [slim.conv2d, slim.fully_connected],
                activation_fn=leaky_relu(alpha),
                weights_regularizer=slim.l2_regularizer(0.0005),
                weights_initializer=tf.truncated_normal_initializer(0.0, 0.01)
            ):
                net = tf.pad(
                    images, np.array([[0, 0], [3, 3], [3, 3], [0, 0]]),
                    name='pad_1') # 对图像进行了padding处理,输入图片的size由448*448变成了454*454
                net = slim.conv2d(
                    net, 64, 7, 2, padding='VALID', scope='conv_2') # [454,454,3] -> [224,224,64]
                net = slim.max_pool2d(net, 2, padding='SAME', scope='pool_3') # [224,224,64] -> [112,112,64]
                net = slim.conv2d(net, 192, 3, scope='conv_4') # [112,112,64] -> [112,112,192]
                net = slim.max_pool2d(net, 2, padding='SAME', scope='pool_5') # [112,112,192] -> [56,56,192]
                net = slim.conv2d(net, 128, 1, scope='conv_6') # 1*1卷积进行降维,大小不变 [56,56,192] -> [56,56,128]
                net = slim.conv2d(net, 256, 3, scope='conv_7') # [56,56,128] -> [56,56,256]
                net = slim.conv2d(net, 256, 1, scope='conv_8') # [56,56,256] -> [56,56,256]
                net = slim.conv2d(net, 512, 3, scope='conv_9') # [56,56,256] -> [56,56,512]
                net = slim.max_pool2d(net, 2, padding='SAME', scope='pool_10') # [56,56,512] -> [28,28,512]
                net = slim.conv2d(net, 256, 1, scope='conv_11') # [28,28,512] -> [28,28,256]
                net = slim.conv2d(net, 512, 3, scope='conv_12') # [28,28,256] -> [28,28,512]
                net = slim.conv2d(net, 256, 1, scope='conv_13') # [28,28,512] -> [28,28,256]
                net = slim.conv2d(net, 512, 3, scope='conv_14') # [28,28,256] -> [28,28,512]
                net = slim.conv2d(net, 256, 1, scope='conv_15') # [28,28,512] -> [28,28,256]
                net = slim.conv2d(net, 512, 3, scope='conv_16') # [28,28,256] -> [28,28,512]
                net = slim.conv2d(net, 256, 1, scope='conv_17') # [28,28,512] -> [28,28,256]
                net = slim.conv2d(net, 512, 3, scope='conv_18') # [28,28,256] -> [28,28,512]
                net = slim.conv2d(net, 512, 1, scope='conv_19') # [28,28,512] -> [28,28,512]
                net = slim.conv2d(net, 1024, 3, scope='conv_20') # [28,28,512] -> [28,28,1024]
                net = slim.max_pool2d(net, 2, padding='SAME', scope='pool_21') # [28,28,1024] -> [14,14,1024]
                net = slim.conv2d(net, 512, 1, scope='conv_22') # [14,14,1024] -> [14,14,512]
                net = slim.conv2d(net, 1024, 3, scope='conv_23') # [14,14,512] -> [14,14,1024]
                net = slim.conv2d(net, 512, 1, scope='conv_24') # [14,14,1024] -> [14,14,512]
                net = slim.conv2d(net, 1024, 3, scope='conv_25') # [14,14,512] -> [14,14,1024]
                net = slim.conv2d(net, 1024, 3, scope='conv_26') # [14,14,512] -> [14,14,1024]
                net = tf.pad(
                    net, np.array([[0, 0], [1, 1], [1, 1], [0, 0]]),
                    name='pad_27') # 对前一层的特征图进行padding,大小由[14,14,1024] -> [16,16,1024]
                net = slim.conv2d(
                    net, 1024, 3, 2, padding='VALID', scope='conv_28') # [16,16,1024] -> [7,7,1024]
                net = slim.conv2d(net, 1024, 3, scope='conv_29') # [7,7,1024] -> [7,7,1024]
                net = slim.conv2d(net, 1024, 3, scope='conv_30') # [7,7,1024] -> [7,7,1024]
                net = tf.transpose(net, [0, 3, 1, 2], name='trans_31') # [7,7,1024] -> [1024,7,7]
                net = slim.flatten(net, scope='flat_32') # 进行扁平化,展开50176
                net = slim.fully_connected(net, 512, scope='fc_33') # 原始论文里面没有这一层,增加这一层主要是降低参数量
                net = slim.fully_connected(net, 4096, scope='fc_34') # 全连接层
                net = slim.dropout(
                    net, keep_prob=keep_prob, is_training=is_training,
                    scope='dropout_35') # 对全连接层中多余的连接进行丢弃
                net = slim.fully_connected(
                    net, num_outputs, activation_fn=None, scope='fc_36') # 全连接层
        return net

    # 计算IOU
    def calc_iou(self, boxes1, boxes2, scope='iou'):
        """
        这个函数主要是计算两个bounding box之间的IOU,输入是两个5维的bounding box, 输出的是两个bounding box的IOU
        Args:
          boxes1: 5-D tensor [BATCH_SIZE, CELL_SIZE, CELL_SIZE, BOXES_PER_CELL, 4]  ====> (x_center, y_center, w, h)
          boxes2: 5-D tensor [BATCH_SIZE, CELL_SIZE, CELL_SIZE, BOXES_PER_CELL, 4] ===> (x_center, y_center, w, h)
        注意：这里的参数(x_center, y_center, w, h)都是归一化到[0,1]之间的,分别表示预测边界框的中心相对整张图片的坐标,宽高
        Return:
          iou: 4-D tensor [BATCH_SIZE, CELL_SIZE, CELL_SIZE, BOXES_PER_CELL]
        """
        with tf.variable_scope(scope):
            # transform (x_center, y_center, w, h) to (x1, y1, x2, y2)
            # 把之前的中心点坐标,长,宽转换为左上角和右下角的两个点坐标
            boxes1_t = tf.stack([boxes1[..., 0] - boxes1[..., 2] / 2.0, # 左上角x
                                 boxes1[..., 1] - boxes1[..., 3] / 2.0, # 左上角y
                                 boxes1[..., 0] + boxes1[..., 2] / 2.0, # 右下角x
                                 boxes1[..., 1] + boxes1[..., 3] / 2.0], # 右下角y
                                axis=-1)

            boxes2_t = tf.stack([boxes2[..., 0] - boxes2[..., 2] / 2.0,
                                 boxes2[..., 1] - boxes2[..., 3] / 2.0,
                                 boxes2[..., 0] + boxes2[..., 2] / 2.0,
                                 boxes2[..., 1] + boxes2[..., 3] / 2.0],
                                axis=-1)

            # calculate the left up point & right down point
            # lu和rd就是分别求两个框相交的矩形的左上角和右下角的坐标,
            # 对于左上角,选择的是x和y较大的,
            # 对于右下角,选择的是x和y较小的
            lu = tf.maximum(boxes1_t[..., :2], boxes2_t[..., :2]) # 两个框相交矩形的左上角(x1,y1)
            rd = tf.minimum(boxes1_t[..., 2:], boxes2_t[..., 2:]) # 两个框相交矩形的右下角(x2,y2)

            # intersection 这个就是求相交矩形的长和宽,所以有rd - lu, 相当于x2 - x1和y2 - y1
            # 之所以外面还要加一个tf.maximum是因为删除那些不合理的框,比如两个框没有交集
            intersection = tf.maximum(0.0, rd - lu)
            inter_square = intersection[..., 0] * intersection[..., 1] # 求出相交部分的面积

            # calculate the boxs1 square and boxs2 square
            square1 = boxes1[..., 2] * boxes1[..., 3] # 计算boxes1的面积
            square2 = boxes2[..., 2] * boxes2[..., 3] # 计算boxes2的面积

            union_square = tf.maximum(square1 + square2 - inter_square, 1e-10) # 求出两个框的面积
        # 最后一个 tf.clip_by_value,这个是将交并比大于1的变成1,小于0的变成0,因为交并比在[0,1]之间
        return tf.clip_by_value(inter_square / union_square, 0.0, 1.0)

    def loss_layer(self, predicts, labels, scope='loss_layer'):
        # predicts :YOLOV1网络的输出形状[None,1470] 1470 = 7 * 7 * [2 * 5 + 20]
        # 0: 7*7*20: 表示预测类别
        # 7*7*20 : 7*7*20 + 7*7*2  表示预测置信度,即预测的边界框与实际框之间的IOU
        # 7*7*20 + 7*7*2 : 1470  表示预测边界框[x,y,w,h] * 2
        # 目标中心是相对于当前网格的,高度和宽度的开根号是相对于当前整张图像的(归一化)

        # labels：标签值  shape:[None,7,7,25]
        # 0:1 表示的是置信度,也就是这个标注里面是否有目标
        # 1:5 表示的是目标边界框,目标中心,高度和宽度(没有归一化)
        # 5:25 表示目标的类别
        with tf.variable_scope(scope):
            # 预测出的classes
            predict_classes = tf.reshape( # 预测每个网格目标的类别,shape = [batch_size,7,7,20]
                predicts[:, :self.boundary1],
                [self.batch_size, self.cell_size, self.cell_size, self.num_class]) # 对predicts进行reshape,
            # 预测出的conficence
            predict_scales = tf.reshape( # 预测每个格子中两个box的置信度,shape = [batch_size,7,7,2]
                predicts[:, self.boundary1:self.boundary2],
                [self.batch_size, self.cell_size, self.cell_size, self.boxes_per_cell])
            # 预测出的bounding box
            predict_boxes = tf.reshape( # 预测每个格子的box,(x,y)表示边界框相对于格子的中心,(w,h)的开根号相对于整张图片
                predicts[:, self.boundary2:],
                [self.batch_size, self.cell_size, self.cell_size, self.boxes_per_cell, 4]) # shape = [batch_size,7,7,2,4]

            # 实际值
            # shape[batch_size,7,7,1]
            # response中的值是0或者1,对应的网格中存在目标时为1,不存在时为0
            # 存在目标指的是存在目标的中心点,而不是说存在目标的一部分
            # 所以,目标的中心点所在的cell其对应值才为1,其余值均为0
            response = tf.reshape( # 标签的置信度,表示这个网格是否含有目标, shape = [batch_size,7,7,1]
                labels[..., 0],
                [self.batch_size, self.cell_size, self.cell_size, 1])
            # shape [batch_size,7,7,1,4]
            boxes = tf.reshape( # 标签的边界框,(x,y)表示边界框相对于整个图片的中心
                labels[..., 1:5],
                [self.batch_size, self.cell_size, self.cell_size, 1, 4]) # shape = [batch_size,7,7,1,4]
            # shape[batch_size,7,7,2,4],boxes的四个值,取值范围为0~1
            # tf.tile 用于在同一维度上的复制
            # 标签的边界框归一化后,张量沿着axis=3重复两次,扩充后的shape = [batch_size,7,7,2,4[
            boxes = tf.tile(
                boxes, [1, 1, 1, self.boxes_per_cell, 1]) / self.image_size
            classes = labels[..., 5:] # 目标类别

            # self.offset 的shape [7,7,2],这个构造的[7,7,2]矩阵,每一行都是[7,2]的矩阵
            # 其值为 [[0,0],[1,1],[2,2],[3,3],[4,4],[5,5],[6,6]]
            # 这个变量是为了将每个cell的坐标对齐,后一个框比前一个框要多加1
            # 比如,我们预测了cell_size的每个中心点坐标,那么我们这个中心点落在第几个cell_size,就在对应的坐标加几
            # 这个用法比较巧妙,构造这样一个数组,让他们对应位置相加
            # offset的shape [1,7,7,2]
            # 如果忽略axis=0,则每一行都是 [[0,0],[1,1],[2,2],[3,3],[4,4],[5,5],[6,6]]
            offset = tf.reshape(
                tf.constant(self.offset, dtype=tf.float32),
                [1, self.cell_size, self.cell_size, self.boxes_per_cell])
            # offset shape (1,7,7,2) -> (batch_size,7,7,2)
            offset = tf.tile(offset, [self.batch_size, 1, 1, 1])
            # offset_tran shape (batch_size,7,7,2),
            # 如果忽略axis=0, 第i行为[[i,i],[i,i],[i,i],[i,i],[i,i],[i,i],[i,i]]
            offset_tran = tf.transpose(offset, (0, 2, 1, 3))

            # shape为(batch,7,7,2,4), 计算每个网格的预测边界框坐标(x,y)相对于当前网格,而不是整幅图像
            # 假设当前网格是(3,3),当前网格的预测边界框为(x0,y0),则计算坐标(x,y) = ((x0,y0) + (3,3))/7
            predict_boxes_tran = tf.stack(
                [(predict_boxes[..., 0] + offset) / self.cell_size, # x/7 是指相对于自己所在的网格
                 (predict_boxes[..., 1] + offset_tran) / self.cell_size,
                 tf.square(predict_boxes[..., 2]),
                 tf.square(predict_boxes[..., 3])], axis=-1)

            # 预测box与真实box的IOU, shape [45,7,7,2]
            iou_predict_truth = self.calc_iou(predict_boxes_tran, boxes) # 计算IOU

            # calculate I tensor [BATCH_SIZE, CELL_SIZE, CELL_SIZE, BOXES_PER_CELL]
            # 这个是求论文中的1ijobj参数, [batch_size,7,7,2]
            # 其中1ijobj表示的第i网格的第j个边界框预测器负责该物体的预测
            # 先计算每个框交并比最大的那个,因为我们知道,YOLOV1每个格子预测两个边界框,一个类别,
            # 在训练时,每个目标只需要一个预测器来负责,我们可以指定一个预测器"负责",根据哪个预测器与真实值之间的具有最高的IOU来预测目标
            # 所以object_mask就表示每个网格中的哪个边界框负责该格子中目标预测?哪个边界框取值为1,哪个边界框就负责检测目标
            # 当格子中确实存在目标时,取值为[1,1],[1,0],[0,1]
            # 比如某一个格子的值为[1,0],表示第一个边界框负责预测该格子的目标
            # 当格子没有目标时,取值为[0,0]
            object_mask = tf.reduce_max(iou_predict_truth, 3, keep_dims=True)
            object_mask = tf.cast(
                (iou_predict_truth >= object_mask), tf.float32) * response

            # calculate no_I tensor [CELL_SIZE, CELL_SIZE, BOXES_PER_CELL]
            # noobject_mask表示每个边界框不负责该目标的置信度
            # 使用tf.ones_like,使得全部值为1,再减去有目标的(有目标的值为1),这样一减,剩下的就是没有目标的
            # noobject prosibility[45,7,7,2]
            noobject_mask = tf.ones_like(
                object_mask, dtype=tf.float32) - object_mask

            # boxes_tran 这个就是把之前的坐标换回来(相对于整张图片 -> 相对当前格子)
            # shape(45,7,7,2,4)，对boxes的四个值进行规整，
            # xy为相对于网格左上角，wh为取根号后的值，范围0~1
            boxes_tran = tf.stack(
                [boxes[..., 0] * self.cell_size - offset,
                 boxes[..., 1] * self.cell_size - offset_tran,
                 tf.sqrt(boxes[..., 2]),
                 tf.sqrt(boxes[..., 3])], axis=-1)

            # class_loss 分类损失函数,原文损失函数公式第5项,如果目标出现在网格中,response为1,否则response为0,
            # 该损失函数表明当格子中有目标时,预测的类别越接近实际类别,损失越小
            # class_loss shape [batch_size,7,7,20]
            class_delta = response * (predict_classes - classes)
            class_loss = tf.reduce_mean(
                tf.reduce_sum(tf.square(class_delta), axis=[1, 2, 3]),
                name='class_loss') * self.class_scale

            # object_loss 有目标物体存在的置信度预测损失  原文损失函数公式第3项
            # 该损失函数表明当网格中有目标时,负责该目标检测的边界框的置信度越接近预测的边界框与实际边界框之间的IOU时,损失函数越小
            # object_loss confidence=iou*p(object)
            # p(object)的值为1或0
            object_delta = object_mask * (predict_scales - iou_predict_truth)
            object_loss = tf.reduce_mean(
                tf.reduce_sum(tf.square(object_delta), axis=[1, 2, 3]),
                name='object_loss') * self.object_scale

            # noobject_loss没有目标物体存在的置信度的损失,此时iou_predict_truth=0,
            # noobject_loss  p(object)的值为0
            noobject_delta = noobject_mask * predict_scales
            noobject_loss = tf.reduce_mean(
                tf.reduce_sum(tf.square(noobject_delta), axis=[1, 2, 3]),
                name='noobject_loss') * self.noobject_scale

            # coord_loss 边界框坐标损失, shape = [batch_size,7,7,2,1]
            coord_mask = tf.expand_dims(object_mask, 4)
            boxes_delta = coord_mask * (predict_boxes - boxes_tran)
            coord_loss = tf.reduce_mean(
                tf.reduce_sum(tf.square(boxes_delta), axis=[1, 2, 3, 4]),
                name='coord_loss') * self.coord_scale

            # 将所有的损失放在一起
            tf.losses.add_loss(class_loss)
            tf.losses.add_loss(object_loss)
            tf.losses.add_loss(noobject_loss)
            tf.losses.add_loss(coord_loss)

            # 将每个损失添加到日志记录
            tf.summary.scalar('class_loss', class_loss)
            tf.summary.scalar('object_loss', object_loss)
            tf.summary.scalar('noobject_loss', noobject_loss)
            tf.summary.scalar('coord_loss', coord_loss)

            tf.summary.histogram('boxes_delta_x', boxes_delta[..., 0])
            tf.summary.histogram('boxes_delta_y', boxes_delta[..., 1])
            tf.summary.histogram('boxes_delta_w', boxes_delta[..., 2])
            tf.summary.histogram('boxes_delta_h', boxes_delta[..., 3])
            tf.summary.histogram('iou', iou_predict_truth)

# 激活函数
def leaky_relu(alpha):
    def op(inputs):
        return tf.nn.leaky_relu(inputs, alpha=alpha, name='leaky_relu')
    return op

3、读取数据pascal_voc.py文件解析

import os
import xml.etree.ElementTree as ET
import numpy as np
import cv2
import pickle
import copy
import yolo.config as cfg


class pascal_voc(object):
    def __init__(self, phase, rebuild=False):
        """
        准备训练或者测试的数据

        phase:传入字符串“train"表示训练,”test“表示测试
        rebuild:是否重新创建数据集的标签文件,保存在缓冲文件夹下
        """
        self.devkil_path = os.path.join(cfg.PASCAL_PATH, 'VOCdevkit') # VOCdevkit文件夹路径
        self.data_path = os.path.join(self.devkil_path, 'VOC2007') # voc2007文件夹的路径
        self.cache_path = cfg.CACHE_PATH # cache的路径
        self.batch_size = cfg.BATCH_SIZE # batch_size大小
        self.image_size = cfg.IMAGE_SIZE # 训练图像大小
        self.cell_size = cfg.CELL_SIZE # 网格大小
        self.classes = cfg.CLASSES # 类别数
        self.class_to_ind = dict(zip(self.classes, range(len(self.classes)))) # 类别名->索引的dict
        self.flipped = cfg.FLIPPED # 图片是否采用水平镜像扩充训练集
        self.phase = phase # 训练还是测试？
        self.rebuild = rebuild # 是否重新创建数据集标签文件
        self.cursor = 0 # 从gt_labels加载数据,cursor表示当前读取到第几个
        self.epoch = 1 # 存放当前训练的轮数
        # 存放数据集的标签,是一个list 每一个元素都是一个dict,对应一个图片
        # 如果我们在配置文件中制定flipped=True,则数据集会扩充一倍,每一张原始图片都有一个水平对称的镜像文件
        # imname : 图片路径
        # label:标签
        # flipped:图片水平镜像？
        self.gt_labels = None
        self.prepare() # 加载数据集标签,初始化gt_labels

    def get(self):
        """
        加载数据集 每次读取batch大小的图片以及图片对应的标签

        return :
            images:读取到的图片数据[batch,448,448,3]
            labels:对应的标签 [batch,7,7,25]
        """
        images = np.zeros(
            (self.batch_size, self.image_size, self.image_size, 3)) # 输入图片 [batch,448,448,3]
        labels = np.zeros(
            (self.batch_size, self.cell_size, self.cell_size, 25)) # 标签,[batch,7,7,25]
        count = 0
        while count < self.batch_size: # 获取一个batch_size大小的图片和标签
            imname = self.gt_labels[self.cursor]['imname'] # 读取图片的路径
            flipped = self.gt_labels[self.cursor]['flipped'] # 是否使用水平镜像？
            images[count, :, :, :] = self.image_read(imname, flipped) # 读取图片数据
            labels[count, :, :, :] = self.gt_labels[self.cursor]['label'] # 读取对应的标签
            count += 1
            self.cursor += 1
            # 如果读取完一轮数据,则当前cursor置为0,当前训练epoch +1
            if self.cursor >= len(self.gt_labels):
                np.random.shuffle(self.gt_labels) # 打乱顺序
                self.cursor = 0
                self.epoch += 1
        return images, labels

    # 读取图片
    def image_read(self, imname, flipped=False):
        image = cv2.imread(imname) # 读取图片
        image = cv2.resize(image, (self.image_size, self.image_size)) # 进行resize
        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB).astype(np.float32) # 颜色转换 BGR -> RGB
        image = (image / 255.0) * 2.0 - 1.0 # 进行归一化, 归一化到[-1.0,1.0]
        if flipped:
            image = image[:, ::-1, :]
        return image

    def prepare(self):
        """
        初始化数据集的标签,保存在变量gt_labels中
        return:
            # gt_labels存放数据集的标签,是一个list 每一个元素都是一个dict,对应一个图片
            # imname : 图片路径
            # label:图片文件对应的标签 [7,7,25]的矩阵
            # flipped:是否使用水平镜像？ 设置为false
        """

        gt_labels = self.load_labels() # 加载数据集标签
        if self.flipped: # 如果水平镜像,则追加一倍的训练数据集
            print('Appending horizontally-flipped training examples ...')
            gt_labels_cp = copy.deepcopy(gt_labels) # 深度拷贝
            for idx in range(len(gt_labels_cp)): # 遍历每一个图片标签
                gt_labels_cp[idx]['flipped'] = True # 设置flipped的属性为True
                gt_labels_cp[idx]['label'] =\
                    gt_labels_cp[idx]['label'][:, ::-1, :] # 目标所在的网格也进行水平镜像 [7,7,25]
                for i in range(self.cell_size):
                    for j in range(self.cell_size):
                        if gt_labels_cp[idx]['label'][i, j, 0] == 1: # 置信度为1,表示这个网格内有目标
                            gt_labels_cp[idx]['label'][i, j, 1] = \
                                self.image_size - 1 -\
                                gt_labels_cp[idx]['label'][i, j, 1] # 中心的x坐标水平镜像
            # 追加数据集的标签,后面的是由原数据集标签扩充的水平镜像数据集标签
            gt_labels += gt_labels_cp
        np.random.shuffle(gt_labels) # 打乱顺序
        self.gt_labels = gt_labels
        return gt_labels

    def load_labels(self): # 加载标签labels
        # cache_file  data/pascal_voc/cache/pascal_train_gt_labels.pkl
        cache_file = os.path.join( # 缓冲文件名:用来保存数据集标签的文件
            self.cache_path, 'pascal_' + self.phase + '_gt_labels.pkl') # cache_file的路径

        # cache_file文件存在,且不重新创建,则直接读取文件
        if os.path.isfile(cache_file) and not self.rebuild:
            print('Loading gt_labels from: ' + cache_file)
            with open(cache_file, 'rb') as f: # 打开pkl文件,读取pkl文件中的内容
                gt_labels = pickle.load(f) # 加载pkl中的数据
            return gt_labels

        print('Processing gt_labels from: ' + self.data_path)

        # 如果缓冲文件不存在,则创建
        if not os.path.exists(self.cache_path):
            os.makedirs(self.cache_path)

        # 获取训练集的数据文件名
        if self.phase == 'train':
            txtname = os.path.join(
                self.data_path, 'ImageSets', 'Main', 'trainval.txt')
        else: # 获取测试集的数据文件名
            txtname = os.path.join(
                self.data_path, 'ImageSets', 'Main', 'test.txt')
        with open(txtname, 'r') as f:
            self.image_index = [x.strip() for x in f.readlines()]

        gt_labels = [] # 存放图片的标签 图片路径 是否使用水平镜像？
        for index in self.image_index: # 遍历每一张图片信息
            label, num = self.load_pascal_annotation(index) # 读取每一张图片的标签labels [7,7,25]
            if num == 0:
                continue
            imname = os.path.join(self.data_path, 'JPEGImages', index + '.jpg') # 图片文件名
            gt_labels.append({'imname': imname,
                              'label': label,
                              'flipped': False}) # 保存该图片的信息
        print('Saving gt_labels to: ' + cache_file)
        with open(cache_file, 'wb') as f:
            pickle.dump(gt_labels, f)
        return gt_labels

    def load_pascal_annotation(self, index):
        """
        Load image and bounding boxes info from XML file in the PASCAL VOC
        format.
        index:图片文件的index

        return:
            label:标签 [7,7,25]
                0:1 置信度,表示这个地方是否有目标
                1:5 目标边界框,也就是目标中心 宽度 高度(这里是实际值,没有归一化)
                5:25 目标的类别
            len(objs):objs对象长度
        """
        # data/VOCdevkit/VOC2007/JPEGImages存放源图片
        # imname为训练样例路径
        imname = os.path.join(self.data_path, 'JPEGImages', index + '.jpg') # 获取图片文件名路径
        im = cv2.imread(imname) # 读取图片数据
        h_ratio = 1.0 * self.image_size / im.shape[0] # 高度比
        w_ratio = 1.0 * self.image_size / im.shape[1] # 宽度比

        label = np.zeros((self.cell_size, self.cell_size, 25)) # 用于保存图片文件的标签

        # data/VOCdevkit/VOC2007/Annotations存放的是xml文件
        # 包含图片的boxes等信息，一张图片一个xml文件，与PEGImages中源图片一一对应
        filename = os.path.join(self.data_path, 'Annotations', index + '.xml') # 图片文件的标注xml文件
        tree = ET.parse(filename) # 将xml文档解析为树
        objs = tree.findall('object') # 得到图片中所有的box info

        # 开始遍历xml中所有的box info
        for obj in objs:
            bbox = obj.find('bndbox') # 找到标注的bounding box
            # Make pixel indexes 0-based
            # 将标注的(x1,y1,x2,y2) 进行缩放,由于图像在输入时进行了resize
            x1 = max(min((float(bbox.find('xmin').text) - 1) * w_ratio, self.image_size - 1), 0)
            y1 = max(min((float(bbox.find('ymin').text) - 1) * h_ratio, self.image_size - 1), 0)
            x2 = max(min((float(bbox.find('xmax').text) - 1) * w_ratio, self.image_size - 1), 0)
            y2 = max(min((float(bbox.find('ymax').text) - 1) * h_ratio, self.image_size - 1), 0)
            # 得到类别的索引值
            cls_ind = self.class_to_ind[obj.find('name').text.lower().strip()]
            # 对boxes进行转换  (x1,y1,x2,y2) -> (x,y,w,h) 没有归一化
            boxes = [(x2 + x1) / 2.0, (y2 + y1) / 2.0, x2 - x1, y2 - y1]
            # 计算当前物体的中心在哪个网格中
            x_ind = int(boxes[0] * self.cell_size / self.image_size)
            y_ind = int(boxes[1] * self.cell_size / self.image_size)
            if label[y_ind, x_ind, 0] == 1: # 表明该图片已经初始化过了
                continue
            # 置信度, 表示这个网格有物体
            label[y_ind, x_ind, 0] = 1
            # boxes,物体的边界框
            label[y_ind, x_ind, 1:5] = boxes
            # p(class), 物体的类别
            label[y_ind, x_ind, 5 + cls_ind] = 1

        return label, len(objs)

4、训练文件train.py解析

import os
import argparse
import datetime
import tensorflow as tf
import yolo.config as cfg
from yolo.yolo_net import YOLONet
from utils.timer import Timer
from utils.pascal_voc import pascal_voc

slim = tf.contrib.slim

# 用来训练YOLOV1网络模型
class Solver(object):
    # 求解器的类,用于训练YOLO网络
    def __init__(self, net, data):
        self.net = net # yolo网络
        self.data = data # voc数据
        self.weights_file = cfg.WEIGHTS_FILE # 权重文件
        self.max_iter = cfg.MAX_ITER # 最大迭代次数
        self.initial_learning_rate = cfg.LEARNING_RATE # 初始学习率
        self.decay_steps = cfg.DECAY_STEPS # 训练时优化器学习率参数
        self.decay_rate = cfg.DECAY_RATE # 退化学习率衰减步数
        self.staircase = cfg.STAIRCASE
        self.summary_iter = cfg.SUMMARY_ITER # 日志文件保存间隔步数
        self.save_iter = cfg.SAVE_ITER # 模型保存间隔
        self.output_dir = os.path.join(
            cfg.OUTPUT_DIR, datetime.datetime.now().strftime('%Y_%m_%d_%H_%M')) # 输出文件夹
        if not os.path.exists(self.output_dir): # 输出文件夹,不存在则创建
            os.makedirs(self.output_dir)
        self.save_cfg() # 对cfg中的内容进行保存

        self.variable_to_restore = tf.global_variables() # 指定保存的张量,这里指定所有变量
        self.saver = tf.train.Saver(self.variable_to_restore, max_to_keep=None)
        self.ckpt_file = os.path.join(self.output_dir, 'yolo') # 指定保存的模型名称
        self.summary_op = tf.summary.merge_all() # merge所有的日志
        self.writer = tf.summary.FileWriter(self.output_dir, flush_secs=60) # 将写下的日志文件保存到输出文件夹中

        self.global_step = tf.train.create_global_step() # 创建变量,保存当前迭代的次数
        self.learning_rate = tf.train.exponential_decay(
            self.initial_learning_rate, self.global_step, self.decay_steps,
            self.decay_rate, self.staircase, name='learning_rate') # 学习率以exponential_decay方式变化
        self.optimizer = tf.train.GradientDescentOptimizer(
            learning_rate=self.learning_rate) # 优化器
        self.train_op = slim.learning.create_train_op(
            self.net.total_loss, self.optimizer, global_step=self.global_step) # 需要训练的op

        # 使用tensorflow较高版本时,需要使用以下语句,否则会报错
        config = tf.ConfigProto()
        config.gpu_options.allow_growth = True
        #gpu_options = tf.GPUOptions()
        #config = tf.ConfigProto(gpu_options=gpu_options)
        self.sess = tf.Session(config=config)
        self.sess.run(tf.global_variables_initializer()) # 运行图,对全局变量初始化

        # 判断是否从之前的训练权重中接着训练
        if self.weights_file is not None:
            print('Restoring weights from: ' + self.weights_file)
            self.saver.restore(self.sess, self.weights_file)

        self.writer.add_graph(self.sess.graph) # 添加graph到日志文件中

    def train(self): # 训练

        train_timer = Timer() # 训练开始时间
        load_timer = Timer() # 数据加载时间

        # 进行迭代
        for step in range(1, self.max_iter + 1):
            load_timer.tic() # 计算每次迭代,加载数据的起始时间
            images, labels = self.data.get() # 加载数据,每次读取batch大小的图片和标签
            load_timer.toc() # 计算这次迭代加载数据集所用的时间
            feed_dict = {self.net.images: images,
                         self.net.labels: labels} # 需要填充的数据

            if step % self.summary_iter == 0: # 迭代summary_iter次,保存一次日志
                if step % (self.summary_iter * 10) == 0: # 迭代self.summary_iter * 10次,输出一次迭代信息
                    train_timer.tic() # 计算每次迭代的起始时间
                    summary_str, loss, _ = self.sess.run(
                        [self.summary_op, self.net.total_loss, self.train_op],
                        feed_dict=feed_dict) # 开始训练,每一次迭代后global_step自加1
                    train_timer.toc()

                    log_str = '''{} Epoch: {}, Step: {}, Learning rate: {},'''
                    ''' Loss: {:5.3f}\nSpeed: {:.3f}s/iter,'''
                    '''' Load: {:.3f}s/iter, Remain: {}'''.format(
                        datetime.datetime.now().strftime('%m-%d %H:%M:%S'),
                        self.data.epoch,
                        int(step),
                        round(self.learning_rate.eval(session=self.sess), 6),
                        loss,
                        train_timer.average_time,
                        load_timer.average_time,
                        train_timer.remain(step, self.max_iter)) # 添加日志
                    print(log_str)

                else:
                    train_timer.tic() # 计算每次训练的起始时间
                    # 开始训练,每一次迭代后global_step自加1
                    summary_str, _ = self.sess.run(
                        [self.summary_op, self.train_op],
                        feed_dict=feed_dict)
                    train_timer.toc() # 计算这次迭代所用的时间

                self.writer.add_summary(summary_str, step) # 将summary写入文件

            else:
                train_timer.tic()
                self.sess.run(self.train_op, feed_dict=feed_dict)
                train_timer.toc()

            if step % self.save_iter == 0:
                print('{} Saving checkpoint file to: {}'.format(
                    datetime.datetime.now().strftime('%m-%d %H:%M:%S'),
                    self.output_dir))
                self.saver.save(
                    self.sess, self.ckpt_file, global_step=self.global_step)

    # 将cfg中的内容保存到txt文件中
    def save_cfg(self):
        with open(os.path.join(self.output_dir, 'config.txt'), 'w') as f:
            cfg_dict = cfg.__dict__
            for key in sorted(cfg_dict.keys()):
                if key[0].isupper():
                    cfg_str = '{}: {}\n'.format(key, cfg_dict[key])
                    f.write(cfg_str)

# 更新cfg中的路径
def update_config_paths(data_dir, weights_file):
    cfg.DATA_PATH = data_dir # 数据集所在文件夹
    cfg.PASCAL_PATH = os.path.join(data_dir, 'pascal_voc') # voc数据所在文件夹
    cfg.CACHE_PATH = os.path.join(cfg.PASCAL_PATH, 'cache') # 保存生成的数据集的缓冲文件夹
    cfg.OUTPUT_DIR = os.path.join(cfg.PASCAL_PATH, 'output') # 保存生成的网络模型和日志文件
    cfg.WEIGHTS_DIR = os.path.join(cfg.PASCAL_PATH, 'weights') # 检查点文件所在的目录

    cfg.WEIGHTS_FILE = os.path.join(cfg.WEIGHTS_DIR, weights_file)


def main():
    # 定义超参数
    parser = argparse.ArgumentParser()
    parser.add_argument('--weights', default="YOLO_small.ckpt", type=str)
    parser.add_argument('--data_dir', default="data", type=str)
    parser.add_argument('--threshold', default=0.2, type=float)
    parser.add_argument('--iou_threshold', default=0.5, type=float)
    parser.add_argument('--gpu', default='0', type=str)
    args = parser.parse_args()

    # 判断是否使用GPU
    if args.gpu is not None:
        cfg.GPU = args.gpu

    # 判断data路径是否一致,不一致则进行更新
    if args.data_dir != cfg.DATA_PATH:
        update_config_paths(args.data_dir, args.weights) # 对cfg中的路径信息进行更新

    os.environ['CUDA_VISIBLE_DEVICES'] = cfg.GPU # 指定GPU进行训练
    yolo = YOLONet() # yolov1模型
    pascal = pascal_voc('train') # 开始处理训练数据集

    solver = Solver(yolo, pascal) # 求解器对象

    print('Start training ...')
    solver.train() # 开始训练
    print('Done training.')


if __name__ == '__main__':
    main()

5、测试文件test.py解析

import os
import cv2
import argparse
import numpy as np
import tensorflow as tf
import yolo.config as cfg
from yolo.yolo_net import YOLONet
from utils.timer import Timer

# 用于网络测试
class Detector(object):

    def __init__(self, net, weight_file):
        self.net = net # yolov1网络
        self.weights_file = weight_file # 检查点文件路径

        self.classes = cfg.CLASSES # voc数据集的类别名
        self.num_class = len(self.classes) # voc类别数
        self.image_size = cfg.IMAGE_SIZE # 输入图像大小
        self.cell_size = cfg.CELL_SIZE # 分成多个网格
        self.boxes_per_cell = cfg.BOXES_PER_CELL # 每个网格里面有多少个边界框 B=2
        self.threshold = cfg.THRESHOLD # 阈值参数
        self.iou_threshold = cfg.IOU_THRESHOLD # IOU阈值参数
        # # 将网络输出分离为类别和置信度以及边界框大小,输出维度为7*7*20 + 7*7*2+7*7*2*4=1470
        self.boundary1 = self.cell_size * self.cell_size * self.num_class # 7*7*20
        self.boundary2 = self.boundary1 +\
            self.cell_size * self.cell_size * self.boxes_per_cell # 7*7*20 + 7*7*2

        self.sess = tf.Session() # 开启会话
        self.sess.run(tf.global_variables_initializer()) # 初始化全局变量

        print('Restoring weights from: ' + self.weights_file)
        self.saver = tf.train.Saver()
        self.saver.restore(self.sess, self.weights_file) # 恢复训练得到的模型
    # 将检测结果画到对应的图片上
    def draw_result(self, img, result):
        for i in range(len(result)): # 遍历所有的检测结果
            x = int(result[i][1]) # x_center
            y = int(result[i][2]) # y_center
            w = int(result[i][3] / 2) # w/2
            h = int(result[i][4] / 2) # h/2
            # 绘制矩形框(目标边界框)矩形左上角,矩形右下角
            cv2.rectangle(img, (x - w, y - h), (x + w, y + h), (0, 255, 0), 2)
            # 绘制矩形框,用于存放类别名称,使用灰度填充
            cv2.rectangle(img, (x - w, y - h - 20),
                          (x + w, y - h), (125, 125, 125), -1)
            lineType = cv2.LINE_AA if cv2.__version__ > '3' else cv2.CV_AA # 线型
            cv2.putText(
                img, result[i][0] + ' : %.2f' % result[i][5],
                (x - w + 5, y - h - 7), cv2.FONT_HERSHEY_SIMPLEX, 0.5,
                (0, 0, 0), 1, lineType) # 绘制文本信息,写上类别名和置信度

    def detect(self, img):
        img_h, img_w, _ = img.shape # 获取图片的宽和高
        inputs = cv2.resize(img, (self.image_size, self.image_size)) # 图片缩放 [448,448,3]
        inputs = cv2.cvtColor(inputs, cv2.COLOR_BGR2RGB).astype(np.float32) # 颜色转换 BGR -> RGB
        inputs = (inputs / 255.0) * 2.0 - 1.0 # 归一化处理,[-1.0,1.0]
        inputs = np.reshape(inputs, (1, self.image_size, self.image_size, 3)) # reshape [1,448,448,3]

        result = self.detect_from_cvmat(inputs)[0] # 获取网络输出第一项(即第一张图片) [1,1470]

        # 对检测结果的边界框进行缩放处理,一张图片可以有多个边界框
        for i in range(len(result)):
            # x_center,y_center,w,h都是真实值,分别表示预测边界框的中心坐标,宽,高
            result[i][1] *= (1.0 * img_w / self.image_size) # x_center
            result[i][2] *= (1.0 * img_h / self.image_size) # y_center
            result[i][3] *= (1.0 * img_w / self.image_size) # w
            result[i][4] *= (1.0 * img_h / self.image_size) # h

        return result

    # 运行yolo网络,开始检测
    def detect_from_cvmat(self, inputs):
        """
        inputs:输入数据 [None,448,448,3]
        return : 返回目标检测的结果,每一个元素对应一个测试图片,每个元素包含着若干个边界框
        """
        # 返回网络最后一层,激活函数处理之前的值,shape = [None,1470]
        net_output = self.sess.run(self.net.logits,
                                   feed_dict={self.net.images: inputs})
        results = []
        # 对网络输出每一行数据进行处理
        for i in range(net_output.shape[0]):
            results.append(self.interpret_output(net_output[i]))

        return results # 返回处理后的结果

    def interpret_output(self, output):
        """
        对yolov1网络输出进行处理
        args:
            output :yolo网络输出的每一行数据,大小为[1470,]
            0：7*7*20 表示的是预测类别
            7*7*20 ： 7*7*20 + 7*7*2 表示预测置信度,即预测的边界框与实际边界框之间的IOU
            7*7*20 + 7*7*2 ： 1470  表示预测边界框 目标中心是相对当前网格的,宽度和高度的开根号是相对于当前整张图片的(归一化)
        return :
            result : yolo网络目标检测到的边界框,list类型,每一个元素对应一个目标框
                    包含(类别名,x_center,y_center,w,h,置信度) 实际上这个置信度是yolo网络输出的置信度confidence和预测对应的类别概率的乘积
        """
        probs = np.zeros((self.cell_size, self.cell_size,
                          self.boxes_per_cell, self.num_class)) # shape [7,7,2,20]
        class_probs = np.reshape(
            output[0:self.boundary1],
            (self.cell_size, self.cell_size, self.num_class)) # 类别概率 [7,7,20]
        scales = np.reshape(
            output[self.boundary1:self.boundary2],
            (self.cell_size, self.cell_size, self.boxes_per_cell)) # 置信度 [7,7,2]
        boxes = np.reshape(
            output[self.boundary2:],
            (self.cell_size, self.cell_size, self.boxes_per_cell, 4)) # 边界框 [7,7,2,4]
        offset = np.array( # [14,7] 每一行都是[0,1,2,3,4,5,6]
            [np.arange(self.cell_size)] * self.cell_size * self.boxes_per_cell)
        offset = np.transpose( # [7,7,2] 每一行都是[[0,0],[1,1],[2,2],[3,3],[4,4],[5,5],[6,6]]
            np.reshape(
                offset,
                [self.boxes_per_cell, self.cell_size, self.cell_size]),
            (1, 2, 0))

        # 目标中心是相对于当前网格的
        boxes[:, :, :, 0] += offset
        boxes[:, :, :, 1] += np.transpose(offset, (1, 0, 2))
        boxes[:, :, :, :2] = 1.0 * boxes[:, :, :, 0:2] / self.cell_size

        # 宽度,高度相对于整张图片
        boxes[:, :, :, 2:] = np.square(boxes[:, :, :, 2:])

        boxes *= self.image_size # 转换成实际的边界框(没有归一化)

        # 遍历每一个边界框的置信度
        for i in range(self.boxes_per_cell):
            # 遍历每一个类别
            for j in range(self.num_class):
                # 在测试时,乘以条件概率和单个盒子的置信度,这些分数编码了j类出现在框i中的概率以及预测框拟合目标的程度
                probs[:, :, i, j] = np.multiply(
                    class_probs[:, :, j], scales[:, :, i])
        # [7,7,2,20] 如果第i个边界框检测到类别j,且概率大于阈值,则[:,:,i,j] = 1
        filter_mat_probs = np.array(probs >= self.threshold, dtype='bool')
        # 返回filter_mat_probs非0值的索引,返回4个List,每个List长度为n,即检测到的边界框的个数
        filter_mat_boxes = np.nonzero(filter_mat_probs)
        # 获取检测到目标的边界框 [n,4] n表示边界框个数
        boxes_filtered = boxes[filter_mat_boxes[0],
                               filter_mat_boxes[1], filter_mat_boxes[2]]
        # 获取检测到目标的边界框的置信度 [n,]
        probs_filtered = probs[filter_mat_probs]
        # 获取检测到的目标的边界框对应的类别 [n,]
        classes_num_filtered = np.argmax(
            filter_mat_probs, axis=3)[
            filter_mat_boxes[0], filter_mat_boxes[1], filter_mat_boxes[2]]
        # 按照置信度倒序排序,返回对应的索引
        argsort = np.array(np.argsort(probs_filtered))[::-1]
        boxes_filtered = boxes_filtered[argsort]
        probs_filtered = probs_filtered[argsort]
        classes_num_filtered = classes_num_filtered[argsort]

        for i in range(len(boxes_filtered)):
            if probs_filtered[i] == 0:
                continue
            for j in range(i + 1, len(boxes_filtered)):
                # 计算n个边界框,两两之间的IOU是否大于阈值,进行非极大抑制
                if self.iou(boxes_filtered[i], boxes_filtered[j]) > self.iou_threshold:
                    probs_filtered[j] = 0.0
        # 非极大抑制后的输出
        filter_iou = np.array(probs_filtered > 0.0, dtype='bool')
        boxes_filtered = boxes_filtered[filter_iou]
        probs_filtered = probs_filtered[filter_iou]
        classes_num_filtered = classes_num_filtered[filter_iou]

        result = []
        # 遍历每一框
        for i in range(len(boxes_filtered)):
            result.append(
                [self.classes[classes_num_filtered[i]], # 类别名
                 boxes_filtered[i][0], # x_center
                 boxes_filtered[i][1], # y_center
                 boxes_filtered[i][2], # w
                 boxes_filtered[i][3], # h
                 probs_filtered[i]]) # 置信度

        return result

    def iou(self, box1, box2): # 计算两个边界框的IOU
        tb = min(box1[0] + 0.5 * box1[2], box2[0] + 0.5 * box2[2]) - \
            max(box1[0] - 0.5 * box1[2], box2[0] - 0.5 * box2[2]) # 公共部分的宽
        lr = min(box1[1] + 0.5 * box1[3], box2[1] + 0.5 * box2[3]) - \
            max(box1[1] - 0.5 * box1[3], box2[1] - 0.5 * box2[3]) # 公共部分的高
        inter = 0 if tb < 0 or lr < 0 else tb * lr
        return inter / (box1[2] * box1[3] + box2[2] * box2[3] - inter) # 返回IOU

    def camera_detector(self, cap, wait=10):
        """打开摄像头,实时检测"""
        detect_timer = Timer() # 测试时间
        ret, _ = cap.read() # 读取一帧

        while ret:
            ret, frame = cap.read() # 读取一帧
            detect_timer.tic() # 测试开始时间
            result = self.detect(frame)
            detect_timer.toc() # 测试结束时间
            print('Average detecting time: {:.3f}s'.format(
                detect_timer.average_time))

            self.draw_result(frame, result) # 绘制边界框以及添加附加信息
            # 显示
            cv2.imshow('Camera', frame)
            cv2.waitKey(wait)

            ret, frame = cap.read() # 读取下一帧

    def image_detector(self, imname, wait=0):
        """对图片进行检测"""
        detect_timer = Timer() # 计时
        image = cv2.imread(imname) # 读取图片

        detect_timer.tic() # 测试开始计时
        result = self.detect(image) # 开始测试,返回测试后的结果
        detect_timer.toc() # 测试结束计时
        print('Average detecting time: {:.3f}s'.format(
            detect_timer.average_time))

        self.draw_result(image, result)
        cv2.imshow('Image', image)
        cv2.waitKey(wait)


def main():
    # 定义超参数
    parser = argparse.ArgumentParser()
    parser.add_argument('--weights', default="YOLO_small.ckpt", type=str) # 保存的训练好的模型
    parser.add_argument('--weight_dir', default='weights', type=str)
    parser.add_argument('--data_dir', default="data", type=str)
    parser.add_argument('--gpu', default='0', type=str)
    args = parser.parse_args()

    os.environ['CUDA_VISIBLE_DEVICES'] = args.gpu # 指定GPU进行测试

    yolo = YOLONet(False) # 得到YOLOv1网络
    weight_file = os.path.join(args.data_dir, args.weight_dir, args.weights) # 权重文件保存的路径
    detector = Detector(yolo, weight_file)

    # detect from camera
    # cap = cv2.VideoCapture(-1)
    # detector.camera_detector(cap)

    # detect from image file
    imname = 'test/person.jpg'
    detector.image_detector(imname)


if __name__ == '__main__':
    main()

以上便是个人对YOLOv1代码的理解，注释中如有不当的地方，还请各位指出！

你可能感兴趣的:(目标检测,神经网络,CNN,TensorFlow,深度学习,tensorflow,神经网络)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo