L 学习ing

yoloV3代码详解（注释）

原文链接:https://www.cnblogs.com/hujinzhou/p/guobao_2020_3_13.html

yolo3各部分代码详解（超详细）

        
        
        
            

    yolo3各部分代码详解（超详细）,各个函数的解析

0.摘要

最近一段时间在学习yolo3，看了很多博客，理解了一些理论知识，但是学起来还是有些吃力，之后看了源码，才有了更进一步的理解。在这里，我不在赘述网络方面的代码，网络方面的代码比较容易理解，下面将给出整个yolo3代码的详解解析，整个源码中函数的作用以及调用关系见下图：

参考：https://blog.csdn.net/weixin_41943311/article/details/95672137?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

1.model.py

1.1 yolo_head()

yolo_head()函数的输入是Darknet53的最后输出的三个特征图feats，anchors，num_class,input_shpe，此函数的功能是将特征图的进行解码，这一步极为重要，如其中一个特征图的shape是（13,13,255），其实质就是对应着（13,13,3,85）,分别对应着13*13个网格，每个网格3个anchors，85=（x，y，w，h，confident）,此时box的xy是相对于网格的偏移量，所以还需要经过一些列的处理，处理方式见下图：

def yolo_head(feats, anchors, num_classes, input_shape, calc_loss=False):
    """Convert final layer features to bounding box parameters."""
    num_anchors = len(anchors)#num_anchors=3
    # Reshape to batch, height, width, num_anchors, box_params.
    anchors_tensor = K.reshape(K.constant(anchors), [1, 1, 1, num_anchors, 2])
    #anchors=anchors[anchors_mask[1]]=anchors[[6,7,8]]= [116,90],  [156,198],  [373,326]
    """#通过arange、reshape、tile的组合，根据grid_shape(13x13、26x26或52x52）创建y轴的0~N-1的组合grid_y，再创建x轴的0~N-1的组合grid_x，将两者拼接concatenate，形成NxN的grid(13x13、26x26或52x52）"""
    grid_shape = K.shape(feats)[1:3] # height, width,#13x13或26x26或52x52
    grid_y = K.tile(K.reshape(K.arange(0, stop=grid_shape[0]), [-1, 1, 1, 1]),
        [1, grid_shape[1], 1, 1])
    grid_x = K.tile(K.reshape(K.arange(0, stop=grid_shape[1]), [1, -1, 1, 1]),
        [grid_shape[0], 1, 1, 1])
    grid = K.concatenate([grid_x, grid_y])
    grid = K.cast(grid, K.dtype(feats))
    #cast函数用法：cast(x, dtype, name=None)，x:待转换的张量，type：需要转换成什么类型
    """grid形式：（0,0），（0,1），（0,2）......(1,0),(1,1).....(12,12)"""
    feats = K.reshape(
        feats, [-1, grid_shape[0], grid_shape[1], num_anchors, num_classes + 5])
    """(batch_size,13,13,3,85)"""
    "此时的xy为中心坐标，相对于左上角的中心坐标"
# Adjust preditions to each spatial grid point and anchor size.
"""将预测值调整为真实值"""
"将中心点相对于网格的坐标转换成在整张图片中的坐标，相对于13/26/52的相对坐标"
"将wh转换成预测框的wh，并处以416归一化"
box_xy = (K.sigmoid(feats[..., :2]) + grid) / K.cast(grid_shape[::-1], K.dtype(feats))#实际上就是除以13或26或52
#box_xy = (K.sigmoid(feats[:,:,:,:2]) + grid) / K.cast(grid_shape[::-1], K.dtype(feats))
# ...操作符，在Python中，“...”(ellipsis)操作符，表示其他维度不变，只操作最前或最后1维；
box_wh = K.exp(feats[..., 2:4]) * anchors_tensor / K.cast(input_shape[::-1], K.dtype(feats))
box_confidence = K.sigmoid(feats[..., 4:5])
box_class_probs = K.sigmoid(feats[..., 5:])
#切片省略号的用法，省略前面左右的冒号，参考博客：https://blog.csdn.net/z13653662052/article/details/78010654?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

if calc_loss == True:
    return grid, feats, box_xy, box_wh
return box_xy, box_wh, box_confidence, box_class_probs
#预测框相对于整张图片中心点的坐标与预测框的wh

1.2 yolo_correct_box()

此函数的功能是将yolo_head()输出，也即是box相对于整张图片的中心坐标转换成box的左上角右下角的坐标

 1 def yolo_correct_boxes(box_xy, box_wh, input_shape, image_shape):
 2     '''Get corrected boxes'''
 3     '''对上面函数输出的预测的坐标进行修正
 4     比如
 5     image_shape
 6     为[600，800]，input_shape
 7     为[300, 500]，那么
 8     new_shape
 9     为[300, 400]
10 
11     offset
12     为[0, 0.125]
13     scales
14     为[0.5, 0.625]'''
15 
16 
17     # 将box_xy, box_wh转换为输入图片上的真实坐标，输出boxes是框的左下、右上两个坐标(y_min, x_min, y_max, x_max)
18     # ...操作符，在Python中，“...”(ellipsis)操作符，表示其他维度不变，只操作最前或最后1维；
19     # np.array[i:j:s]，当s<0时，i缺省时，默认为-1；j缺省时，默认为-len(a)-1；所以array[::-1]相当于array[-1:-len(a)-1:-1]，也就是从最后一个元素到第一个元素复制一遍，即倒序
20     box_yx = box_xy[..., ::-1]#将xy坐标进行交换，反序（y，x）
21     box_hw = box_wh[..., ::-1]
22     input_shape = K.cast(input_shape, K.dtype(box_yx))
23     image_shape = K.cast(image_shape, K.dtype(box_yx))
24     new_shape = K.round(image_shape * K.min(input_shape/image_shape))
25     #.round用于取近似值，保留几位小数，第一个参数是一个浮点数，第二个参数是保留的小数位数，可选，如果不写的话默认保留到整数
26     offset = (input_shape-new_shape)/2./input_shape
27     scale = input_shape/new_shape
28     box_yx = (box_yx - offset) * scale
29     box_hw *= scale
30     """获得预测框的左上角与右下角的坐标"""
31     box_mins = box_yx - (box_hw / 2.)
32     box_maxes = box_yx + (box_hw / 2.)
33     boxes =  K.concatenate([
34         box_mins[..., 0:1],  # y_min
35         box_mins[..., 1:2],  # x_min
36         box_maxes[..., 0:1],  # y_max
37         box_maxes[..., 1:2]  # x_max
38     ])#...操作符，在Python中，“...”(ellipsis)操作符，表示其他维度不变，只操作最前或最后1维；
39 
40     # Scale boxes back to original image shape.
41     boxes *= K.concatenate([image_shape, image_shape])
42     return boxes#得到预测框的左下角坐标与右上角坐标

1.3 yolo_box_and_score

获得box与得分

1 def yolo_boxes_and_scores(feats, anchors, num_classes, input_shape, image_shape):
2     '''Process Conv layer output'''
3     box_xy, box_wh, box_confidence, box_class_probs = yolo_head(feats,
4         anchors, num_classes, input_shape)
5     boxes = yolo_correct_boxes(box_xy, box_wh, input_shape, image_shape)
6     boxes = K.reshape(boxes, [-1, 4])#reshape,将不同网格的值转换为框的列表。即（?,13,13,3,4）->(?,4)  ？：框的数目
7     box_scores = box_confidence * box_class_probs
8     box_scores = K.reshape(box_scores, [-1, num_classes])#reshape,将框的得分展平，变为(?,80); ?:框的数目
9     return boxes, box_scores#返回预测框的左下角与右上角的坐标与得分

1.4 yolo_eval()

此函数的作用是删除冗余框，保留最优框，用到非极大值抑制算法

 1 def yolo_eval(yolo_outputs,
 2               anchors,
 3               num_classes,
 4               image_shape,
 5               max_boxes=20,
 6               score_threshold=.6,
 7               iou_threshold=.5):
 8     """Evaluate YOLO model on given input and return filtered boxes."""
 9     """      yolo_outputs        #模型输出，格式如下【（?，13,13,255）（?，26,26,255）（?,52,52,255）】 ?:bitch size; 13-26-52:多尺度预测； 255：预测值（3*（80+5））
10               anchors,            #[(10,13), (16,30), (33,23), (30,61), (62,45), (59,119), (116,90), (156,198),(373,326)]
11               num_classes,　　　　 # 类别个数，coco集80类
12               image_shape,        #placeholder类型的TF参数，默认(416, 416)；
13               max_boxes=20,       #每张图每类最多检测到20个框同类别框的IoU阈值，大于阈值的重叠框被删除，重叠物体较多，则调高阈值，重叠物体较少，则调低阈值
14               score_threshold=.6, #框置信度阈值，小于阈值的框被删除，需要的框较多，则调低阈值，需要的框较少，则调高阈值；
15               iou_threshold=.5):  #同类别框的IoU阈值，大于阈值的重叠框被删除，重叠物体较多，则调高阈值，重叠物体较少，则调低阈值"""
16     num_layers = len(yolo_outputs)# #yolo的输出层数；num_layers = 3  -> 13-26-52
17     anchor_mask = [[6,7,8], [3,4,5], [0,1,2]] if num_layers==3 else [[3,4,5], [1,2,3]] # default setting
18     # 每层分配3个anchor box.如13*13分配到[6,7,8]即[（116,90）（156,198）（373,326）]
19     input_shape = K.shape(yolo_outputs[0])[1:3] * 32
20     # 输入shape(?,13,13,255);即第一维和第二维分别*32  ->13*32=416; input_shape:(416,416)
21     #yolo_outputs=[(batch_size，13,13,255)，(batch_size，26,26,255)，(batch_size，52,52,255)]
22     #input_shape=416*416
23     boxes = []
24     box_scores = []
25     for l in range(num_layers):
26         _boxes, _box_scores = yolo_boxes_and_scores(yolo_outputs[l],
27             anchors[anchor_mask[l]], num_classes, input_shape, image_shape)
28         boxes.append(_boxes)
29         box_scores.append(_box_scores)
30     boxes = K.concatenate(boxes, axis=0)
31     box_scores = K.concatenate(box_scores, axis=0) #K.concatenate:将数据展平 ->(?,4)
32 
33     #可能会产生很多个预选框，需要经过（1）阈值的删选，（2）非极大值抑制的删选
34     mask = box_scores >= score_threshold#得分大于置信度为True,否则为Flase
35     max_boxes_tensor = K.constant(max_boxes, dtype='int32')
36     boxes_ = []
37     scores_ = []
38     classes_ = []
39     """
40     # ---------------------------------------#
41     #   1、取出每一类得分大于score_threshold
42     #   的框和得分
43     #   2、对得分进行非极大抑制
44     # ---------------------------------------#
45     # 对每一个类进行判断"""
46     for c in range(num_classes):
47         # TODO: use keras backend instead of tf.
48         class_boxes = tf.boolean_mask(boxes, mask[:, c])#将输入的数组挑出想要的数据输出，将得分大于阈值的坐标挑选出来
49         #将第c类中得分大于阈值的坐标挑选出来
50         class_box_scores = tf.boolean_mask(box_scores[:, c], mask[:, c])
51         # 将第c类中得分大于阈值的框挑选出来
52         """非极大值抑制部分"""
53         # 非极大抑制，去掉box重合程度高的那一些
54         """原理：(1)从最大概率矩形框F开始，分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;
55 
56                 (2)假设B、D与F的重叠度超过阈值，那么就扔掉B、D；并标记第一个矩形框F，是我们保留下来的。
57 
58                 (3)从剩下的矩形框A、C、E中，选择概率最大的E，然后判断E与A、C的重叠度，重叠度大于一定的阈值，那么就扔掉；并标记E是我们保留下来的第二个矩形框。
59 
60                 就这样一直重复，找到所有被保留下来的矩形框。"""
61         nms_index = tf.image.non_max_suppression(
62             class_boxes, class_box_scores, max_boxes_tensor, iou_threshold=iou_threshold)
63         class_boxes = K.gather(class_boxes, nms_index)
64         class_box_scores = K.gather(class_box_scores, nms_index)
65         classes = K.ones_like(class_box_scores, 'int32') * c#将class_box_scores中的数变成1
66         boxes_.append(class_boxes)
67         scores_.append(class_box_scores)
68         classes_.append(classes)
69     boxes_ = K.concatenate(boxes_, axis=0)
70     scores_ = K.concatenate(scores_, axis=0)
71     classes_ = K.concatenate(classes_, axis=0)
72     #return 经过非极大值抑制保留下来的一个框
73 
74     return boxes_, scores_, classes_

1.5 preprocess_true_box()

  1 def preprocess_true_boxes(true_boxes, input_shape, anchors, num_classes):
  2     '''
  3     在preprocess_true_boxes中，输入：
  4 
  5     true_boxes：检测框，批次数16，最大框数20，每个框5个值，4个边界点和1个类别序号，如(16, 20, 5)；
  6     input_shape：图片尺寸，如(416, 416)；
  7     anchors：anchor box列表；
  8     num_classes：类别的数量；
  9     Preprocess true boxes to training input format
 10 
 11     Parameters
 12     ----------
 13     true_boxes: array, shape=(m, T, 5)
 14         Absolute x_min, y_min, x_max, y_max, class_id relative to input_shape.
 15     input_shape: array-like, hw, multiples of 32
 16     anchors: array, shape=(N, 2), wh
 17     num_classes: integer
 18 
 19     Returns
 20     -------
 21     y_true: list of array, shape like yolo_outputs, xywh are reletive value
 22 
 23     '''
 24     # 检查有无异常数据 即txt提供的box id 是否存在大于 num_class的情况
 25     # true_boxes.shape  = (图片张数，每张图片box个数，5)（5是左上右下点坐标加上类别下标）
 26     assert (true_boxes[..., 4]'class id must be less than num_classes'
 27     num_layers = len(anchors)//3 # default setting
 28     anchor_mask = [[6,7,8], [3,4,5], [0,1,2]] if num_layers==3 else [[3,4,5], [1,2,3]]
 29 
 30     true_boxes = np.array(true_boxes, dtype='float32')
 31     input_shape = np.array(input_shape, dtype='int32')    # [416 416] shape(2,)
 32     # 将每个box的左上点和右下点坐标相加除2，即取中点！
 33     """计算true_boxes：
 34 
 35        true_boxes：真值框，左上和右下2个坐标值和1个类别，如[184, 299, 191, 310, 0.0]，结构是(16, 20, 5)，16是批次数，20是框的最大数，5是框的5个值；
 36        boxes_xy：xy是box的中心点，结构是(16, 20, 2)；
 37        boxes_wh：wh是box的宽和高，结构也是(16, 20, 2)；
 38        input_shape：输入尺寸416x416；
 39        true_boxes：第0和1位设置为xy，除以416，归一化，第2和3位设置为wh，除以416，归一化，如[0.449, 0.730, 0.016, 0.026, 0.0]。"""
 40     boxes_xy = (true_boxes[..., 0:2] + true_boxes[..., 2:4]) // 2
 41     # 得到box宽高
 42     boxes_wh = true_boxes[..., 2:4] - true_boxes[..., 0:2]
 43     # 中心坐标 和 宽高 都变成 相对于input_shape的比例
 44     true_boxes[..., 0:2] = boxes_xy/input_shape[::-1]
 45     true_boxes[..., 2:4] = boxes_wh/input_shape[::-1]
 46     # 这个m应该是batch的大小 即是输入图片的数量
 47     m = true_boxes.shape[0]
 48     # grid_shape [13,13 ]   [26,26]  [52,52]
 49     grid_shapes = [input_shape//{0:32, 1:16, 2:8}[l] for l in range(num_layers)]
 50     #y_true是全0矩阵（np.zeros）列表，即[(16,13,13,3,6), (16,26,26,3,6), (16,52,52,3,6)]
 51     y_true = [np.zeros((m,grid_shapes[l][0],grid_shapes[l][1],len(anchor_mask[l]),5+num_classes),
 52         dtype='float32') for l in range(num_layers)]
 53     # y_true  m*13*13*3*(5+num_clasess)
 54     #         m*26*26*3*(5+num_classes)
 55     #         m*52*52*3*(5+num_classes)
 56     # Expand dim to apply broadcasting.
 57 
 58     # Expand dim to apply broadcasting.
 59     #在原先axis出添加一个维度,由(9,2)转为(1,9,2)
 60     anchors = np.expand_dims(anchors, 0)
 61     # 网格中心为原点（即网格中心坐标为 （0,0） ）,　计算出anchor 右下角坐标
 62     anchor_maxes = anchors / 2.
 63     #计算出左上标
 64     anchor_mins = -anchor_maxes
 65     # 去掉异常数据
 66     valid_mask = boxes_wh[..., 0]>0
 67 
 68     for b in range(m):
 69         # Discard zero rows.
 70         wh = boxes_wh[b, valid_mask[b]]
 71         if len(wh)==0: continue
 72         # Expand dim to apply broadcasting.
 73         wh = np.expand_dims(wh, -2)
 74         box_maxes = wh / 2.
 75         box_mins = -box_maxes
 76         # # 假设　bouding box 的中心也位于网格的中心
 77 
 78         """计算标注框box与anchor box的iou值，计算方式很巧妙：
 79 
 80         box_mins的shape是(7,1,2)，anchor_mins的shape是(1,9,2)，intersect_mins的shape是(7,9,2)，即两两组合的值；
 81         intersect_area的shape是(7,9)；
 82         box_area的shape是(7,1)；
 83         anchor_area的shape是(1,9)；
 84         iou的shape是(7,9)；
 85         IoU数据，即anchor box与检测框box，两两匹配的iou值"""
 86         intersect_mins = np.maximum(box_mins, anchor_mins)#逐位比较
 87         intersect_maxes = np.minimum(box_maxes, anchor_maxes)
 88         intersect_wh = np.maximum(intersect_maxes - intersect_mins, 0.)
 89         intersect_area = intersect_wh[..., 0] * intersect_wh[..., 1]#宽*高
 90         box_area = wh[..., 0] * wh[..., 1]
 91         anchor_area = anchors[..., 0] * anchors[..., 1]
 92         iou = intersect_area / (box_area + anchor_area - intersect_area)
 93 
 94         # Find best anchor for each true box
 95         best_anchor = np.argmax(iou, axis=-1)
 96 
 97         """设置y_true的值：
 98 
 99            t是box的序号；n是最优anchor的序号；l是层号；
100            如果最优anchor在层l中，则设置其中的值，否则默认为0；
101            true_boxes是(16, 20, 5)，即批次、box数、框值；
102            true_boxes[b, t, 0]，其中b是批次序号、t是box序号，第0位是x，第1位是y；
103            grid_shapes是3个检测图的尺寸，将归一化的值，与框长宽相乘，恢复为具体值；
104            k是在anchor box中的序号；
105            c是类别，true_boxes的第4位；
106            将xy和wh放入y_true中，将y_true的第4位框的置信度设为1，将y_true第5~n位的类别设为1；"""
107         for t, n in enumerate(best_anchor):
108             # 遍历anchor 尺寸 3个尺寸
109             # 因为此时box 已经和一个anchor box匹配上，看这个anchor box属于那一层，小，中，大，然后将其box分配到那一层
110             for l in range(num_layers):
111                 if n in anchor_mask[l]:
112                     #因为grid_shape格式是hw所以是x*grid_shapes[l][1]=x*w，求出对应所在网格的横坐标，这里的x是相对于整张图片的相对坐标，
113                     # 是在原先坐标上除以了w，所以现在要乘以w
114                     i = np.floor(true_boxes[b,t,0]*grid_shapes[l][1]).astype('int32')
115                     #np.around 四舍五入
116                     #np.floor向下取整
117                     #np.ceil向上取整
118                     #np.where条件选取
119                     # np.floor 返回不大于输入参数的最大整数。 即对于输入值 x ，将返回最大的整数 i ，使得 i <= x。
120                     # true_boxes x,y,w,h, 此时x y w h都是相对于整张图像的
121                     # 第b个图像 第 t个 bounding box的 x 乘以 第l个grid shap的x（grid shape 格式是hw，
122                     # 因为input_shape格式是hw）
123                     # 找到这个bounding box落在哪个cell的中心
124                     #i，j是所在网格的位置
125                     j = np.floor(true_boxes[b,t,1]*grid_shapes[l][0]).astype('int32')
126                     # 找到n 在 anchor_box的索引位置
127                     k = anchor_mask[l].index(n)
128                     # 得到box的id
129                     c = true_boxes[b,t, 4].astype('int32')
130                     # 第b个图像 第j行 i列 第k个anchor x，y，w，h,confindence,类别概率
131                     y_true[l][b, j, i, k, 0:4] = true_boxes[b,t, 0:4]
132                     y_true[l][b, j, i, k, 4] = 1
133                     # 置信度是1 因为含有目标
134                     y_true[l][b, j, i, k, 5+c] = 1
135                     # 类别的one-hot编码
136 
137     return y_true

1.6 yolo_loss

此函数定义损失函数，损失函数包括三个部分，坐标损失，置信度损失，类别损失：

 1 def yolo_loss(args, anchors, num_classes, ignore_thresh=.5, print_loss=False):
 2     """true_boxes : 实际框的位置和类别，我们的输入。三个维度：
 3     第一个维度：图片张数
 4     第二个维度：一张图片中有几个实际框
 5     第三个维度： [x, y, w, h, class]，x,y 是实际框的中心点坐标，w,h 是框的宽度和高度。x,y,w,h 均是除以图片分辨率得到的[0,1]范围的值。
 6     anchors : 实际anchor boxes 的值，论文中使用了五个。[w,h]，都是相对于gird cell 长宽的比值。二个维度：
 7     第一个维度：anchor boxes的数量，这里是5
 8     第二个维度：[w,h]，w,h,都是相对于gird cell 长宽的比值。
 9     """
10     '''Return yolo_loss tensor
11 
12     Parameters
13     ----------
14     yolo_outputs: list of tensor, the output of yolo_body or tiny_yolo_body
15     y_true: list of array, the output of preprocess_true_boxes
16     anchors: array, shape=(N, 2), wh
17     num_classes: integer
18     ignore_thresh: float, the iou threshold whether to ignore object confidence loss
19 
20     Returns
21     -------
22     loss: tensor, shape=(1,)
23 
24     '''
25     num_layers = len(anchors)//3 # default setting
26     yolo_outputs = args[:num_layers]
27     y_true = args[num_layers:]
28     anchor_mask = [[6,7,8], [3,4,5], [0,1,2]] if num_layers==3 else [[3,4,5], [1,2,3]]
29     input_shape = K.cast(K.shape(yolo_outputs[0])[1:3] * 32, K.dtype(y_true[0]))
30     grid_shapes = [K.cast(K.shape(yolo_outputs[l])[1:3], K.dtype(y_true[0])) for l in range(num_layers)]
31     loss = 0
32     m = K.shape(yolo_outputs[0])[0] # batch size, tensor
33     mf = K.cast(m, K.dtype(yolo_outputs[0]))
34 
35     for l in range(num_layers):
36         object_mask = y_true[l][..., 4:5]#置信度
37         true_class_probs = y_true[l][..., 5:]#类别
38 
39         grid, raw_pred, pred_xy, pred_wh = yolo_head(yolo_outputs[l],
40              anchors[anchor_mask[l]], num_classes, input_shape, calc_loss=True)
41         pred_box = K.concatenate([pred_xy, pred_wh])
42 
43         # Darknet raw box to calculate loss.
44         # 这是对x,y,w,b转换公式的反变换
45         raw_true_xy = y_true[l][..., :2]*grid_shapes[l][::-1] - grid
46         raw_true_wh = K.log(y_true[l][..., 2:4] / anchors[anchor_mask[l]] * input_shape[::-1])
47         # 这部操作是避免出现log(0) = 负无穷，故当object_mask置信率接近0是返回全0结果
48         # K.switch(条件函数，返回值1，返回值2)其中1,2要等shape
49         raw_true_wh = K.switch(object_mask, raw_true_wh, K.zeros_like(raw_true_wh)) # avoid log(0)=-inf
50         #提升针对小物体的小技巧：针对 YOLOv3来说，regression损失会乘一个（2-w*h）的比例系数，
51         # w 和 h 分别是ground truth 的宽和高。如果不减去 w*h，AP 会有一个明显下降。如果继续往上加，如 (2-w*h)*1.5，总体的 AP 还会涨一个点左右（包括验证集和测试集），大概是因为 COCO 中小物体实在太多的原因。
52 
53         box_loss_scale = 2 - y_true[l][...,2:3]*y_true[l][...,3:4]
54 
55         # Find ignore mask, iterate over each of batch.
56         ignore_mask = tf.TensorArray(K.dtype(y_true[0]), size=1, dynamic_size=True)
57         object_mask_bool = K.cast(object_mask, 'bool')
58         ##将真实标定的数据置信率转换为T or F的掩膜
59 
60         def loop_body(b, ignore_mask):
61             true_box = tf.boolean_mask(y_true[l][b,...,0:4], object_mask_bool[b,...,0])#挑选出置信度大于0的框的相应的坐标，truebox形式为中心坐标xy与hw
62 
63             iou = box_iou(pred_box[b], true_box)#计算iou，pre_box是通过yolo_head解码之后的xywh
64             best_iou = K.max(iou, axis=-1)#选取最大iou的
65             ignore_mask = ignore_mask.write(b, K.cast(best_iou<ignore_thresh, K.dtype(true_box)))
66             return b+1, ignore_mask
67         _, ignore_mask = K.control_flow_ops.while_loop(lambda b,*args: b<m, loop_body, [0, ignore_mask])
68         ignore_mask = ignore_mask.stack()#将一个列表中维度数目为R的张量堆积起来形成维度为R+1的新张量
69         ignore_mask = K.expand_dims(ignore_mask, -1)
70 
71         # K.binary_crossentropy is helpful to avoid exp overflow.
72         xy_loss = object_mask * box_loss_scale * K.binary_crossentropy(raw_true_xy, raw_pred[...,0:2], from_logits=True)
73         wh_loss = object_mask * box_loss_scale * 0.5 * K.square(raw_true_wh-raw_pred[...,2:4])
74         confidence_loss = object_mask * K.binary_crossentropy(object_mask, raw_pred[...,4:5], from_logits=True)+ \
75             (1-object_mask) * K.binary_crossentropy(object_mask, raw_pred[...,4:5], from_logits=True) * ignore_mask
76         class_loss = object_mask * K.binary_crossentropy(true_class_probs, raw_pred[...,5:], from_logits=True)
77 
78         xy_loss = K.sum(xy_loss) / mf
79         wh_loss = K.sum(wh_loss) / mf
80         confidence_loss = K.sum(confidence_loss) / mf
81         class_loss = K.sum(class_loss) / mf
82         loss += xy_loss + wh_loss + confidence_loss + class_loss
83         if print_loss:
84             loss = tf.Print(loss, [loss, xy_loss, wh_loss, confidence_loss, class_loss, K.sum(ignore_mask)], message='loss: ')
85     return loss

2.train.py

整个训练分为两个阶段，第一个阶段为0~50epoch，训练最后的loss层，前面的层被冻结，第二个阶段为50~100个epoch训练前面的层

  1 def _main():
  2     annotation_path = '2007_train.txt'
  3     log_dir = 'logs/000/'
  4     classes_path = 'model_data/voc_classes.txt'
  5     anchors_path = 'model_data/yolo_anchors.txt'
  6     class_names = get_classes(classes_path)
  7     num_classes = len(class_names)
  8     anchors = get_anchors(anchors_path)
  9 
 10     input_shape = (416,416) # multiple of 32, hw
 11 
 12     is_tiny_version = len(anchors)==6 # default setting
 13     if is_tiny_version:
 14         model = create_tiny_model(input_shape, anchors, num_classes,
 15             freeze_body=2, weights_path='model_data/tiny_yolo_weights.h5')
 16     else:
 17         model = create_model(input_shape, anchors, num_classes,
 18             freeze_body=2, weights_path='model_data/yolo_weights.h5') # make sure you know what you freeze
 19 
 20     logging = TensorBoard(log_dir=log_dir)
 21     checkpoint = ModelCheckpoint(log_dir + 'ep{epoch:03d}-loss{loss:.3f}-val_loss{val_loss:.3f}.h5',
 22         monitor='val_loss', save_weights_only=True, save_best_only=True, period=3)
 23     reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.1, patience=3, verbose=1)
 24     """monitor：被监测的量
 25        factor：每次减少学习率的因子，学习率将以lr = lr*factor的形式被减少
 26        patience：当patience个epoch过去而模型性能不提升时，学习率减少的动作会被触发
 27        mode：‘auto’，‘min’，‘max’之一，在min模式下，如果检测值触发学习率减少。在max模式下，当检测值不再上升则触发学习率减少。
 28        epsilon：阈值，用来确定是否进入检测值的“平原区”
 29        cooldown：学习率减少后，会经过cooldown个epoch才重新进行正常操作
 30        min_lr：学习率的下限"""
 31     early_stopping = EarlyStopping(monitor='val_loss', min_delta=0, patience=10, verbose=1)
 32     """monitor: 被监测的数据。
 33        min_delta: 在被监测的数据中被认为是提升的最小变化， 例如，小于 min_delta 的绝对变化会被认为没有提升。
 34        patience: 没有进步的训练轮数，在这之后训练就会被停止。
 35        verbose: 详细信息模式。
 36        mode: {auto, min, max} 其中之一。 在 min 模式中， 当被监测的数据停止下降，训练就会停止；在 max 模式中，当被监测的数据停止上升，训练就会停止；在 auto 模式中，方向会自动从被监测的数据的名字中判断出来。
 37        baseline: 要监控的数量的基准值。 如果模型没有显示基准的改善，训练将停止。
 38        restore_best_weights: 是否从具有监测数量的最佳值的时期恢复模型权重。 如果为 False，则使用在训练的最后一步获得的模型权重"""
 39 
 40     val_split = 0.1
 41     with open(annotation_path) as f:
 42         lines = f.readlines()
 43     np.random.seed(10101)
 44     np.random.shuffle(lines)
 45     np.random.seed(None)
 46     num_val = int(len(lines)*val_split)
 47     num_train = len(lines) - num_val
 48 
 49     # Train with frozen layers first, to get a stable loss.
 50     # Adjust num epochs to your dataset. This step is enough to obtain a not bad model.
 51     if True:
 52         model.compile(optimizer=Adam(lr=1e-3), loss={
 53             # use custom yolo_loss Lambda layer.
 54             # # 使用定制的 yolo_loss Lambda层
 55             'yolo_loss': lambda y_true, y_pred: y_pred})
 56         #解释：模型compile时传递的是自定义的loss，而把loss写成一个层融合到model里面后，
 57         # y_pred就是loss。自定义损失函数规定要以y_true, y_pred为参数
 58 
 59         batch_size = 32
 60         print('Train on {} samples, val on {} samples, with batch size {}.'.format(num_train, num_val, batch_size))
 61         model.fit_generator(data_generator_wrapper(lines[:num_train], batch_size, input_shape, anchors, num_classes),
 62                 steps_per_epoch=max(1, num_train//batch_size),
 63                 validation_data=data_generator_wrapper(lines[num_train:], batch_size, input_shape, anchors, num_classes),
 64                 validation_steps=max(1, num_val//batch_size),
 65                 epochs=50,
 66                 initial_epoch=0,
 67                 callbacks=[logging, checkpoint])
 68         model.save_weights(log_dir + 'trained_weights_stage_1.h5')
 69 
 70     # Unfreeze and continue training, to fine-tune.
 71     # Train longer if the result is not good.
 72     if True:
 73         for i in range(len(model.layers)):
 74             model.layers[i].trainable = True
 75         model.compile(optimizer=Adam(lr=1e-4), loss={'yolo_loss': lambda y_true, y_pred: y_pred}) # recompile to apply the change
 76         print('Unfreeze all of the layers.')
 77 
 78         batch_size = 32 # note that more GPU memory is required after unfreezing the body
 79         print('Train on {} samples, val on {} samples, with batch size {}.'.format(num_train, num_val, batch_size))
 80         model.fit_generator(data_generator_wrapper(lines[:num_train], batch_size, input_shape, anchors, num_classes),
 81             steps_per_epoch=max(1, num_train//batch_size),
 82             validation_data=data_generator_wrapper(lines[num_train:], batch_size, input_shape, anchors, num_classes),
 83             validation_steps=max(1, num_val//batch_size),
 84             epochs=100,
 85             initial_epoch=50,
 86             callbacks=[logging, checkpoint, reduce_lr, early_stopping])
 87         model.save_weights(log_dir + 'trained_weights_final.h5')
 88 
 89     # Further training if needed.
 90 
 91 
 92 def get_classes(classes_path):
 93     '''loads the classes'''
 94     with open(classes_path) as f:
 95         class_names = f.readlines()
 96     class_names = [c.strip() for c in class_names]
 97     return class_names
 98 
 99 def get_anchors(anchors_path):
100     '''loads the anchors from a file'''
101     with open(anchors_path) as f:
102         anchors = f.readline()
103     anchors = [float(x) for x in anchors.split(',')]
104     return np.array(anchors).reshape(-1, 2)
105 
106 
107 def create_model(input_shape, anchors, num_classes, load_pretrained=True, freeze_body=2,
108             weights_path='model_data/yolo_weights.h5'):
109     '''create the training model'''
110     K.clear_session() # get a new session
111     image_input = Input(shape=(None, None, 3))
112     h, w = input_shape
113     num_anchors = len(anchors)
114 
115     y_true = [Input(shape=(h//{0:32, 1:16, 2:8}[l], w//{0:32, 1:16, 2:8}[l], \
116         num_anchors//3, num_classes+5)) for l in range(3)]
117 
118     model_body = yolo_body(image_input, num_anchors//3, num_classes)
119     print('Create YOLOv3 model with {} anchors and {} classes.'.format(num_anchors, num_classes))
120 
121     if load_pretrained:
122         model_body.load_weights(weights_path, by_name=True, skip_mismatch=True)
123         print('Load weights {}.'.format(weights_path))
124         """根据预训练权重的地址weights_path，加载权重文件，设置参数为，按名称对应by_name，
125            略过不匹配skip_mismatch；
126 
127            选择冻结模式：模式1是冻结185层，模式2是保留最底部3层，其余全部冻结。
128            整个模型共有252层；将所冻结的层，设置为不可训练，trainable=False；"""
129         if freeze_body in [1, 2]:
130             # Freeze darknet53 body or freeze all but 3 output layers.
131             num = (185, len(model_body.layers)-3)[freeze_body-1]
132             for i in range(num): model_body.layers[i].trainable = False
133             print('Freeze the first {} layers of total {} layers.'.format(num, len(model_body.layers)))
134     """Lambda是Keras的自定义层，输入为model_body.output和y_true，输出output_shape是(1,)，即一个损失值；
135 
136        自定义Lambda层的名字name为yolo_loss；
137 
138        层的参数是锚框列表anchors、类别数num_classes和IoU阈值ignore_thresh。
139        其中，ignore_thresh用于在物体置信度损失中过滤IoU较小的框；
140 
141        yolo_loss是损失函数的核心逻辑。"""
142     model_loss = Lambda(yolo_loss, output_shape=(1,), name='yolo_loss',
143         arguments={'anchors': anchors, 'num_classes': num_classes, 'ignore_thresh': 0.5})(
144         [*model_body.output, *y_true])
145     """把loss写成一个层，作为最后的输出，搭建模型的时候，就只需要将模型的output定义为loss
146     ，而compile的时候，直接将loss设置为y_pred（因为模型的输出就是loss，所以y_pred就是loss），
147     无视y_true，训练的时候，y_true随便扔一个符合形状的数组进去就行了"""
148     #keras.layer.Lambda将任意表达式封装为 Layer 对象
149     #keras.layers.Lambda(function, output_shape=None, mask=None, arguments=None)
150     #function: 需要封装的函数。 将输入张量作为第一个参数。
151     # output_shape: 预期的函数输出尺寸。可以是元组或者函数。 如果是元组，它只指定第一个维度；
152     # arguments: 可选的。传递给函数function的关键字参数。
153 
154     model = Model([model_body.input, *y_true], model_loss)
155     #构建了以图片数据和图片标签（y_true）为输入，
156     # 模型损失（model_loss）为输出（y_pred）的模型 model。
157 
158     return model
159 
160 def create_tiny_model(input_shape, anchors, num_classes, load_pretrained=True, freeze_body=2,
161             weights_path='model_data/tiny_yolo_weights.h5'):
162     '''create the training model, for Tiny YOLOv3'''
163     K.clear_session() # get a new session
164     image_input = Input(shape=(None, None, 3))
165     h, w = input_shape
166     num_anchors = len(anchors)
167 
168     y_true = [Input(shape=(h//{0:32, 1:16}[l], w//{0:32, 1:16}[l], \
169         num_anchors//2, num_classes+5)) for l in range(2)]
170 
171     model_body = tiny_yolo_body(image_input, num_anchors//2, num_classes)
172     print('Create Tiny YOLOv3 model with {} anchors and {} classes.'.format(num_anchors, num_classes))
173 
174     if load_pretrained:
175         model_body.load_weights(weights_path, by_name=True, skip_mismatch=True)
176         print('Load weights {}.'.format(weights_path))
177         if freeze_body in [1, 2]:
178             # Freeze the darknet body or freeze all but 2 output layers.
179             num = (20, len(model_body.layers)-2)[freeze_body-1]
180             for i in range(num): model_body.layers[i].trainable = False
181             print('Freeze the first {} layers of total {} layers.'.format(num, len(model_body.layers)))
182 
183     model_loss = Lambda(yolo_loss, output_shape=(1,), name='yolo_loss',
184         arguments={'anchors': anchors, 'num_classes': num_classes, 'ignore_thresh': 0.7})(
185         [*model_body.output, *y_true])
186     model = Model([model_body.input, *y_true], model_loss)
187 
188     return model
189 
190 def data_generator(annotation_lines, batch_size, input_shape, anchors, num_classes):
191 
192     '''data generator for fit_generator
193         annotation_lines：标注数据的行，每行数据包含图片路径，和框的位置信息，种类
194         batch_size：每批图片的大小
195         input_shape： 图片的输入尺寸
196         anchors: 大小
197         num_classes： 类别数
198         '''
199 
200     n = len(annotation_lines)
201     i = 0
202     while True:
203         image_data = []
204         box_data = []
205         for b in range(batch_size):
206             if i==0:
207                 np.random.shuffle(annotation_lines)
208             image, box = get_random_data(annotation_lines[i], input_shape, random=True)#从标记的样本分离image与box，得到样本图片与样本label
209             image_data.append(image)
210             box_data.append(box)
211             i = (i+1) % n
212         image_data = np.array(image_data)
213         box_data = np.array(box_data)
214         y_true = preprocess_true_boxes(box_data, input_shape, anchors, num_classes)
215         yield [image_data, *y_true], np.zeros(batch_size)
216 
217 def data_generator_wrapper(annotation_lines, batch_size, input_shape, anchors, num_classes):
218     n = len(annotation_lines)
219     if n==0 or batch_size<=0: return None
220     return data_generator(annotation_lines, batch_size, input_shape, anchors, num_classes)
221 
222 if __name__ == '__main__':
223     _main()

3.utils.py

3.1 letter_image_box(),此函数的作用主要是将输入的图片进行等比例缩小，并在空余地方填成灰色

 1 def letterbox_image(image, size):
 2     '''resize image with unchanged aspect ratio using padding'''
 3     iw, ih = image.size#图像初始的大小，任意值   以(1000,500)为例
 4     w, h = size #模型要求的(416,416)
 5     scale = min(w/iw, h/ih)#416/1000  0.416<0.832  ,416/500
 6     nw = int(iw*scale) #416/1000*1000=416
 7     nh = int(ih*scale)#416/1000*400=208
 8 
 9     image = image.resize((nw,nh), Image.BICUBIC)
10     new_image = Image.new('RGB', size, (128,128,128))#new : 这个函数创建一幅给定模式（mode）和尺寸（size）的图片。如果省略 color 参数，则创建的图片被黑色填充满，
11                                                      # 如果 color 参数是 None 值，则图片还没初始化
12     new_image.paste(image, ((w-nw)//2, (h-nh)//2)) #w-nw=0,(h-nh)//2=(416-208)//2=108
13     return new_image

它的作用如下：

3.2 get_random_data()

此函数的功能主要是进行数据增强与输入图像预处理（同letter_image_box）

  1 def get_random_data(annotation_line, input_shape, random=True, max_boxes=20, jitter=.3, hue=.1, sat=1.5, val=1.5, proc_img=True):
  2     '''random preprocessing for real-time data augmentation
  3     annotation_lines：标注数据的行，每行数据包含图片路径，和框的位置信息，种类
  4     return:imagedata是经过resize并填充的样本图片，resize成（416,416），并填充灰度
  5            boxdata是每张image中做的标记label，shpe，对应着truebox，批次数16，最大框数20，每个框5个值，4个边界点和1个类别序号，如(16, 20, 5)
  6            为（，batchsize，maxbox，5），每张图片最多的有maxbox个类，5为左上右下的坐标'''
  7     line = annotation_line.split()#删除空格
  8     image = Image.open(line[0])
  9     iw, ih = image.size
 10     h, w = input_shape#（416,416）
 11     box = np.array([np.array(list(map(int,box.split(',')))) for box in line[1:]])
 12 
 13     if not random:
 14         # resize image
 15         #将图片等比例转换为416x416的图片，其余用灰色填充，
 16         # 即(128, 128, 128)，同时颜色值转换为0~1之间，即每个颜色值除以255；
 17 
 18 
 19         scale = min(w/iw, h/ih)
 20         nw = int(iw*scale)
 21         nh = int(ih*scale)
 22         dx = (w-nw)//2
 23         dy = (h-nh)//2
 24         image_data=0
 25         if proc_img:
 26             image = image.resize((nw,nh), Image.BICUBIC)
 27             new_image = Image.new('RGB', (w,h), (128,128,128))
 28             new_image.paste(image, (dx, dy))
 29             image_data = np.array(new_image)/255.
 30             # 上面的作用和letter_box一致，加了一个把rgb范围变成0-1
 31             # correct boxes   max_boxes=20
 32 
 33         # correct boxes
 34         # 将边界框box等比例缩小，再加上填充的偏移量dx和dy，因为新的图片部分用灰色填充，影
 35         # 响box的坐标系，box最多有max_boxes个，即20个
 36         box_data = np.zeros((max_boxes,5))#shap->(20,5)
 37         if len(box)>0:
 38             np.random.shuffle(box)
 39             if len(box)>max_boxes: box = box[:max_boxes]
 40             box[:, [0,2]] = box[:, [0,2]]*scale + dx
 41             box[:, [1,3]] = box[:, [1,3]]*scale + dy
 42             box_data[:len(box)] = box
 43 
 44         return image_data, box_data
 45 
 46     # resize image
 47     #通过jitter参数，随机计算new_ar和scale，生成新的nh和nw，
 48     # 将原始图像随机转换为nw和nh尺寸的图像，即非等比例变换图像。
 49     #也即是数据增强
 50     new_ar = w/h * rand(1-jitter,1+jitter)/rand(1-jitter,1+jitter)
 51     scale = rand(.25, 2)
 52     if new_ar < 1:
 53         nh = int(scale*h)
 54         nw = int(nh*new_ar)
 55     else:
 56         nw = int(scale*w)
 57         nh = int(nw/new_ar)
 58     image = image.resize((nw,nh), Image.BICUBIC)
 59 
 60     # place image
 61     dx = int(rand(0, w-nw))
 62     dy = int(rand(0, h-nh))
 63     new_image = Image.new('RGB', (w,h), (128,128,128))
 64     new_image.paste(image, (dx, dy))
 65     image = new_image
 66 
 67     # flip image or not
 68     #根据随机数flip，随机左右翻转FLIP_LEFT_RIGHT图片
 69     flip = rand()<.5
 70     if flip: image = image.transpose(Image.FLIP_LEFT_RIGHT)
 71 
 72     # distort image
 73     #在HSV坐标域中，改变图片的颜色范围，hue值相加，sat和vat相乘，
 74     # 先由RGB转为HSV，再由HSV转为RGB，添加若干错误判断，避免范围过大
 75     hue = rand(-hue, hue)
 76     sat = rand(1, sat) if rand()<.5 else 1/rand(1, sat)
 77     val = rand(1, val) if rand()<.5 else 1/rand(1, val)
 78     x = rgb_to_hsv(np.array(image)/255.)
 79     x[..., 0] += hue
 80     x[..., 0][x[..., 0]>1] -= 1
 81     x[..., 0][x[..., 0]<0] += 1
 82     x[..., 1] *= sat
 83     x[..., 2] *= val
 84     x[x>1] = 1
 85     x[x<0] = 0
 86     image_data = hsv_to_rgb(x) # numpy array, 0 to 1
 87 
 88     # correct boxes
 89     #将所有的图片变换，增加至检测框中，并且包含若干异常处理，避免变换之后的值过大或过小，去除异常的box
 90     box_data = np.zeros((max_boxes,5))
 91     if len(box)>0:
 92         np.random.shuffle(box)
 93         box[:, [0,2]] = box[:, [0,2]]*nw/iw + dx
 94         box[:, [1,3]] = box[:, [1,3]]*nh/ih + dy
 95         if flip: box[:, [0,2]] = w - box[:, [2,0]]
 96         box[:, 0:2][box[:, 0:2]<0] = 0
 97         box[:, 2][box[:, 2]>w] = w
 98         box[:, 3][box[:, 3]>h] = h
 99         box_w = box[:, 2] - box[:, 0]
100         box_h = box[:, 3] - box[:, 1]
101         box = box[np.logical_and(box_w>1, box_h>1)] # discard invalid box
102         if len(box)>max_boxes: box = box[:max_boxes]
103         box_data[:len(box)] = box
104 
105     return image_data, box_data

4.yolo.py()

此函数主要用于检测图片或者视频

  1     def generate(self):
  2         """①加载权重参数文件，生成检测框，得分，以及对应类别
  3 
  4           ②利用model.py中的yolo_eval函数生成检测框，得分，所属类别
  5 
  6           ③初始化时调用generate函数生成图片的检测框，得分，所属类别（self.boxes, self.scores, self.classes）"""
  7         model_path = os.path.expanduser(self.model_path)
  8         assert model_path.endswith('.h5'), 'Keras model or weights must be a .h5 file.'
  9 
 10         # Load model, or construct model and load weights.
 11         num_anchors = len(self.anchors)
 12         num_classes = len(self.class_names)
 13         is_tiny_version = num_anchors==6 # default setting
 14         try:
 15             self.yolo_model = load_model(model_path, compile=False)
 16         except:
 17             self.yolo_model = tiny_yolo_body(Input(shape=(None,None,3)), num_anchors//2, num_classes) \
 18                 if is_tiny_version else yolo_body(Input(shape=(None,None,3)), num_anchors//3, num_classes)
 19             self.yolo_model.load_weights(self.model_path) # make sure model, anchors and classes match
 20         else:
 21             ##[-1]:网络最后一层输出。 output_shape[-1]:输出维度的最后一维。 -> (?,13,13,255)
 22             # 255 = 9/3*(80+5). 9/3:每层特征图对应3个anchor box  80:80个类别 5:4+1,框的4个值+1个置信度
 23 
 24             assert self.yolo_model.layers[-1].output_shape[-1] == \
 25                 num_anchors/len(self.yolo_model.output) * (num_classes + 5), \
 26                 'Mismatch between model and given anchor and class sizes'
 27             #Python assert（断言）用于判断一个表达式，在表达式条件为 false 的时候触发异常。
 28 
 29             #断言可以在条件不满足程序运行的情况下直接返回错误，而不必等待程序运行后出现崩溃的情况
 30 
 31         print('{} model, anchors, and classes loaded.'.format(model_path))
 32 
 33         # Generate colors for drawing bounding boxes.
 34         # Generate colors for drawing bounding boxes.
 35         # 生成绘制边框的颜色。
 36         # h(色调）：x/len(self.class_names)  s(饱和度）：1.0  v(明亮）：1.0
 37 
 38         # 对于80种coco目标，确定每一种目标框的绘制颜色，即：将(x/80, 1.0, 1.0)的颜色转换为RGB格式，并随机调整颜色以便于肉眼识别，
 39         # 其中：一个1.0表示饱和度，一个1.0表示亮度
 40 
 41         hsv_tuples = [(x / len(self.class_names), 1., 1.)
 42                       for x in range(len(self.class_names))]
 43         self.colors = list(map(lambda x: colorsys.hsv_to_rgb(*x), hsv_tuples)) #hsv转换为rgb
 44         # hsv取值范围在【0,1】，而RBG取值范围在【0,255】，所以乘上255
 45         self.colors = list(
 46             map(lambda x: (int(x[0] * 255), int(x[1] * 255), int(x[2] * 255)),
 47                 self.colors))
 48         np.random.seed(10101)  # Fixed seed for consistent colors across runs.
 49         np.random.shuffle(self.colors)  # Shuffle colors to decorrelate adjacent classes.
 50         np.random.seed(None)  # Reset seed to default.
 51 
 52         # Generate output tensor targets for filtered bounding boxes.
 53         #为过滤的边界框生成输出张量目标
 54         self.input_image_shape = K.placeholder(shape=(2, ))
 55         if self.gpu_num>=2:
 56             self.yolo_model = multi_gpu_model(self.yolo_model, gpus=self.gpu_num)
 57         boxes, scores, classes = yolo_eval(self.yolo_model.output, self.anchors,
 58                 len(self.class_names), self.input_image_shape,
 59                 score_threshold=self.score, iou_threshold=self.iou)
 60         return boxes, scores, classes
 61 
 62     def detect_image(self, image):
 63         """开始计时->①调用letterbox_image函数，即：先生成一个用“绝对灰”R128-G128-B128填充的416×416新图片，然后用按比例缩放（采样方式：BICUBIC）后的输入图片粘贴，粘贴不到的部分保留为灰色。②model_image_size定义的宽和高必须是32的倍数；若没有定义model_image_size，将输入的尺寸调整为32的倍数，并调用letterbox_image函数进行缩放。③将缩放后的图片数值除以255，做归一化。④将（416,416,3）数组调整为（1,416,416,3）元祖，满足网络输入的张量格式：image_data。
 64 
 65         ->①运行self.sess.run（）输入参数：输入图片416×416，学习模式0测试/1训练。
 66         self.yolo_model.input: image_data，self.input_image_shape: [image.size[1], image.size[0]]，
 67         K.learning_phase(): 0。②self.generate（），读取：model路径、anchor box、coco类别、加载模型yolo.h5.，对于80中coco目标，确定每一种目标框的绘制颜色，即：将（x/80,1.0,1.0）的颜色转换为RGB格式，并随机调整颜色一遍肉眼识别，其中：一个1.0表示饱和度，一个1.0表示亮度。③若GPU>2调用multi_gpu_model()
 68 
 69          ->①yolo_eval(self.yolo_model.output),max_boxes=20,每张图没类最多检测20个框。
 70          ②将anchor_box分为3组，分别分配给三个尺度，yolo_model输出的feature map
 71          ③特征图越小，感受野越大，对大目标越敏感，选大的anchor box->
 72          分别对三个feature map运行out_boxes, out_scores, out_classes，返回boxes、scores、classes。
 73          """
 74         start = timer()
 75         # # 调用letterbox_image()函数，即：先生成一个用“绝对灰”R128-G128-B128“填充的416x416新图片，
 76         # 然后用按比例缩放（采样方法：BICUBIC）后的输入图片粘贴，粘贴不到的部分保留为灰色
 77 
 78         if self.model_image_size != (None, None):  #判断图片是否存在
 79             assert self.model_image_size[0]%32 == 0, 'Multiples of 32 required'
 80             assert self.model_image_size[1]%32 == 0, 'Multiples of 32 required'
 81             # assert断言语句的语法格式 model_image_size[0][1]指图像的w和h，且必须是32的整数倍
 82             boxed_image = letterbox_image(image, tuple(reversed(self.model_image_size)))
 83             # #letterbox_image对图像调整成输入尺寸(w,h)
 84         else:
 85             new_image_size = (image.width - (image.width % 32),
 86                               image.height - (image.height % 32))
 87             boxed_image = letterbox_image(image, new_image_size)
 88         image_data = np.array(boxed_image, dtype='float32')
 89 
 90         print(image_data.shape)#（416，416,3）
 91         image_data /= 255.#将缩放后图片的数值除以255，做归一化
 92         image_data = np.expand_dims(image_data, 0)  # Add batch dimension.
 93         # 批量添加一维 -> (1,416,416,3) 为了符合网络的输入格式 -> (bitch, w, h, c)
 94 
 95         out_boxes, out_scores, out_classes = self.sess.run(
 96             [self.boxes, self.scores, self.classes],
 97             feed_dict={
 98                 self.yolo_model.input: image_data,#图像数据
 99                 self.input_image_shape: [image.size[1], image.size[0]],#图像尺寸416x416
100                 K.learning_phase(): 0#学习模式 0：测试模型。 1：训练模式
101             })#目的为了求boxes,scores,classes，具体计算方式定义在generate（）函数内。在yolo.py第61行
102 
103         print('Found {} boxes for {}'.format(len(out_boxes), 'img'))
104         # 绘制边框，自动设置边框宽度，绘制边框和类别文字，使用Pillow绘图库（PIL，头有声明）
105         # 设置字体
106 
107 
108         font = ImageFont.truetype(font='font/FiraMono-Medium.otf',
109                     size=np.floor(3e-2 * image.size[1] + 0.5).astype('int32'))
110         # 设置目标框线条的宽度
111         thickness = (image.size[0] + image.size[1]) // 300#厚度
112         ## 对于c个目标类别中的每个目标框i，调用Pillow画图
113 
114         for i, c in reversed(list(enumerate(out_classes))):
115             predicted_class = self.class_names[c] #类别  #目标类别的名字
116             box = out_boxes[i]#框
117             score = out_scores[i]#置信度
118 
119             label = '{} {:.2f}'.format(predicted_class, score)
120             draw = ImageDraw.Draw(image)#创建一个可以在给定图像上绘图的对象
121             label_size = draw.textsize(label, font)##标签文字   #返回label的宽和高（多少个pixels）
122             #返回给定字符串的大小，以像素为单位。
123             top, left, bottom, right = box
124             # 目标框的上、左两个坐标小数点后一位四舍五入
125             """防止检测框溢出"""
126             top = max(0, np.floor(top + 0.5).astype('int32'))
127 
128             left = max(0, np.floor(left + 0.5).astype('int32'))
129             # 目标框的下、右两个坐标小数点后一位四舍五入，与图片的尺寸相比，取最小值
130             # 防止边框溢出
131             bottom = min(image.size[1], np.floor(bottom + 0.5).astype('int32'))
132             right = min(image.size[0], np.floor(right + 0.5).astype('int32'))
133             print(label, (left, top), (right, bottom))
134             # 确定标签（label）起始点位置：标签的左、下
135             if top - label_size[1] >= 0:
136                 text_origin = np.array([left, top - label_size[1]])
137             else:
138                 text_origin = np.array([left, top + 1])
139 
140             # My kingdom for a good redistributable image drawing library.
141             # 画目标框，线条宽度为thickness
142             for i in range(thickness):#画框
143                 draw.rectangle(
144                     [left + i, top + i, right - i, bottom - i],
145                     outline=self.colors[c])
146                 # 画标签框
147             draw.rectangle( #文字背景
148                 [tuple(text_origin), tuple(text_origin + label_size)],
149                 fill=self.colors[c])
150             # 填写标签内容
151             draw.text(text_origin, label, fill=(0, 0, 0), font=font)#文案
152             del draw
153 
154         end = timer()
155         print(end - start)
156         return image
157 
158     def close_session(self):
159         self.sess.close()

以上即是主要yolo3的主要部分，下面将会对模型进行测试

5.测试

在理解完原理与上述代码之后，下面进行测试（当然也可以不用理解源码也可以直接测试）

（1）首先需要下载yolo3.weights,下载地址：

  https://pjreddie.com/media/files/yolov3.weights
  (2) 在pycharm的终端中输入python convert.py yolov3.cfg yolov3.weights model_data/yolo_weights.h5
  作用是将yolo3.weights文件转换成Keras可以处理的.h5权值文件，
（3）随便在网上下载一张图片进行测试，比如笔者用一张飞机的照片
（4）在源码中，不能直接运行yolo.py,因为在此代码中没有if__name__=='__main__':
所以需要自己添加：

 1 if __name__ == '__main__':
 2     """测试图片"""
 3     yolo = YOLO()
 4     path = r'F:\chorme_download\keras-yolo3-master\微信图片_20200313132254.jpg'
 5     try:
 6         image = Image.open(path)
 7     except:
 8         print('Open Error! Try again!')
 9     else:
10         r_image = yolo.detect_image(image)
11         r_image.show()
12 
13     yolo.close_session()
14     """测试视频，将detect_video中的path置0即调用自己电脑的摄像头"""
15     yolo=YOLO()
16     detect_video(yolo,0)

6.结果

本文为原创，制作不易，转载请标明出处，谢谢！！！

好文要顶关注我收藏该文

控制工程小小白
关注 - 5
粉丝 - 1

+加关注




«  上一篇：    Keras框架下用.flow_from_directoryt自己构建数据集


»  下一篇：    .npy文件的保存与加载

posted @ 2020-03-13 20:02 控制工程小小白阅读( 796) 评论( 0) 编辑收藏


相关博文：
·  Faster RCNN 学习笔记
·  SSD详解
·  『计算机视觉』Mask-RCNN_训练网络其二：train网络结构&损失函数
·  基于深度学习的目标检测算法：SSD——常见的目标检测算法
·  （原）fasterrcnn的tensorflow代码的理解
»  更多推荐...

最新 IT 新闻:
· 荣耀 X10 Max 图赏：7.09 英寸大屏幕，还有双扬声器
· 惠普 Spectre Folio 体验：皮革和限量，正试图摆脱同质化的笔记本电脑
· 东航「周末随心飞」变「闹心飞」，套路消费者的坑真不少
· 北极 38 度了，我们可能正在经历有史以来最热的一年
· 阅文新合同一个月：谁在逃离，谁在回归？
» 更多新闻...

你可能感兴趣的:(目标检测)

【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
【目标检测数据集】番茄叶片病害数据集13940张9类VOC+YOLO格式熬夜写代码的平头哥∰ 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：13946标注数量(xml文件个数)：13946标注数量(txt文件个数)：13946标注类别数：9标注类别名称:["EarlyBlight","Healthy","LateBlight","LeafMiner","Le
[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2757标注数量(xml文件个数)：2757标注数量(txt文件个数)：2757标注类别数：4标注类别名称:["Platelets","RBC","WBC","sicklecell"]每个类别标注的框数：Platelet
目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】工业相机格图素书数码相机目标检测人工智能
目录知识储备深度相机1TOF2双目视觉3结构光4智能门锁应用5手机应用算法原理相机的成像与标定模型相机标定的实施·标定过程的算法实施相机标定的扩展CCD工业相机、镜头倍率及相关参数计算方法知识储备深度相机1TOF1.1Kinectv2Kinectv2是Microsoft在2014年发售的，如图1-1所示。相比于Kinectv1在硬件和软件上作出了很大的进化，且在深度测量的系统和非系统误差方面表现出
【小贪】项目实战——Zero-shot根据文字提示分割出图片目标掩码贪钱算法还我头发 #Deep Learning #Computer Vision AI 目标检测深度学习 python 语义分割 Zero-shot
目标描述给定RGB视频或图片，目标是分割出图像中的指定目标掩码。我们需要复现两个Zero-shot的开源项目，分别为IDEA研究院的GroundingDINO和Facebook的SAM。首先使用目标检测方法GroundingDINO，输入想检测目标的文字提示，可以获得目标的anchorbox。将上一步获得的box信息作为SAM的提示，分割出目标mask。具体效果如下（测试数据来自VolumeDef
yolov5 +gui界面+单目测距实现对图片视频摄像头的测距毕设宇航 QQ767172261 yolov5 单目测距
可实现对图片，视频，摄像头的检测项目概述本项目旨在实现一个集成了YOLOv5目标检测算法、图形用户界面（GUI）以及单目测距功能的系统。该系统能够对图片、视频或实时摄像头输入进行目标检测，并估算目标的距离。通过结合YOLOv5的强大检测能力和单目测距技术，系统能够在多种应用场景中提供高效、准确的目标检测和测距功能。技术栈YOLOv5：用于目标检测的深度学习模型。OpenCV：用于图像处理和单目测距
目标检测-YOLOv3 wydxry 深度学习目标检测 YOLO 深度学习
YOLOv3介绍YOLOv3(YouOnlyLookOnce,Version3)是YOLO系列目标检测模型的第三个版本，相较于YOLOv2有了显著的改进和增强，尤其在检测速度和精度上表现优异。YOLOv3的设计目标是在保持高速的前提下提升检测的准确性和稳定性。下面是对YOLOv3改进和优势的介绍，以及YOLOv3核心部分的代码展示。相比YOLOv2的改进与优势多尺度特征金字塔YOLOv3引入了FP
SSD目标检测系统月见樽
首发于个人博客系统结构system.pngSSD识别系统也是一种单步物体识别系统，即将提取物体位置和判断物体类别融合在一起进行，其最主要的特点是识别器用于判断物体的特征不仅仅来自于神经网络的输出，还来自于神经网络的中间结果。该系统分为以下几个部分：神经网络部分：用作特征提取器，提取图像特征识别器：根据神经网络提取的特征，生成包含物品位置和类别信息的候选框（使用卷积实现）后处理：对识别器提取出的候选
深度学习目标检测入门COCO数据集日暮途远z 深度学习目标检测人工智能
常见数据集类型：COCO数据集：Pytorch加载COCO数据集：COCO数据集的读取COCO_dataset=torchvision.datasets.CocoDetection(root="./dataset/val2017",annFile="./instances_val2017/instances_val2017.json")root(strorpathlib.Path)–Rootdir
[数据集][目标检测]街道乱堆垃圾检测数据集VOC+YOLO格式94张1类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：94标注数量(xml文件个数)：94标注数量(txt文件个数)：94标注类别数：1标注类别名称:["baolu"]每个类别标注的框数：baolu框数=107总框数：107使用标注工具：labelImg标注规则：对类别进行
YOLOv8改进 | 检测头篇 | YOLOv8引入DynamicHead检测头小李学AI YOLOv8有效涨点专栏 YOLO 深度学习目标检测计算机视觉机器学习人工智能
1.DynamicHead描述1.1摘要：在目标检测中，定位和分类相结合的复杂性导致了各种方法的蓬勃发展。以往的工作试图提高各种目标检测头的性能，但未能呈现出统一的观点。本文根据目标检测的特点，推导了一种新的动态头部框架，将目标检测头部与注意力统一起来。该方法通过在特征层次间、空间位置间和输出通道内协调组合多种自注意机制，在不增加计算开销的情况下显著提高了目标检测头的表示能力。进一步的实验表明，本
目标检测-YOLOv1 wydxry 深度学习目标检测 YOLO 人工智能
YOLOv1介绍YOLOv1（YouOnlyLookOnceversion1）是一种用于目标检测的深度学习算法，由JosephRedmon等人于2016年提出。它基于单个卷积神经网络，将目标检测任务转化为一个回归问题，通过在图像上划分网格并预测每个网格中是否包含目标以及目标的位置和类别来实现目标检测。YOLOv1的主要特点包括：快速的检测速度：相比于传统的目标检测算法，YOLOv1具有更快的检测速
[数据集][目标检测]人脸口罩佩戴目标检测数据集VOC+YOLO格式8068张3类别 FL1623863129 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：8068标注数量(xml文件个数)：8068标注数量(txt文件个数)：8068标注类别数：3标注类别名称:["face_with_mask","face_without_mask","mask"]每个类别标注的框数：f
葡萄检测-目标检测数据集（包括VOC格式、YOLO格式）数据集_深度学习目标检测 YOLO 人工智能计算机视觉葡萄
葡萄检测-目标检测数据集（包括VOC格式、YOLO格式）数据集：链接：https://pan.baidu.com/s/1YMwAaSJc8H5SI0f8RVSidw?pwd=iygs提取码：iygs数据集信息介绍：共有1646张图像和一一对应的标注文件标注文件格式提供了两种，包括VOC格式的xml文件和YOLO格式的txt文件。标注的对象共有以下几种：[‘grape’]标注框的数量信息如下：（标注
OpenCV项目实战-深度学习去阴影-图像去阴影阿利同学 opencv 深度学习人工智能阴影去除图像去阴影
往期热门博客项目回顾：计算机视觉项目大集合改进的yolo目标检测-测距测速路径规划算法图像去雨去雾+目标检测+测距项目交通标志识别项目yolo系列-重磅yolov9界面-最新的yolo姿态识别-3d姿态识别深度学习小白学习路线//正文开始！图像去阴影算法旨在改善图像质量并恢复阴影下物体的真实颜色与亮度这对于许多计算机视觉任务如物体识别、跟踪以及增强现实等至关重要。以下是一些图像去阴影算法的基本概述
目标检测-YOLOv4 wydxry 深度学习目标检测 YOLO 目标跟踪
YOLOv4介绍YOLOv4是YOLO系列的第四个版本，继承了YOLOv3的高效性，并通过大量优化和改进，在目标检测任务中实现了更高的精度和速度。相比YOLOv3，YOLOv4在框架设计、特征提取、训练策略等方面进行了全面升级。它在保持实时检测的同时，显著提升了检测性能，尤其在复杂场景中的表现尤为出色。相比YOLOv3的改进与优势改进的Backbone(CSPDarknet-53)YOLOv4使用
[数据集][目标检测]井盖丢失未盖破损检测数据集VOC+YOLO格式2890张5类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2890标注数量(xml文件个数)：2890标注数量(txt文件个数)：2890标注类别数：5标注类别名称:["broke","circle","good","lose","uncovered"]每个类别标注的框数：br
YOLOv8改进更换轻量级网络结构学yolo的小白 Upgrade YOLOv8进阶 YOLO 目标检测深度学习
一、GhostNet论文论文地址：1911.11907.pdf(arxiv.org)二、GhostNet结构GhostNet是一种高效的目标检测网络，具有较低的计算复杂度和较高的准确性。该网络采用了轻量级的架构，可以在计算资源有限的设备上运行，并能够快速地实时检测图像中的目标物体。GhostNet基于MobileNetV3的设计思路，采用了Ghost模块来减少网络参数数量，从而减少计算量并提高模型
【Python】成功解决TypeError: list indices must be integers or slices, not str 高斯小哥 BUG解决方案合集 python list 新手入门学习 debug
【Python】成功解决TypeError:listindicesmustbeintegersorslices,notstr欢迎进入我的个人主页，我是高斯小哥！博主档案：广东某985本硕，SCI顶刊一作，深耕深度学习多年，熟练掌握PyTorch框架。技术专长：擅长处理各类深度学习任务，包括但不限于图像分类、图像重构(去雾\去模糊\修复)、目标检测、图像分割、人脸识别、多标签分类、重识别(行人\车辆
LeYOLO 用于目标检测的新型可扩展和高效CNN架构 | 最新轻量化SOTA! 5GFLOP下无对手！迪菲赫尔曼 YOLOv8改进实战目标检测 cnn 架构 pytorch 深度学习轻量化
本改进已集成到YOLOv8-Magic框架。论文地址：https://arxiv.org/pdf/2406.14239代码地址：https://github.com/LilianHollard/LeYOLO/tree/main在深度神经网络中，计算效率对于目标检测至关重要，尤其是在新型模型更倾向于速度而非计算效率（浮点运算次数，FLOP）的情况下。这种演变在一定程度上忽视了嵌入式和面向移动的AI目
Python 使用 Detectron2 进行目标检测 (Detectron2, CenterNet2, Detic) Eric Woo X Python AI Ubuntu python 目标检测开发语言
代码说明代码主要是一个用来演示如何使用Detectron2进行目标检测的脚本。它可以从摄像头或视频文件中读取图像，并应用指定的配置文件进行目标检测。其中，Detectron2结合了CenterNet2和Detic进行目标检测。主要库介绍Detectron2Detectron2是由FacebookAIResearch开发的一个用于目标检测和实例分割的开源库。它提供了一系列预训练模型和灵活的配置系统，
Transformer+目标检测，这一篇入门就够了 BIT可达鸭 ▶深度学习-计算机视觉 transformer 深度学习目标检测计算机视觉自然语言处理
VisionTransformerforObjectDetection本文作者：Encoder-Decoder简介：Encoder-Decoder的缺陷：Attention机制：Self-Attention机制：Multi-HeadAttention：Transformer结构：图像分类之ViT：图像分类之PyramidViT：目标检测之DETR：目标检测之DeformableDETR：本文作者：
目标检测-YOLOv2 wydxry 深度学习目标检测 YOLO 人工智能
YOLOv2介绍YOLOv2（YouOnlyLookOnceversion2）是一种用于目标检测的深度学习模型，由JosephRedmon等人于2016年提出，并详细论述在其论文《YOLO9000:Better,Faster,Stronger》中。YOLOv2在保持高速检测的同时，显著提升了检测的精度和泛化能力，成为实时目标检测领域的重要算法之一。核心原理YOLOv2的核心原理是将目标检测问题转化
【计算机视觉前沿研究热点顶会】ECCV 2024中目标检测有关的论文平安顺遂事事如意顶刊顶会论文合集计算机视觉目标检测人工智能 3d 目标跟踪
整值训练和尖峰驱动推理脉冲神经网络用于高性能和节能的目标检测与人工神经网络(ANN)相比，脑激励的脉冲神经网络(SNN)具有生物合理性和低功耗的优势。由于SNN的性能较差，目前的应用仅限于简单的分类任务。在这项工作中，我们专注于弥合人工神经网络和神经网络在目标检测方面的性能差距。我们的设计围绕着网络架构和尖峰神经元。当行人检测遇到多模态学习时：通才模型和基准数据集近年来，利用不同传感器模态(如RG
目标检测——YOLOv8模型预测结果张飞飞飞飞飞目标检测 YOLO 人工智能
fromultralyticsimportYOLOmodel_path=r'/home/zhangh/project1/workproject/YOLOv8/ultralytics/runs/train/2024723_yolov8n5/weights/best.pt'img_path=r'worker_data/images/val/%E9%93%B2%E6%96%97%E5%9D%90%E4%
基于yolov8的口罩佩戴检测系统python源码+onnx模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 python
【算法介绍】基于YOLOv8的口罩佩戴检测系统是一款利用深度学习技术，特别是YOLOv8算法，实现高效、准确检测人脸是否佩戴口罩的系统。YOLOv8作为YOLO系列算法的最新版本，在检测速度和准确性上进行了显著优化，能够实时处理图像和视频数据。该系统通过训练大量标注了人脸和口罩状态（包括戴口罩、未戴口罩）的图片数据，构建了一个强大的目标检测模型。在实际应用中，该系统可以部署在公共场所如机场、车站、
[数据集][目标检测]卫星遥感舰船检测数据集VOC+YOLO格式2238张17类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2238标注数量(xml文件个数)：2238标注数量(txt文件个数)：2238标注类别数：17标注类别名称:[“AircraftCarrier”,“AuxiliaryShips”,“Cargo”,“Commander”
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。