Tensorflow版本yolo v3源码阅读笔记(2)

在上一篇中学习了yolov3中的darknet53模型，在这一篇中我们继续来分析yolov3的源代码。

需要说明的是，我学习的这个yolov3的源码出自这里malin9402

这次我们要分析的是yolov3.py的源码。下面开始吧。

下面先了解一下文件开头的一些参数

#yolov3能够检测到的类别的数目
NUM_CLASS       = len(utils.read_class_names(cfg.YOLO.CLASSES))
#yolov3中3个尺度的3个先验框的大小
ANCHORS         = utils.get_anchors(cfg.YOLO.ANCHORS)
#yolov3中3个尺度的步长
STRIDES         = np.array(cfg.YOLO.STRIDES)
#IOU的阈值
IOU_LOSS_THRESH = cfg.YOLO.IOU_LOSS_THRESH

接下来看yolov3模型

def YOLOv3(input_layer):
    route_1, route_2, conv = backbone.darknet53(input_layer)

    #[bs,13,13,1024] => [bs,13,13,512]
    conv = common.convolutional(conv, (1, 1, 1024,  512))
    #[bs,13,13,512] => [bs,13,13,1024]
    conv = common.convolutional(conv, (3, 3,  512, 1024))
    #[bs,13,13,1024] => [bs,13,13,512]
    conv = common.convolutional(conv, (1, 1, 1024,  512))
    #[bs,13,13,512] => [bs,13,13,1024]
    conv = common.convolutional(conv, (3, 3,  512, 1024))
    #[bs,13,13,1024] => [bs,13,13,512]
    conv = common.convolutional(conv, (1, 1, 1024,  512))

    #[bs,13,13,512] => [bs,13,13,1024]
    conv_lobj_branch = common.convolutional(conv, (3, 3, 512, 1024))
    #[bs,13,13,1024] => [bs,13,13,255]
    conv_lbbox = common.convolutional(conv_lobj_branch, (1, 1, 1024, 3*(NUM_CLASS + 5)), activate=False, bn=False)

    #[bs,13,13,512] => [bs,13,13,256]
    conv = common.convolutional(conv, (1, 1,  512,  256))
    #[bs,13,13,256] => [bs,26,26,256]
    conv = common.upsample(conv)

    #[bs,26,26,256] + [bs,26,26,512] => [bs,26,26,768]
    conv = tf.concat([conv, route_2], axis=-1)

    #[bs,26,26,768] => [bs,26,26,256]
    conv = common.convolutional(conv, (1, 1, 768, 256))
    #[bs,26,26,256] => [bs,26,26,512]
    conv = common.convolutional(conv, (3, 3, 256, 512))
    #[bs,26,26,512] => [bs,26,26,256]
    conv = common.convolutional(conv, (1, 1, 512, 256))
    #[bs,26,26,256] => [bs,26,26,512]
    conv = common.convolutional(conv, (3, 3, 256, 512))
    #[bs,26,26,512] => [bs,26,26,256]
    conv = common.convolutional(conv, (1, 1, 512, 256))

    #[bs,26,26,256] => [bs,26,26,512]
    conv_mobj_branch = common.convolutional(conv, (3, 3, 256, 512))
    #[bs,26,26,512] => [bs,26,26,255]
    conv_mbbox = common.convolutional(conv_mobj_branch, (1, 1, 512, 3*(NUM_CLASS + 5)), activate=False, bn=False)

    #[bs,26,26,256] => [bs,26,26,128]
    conv = common.convolutional(conv, (1, 1, 256, 128))
    #[bs,26,26,128] => [bs,52,52,128]
    conv = common.upsample(conv)

    #[bs,52,52,128] + [bs,52,52,256] => [bs,52,52,384]
    conv = tf.concat([conv, route_1], axis=-1)

    #[bs,52,52,384] => [bs,52,52,128]
    conv = common.convolutional(conv, (1, 1, 384, 128))
    #[bs,52,52,128] => [bs,52,52,256]
    conv = common.convolutional(conv, (3, 3, 128, 256))
    #[bs,52,52,256] => [bs,52,52,128]
    conv = common.convolutional(conv, (1, 1, 256, 128))
    #[bs,52,52,128] => [bs,52,52,256]
    conv = common.convolutional(conv, (3, 3, 128, 256))
    #[bs,52,52,256] => [bs,52,52,128]
    conv = common.convolutional(conv, (1, 1, 256, 128))

    #[bs,52,52,128] => [bs,52,52,256]
    conv_sobj_branch = common.convolutional(conv, (3, 3, 128, 256))
    #[bs,52,52,256] => [bs,52,52,255]
    conv_sbbox = common.convolutional(conv_sobj_branch, (1, 1, 256, 3*(NUM_CLASS +5)), activate=False, bn=False)

    return [conv_sbbox, conv_mbbox, conv_lbbox]

从上面的代码可以看到，输入图片首先通过darknet53模块得到3个尺度的特征，然后通过多个卷积层对这3个尺度的特征进行操作，最终得到小尺度的特征输出conv_sbbox，中尺度的特征输出conv_mbbox，大尺度的特征输出conv_lbbox。

下面再详细介绍一下这些特征图：

1.conv_sbbox：小尺度特征图，shape=[bs,52,52,255]，主要用来检测图片中的小尺寸物体。这个尺度可以这样理解，它把图片分成了52x52的网格图片，每个网格有3个预测框，每个预测框有85(5+80)个信息，5的意思是它包含(x,y,w,h, confidence)5个基本参数，80的意思是它有80个类别的检测概率。

2. conv_mbbox:：中尺度特征图，shape=[bs,26,26,255]，主要用来检测图片中的中尺寸物体，它把图片分成了26x26的网格图片，每个网格有3个预测框，每个预测框有85(5+80)个信息，理解意思与conv_sbbox相似。

3. conv_lbbox：大尺度特征图，shape=[bs,13,13,255]，主要用来检测图片中的大尺寸物体，它把图片分成了13x13的网格图片，每个网格有3个预测框，每个预测框有85(5+80)个信息，理解意思与conv_sbbox相似。

下面重点关注一下(x,y,w,h, confidence)5个基本参数:

x: 预测框的中心横坐标的偏移量。
y: 预测框的中心纵坐标的偏移量。
w: 预测框的宽度的偏移量。
h: 预测框的高度的偏移量。
confidence: 预测框中检测到物体的概率。

了解了yolov3的输出后，接着来看decode方法，它的主要功能是把yolov3的输出解码出来，方便后续计算损失值。

在看代码之前，我们先了解一下decode方法的计算流程：

假设输入的形状为[4,52,52,255]，这里的4是指每次训练4张图片，52是指特征图的高宽大小，可以理解为特征图把原始图片划分成了52x52的格子，每个格子中255个通道。
2.将这个输入的形状改变为[4,52,52,3,85]，3是指每个格子有3个预测框，85是指每个预测框有4个位置信息(2个中心位置的偏移量+2个高宽的偏移量+1个置信度+80个类别的概率)
3.将2个中心位置的偏移量，2个高宽的偏移量，1个置信度，80个类别的概率都提取出来。
计算每个预测框的绝对坐标和高宽。
计算预测框的置信值和分类值。

我们看一下先验框和预测框的示意图。

先验框和预测框示意图

bh 和 bw 分别表示预测框的高宽
bx 和 by 分别表示预测框中心位置的横坐标和纵坐标。
ph 和 pw 分别表示先验框的高宽
cx 和 cy 分别表示预测框左上角的坐标
th 和 tw 分别表示预测框高宽的偏移量
tx 和 ty 分别表示预测框中心位置距离左上角位置的偏移量

下面我们在代码中看具体实现流程。

def decode(conv_output, i=0):
    """
    return tensor of shape [batch_size, output_size, output_size, anchor_per_scale, 5 + num_classes]
            contains (x, y, w, h, score, probability)
    """

    conv_shape       = tf.shape(conv_output)
    batch_size       = conv_shape[0]#样本数
    output_size      = conv_shape[1]#输出特征图的高宽

    conv_output = tf.reshape(conv_output, (batch_size, output_size, output_size, 3, 5 + NUM_CLASS))

    conv_raw_dxdy = conv_output[:, :, :, :, 0:2]#预测框中心位置的偏移量
    conv_raw_dwdh = conv_output[:, :, :, :, 2:4]#预测框高宽的偏移量
    conv_raw_conf = conv_output[:, :, :, :, 4:5]#预测框检测到物体的置信度
    conv_raw_prob = conv_output[:, :, :, :, 5: ]#预测框的类别的概率

    # 1.对每个先验框生成在特征图上的相对坐标，以左上角为基准，其坐标单位为格子，即数值表示是第几个格子
    y = tf.tile(tf.range(output_size, dtype=tf.int32)[:, tf.newaxis], [1, output_size]) # shape = [52,52]
    x = tf.tile(tf.range(output_size, dtype=tf.int32)[tf.newaxis, :], [output_size, 1]) # shape = [52,52]

    xy_grid = tf.concat([x[:, :, tf.newaxis], y[:, :, tf.newaxis]], axis=-1) # shape = [52,52,2]
    xy_grid = tf.tile(xy_grid[tf.newaxis, :, :, tf.newaxis, :], [batch_size, 1, 1, 3, 1]) # shape = [batch_size, 52,52,3,2]
    xy_grid = tf.cast(xy_grid, tf.float32)


     # 2.计算预测框的绝对坐标和高宽度
     # 根据上图公式计算预测框的中心位置
    pred_xy = (tf.sigmoid(conv_raw_dxdy) + xy_grid) * STRIDES[i] # xy_grid表示特征图上左上角的位置，即是第几行第几列格子，STRIDES表示格子的长度，即特征图上的一个格子在原图上的长度
     # 根据上图公式计算预测框的高宽
    pred_wh = (tf.exp(conv_raw_dwdh) * ANCHORS[i]) * STRIDES[i] # ANCHORS[i]) * STRIDES[i] 表示先验框在原图上的大小
    pred_xywh = tf.concat([pred_xy, pred_wh], axis=-1)

    # 3. 计算预测框的置信度和分类值
    pred_conf = tf.sigmoid(conv_raw_conf)
    pred_prob = tf.sigmoid(conv_raw_prob)

    return tf.concat([pred_xywh, pred_conf, pred_prob], axis=-1)

bbox_iou

bbox_iou 函数用来计算两个预测框之间的距离，在utils.py文件中有bboxes_iou方法也实现了类似的功能，它们之间的区别是输入的预测框的参数不同。

bbox_iou：参数是预测框的中心坐标+预测框的高宽
bboxes_iou：参数是预测框的左上角坐标+预测框的右下角坐标

iou值实际上就是两个框的交集面积除以并集面积，这个值越大，两个框的距离就越近。如下图所示：

两个预测框的交集面积和并集面积

下面我们具体看一下代码是如何实现的。

def bbox_iou(boxes1, boxes2):

    boxes1_area = boxes1[..., 2] * boxes1[..., 3]#第一个框的面积
    boxes2_area = boxes2[..., 2] * boxes2[..., 3]#第二个框的面积

    boxes1 = tf.concat([boxes1[..., :2] - boxes1[..., 2:] * 0.5,
                        boxes1[..., :2] + boxes1[..., 2:] * 0.5], axis=-1)#将第一个框由中心坐标+高宽的形式转换为左上角坐标+右下角坐标的形式
    boxes2 = tf.concat([boxes2[..., :2] - boxes2[..., 2:] * 0.5,
                        boxes2[..., :2] + boxes2[..., 2:] * 0.5], axis=-1)#将第二个框由中心坐标+高宽的形式转换为左上角坐标+右下角坐标的形式

    left_up = tf.maximum(boxes1[..., :2], boxes2[..., :2])#计算两个框的交集的左上角坐标，上图中是(xmin2,ymin2)
    right_down = tf.minimum(boxes1[..., 2:], boxes2[..., 2:])#计算两个框的交集的右下角坐标，上图中是(xmax1,ymax1)

    inter_section = tf.maximum(right_down - left_up, 0.0)
    inter_area = inter_section[..., 0] * inter_section[..., 1]#计算两个框的交集面积
    union_area = boxes1_area + boxes2_area - inter_area#计算两个框的并集面积

    return 1.0 * inter_area / union_area#最后交集面积/并集面积

bbox_giou

bbox_giou的功能也是用来计算两个预测框之间的距离，按理说，上面的bbox_iou已经可以计算两个框的面积了，为啥还要重要再弄一个方法呢，
这是因为使用bbox_iou来度量预测框的距离时存在两个严重的问题：
1:如果两个预测框之间没有重合，那么iou的值就为0，这样就会导致计算损失函数时梯度为0，无法进行优化。
2:因为iou的计算方法是交集面积除以并集面积，这样就会导致同一个iou值会有多种不同的形态，如下图所示：

相同的iou值对应不同的形态

上面三幅图中的iou = 0.33，但是giou值分别是0.33,0.24,-0.1，这表明如果两个框重叠和对齐得越好，那么giou值就会越高。

因此，基于iou存在的问题，yolov3使用了giou作为预测框的损失函数，其计算方式为:

giou计算方法

其中C代表A和B的最小外接矩形的面积，通过这种度量方式，两个预测框之间没有相交时，也能计算距离。

下面看具体代码实现。同样用下图举例。

giou计算示意图.jpg

def bbox_giou(boxes1, boxes2):

    boxes1 = tf.concat([boxes1[..., :2] - boxes1[..., 2:] * 0.5,
                        boxes1[..., :2] + boxes1[..., 2:] * 0.5], axis=-1)#把第一个预测框从中心坐标+高宽的形式转换为左上角坐标+右下角坐标的形式
    boxes2 = tf.concat([boxes2[..., :2] - boxes2[..., 2:] * 0.5,
                        boxes2[..., :2] + boxes2[..., 2:] * 0.5], axis=-1)#把第二个预测框从中心坐标+高宽的形式转换为左上角坐标+右下角坐标的形式

    boxes1 = tf.concat([tf.minimum(boxes1[..., :2], boxes1[..., 2:]),
                        tf.maximum(boxes1[..., :2], boxes1[..., 2:])], axis=-1)#重新整理一下预测框的坐标
    boxes2 = tf.concat([tf.minimum(boxes2[..., :2], boxes2[..., 2:]),
                        tf.maximum(boxes2[..., :2], boxes2[..., 2:])], axis=-1)

    boxes1_area = (boxes1[..., 2] - boxes1[..., 0]) * (boxes1[..., 3] - boxes1[..., 1])#计算第一个预测框的面积
    boxes2_area = (boxes2[..., 2] - boxes2[..., 0]) * (boxes2[..., 3] - boxes2[..., 1])#计算第二个预测框的面积

    left_up = tf.maximum(boxes1[..., :2], boxes2[..., :2])#计算两个框的交集的左上角坐标，在上图中是(xmin2，ymin2)
    right_down = tf.minimum(boxes1[..., 2:], boxes2[..., 2:])#计算两个框的交集的右下角坐标，在上图中是(xmax1,ymax1)

    inter_section = tf.maximum(right_down - left_up, 0.0)
    inter_area = inter_section[..., 0] * inter_section[..., 1]#计算交集的面积
    union_area = boxes1_area + boxes2_area - inter_area#计算并集的面积
    iou = inter_area / union_area#计算iou值

    enclose_left_up = tf.minimum(boxes1[..., :2], boxes2[..., :2])#计算最小外接矩形的左上角坐标，在上图中是(xmin1,ymin1)
    enclose_right_down = tf.maximum(boxes1[..., 2:], boxes2[..., 2:])#计算最小外接矩形的右下角坐标，在上图中是(xmax2,ymax2)
    enclose = tf.maximum(enclose_right_down - enclose_left_up, 0.0)
    enclose_area = enclose[..., 0] * enclose[..., 1]#计算最小外接矩形的面积
    giou = iou - 1.0 * (enclose_area - union_area) / enclose_area#根据上面的公式计算giou值

    return giou

compute_loss

compute_loss 函数被用来计算损失。
损失分为3类：框回归损失，置信度损失和分类损失。

框回归损失

计算过程：

获得置信度respond_bbox。
计算bbox_loss_scale = 2.0 - （真实框的面积）/（输入原图的面积）
损失 giou_loss = respond_bbox * bbox_loss_scale * (1-giou)

置信度损失

计算过程：

对所有预测框求出它和所有真实框的iou值。
然后找出每个预测框的iou值中的最大的一个值。
如果每个预测框找出的这个最大iou值小于指定的阈值，那么认为这个预测框不包含物体，为背景框（负样本），否则这个框是前景框（正样本）。还有一种是这个iou值大于指定的阈值，但是这个预测框没有包含物体的情况。这种情况不需要参与损失函数的计算，在代码中被巧妙的处理掉了。
计算正样本误差和负样本误差，最后相加。

分类损失

对于分类损失，同样只考虑正样本误差，使用交叉熵损失函数计算误差。

输入：
pred: 经过decode解码后的检测框，即原图上的检测框。
conv: 没有经过解码的检测框，即特征图上的检测框。
label: 标签的格式为 [batch_size, output_size, output_size, anchor_per_scale, 85=(2个中心坐标xy+2个形状wh+1个置信值+80个类别)]；
bboxes: 每个尺度的真实框集合，里面存放的是真实框的4个参数(2个中心点坐标+2个高宽长度)
i: 表示第几个尺度上的特征图（总共有3个尺度）。

搞清楚了损失函数的计算流程和参数后，我们看看代码是如何实现的。

def compute_loss(pred, conv, label, bboxes, i=0):

    conv_shape  = tf.shape(conv)#特征图形状
    batch_size  = conv_shape[0]#处理的图片数量
    output_size = conv_shape[1]#特征图的大小
    input_size  = STRIDES[i] * output_size#原图的大小
    conv = tf.reshape(conv, (batch_size, output_size, output_size, 3, 5 + NUM_CLASS))#将特征图转换形式

    conv_raw_conf = conv[:, :, :, :, 4:5]#特征图的置信度
    conv_raw_prob = conv[:, :, :, :, 5:]#特征图中类别的概率

    pred_xywh     = pred[:, :, :, :, 0:4]#预测框在原图上的坐标和高宽
    pred_conf     = pred[:, :, :, :, 4:5]#预测框处理后的置信度

    label_xywh    = label[:, :, :, :, 0:4]#真实框的坐标和高宽
    respond_bbox  = label[:, :, :, :, 4:5]#真实框的置信度，有目标的为1，没目标的为0
    label_prob    = label[:, :, :, :, 5:]#真实框的类别概率

# 1.框回归损失
    # 计算预测框和真实框的giou值
    giou = tf.expand_dims(bbox_giou(pred_xywh, label_xywh), axis=-1)
    input_size = tf.cast(input_size, tf.float32)
    # bbox_loss_scale 制衡误差 
    bbox_loss_scale = 2.0 - 1.0 * label_xywh[:, :, :, :, 2:3] * label_xywh[:, :, :, :, 3:4] / (input_size ** 2)
    # 计算giou_loss
    giou_loss = respond_bbox * bbox_loss_scale * (1- giou)

# 2.置信度损失
    # 计算所有预测框和真实框的iou值
    iou = bbox_iou(pred_xywh[:, :, :, :, np.newaxis, :], bboxes[:, np.newaxis, np.newaxis, np.newaxis, :, :])
    # 找出每个预测框的最大iou值
    max_iou = tf.expand_dims(tf.reduce_max(iou, axis=-1), axis=-1)
    
    # respond_bgd 形状为 [batch_size, output_size, output_size, anchor_per_scale, x]，当无目标且小于阈值时x为1，否则为0
    respond_bgd = (1.0 - respond_bbox) * tf.cast( max_iou < IOU_LOSS_THRESH, tf.float32 )

    conf_focal = tf.pow(respond_bbox - pred_conf, 2)

    conf_loss = conf_focal * (
      # 正样本误差
            respond_bbox * tf.nn.sigmoid_cross_entropy_with_logits(labels=respond_bbox, logits=conv_raw_conf)
            +
      # 负样本误差
            respond_bgd * tf.nn.sigmoid_cross_entropy_with_logits(labels=respond_bbox, logits=conv_raw_conf)
    )

# 3.分类损失
    使用交叉熵损失计算损失值
    prob_loss = respond_bbox * tf.nn.sigmoid_cross_entropy_with_logits(labels=label_prob, logits=conv_raw_prob)

    # 误差平均
    giou_loss = tf.reduce_mean(tf.reduce_sum(giou_loss, axis=[1,2,3,4]))
    conf_loss = tf.reduce_mean(tf.reduce_sum(conf_loss, axis=[1,2,3,4]))
    prob_loss = tf.reduce_mean(tf.reduce_sum(prob_loss, axis=[1,2,3,4]))

    return giou_loss, conf_loss, prob_loss

yolov3的损失函数看起来比较明白易懂，但这可能是经过原作者多次试验后得出来的最优解，我虽然看懂了代码，但是对于代码中损失函数为什么要这样计算还不是很懂，看来还需要更加深入的学习。

这次yolov3模型以及损失函数的计算分享就结束了，下篇文章我们进行数据集制作代码的分析。