qq_41576083

SSD-目标检测代码解读

最近看了SSD的源代码，理了一下其中的逻辑，写一篇学习笔记。

代码地址：https://github.com/balancap/SSD-Tensorflow

一、网络结构

首先贴出来网络结构图，便于后续的分析，这里的图是SSD 300的结构图，而我看的代码是SSD 512，但是思想差别不大，可以看出来SSD比YOLO的差别就是，不仅在最后一层提取预选框，而是在中间某几层就已经开始通过3X3的卷积提取候选框，且引入了anchors，可以看到不同的特征层的anchors数量也不一样，从开始的38X38X4到19X19X6到3X3X4到后面的1X1X4都是候选框个数，加一起据说总共3800多个，大大扩充了候选窗数量，而且还具有检测大小物体的侧重分工。

接下开始分析代码，首先网络的结构是在ssd_512_net.py中搭起来的，首先看一下与网络结构有关的参数：

下面的参数是用于构建网络用的参数。feat_layers指定第几个层做为特征层用来提取候选框，feat_shapes则是标明对应的特征层尺寸，相当于以前的cell_size，不过由于好多个特征层一起提取，所以有好多的cell_size，normalizations则指定对应特征层的归一化系数，因为第一个特征层较靠前，其数值较其他的特征层偏大，故只对其进行归一化。

feat_layers = ['block4', 'block7', 'block8', 'block9', 'block10', 'block11', 'block12']

feat_shapes = [(64, 64), (32, 32), (16, 16), (8, 8), (4, 4), (2, 2), (1, 1)]

normalizations = [20, -1, -1, -1, -1, -1, -1]

下面的参数则是用于anchors的构建，主要的是anchor_sizes与anchor_ratios，对于anchors的构建，主要是这样的规则：

第一个：anchor_sizes[0]，即原尺寸

第二个：sqrt(anchor_sizes[0] * anchor_sizes[1])，两项乘积开方

后续：anchor_ratios* anchor_sizes[0]

所以一共是1+1+len(anchor_ratios) = len(anchor_sizes) + len(anchor_ratios)

anchor_size_bounds = [0.10, 0.90]

anchor_sizes = [(20.48, 51.2),
                (51.2, 133.12),
                (133.12, 215.04),
                (215.04, 296.96),
                (296.96, 378.88),
                (378.88, 460.8),
                (460.8, 542.72)]

anchor_ratios = [[2, .5],
                       [2, .5, 3, 1./3],
                       [2, .5, 3, 1./3],
                       [2, .5, 3, 1./3],
                       [2, .5, 3, 1./3],
                       [2, .5],
                       [2, .5]]

anchor_steps = [8, 16, 32, 64, 128, 256, 512]

anchor_offset = 0.5

解释完上述的参数，就可以先看代码了，首先是网络的搭建，这里直接去看ssd_net()函数，这是详细的构造过程：

    def ssd_net(inputs,
            num_classes,
            feat_layers,
            anchor_sizes,
            anchor_ratios,
            normalizations,
            is_training=True,
            dropout_keep_prob=0.5,
            prediction_fn=slim.softmax,
            reuse=None,
            scope='ssd_300_vgg'):
    """SSD net definition.
    """
    # if data_format == 'NCHW':
    #     inputs = tf.transpose(inputs, perm=(0, 3, 1, 2))

    # End_points collect relevant activations for external use.
    # 分块进行卷积池化处理，并将不同块的处理结果储存在end_points中
    end_points = {}
    with tf.variable_scope(scope, 'ssd_512_vgg', [inputs], reuse=reuse):
        # Original VGG-16 blocks.
        print(inputs)
        net = slim.repeat(inputs, 2, slim.conv2d, 64, [3, 3], scope='conv1')
        end_points['block1'] = net
        print('block1', net)
        net = slim.max_pool2d(net, [2, 2], scope='pool1')
        # Block 2.
        net = slim.repeat(net, 2, slim.conv2d, 128, [3, 3], scope='conv2')
        end_points['block2'] = net
        net = slim.max_pool2d(net, [2, 2], scope='pool2')
        # Block 3.
        net = slim.repeat(net, 3, slim.conv2d, 256, [3, 3], scope='conv3')
        end_points['block3'] = net
        net = slim.max_pool2d(net, [2, 2], scope='pool3')
        # Block 4.
        net = slim.repeat(net, 3, slim.conv2d, 512, [3, 3], scope='conv4')
        end_points['block4'] = net
        net = slim.max_pool2d(net, [2, 2], scope='pool4')
        # Block 5.
        net = slim.repeat(net, 3, slim.conv2d, 512, [3, 3], scope='conv5')
        end_points['block5'] = net
        net = slim.max_pool2d(net, [3, 3], 1, scope='pool5')

        # Additional SSD blocks.
        # Block 6: let's dilate the hell out of it!
        net = slim.conv2d(net, 1024, [3, 3], rate=6, scope='conv6')
        end_points['block6'] = net
        # Block 7: 1x1 conv. Because the fuck.
        net = slim.conv2d(net, 1024, [1, 1], scope='conv7')
        end_points['block7'] = net

        # Block 8/9/10/11: 1x1 and 3x3 convolutions stride 2 (except lasts).
        end_point = 'block8'
        with tf.variable_scope(end_point):
            net = slim.conv2d(net, 256, [1, 1], scope='conv1x1')
            net = custom_layers.pad2d(net, pad=(1, 1))
            net = slim.conv2d(net, 512, [3, 3], stride=2, scope='conv3x3', padding='VALID')
        end_points[end_point] = net
        print('block8', net)
        end_point = 'block9'
        with tf.variable_scope(end_point):
            net = slim.conv2d(net, 128, [1, 1], scope='conv1x1')
            net = custom_layers.pad2d(net, pad=(1, 1))
            net = slim.conv2d(net, 256, [3, 3], stride=2, scope='conv3x3', padding='VALID')
        end_points[end_point] = net
        print('block9', net)
        end_point = 'block10'
        with tf.variable_scope(end_point):
            net = slim.conv2d(net, 128, [1, 1], scope='conv1x1')
            net = custom_layers.pad2d(net, pad=(1, 1))
            net = slim.conv2d(net, 256, [3, 3], stride=2, scope='conv3x3', padding='VALID')
        end_points[end_point] = net
        print('block10', net)
        end_point = 'block11'
        with tf.variable_scope(end_point):
            net = slim.conv2d(net, 128, [1, 1], scope='conv1x1')
            net = custom_layers.pad2d(net, pad=(1, 1))
            net = slim.conv2d(net, 256, [3, 3], stride=2, scope='conv3x3', padding='VALID')
        end_points[end_point] = net
        print('block11', net)
        end_point = 'block12'
        with tf.variable_scope(end_point):
            net = slim.conv2d(net, 128, [1, 1], scope='conv1x1')
            net = custom_layers.pad2d(net, pad=(1, 1))
            net = slim.conv2d(net, 256, [4, 4], scope='conv4x4', padding='VALID')
            # Fix padding to match Caffe version (pad=1).
            # pad_shape = [(i-j) for i, j in zip(layer_shape(net), [0, 1, 1, 0])]
            # net = tf.slice(net, [0, 0, 0, 0], pad_shape, name='caffe_pad')
            print(net)
        end_points[end_point] = net

        # Prediction and localisations layers.
        predictions = []
        logits = []
        localisations = []
        # 根据feat_layers中标出的特征层，分别回归坐标值以及预测分类类别
        for i, layer in enumerate(feat_layers):
            with tf.variable_scope(layer + '_box'):
                p, l = ssd_multibox_layer(end_points[layer],
                                                      num_classes,
                                                      anchor_sizes[i],
                                                      anchor_ratios[i],
                                                      normalizations[i])
            # 这里prediction_fn就是softmax
            predictions.append(prediction_fn(p))
            logits.append(p)
            localisations.append(l)
        print(logits)
        #
        # predictions: [[batch_num, 64, 64, 4, class_num], .....[batch_num, 1, 1, 4, class_num]]
        # logits : [[batch_num, 64, 64, 4, class_num], .....[batch_num, 1, 1, 4, class_num]]
        # localisations : [[batch_num, 64, 64, 4, 4], .....[batch_num, 1, 1, 4, 4]]
        return predictions, localisations, logits, end_points

可以看到前面的卷积池化没有什么特点，其中值得一提的是pad2d这个函数，对张量进行适当的填充，从而保证之后的卷积正常进行，针对前面分block储存的网络输出，在ssd_multibox_layer()中，结合anchors提取候选框以及候选框分类。

下面是实现代码：

def ssd_multibox_layer(inputs,
                       num_classes,
                       sizes,
                       ratios=[1],
                       normalization=-1,
                       bn_normalization=False):
    """Construct a multibox layer, return a class and localization predictions.
    """
    net = inputs
    # 如果需要L2正则则进行L2正则化
    if normalization > 0:
        net = custom_layers.l2_normalization(net, scaling=True)
    # Number of anchors.
    # 该特征层总anchor数量，
    num_anchors = len(sizes) + len(ratios)

    # Location.
    # Location预测四个描述回归框位置的参数，故为anchors*4的数量
    num_loc_pred = num_anchors * 4
    loc_pred = slim.conv2d(net, num_loc_pred, [3, 3], activation_fn=None,
                           scope='conv_loc')
    # 这里有关于NCHW和NHWC两种张量形式，该函数是统一成NHWC形式
    loc_pred = custom_layers.channel_to_last(loc_pred)
    # reshape成[batch_num, cell_size, cell_size, num_anchors, 4]的形式
    loc_pred = tf.reshape(loc_pred,
                          tensor_shape(loc_pred, 4)[:-1]+[num_anchors, 4])
    # Class prediction.
    # 与上面同理，不过预测的是classes，所以输出通道数变成了num_anchors * num_classes
    num_cls_pred = num_anchors * num_classes
    cls_pred = slim.conv2d(net, num_cls_pred, [3, 3], activation_fn=None,
                           scope='conv_cls')
    cls_pred = custom_layers.channel_to_last(cls_pred)
    #[BATCH_SIZE, CELL_SIZE, CELL_SIZE, NUM_ANCHORS, NUM_CLASSES]
    cls_pred = tf.reshape(cls_pred,
                          tensor_shape(cls_pred, 4)[:-1]+[num_anchors, num_classes])
    return cls_pred, loc_pred

到这里就得到了预测结果，predictions和localisations

二、样本编码

样本读进来之后只有一副图片内的目标的类别和位置信息，要编码成可以进行loss计算的格式，还需要根据全部的anchors将ground truth按IOU分配给各个anchors，所以样本编码分为两部分：求全部anchors尺寸，编码。

1、anchors集合构建

代码部分直接看ssd_300_vgg.py的ssd_anchors_all_layers()：

# 根据每个特征层，构建anchors
def ssd_anchors_all_layers(img_shape,
                           layers_shape,
                           anchor_sizes,
                           anchor_ratios,
                           anchor_steps,
                           offset=0.5,
                           dtype=np.float32):
    """Compute anchor boxes for all feature layers.
    """
    layers_anchors = []
    # 针对每一个特征层尺寸
    for i, s in enumerate(layers_shape):
        # 输入：
        # img_shape：图片尺寸，这里关于回归框预测值的转换规则
        # s：当前特征层的尺寸，以SSD512的第一层为例，即(64,64)
        # anchor_sizes：anchor原始尺寸
        # anchor_ratios：不同比例的anchor
        # anchor_steps：特征图较原图的缩放倍率
        # 输出：
        # anchor_bboxes：输出每层特征层的anchor坐标详情，构成为[x，y，w，h]
        #               以第一层为例：[64，64，4，4]，64为x，y坐标，4为全部anchor在固定中心点情况下的4种尺寸
        #               其中，某些特征层anchor尺寸变化为4种，有些为6种
        anchor_bboxes = ssd_anchor_one_layer(img_shape, s,
                                             anchor_sizes[i],
                                             anchor_ratios[i],
                                             anchor_steps[i],
                                             offset=offset, dtype=dtype)
        print(anchor_bboxes)
        # layers_anchors：[[64, 64, 4, 4]........[1, 1, 4, 4]]
        layers_anchors.append(anchor_bboxes)
    return layers_anchors

还是同样的路子，根据不同的特征层，按照其相应的anchor规格，构建anchors，然后堆在一个list中，继续跟着看ssd_anchor_one_layer()函数，看一下具体对每一个特征层然后构建其中的anchors：

def ssd_anchor_one_layer(img_shape,
                         feat_shape,
                         sizes,
                         ratios,
                         step,
                         offset=0.5,
                         dtype=np.float32):
    """Computer SSD default anchor boxes for one feature layer.

    Determine the relative position grid of the centers, and the relative
    width and height.

    Arguments:
      feat_shape: Feature shape, used for computing relative position grids;
      size: Absolute reference sizes;
      ratios: Ratios to use on these features;
      img_shape: Image shape, used for computing height, width relatively to the
        former;
      offset: Grid offset.

    Return:
      y, x, h, w: Relative x and y grids, and height and width.
    """
    # Compute the position grid: simple way.
    # y, x = np.mgrid[0:feat_shape[0], 0:feat_shape[1]]
    # y = (y.astype(dtype) + offset) / feat_shape[0]
    # x = (x.astype(dtype) + offset) / feat_shape[1]
    # Weird SSD-Caffe computation using steps values...
    # 分格矩阵
    y, x = np.mgrid[0:feat_shape[0], 0:feat_shape[1]]
    y = (y.astype(dtype) + offset) * step / img_shape[0]
    x = (x.astype(dtype) + offset) * step / img_shape[1]

    # Expand dims to support easy broadcasting.
    # 维度阔充
    y = np.expand_dims(y, axis=-1)
    x = np.expand_dims(x, axis=-1)

    # Compute relative height and width.
    # Tries to follow the original implementation of SSD for the order.
    # 不同特征层的anchors数量有异
    num_anchors = len(sizes) + len(ratios)
    h = np.zeros((num_anchors, ), dtype=dtype)
    w = np.zeros((num_anchors, ), dtype=dtype)
    # Add first anchor boxes with ratio=1.
    # 这里可以看到每一层的anchor尺寸具体构造方式：
    # 针对sizes，sizes第一个尺寸值是原尺寸的anchor，第二个尺寸值需要与第一个尺寸值做乘积开方来作为一个anchor的尺寸
    # 针对ratios，每个ratios都是在原尺寸size[0]的基础上进行比例运算
    # 所以，每个特征层的anchor数量为len(size)+len(ratios)
    h[0] = sizes[0] / img_shape[0]
    w[0] = sizes[0] / img_shape[1]
    di = 1
    if len(sizes) > 1:
        h[1] = math.sqrt(sizes[0] * sizes[1]).real / img_shape[0]
        w[1] = math.sqrt(sizes[0] * sizes[1]).real / img_shape[1]
        di += 1
    for i, r in enumerate(ratios):
        h[i+di] = sizes[0] / img_shape[0] / math.sqrt(r).real
        w[i+di] = sizes[0] / img_shape[1] * math.sqrt(r).real
    # 以第一层为例，由于是64X64特征图，2+2anchors
    # 所以返回量为：y：[[64]], x: [[64]], h: [4], w: [4]
    return y, x, h, w

到这里，我们就构建了一个特征层的anchors，然后逐层进行构造，并堆叠，最后就形成了[[64, 64, 4, 4]........[1, 1, 4, 4]]这种格式的所有anchors的二点式坐标集合。

2、样本编码
在得到了所有anchors的具体位置之后，我们就可以像faster rcnn那样来针对每个anchor，将gt编码成loss计算需要的样子，即对每个样本图像，找到其中的anchors来负责每一个待检测目标。

这里需要提一下，我们编码后的gt坐标，以及预测出来的位置坐标并不是真实的坐标，而是根据与cell尺寸，图片尺寸算出来的一个系数，具体算的过程如下：

这里b是gt的x，y，w，h；d是负责该目标的anchors的x，y，w，h。

而l才是我们编码后，以及预测出来的东西，这样数学关系就比较明确了。

编码程序也是和其他一样，封装在类中，但其实调用的外界函数，这里调用的ssd_common.py的tf_ssd_bboxes_encode()函数：

def tf_ssd_bboxes_encode(labels,
                         bboxes,
                         anchors,
                         num_classes,
                         no_annotation_label,
                         ignore_threshold=0.5,
                         prior_scaling=[0.1, 0.1, 0.2, 0.2],
                         dtype=tf.float32,
                         scope='ssd_bboxes_encode'):
    """Encode groundtruth labels and bounding boxes using SSD net anchors.
    Encoding boxes for all feature layers.

    Arguments:
      labels: 1D Tensor(int64) containing groundtruth labels;
      bboxes: Nx4 Tensor(float) with bboxes relative coordinates;
      anchors: List of Numpy array with layer anchors;
      matching_threshold: Threshold for positive match with groundtruth bboxes;
      prior_scaling: Scaling of encoded coordinates.

    Return:
      (target_labels, target_localizations, target_scores):
        Each element is a list of target Tensors.
    """
    # 在此之前先明确一下输入量维度，由上方说明也可得知
    # labels：1维的向量，里面按序存放图片种的有的类别
    # bboxes：N*4维的向量，N应该就是len(labels)，即针对每个有类别属性的物体，其位置信息
    # anchors：即之前得到的所有特征层上的所有anchors列表
    with tf.name_scope(scope):
        # 预先做出类别，gt，置信度存储空间
        target_labels = []
        target_localizations = []
        target_scores = []
        # 针对每一层特征层
        for i, anchors_layer in enumerate(anchors):
            with tf.name_scope('bboxes_encode_block_%i' % i):
                t_labels, t_loc, t_scores = \
                    tf_ssd_bboxes_encode_layer(labels, bboxes, anchors_layer,
                                               num_classes, no_annotation_label,
                                               ignore_threshold,
                                               prior_scaling, dtype)
                target_labels.append(t_labels)
                target_localizations.append(t_loc)
                target_scores.append(t_scores)
        # target_labels：[[64, 64, 4].......[1, 1, 4]]
        # target_localization：[[64, 64, 4，4].......[1, 1, 4，4]]
        # target_scores：[[64, 64, 4].......[1, 1, 4]]
        return target_labels, target_localizations, target_scores

一样的路子，按不同层的anchors分开处理，直接进入tf_ssd_bboxes_encode_layer()，看具体某一层的编码方式：

def tf_ssd_bboxes_encode_layer(labels,
                               bboxes,
                               anchors_layer,
                               num_classes,
                               no_annotation_label,
                               ignore_threshold=0.5,
                               prior_scaling=[0.1, 0.1, 0.2, 0.2],
                               dtype=tf.float32):
    """Encode groundtruth labels and bounding boxes using SSD anchors from
    one layer.

    Arguments:
      labels: 1D Tensor(int64) containing groundtruth labels;
      bboxes: Nx4 Tensor(float) with bboxes relative coordinates;
      anchors_layer: Numpy array with layer anchors;
      matching_threshold: Threshold for positive match with groundtruth bboxes;
      prior_scaling: Scaling of encoded coordinates.

    Return:
      (target_labels, target_localizations, target_scores): Target Tensors.
    """
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    # Anchors coordinates and volume.
    # 由x，y和h，w得到全部anchors的左上右下坐标
    yref, xref, href, wref = anchors_layer
    ymin = yref - href / 2.
    xmin = xref - wref / 2.
    ymax = yref + href / 2.
    xmax = xref + wref / 2.
    # 全部anchor的面积，用于计算之后的iou
    vol_anchors = (xmax - xmin) * (ymax - ymin)

    # Initialize tensors...
    # shape: [CELL_SIZE, CELL_SIZE, NUM_ANCHORS]
    shape = (yref.shape[0], yref.shape[1], href.size)
    # 各种真值标签
    feat_labels = tf.zeros(shape, dtype=tf.int64)
    feat_scores = tf.zeros(shape, dtype=dtype)

    feat_ymin = tf.zeros(shape, dtype=dtype)
    feat_xmin = tf.zeros(shape, dtype=dtype)
    feat_ymax = tf.ones(shape, dtype=dtype)
    feat_xmax = tf.ones(shape, dtype=dtype)

    # 类似iou系数计算
    def jaccard_with_anchors(bbox):
        """Compute jaccard score between a box and the anchors.
        """
        int_ymin = tf.maximum(ymin, bbox[0])
        int_xmin = tf.maximum(xmin, bbox[1])
        int_ymax = tf.minimum(ymax, bbox[2])
        int_xmax = tf.minimum(xmax, bbox[3])
        h = tf.maximum(int_ymax - int_ymin, 0.)
        w = tf.maximum(int_xmax - int_xmin, 0.)
        # Volumes.
        inter_vol = h * w
        union_vol = vol_anchors - inter_vol \
            + (bbox[2] - bbox[0]) * (bbox[3] - bbox[1])
        jaccard = tf.div(inter_vol, union_vol)
        return jaccard

    def intersection_with_anchors(bbox):
        """Compute intersection between score a box and the anchors.
        """
        int_ymin = tf.maximum(ymin, bbox[0])
        int_xmin = tf.maximum(xmin, bbox[1])
        int_ymax = tf.minimum(ymax, bbox[2])
        int_xmax = tf.minimum(xmax, bbox[3])
        h = tf.maximum(int_ymax - int_ymin, 0.)
        w = tf.maximum(int_xmax - int_xmin, 0.)
        inter_vol = h * w
        scores = tf.div(inter_vol, vol_anchors)
        return scores

    # while_loop判定，labels数量来定总循环次数，将一副图片中的所有目标构建进真值标签
    def condition(i, feat_labels, feat_scores,
                  feat_ymin, feat_xmin, feat_ymax, feat_xmax):
        """Condition: check label index.
        """
        # 这里代码内容有更改，是因为我用的样本每个图片里就一个目标
        return i < 1

    # 制作真值标签
    def body(i, feat_labels, feat_scores,
             feat_ymin, feat_xmin, feat_ymax, feat_xmax):
        """Body: update feature labels, scores and bboxes.
        Follow the original SSD paper for that purpose:
          - assign values when jaccard > 0.5;
          - only update if beat the score of other bboxes.
        """
        # Jaccard score.
        # 首先得到当前的labels及bbox，这里也是有代码个人更改，原代码应该是labels[i]与bboxes[i]
        label = labels[0]
        bbox = bboxes[0]
        # 计算bbox与每个anchor的iou
        jaccard = jaccard_with_anchors(bbox)
        # Mask: check threshold + scores + no annotations + num_classes.
        # 如果新的iou大于旧的得分记录，则mask的对应位置为true，即需要更新这个anchor的负责的目标信息
        mask = tf.greater(jaccard, feat_scores)
        # mask = tf.logical_and(mask, tf.greater(jaccard, matching_threshold))
        # 这四步只是进行一些转换方便后续处理
        mask = tf.logical_and(mask, feat_scores > -0.5)
        mask = tf.logical_and(mask, label < num_classes)
        imask = tf.cast(mask, tf.int64)
        fmask = tf.cast(mask, dtype)
        # Update values using mask.
        # 这里，针对mask为true的位置的anchors，更新他们负责的目标信息
        # anchors负责目标的标准为：
        # 每一个真值框可以被多个anchor负责
        # 但一个anchor只能负责与他iou最大的真值框
        feat_labels = imask * label + (1 - imask) * feat_labels
        # where函数，简述其作用就是，mask对应位置为true的anchors的feat_scores更新为iou，其他保持不变
        feat_scores = tf.where(mask, jaccard, feat_scores)
        # 更新两点式真值框坐标
        feat_ymin = fmask * bbox[0] + (1 - fmask) * feat_ymin
        feat_xmin = fmask * bbox[1] + (1 - fmask) * feat_xmin
        feat_ymax = fmask * bbox[2] + (1 - fmask) * feat_ymax
        feat_xmax = fmask * bbox[3] + (1 - fmask) * feat_xmax

        # Check no annotation label: ignore these anchors...
        # interscts = intersection_with_anchors(bbox)
        # mask = tf.logical_and(interscts > ignore_threshold,
        #                       label == no_annotation_label)
        # # Replace scores by -1.
        # feat_scores = tf.where(mask, -tf.cast(mask, dtype), feat_scores)

        return [i+1, feat_labels, feat_scores,
                feat_ymin, feat_xmin, feat_ymax, feat_xmax]
    # Main loop definition.
    # i = 0
    # [i, feat_labels, feat_scores,
    #  feat_ymin, feat_xmin,
    #  feat_ymax, feat_xmax] = tf.while_loop(condition, body,
    #                                        [i, feat_labels, feat_scores,
    #                                         feat_ymin, feat_xmin,
    #                                         feat_ymax, feat_xmax])
    # 这里还是我自身用到所以改了点东西
    # 原代码的大致思路就是遍历一副图片中的目标(通过condition函数判断)，构造真值标签(通过body函数构造)
    [i, feat_labels, feat_scores,
       feat_ymin, feat_xmin,
       feat_ymax, feat_xmax] = body(1, feat_labels, feat_scores,
                                             feat_ymin, feat_xmin,
                                             feat_ymax, feat_xmax)
    # Transform to center / size.
    # 这里进行坐标的编码行为
    feat_cy = (feat_ymax + feat_ymin) / 2.
    feat_cx = (feat_xmax + feat_xmin) / 2.
    feat_h = feat_ymax - feat_ymin
    feat_w = feat_xmax - feat_xmin
    # Encode features.
    feat_cy = (feat_cy - yref) / href / prior_scaling[0]
    feat_cx = (feat_cx - xref) / wref / prior_scaling[1]
    feat_h = tf.log(feat_h / href) / prior_scaling[2]
    feat_w = tf.log(feat_w / wref) / prior_scaling[3]
    # Use SSD ordering: x / y / w / h instead of ours.
    # 将4个坐标信息进行堆叠
    feat_localizations = tf.stack([feat_cx, feat_cy, feat_w, feat_h], axis=-1)
    # 此时返回的是针对一张图片的label与gt，关于某一层的全部anchors的标签
    # 输出维度：
    # feat_labels：[CELL_SIZE, CELL_SIZE, NUM_ANCHORS]
    # feat_localization：[CELL_SIZE, CELL_SIZE, NUM_ANCHORS，4]
    # feat_scores：[CELL_SIZE, CELL_SIZE, NUM_ANCHORS]
    return feat_labels, feat_localizations, feat_scores

代码很长，分块来看的话就很简单了，大致分为下面三块：

1）初始化合适shape的存储空间，并赋初值。

2）定义了几个函数，主要用于计算IOU、判断是否遍历图片中的gt与labels、根据gt分配至合适anchors。

3）通过while_loop将上述参数联合起来使用，完成gt编码。

这里的重点就看一下几个函数的实现，IOU与遍历labels这两个函数很简单，不细说，就是jaccard_with_anchors和condition。这里condition因为我的样本里一副图片就一个目标，所以改写了一下，直接就是目标数到1就截止，原来的也很简单，一看就懂。

这里主要看的是body函数，为了方便这里单独放一下body：

def body(i, feat_labels, feat_scores,
             feat_ymin, feat_xmin, feat_ymax, feat_xmax):
        """Body: update feature labels, scores and bboxes.
        Follow the original SSD paper for that purpose:
          - assign values when jaccard > 0.5;
          - only update if beat the score of other bboxes.
        """
        # Jaccard score.
        # 首先得到当前的labels及bbox，这里也是有代码个人更改，原代码应该是labels[i]与bboxes[i]
        label = labels[0]
        bbox = bboxes[0]
        # 计算bbox与每个anchor的iou
        jaccard = jaccard_with_anchors(bbox)
        # Mask: check threshold + scores + no annotations + num_classes.
        # 如果新的iou大于旧的得分记录，则mask的对应位置为true，即需要更新这个anchor的负责的目标信息
        mask = tf.greater(jaccard, feat_scores)
        # mask = tf.logical_and(mask, tf.greater(jaccard, matching_threshold))
        # 这四步只是进行一些转换方便后续处理
        mask = tf.logical_and(mask, feat_scores > -0.5)
        mask = tf.logical_and(mask, label < num_classes)
        imask = tf.cast(mask, tf.int64)
        fmask = tf.cast(mask, dtype)
        # Update values using mask.
        # 这里，针对mask为true的位置的anchors，更新他们负责的目标信息
        # anchors负责目标的标准为：
        # 每一个真值框可以被多个anchor负责
        # 但一个anchor只能负责与他iou最大的真值框
        feat_labels = imask * label + (1 - imask) * feat_labels
        # where函数，简述其作用就是，mask对应位置为true的anchors的feat_scores更新为iou，其他保持不变
        feat_scores = tf.where(mask, jaccard, feat_scores)
        # 更新两点式真值框坐标
        feat_ymin = fmask * bbox[0] + (1 - fmask) * feat_ymin
        feat_xmin = fmask * bbox[1] + (1 - fmask) * feat_xmin
        feat_ymax = fmask * bbox[2] + (1 - fmask) * feat_ymax
        feat_xmax = fmask * bbox[3] + (1 - fmask) * feat_xmax

        # Check no annotation label: ignore these anchors...
        # interscts = intersection_with_anchors(bbox)
        # mask = tf.logical_and(interscts > ignore_threshold,
        #                       label == no_annotation_label)
        # # Replace scores by -1.
        # feat_scores = tf.where(mask, -tf.cast(mask, dtype), feat_scores)

        return [i+1, feat_labels, feat_scores,
                feat_ymin, feat_xmin, feat_ymax, feat_xmax]

这样就成功的将样本编码进了合适的anchors，完成了编码。

三、loss构造

有了上边的基础，其实loss构造代码就很简单了，只是还有一点要注意的就是，在loss构造中，只有某些存在目标可能性较大的anchor才有资格参与loss计算图构建：

# loss定义
def ssd_losses(logits, localisations,
               gclasses, glocalisations, gscores,
               match_threshold=0.5,
               negative_ratio=3.,
               alpha=1.,
               label_smoothing=0.,
               device='/cpu:0',
               scope=None):
    with tf.name_scope(scope, 'ssd_losses'):
        lshape = get_shape(logits[0], 5)
        num_classes = lshape[-1]
        batch_size = lshape[0]

        # Flatten out all vectors!
        #下面一大堆操作就是把各个向量拉平合并
        # 真值标签：
        #           gclasses：[batch_num*(64*64*4 +.....+ 1*1*4)]
        #           gscores：[batch_num*(64*64*4 +.....+ 1*1*4)]
        #           glocalisations：[batch_num*(64*64*4 +.....+ 1*1*4)，4]
        # 预测值：
        #           logits：[batch_num*(64*64*4 +.....+ 1*1*4)，num_classes]
        #           localisations：[batch_num*(64*64*4 +.....+ 1*1*4)，4]
        flogits = []
        fgclasses = []
        fgscores = []
        flocalisations = []
        fglocalisations = []
        for i in range(len(logits)):
            flogits.append(tf.reshape(logits[i], [-1, num_classes]))
            fgclasses.append(tf.reshape(gclasses[i], [-1]))
            fgscores.append(tf.reshape(gscores[i], [-1]))
            flocalisations.append(tf.reshape(localisations[i], [-1, 4]))
            fglocalisations.append(tf.reshape(glocalisations[i], [-1, 4]))
        # And concat the crap!
        logits = tf.concat(flogits, axis=0)
        gclasses = tf.concat(fgclasses, axis=0)
        gscores = tf.concat(fgscores, axis=0)
        localisations = tf.concat(flocalisations, axis=0)
        glocalisations = tf.concat(fglocalisations, axis=0)
        dtype = logits.dtype

        # Compute positive matching mask...
        # 这里可以认为是只有iou大于match_threshold的样本才是positive样本
        pmask = gscores > match_threshold
        fpmask = tf.cast(pmask, dtype)
        n_positives = tf.reduce_sum(fpmask)

        # Hard negative mining...
        # 其余的都按背景处理
        no_classes = tf.cast(pmask, tf.int32)
        # 预测类别为可能型最大的类别
        predictions = slim.softmax(logits)
        # 除了positive样本，其余都是negative样本
        nmask = tf.logical_and(tf.logical_not(pmask),
                               gscores > -0.5)
        fnmask = tf.cast(nmask, dtype)
        # 将预测类别中的对应位置的类别改为背景
        nvalues = tf.where(nmask,
                           predictions[:, 0],
                           1. - fnmask)
        # 将类别预测结果reshape成[batch_num*(64*64*4 +.....+ 1*1*4)]
        nvalues_flat = tf.reshape(nvalues, [-1])
        # Number of negative entries to select.
        # 严格按照positive与negative样本比例3：1来重新选择negative样本
        max_neg_entries = tf.cast(tf.reduce_sum(fnmask), tf.int32)
        n_neg = tf.cast(negative_ratio * n_positives, tf.int32) + batch_size
        n_neg = tf.minimum(n_neg, max_neg_entries)

        val, idxes = tf.nn.top_k(-nvalues_flat, k=n_neg)
        max_hard_pred = -val[-1]
        # Final negative mask.
        nmask = tf.logical_and(nmask, nvalues < max_hard_pred)
        fnmask = tf.cast(nmask, dtype)

        # Add cross-entropy loss.
        with tf.name_scope('cross_entropy_pos'):
            # positive样本交叉熵
            loss = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits,
                                                                  labels=gclasses)
            #loss = tf.div(tf.reduce_sum(loss * fpmask), batch_size, name='value')
            loss = tf.reduce_sum(loss * fpmask)
            tf.losses.add_loss(loss)

        with tf.name_scope('cross_entropy_neg'):
            # negative样本交叉熵
            loss = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits,
                                                                  labels=no_classes)
            #loss = tf.div(tf.reduce_sum(loss * fnmask), batch_size, name='value')
            loss = tf.reduce_sum(loss * fnmask)
            tf.losses.add_loss(loss)

        # Add localization loss: smooth L1, L2, ...
        with tf.name_scope('localization'):
            # Weights Tensor: positive mask + random negative.
            # L1平滑的位置回归
            weights = tf.expand_dims(alpha * fpmask, axis=-1)
            loss = custom_layers.abs_smooth(localisations - glocalisations)
            #loss = tf.div(tf.reduce_sum(loss * weights), batch_size, name='value')
            loss = tf.reduce_sum(loss * weights)
            tf.losses.add_loss(loss)

把所有loss都添加进了losses之后，这个loss构建也就完成了。

你可能感兴趣的:(SSD-目标检测代码解读)

【保姆级视频教程（一）】YOLOv12环境配置：从零到一，手把手保姆级教程！| 小白也能轻松玩转目标检测！一只云卷云舒 YOLOv12保姆级通关教程 YOLO YOLOv12 flash attention GPU 计算能力算力
【2025全站首发】YOLOv12环境配置：从零到一，手把手保姆级教程！|小白也能轻松玩转目标检测！文章目录1.FlashAttentionWindows端WHL包下载1.1简介1.2下载链接1.3国内镜像站1.4安装方法2.NVIDIAGPU计算能力概述2.1简介2.2计算能力版本与GPU型号对照表2.2.1CUDA-EnabledDatacenterProducts2.2.2CUDA-Enab
yolov8的第一次实验报告算法宇宙 YOLO 人工智能计算机视觉
1.实验概述实验名称:占道经营目标检测模型实验目标:提高模型的精确率（Precision）和召回率（Recall），使其接近1。实验日期:[2025-01-16]2.数据集数据集名称:[datasets]数据集大小:[2.68Gb]数据集描述:[数据集主要分两个类别：zdjy_ld,zdjy_gd]注释：占道经营流动，占道经营固定3.模型配置3.1基础配置·模型类型:YOLOv8·预训练模型:YO
YOLOv8 的简介及C#中如何简单应用YOLOv8 码上有潜 YOLOv8 YOLO
YOLOv8是YOLO（YouOnlyLookOnce）系列中的最新版本，是一种用于目标检测和图像分割的深度学习模型。YOLO模型以其快速和准确的目标检测性能而著称，广泛应用于实时应用程序中。主要特点高效性：YOLOv8在保持高检测速度的同时，进一步提高了检测精度。端到端训练：可以直接从图像输入端到分类结果输出，简化了训练和部署过程。改进的架构：包括更深的网络结构、更复杂的特征提取方法以及更高效的
Yolov11目标检测(ultralytics) @M_J_Y@ 目标检测 YOLO 目标检测人工智能
Yolov11目标检测（ultralytics）1.克隆仓库2.安装环境依赖3.训练、验证、推理以及onnx模型导出1.克隆仓库从官网下载Yolov11到本地。[email protected]:ultralytics/ultralytics.git2.安装环境依赖pipinstall-e.-ihttps://pypi.mirrors.ustc.edu.cn/simple/3.训练、验证
使用 labelImg 制作YOLO系列目标检测数据集（ 2401_89791028 YOLO 目标检测人工智能
文章转载自K同学，谨防原文失效可参考link1和link2和link3LabelImg介绍LabelImg支持文件夹的导入，在标完一张后，在左侧选择NextImage就可以切换到下一张继续了。输出格式部分，目前LabelImg支持YOLO和PascalVOC2种格式，前者标签文件后缀是.txt件，而后者标签文件后缀是.xml件。标签保存在对应的labels文件夹下，与images中的图片文件名一一
YOLOv8 改进：添加 GAM 注意力机制鱼弦人工智能时代 YOLO
YOLOv8改进：添加GAM注意力机制引言在目标检测领域，YOLO（YouOnlyLookOnce）网络因其速度和准确性被广泛应用。然而，随着场景的复杂化，仅仅依靠卷积特征可能不足以捕捉图像中的重要信息。引入注意力机制，如GAM（GlobalAttentionMechanism），可以有效提高模型对关键区域的关注，从而提升检测性能。技术背景GAM是一种全局注意力机制，通过全局信息聚合和自适应权重分
【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统：（2）消息队列与消息中间件 shiter 人工智能系统解决方案与技术架构人工智能深度学习音视频
文章大纲原始视频队列Python内存视频缓存优化方案（4GB以内）一、核心参数设计二、内存管理实现三、性能优化策略四、内存占用验证五、高级优化技巧六、部署建议检测结果队列YOLO检测结果队列技术方案一、技术选型矩阵二、核心实现代码三、性能优化策略四、可视化方案对比五、部署建议逻辑判定队列时间片图论时间序列大模型引入参考文献原始视频队列想要在单机内存中缓存1-5分钟的视频片段，python技术栈的话
YOLOv5+UI界面在车辆检测中的应用与实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪人工智能
1.引言随着智能交通系统（ITS）的快速发展，车辆检测已成为计算机视觉领域的重要研究方向。车辆检测技术广泛应用于交通流量监控、车辆违章抓拍、无人驾驶等场景中。近年来，深度学习技术的突破，特别是卷积神经网络（CNN）的崛起，使得目标检测技术取得了显著进展。其中，YOLO（YouOnlyLookOnce）系列模型以其高效的实时检测能力和出色的性能成为车辆检测领域的首选方法之一。在本文中，我们将基于YO
YOLO优化之扫描融合模块（SimVSS Block）清风AI 人工智能计算机视觉 YOLO 目标检测深度学习目标跟踪
研究背景在自动驾驶技术快速发展的背景下，目标检测作为其核心组成部分面临着严峻挑战。驾驶场景中目标尺度和大小的巨大差异，以及视觉特征不显著且易受噪声干扰的问题，对辅助驾驶系统的安全性构成了潜在威胁。传统的卷积神经网络（CNN）虽然在目标检测领域取得了显著进展，但仍存在局限性，如局部关注性导致难以有效检测不同尺度的目标。为克服这些问题，研究人员开始探索将状态空间模型（SSM）引入目标检测领域，以期提高
深入探究YOLO系列的骨干网路编码实践 YOLO 深度学习计算机视觉
深入探究YOLO系列的骨干网路YOLO系列是目标检测领域中非常知名的算法。其通过将整个图像作为输入，并且直接在图像上通过一个单独的神经网络输出每个检测框的类别预测和边界框信息。为了更好地理解YOLO系列，我们需要先了解它所使用的骨干网路。骨干网络是深度学习模型中的核心部分，负责提取图像的特征。如今常用的骨干网络有VGG、ResNet和MobileNet等。YOLO系列算法采用的是Darknet骨干
《Hello YOLOv8从入门到精通》4，模型架构和骨干网络Backbone调优实践 Jagua YOLO
YOLOv8是由Ultralytics开发的最先进的目标检测模型，其模型架构细节包括骨干网络（Backbone）、颈部网络（Neck）和头部网络（Head）三大部分。一、骨干网络（Backbone）Backbone部分负责特征提取，采用了一系列卷积和反卷积层，同时使用了残差连接和瓶颈结构来减小网络的大小并提高性能。YOLOv8的Backbone参考了CSPDarkNet结构，的增强版本，并结合了其
NPU的应用场景：从云端到边缘绿算技术 NPU架构介绍缓存人工智能科技深度学习
NPU的应用场景非常广泛，主要包括以下几个方面：1.云计算与数据中心AI推理服务：在云端提供高效的AI推理服务，例如图像识别、语音识别。模型训练加速：在大规模训练任务中，NPU可以作为加速单元，提升训练效率。2.边缘计算智能摄像头：在安防监控中，NPU可以实时处理视频流，实现目标检测和跟踪。智能音箱：在语音助手中，NPU可以加速语音识别和自然语言处理任务。3.自动驾驶实时感知：NPU可以加速自动驾
目标检测中衡量模型速度和精度的指标：FPS和mAP asdfg1258963 目标检测_ai 目标检测人工智能
“FPS”和“mAP”分别衡量了模型的速度和精度。FPS（FramesPerSecond）定义：FPS是“每秒传输帧数”的缩写，用于衡量计算机视觉系统（如目标检测、图像识别等）的实时性能。它表示系统每秒钟能够处理的图像或视频帧的数量。重要性：在实时应用中，如自动驾驶、视频监控等，FPS是一个关键指标。高FPS意味着系统能够快速处理输入的图像数据，实现实时响应。计算方式：FPS可以通过以下公式计算：
【开源代码解读】AI检索系统R1-Searcher通过强化学习RL激励大模型LLM的搜索能力 accurater 人工智能深度学习 R1-Searcher
关于R1-Searcher的报告：第一章：引言-AI检索系统的技术演进与R1-Searcher的创新定位1.1信息检索技术的范式转移在数字化时代爆发式增长的数据洪流中，信息检索系统正经历从传统关键词匹配到语义理解驱动的根本性变革。根据IDC的统计，2023年全球数据总量已突破120ZB，其中非结构化数据占比超过80%。这种数据形态的转变对检索系统提出了三个核心的挑战：语义歧义消除：如何准确理解"A
LeetCode 热题 100_前 K 个高频元素（73_347_中等_C++）(堆)(哈希表+排序；哈希表+优先队列（小根堆）) Dream it possible！ LeetCode 热题 100 leetcode c++散列表数据结构
LeetCode热题100_前K个高频元素（73_347）题目描述：输入输出样例：题解：解题思路：思路一（哈希表+排序）：思路二（哈希表+优先队列（小根堆））：代码实现代码实现（思路一（哈希表+排序））：代码实现（思路二（哈希表+优先队列（小根堆）））：以思路二为例进行调试部分代码解读题目描述：给你一个整数数组nums和一个整数k，请你返回其中出现频率前k高的元素。你可以按任意顺序返回答案。输入输
CCF CSP 第30次（2023.05）（2_矩阵运算_C++）（暴力破解）(矩阵相乘) Dream it possible！ CCF CSP认证矩阵 c++算法
CCFCSP第30次（2023.05）（2_矩阵运算_C++）题目背景：题目描述：输入格式：输出格式：样例输入样例输出：样例解释：子任务：提示：解题思路：思路一（暴力破解）：代码实现代码实现：部分代码解读时间限制：5.0s空间限制：512.0MB题目背景：Softmax(Q×KT/√d)×V是Transformer中注意力模块的核心算式，其中Q、K和V均是n行d列的矩阵，KT表示矩阵K的转置，×表
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
基于分组 NMS 的检测模型后处理改进 Lunar* 目标检测算法与优化目标检测深度学习 python
引言在目标检测任务中，后处理阶段的非极大值抑制（Non-MaximumSuppression,NMS）是至关重要的一环，主要用于去除高度重叠的冗余预测框。然而，在某些场景中，不同类别的目标可能会被网络同时预测为多个相近的类别，例如：交通工具检测场景：同一辆车可能被误检测为“自行车”和“电动车”。动物检测场景：同一只动物可能被误检测为“狼”和“狗”。家电检测场景：同一台设备可能被误检测为“微波炉”和
3.13 YOLO V3 不要不开心了机器学习 pytorch 深度学习
今天的内容为YOLO-V3YOLO系列-YOLO-V3，最大的改进就是网络结构，使其更适合小目标检测。-特征做得更细致，融入多持续特征图信息来预测不同规格物体。-先验框更丰富了，3种scale，每种3个规格，一共9种。-softmax改进，预测多标签任务。-多scale-为了能检测到不同大小的物体，设计了3个scale。-scale变换经典方法-左图：图像金字塔；右图：单一的输入。-scale变换
不要再让 import“占领满屏“啦？常威和来福回忆 react.js 前端前端框架
javascript代码解读复制代码//不使用重导importModalfrom'@arco-design/web-react/es/Modal'importCheckboxfrom'@arco-design/web-react/es/Checkbox'importMessagefrom'@arco-design/web-react/es/Message'...//使用模块重导import{Mod
基于YOLOv5的车牌识别系统：从数据集到UI界面的实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言随着智能交通系统的发展，车牌识别技术已成为交通管理、停车场自动化、路面监控等应用中的关键技术之一。车牌识别系统（LicensePlateRecognition,LPR）主要用于识别车辆的车牌号码，并将其转化为可以进一步处理的数据。车牌识别系统通常由图像处理、字符识别、目标检测等多种技术组成。近年来，随着深度学习技术的飞速发展，基于卷积神经网络（CNN）的目标检测算法，如YOLO（YouOn
点云从入门到精通技术详解100篇-基于激光雷达点云的三维目标检测格图素书目标检测人工智能计算机视觉
目录前言图像目标检测算法研究现状点云目标检测算法研究现状基于投影图的方法基于体素的方法基于点云的多模态融合方法2地面点云滤波及神经网络2.1目标检测数据集及采集设备2.1.1KITTI数据集2.1.2车载激光雷达2.2地面点云滤波算法2.2.1RANSAC算法2.2.2CSF算法本文篇幅较长，分为上下两篇，下篇详见基于激光雷达点云的三维目标检测（续）前言近几年来，在计算机视觉领域，利用深度学习卷积
【YOLOv11[基础]】目标检测OD | 导出ONNX模型 | ONN模型推理以及检测结果可视化 | python Jackilina_Stone 【改进】YOLO系列人工智能 python 计算机视觉 YOLO 深度学习目标检测
本文将导出YOLO11.pt模型对应的ONNX模型，并且使用ONNX模型推理以及结果的可视化。话不多说，先看看效果图吧！！！目录一导出ONNX模型二推理及检测结果可视化1代码2效果图
YOLO系列模型从v1到v10的演进剑走偏锋o.O YOLO 目标跟踪人工智能
文章目录引言YOLOv1:开创单阶段目标检测先河发布时间与背景核心创新模型架构训练策略与优化YOLOv2:提升精度与速度的平衡发布时间与背景核心创新模型架构训练策略与优化YOLOv3:多尺度检测与残差连接发布时间与背景核心创新模型架构训练策略与优化YOLOv4:引入注意力机制与优化模块发布时间与背景核心创新模型架构训练策略与优化YOLOv5:工程优化与实际应用的结合发布时间与背景核心创新模型架构训
图像识别技术与应用课后总结（18）一元钱面包人工智能
·YOLO-V3RetinaNet系列，YOLO-V3在不同变体（如YOLOV3-320、YOLOV3-416等）下，在推理时间和精度上有不同的表现，展示了其在速度和准确性上的平衡。YOLO-V3的改进点网络结构：相比之前版本，YOLO-V3的网络结构进行了优化，使其更适合小目标检测。特征处理：对特征的处理更加细致，通过融入多持续特征图信息来预测不同规格的物体。先验框：先验框更加丰富，有3种sca
鸿蒙5.0开发【自定义全局组件 UI 构建异常问题和解决】鸿蒙系统小能手Mr.Li 鸿蒙开发 harmonyos ui 华为 OpenHarmony 鸿蒙鸿蒙系统 arkui
在之前的文章中（[鸿蒙自定义Dialog的6种方式]），提到了自定义Dialog某些情况下无法渲染显示的问题，其本质是UI组件构造时，UI上下文获取异常，一般在异步回调或者非UI组件环境中构造全局类的组件（例如弹窗或者HUD）时，容易遇到这个问题。1.问题复现使用我的[XTEasyHUD]，不预先在UI组件生命周期中对其进行初始化配置，直接在异步场景中调用，就会导致HUD无法显示。ts代码解读复制
YOLOv8改进策略【注意力机制篇】| EMA 即插即用模块，提高远距离建模依赖（含C2f二次创新） Limiiiing YOLOv8改进专栏 YOLO 计算机视觉深度学习目标检测
一、本文介绍本文记录的是基于EMA模块的YOLOv8目标检测改进方法研究。EMA认为跨维度交互有助于通道或空间注意力预测，并且解决了现有注意力机制在提取深度视觉表示时可能带来的维度缩减问题。在改进YOLOv8的过程中能够为高级特征图产生更好的像素级注意力，能够建模长程依赖并嵌入精确的位置信息。专栏目录：YOLOv8改进目录一览|涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Ne
YOLOv5改进：在C3块不同位置添加EMA注意力机制，有效提升计算机视觉性能 UksApps YOLO 计算机视觉深度学习
计算机视觉中的目标检测是一个重要的任务，而YOLOv5是目前广泛应用的一种高效目标检测算法。为了进一步提升YOLOv5的性能，我们在C3块的不同位置添加了EMA（ExponentialMovingAverage）注意力机制。EMA注意力机制是一种用于提升模型的感知能力和特征表达能力的技术。在YOLOv5中，我们将EMA注意力机制嵌入到C3块中，以增强这一块的特征表示能力。下面是我们改进的YOLOv
实现一个超轻量级实例分割网络的思路 CV工程师小朱深度学习笔记深度学习应用实例分割 yolact picodet 深度学习
文章目录前言一、基本思路二、picodet三、yolact三、picodet+yolact总结前言在某些工业领域，由于成本问题算力有限，只能实时跑一些超轻量级网络，拿目标检测来说，例如yolo-fast，pp-picodet这些。如果要跑实例分割，目前好像没有什么超轻量级的网络。所以就有想法如何实现一个超轻量级实例分割网络。一、基本思路基于超轻量级目标检测pp-picodet，增加一个掩膜分支。参
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方