python目标检测SSD算法预测部分源码详解

学习前言

……学习了很多有关目标检测的概念呀，咕噜咕噜，可是要怎么才能进行预测呢，我看了好久的SSD源码，将其中的预测部分提取了出来，训练部分我还没看懂

什么是SSD算法

SSD是一种非常优秀的one-stage方法，one-stage算法就是目标检测和分类是同时完成的，其主要思路是均匀地在图片的不同位置进行密集抽样，抽样时可以采用不同尺度和长宽比，然后利用CNN提取特征后直接进行分类与回归，整个过程只需要一步，所以其优势是速度快。

但是均匀的密集采样的一个重要缺点是训练比较困难，这主要是因为正样本与负样本（背景）极其不均衡（参见Focal Loss），导致模型准确度稍低。

SSD的英文全名是Single Shot MultiBox Detector，Single shot说明SSD算法属于one-stage方法，MultiBox说明SSD算法基于多框预测。
（它真的不是固态硬盘啊~~~~~~）

讲解构架

本次教程的讲解分为俩个部分，第一部分是ssd_vgg_300主体的源码的讲解，第二部分是如何调用ssd_vgg_300主体的源码，即利用源码进行预测。
ssd_vgg_300主体的源码的讲解包括如下三个部分：
1、网络部分，用于建立ssd网络，用于预测种类和框的位置。
2、先验框部分，根据每个特征层的shape，构建出合适比例的框，同时可以减少运算量。
3、解码部分，根据网络部分和先验框部分的输出，对框的位置进行解码。

利用源码进行预测的讲解包括以下三个部分：
1、如何对图片进行处理。
2、载入模型
3、预测过程中处理的流程。

在看本次算法前，建议先下载我简化过的源码，配合观看，在其中运行demo即可执行程序：

ssd_vgg_300主体的源码

本文使用的ssd_vgg_300的源码源于点击下载，本文对其进行了简化，只保留了预测部分，便于理顺整个SSD的框架。

1、大体框架

在只需要预测的情况下，需要保留ssd_vgg_300源码的网络部分、先验框部分和解码部分。
（这里只能使用图片哈，因为VScode收缩后也不能只复制各个部分的函数名）

其中：
1、net函数用于构建网络，其输入值为shape为(None,300,300,3)的图像，在其中会经过许多层网络结构，在这许多的网络结构中存在6个特征层，用于读取框框，最终输出predictions和locations，predictions和locations中包含6个层的预测结果和框的位置。
2、arg_scope用于初始化网络每一个层的默认参数，该项目会用到slim框架，slim框架是一个轻量级的tensorflow框架，其参数初始化与slim中的函数相关。
3、anchors用于获得先验框，先验框也是针对6个特征层的。
4、bboxes_decode用于结合先验框和locations获得在img中框的位置，locations相当于编码过后的框的位置，这样做可以方便SSD网络学习，bboxes_decode用于解码，解码后可以获得img中框的位置。

2、net网络构建

# =============================网络部分============================= #def net(self, inputs,        is_training=True,        update_feat_shapes=True,        dropout_keep_prob=0.5,        prediction_fn=slim.softmax,        reuse=None,        scope='ssd_300_vgg'):    """    SSD 网络定义，调用外部函数，建立网络层    """    r = ssd_net(inputs,                num_classes=self.params.num_classes,                feat_layers=self.params.feat_layers,                anchor_sizes=self.params.anchor_sizes,                anchor_ratios=self.params.anchor_ratios,                normalizations=self.params.normalizations,                is_training=is_training,                dropout_keep_prob=dropout_keep_prob,                prediction_fn=prediction_fn,                reuse=reuse,                scope=scope)    return r

在net函数中，其调用了一个外部的函数ssd_net，我估计作者是为了让代码主体更简洁。
实际的构建代码在ssd_net函数中，网络构建代码中使用了许多的slim.repeat，该函数用于重复构建卷积层，具体构建的层共11层，在进行目标检测框的选择时，我们选择其中的[‘block4’, ‘block7’, ‘block8’, ‘block9’, ‘block10’, ‘block11’]。
这里我们放出论文中的网络结构层。

通过该图我们可以发现，其网络结构如下：
1、首先通过了多个3X3卷积层、5次步长为2的最大池化取出特征，形成了5个Block，其中第四个Block的shape为(?,38,38,512)，该层用于提取小目标（多次卷积后大目标的特征保存的更好，小目标特征会消失，需要在比较靠前的层提取小目标特征）。
2、进行一次卷积核膨胀dilate（关于卷积核膨胀的概念可以去网上搜索以下哈）。
3、读取第七个Block7的特征，shape为(?,19,19,1024)
4、分别利用1x1和3x3卷积提取特征，在3x3卷积的时候使用步长2，缩小特征数。获取第八个Block8的特征，shape为(?,10,10,512)
5、重复步骤4，获得9、10、11卷积层的特征，shape分别为(?,5,5,256)、(?,3,3,256)、(?,1,1,256)
此时网络便构建完了。

# =============================网络部分============================= ##############################################################   该部分供SSDNet的net函数调用，用于建立网络                 ##   返回predictions, localisations, logits, end_points     #############################################################def ssd_net(inputs,            num_classes=SSDNet.default_params.num_classes,            feat_layers=SSDNet.default_params.feat_layers,            anchor_sizes=SSDNet.default_params.anchor_sizes,            anchor_ratios=SSDNet.default_params.anchor_ratios,            normalizations=SSDNet.default_params.normalizations,            is_training=True,            dropout_keep_prob=0.5,            prediction_fn=slim.softmax,            reuse=None,            scope='ssd_300_vgg'):    """SSD net definition.    """    # 建立网络    end_points = {}    with tf.variable_scope(scope, 'ssd_300_vgg', [inputs], reuse=reuse):        # Block1        '''        相当于执行：        net = self.conv2d(x,64,[3,3],scope = 'conv1_1')        net = self.conv2d(net,64,[3,3],scope = 'conv1_2')        '''        # (300,300,3) -> (300,300,64) -> (150,150,64)         net = slim.repeat(inputs, 2, slim.conv2d, 64, [3, 3], scope='conv1')        end_points['block1'] = net        net = slim.max_pool2d(net, [2, 2], scope='pool1')        # Block 2.        '''        相当于执行：        net = self.conv2d(net,128,[3,3],scope = 'conv2_1')        net = self.conv2d(net,128,[3,3],scope = 'conv2_2')        '''        # (150,150,64) -> (150,150,128) -> (75,75,128)        net = slim.repeat(net, 2, slim.conv2d, 128, [3, 3], scope='conv2')        end_points['block2'] = net        net = slim.max_pool2d(net, [2, 2], scope='pool2')        # Block 3.        '''        相当于执行：        net = self.conv2d(net,256,[3,3],scope = 'conv3_1')        net = self.conv2d(net,256,[3,3],scope = 'conv3_2')        net = self.conv2d(net,256,[3,3],scope = 'conv3_3')        '''        # (75,75,128) -> (75,75,256) -> (38,38,256)        net = slim.repeat(net, 3, slim.conv2d, 256, [3, 3], scope='conv3')        end_points['block3'] = net        net = slim.max_pool2d(net, [2, 2],stride = 2,padding = "SAME", scope='pool3')        # Block 4.        # 三次卷积        # (38,38,256) -> (38,38,512) -> block4_net -> (19,19,512)        net = slim.repeat(net, 3, slim.conv2d, 512, [3, 3], scope='conv4')        end_points['block4'] = net        net = slim.max_pool2d(net, [2, 2],padding = "SAME", scope='pool4')        # Block 5.        # 三次卷积        # (19,19,512)->(19,19,512)        net = slim.repeat(net, 3, slim.conv2d, 512, [3, 3], scope='conv5')        end_points['block5'] = net        net = slim.max_pool2d(net, [3, 3], stride=1,padding = "SAME", scope='pool5')        # Block 6: dilate        # 卷积核膨胀        # (19,19,512)->(19,19,1024)        net = slim.conv2d(net, 1024, [3, 3], rate=6, scope='conv6')        end_points['block6'] = net        net = tf.layers.dropout(net, rate=dropout_keep_prob, training=is_training)        # Block 7: 1x1 conv        # (19,19,1024)->(19,19,1024)        net = slim.conv2d(net, 1024, [1, 1], scope='conv7')        end_points['block7'] = net        net = tf.layers.dropout(net, rate=dropout_keep_prob, training=is_training)        # Block 8/9/10/11: 1x1 and 3x3 convolutions stride 2 (except lasts).        # (19,19,1024)->(19,19,256)->(10,10,512)        end_point = 'block8'        with tf.variable_scope(end_point):            net = slim.conv2d(net, 256, [1, 1], scope='conv1x1')            net = custom_layers.pad2d(net, pad=(1, 1))            net = slim.conv2d(net, 512, [3, 3], stride=2, scope='conv3x3', padding='VALID')        end_points[end_point] = net                end_point = 'block9'        # (10,10,512)->(10,10,128)->(5,5,256)        with tf.variable_scope(end_point):            net = slim.conv2d(net, 128, [1, 1], scope='conv1x1')            net = custom_layers.pad2d(net, pad=(1, 1))            net = slim.conv2d(net, 256, [3, 3], stride=2, scope='conv3x3', padding='VALID')        end_points[end_point] = net                end_point = 'block10'        # (5,5,256)->(5,5,128)->(3,3,256)        with tf.variable_scope(end_point):            net = slim.conv2d(net, 128, [1, 1], scope='conv1x1')            net = slim.conv2d(net, 256, [3, 3], scope='conv3x3', padding='VALID')        end_points[end_point] = net                end_point = 'block11'        # (3,3,256)->(1,1,256)        with tf.variable_scope(end_point):            net = slim.conv2d(net, 128, [1, 1], scope='conv1x1')            net = slim.conv2d(net, 256, [3, 3], scope='conv3x3', padding='VALID')        end_points[end_point] = net        # 预测和定位层        predictions = []        logits = []        localisations = []        for i, layer in enumerate(feat_layers):            with tf.variable_scope(layer + '_box'):                p, l = ssd_multibox_layer(end_points[layer],                                          num_classes,                                          anchor_sizes[i],                                          anchor_ratios[i],                                          normalizations[i])            predictions.append(prediction_fn(p))            logits.append(p)            localisations.append(l)        return predictions, localisations, logits, end_pointsssd_net.default_image_size = 300

仔细看代码的同学会发现，除去层的构建外，最后还多了一段循环，那这个循环是做什么的呢？
而且同学们可以感受到，虽然我们提取了特征层，但是这个特征层和预测值、框的位置又有什么关系呢？
这个循环就是用来将特征层转化成预测值和框的位置的。
在循环中我们调用了ssd_multibox_layer函数，该函数的作用如下：
1、读取网络的特征层
2、对网络的特征层再次进行卷积，该卷积分为两部分，互不相干，分别用于预测种类和框的位置。
3、预测框的位置，以Block4为例，Block4的shape为(?,38,38,512)，再次卷积后，使其shape变为(?,38,38,num_anchors x 4)，其中num_anchors是每个特征点中先验框的数量，4代表框的特点，一个框需要4个特征才可以确定位置，最后再reshape为(?,38,38,num_anchors,4)，代表38x38个特点中，第num_anchors个框下的4个特点。
4、预测种类，以Block4为例，Block4的shape为(?,38,38,512)，再次卷积后，使其shape变为(?,38,38,num_anchors x 21)，其中num_anchors是每个特征点中先验框的数量，21代表预测的种类，包含背景，SSD算法共预测21个种类，最后再reshape为(?,38,38,num_anchors,21)，代表38x38个特点中，第num_anchors个框下的21个预测结果。
该函数的输出结果中：
location_pred的shape为(?,feat_block.shape[0],feat_block.shape[1], num_anchors,4)
class_pred的shape为(?,feat_block.shape[0],feat_block.shape[1],num_anchors,21)
具体执行代码如下：

#############################################################   该部分供ssd_net函数调用，返回种类预测和位置预测            ##   将特征层的内容输入，根据特征层返回预测结果                 #############################################################def ssd_multibox_layer(inputs,                       num_classes,                       sizes,                       ratios=[1],                       normalization=-1,                       bn_normalization=False):    reshape = [-1] + inputs.get_shape().as_list()[1:-1]  # 去除第一个和最后一个得到shape    net = inputs    # 对第一个特征层进行l2标准化。    if normalization > 0:        net = custom_layers.l2_normalization(net, scaling=True)    # Number of anchors.    num_anchors = len(sizes) + len(ratios)    # Location.    num_loc_pred = num_anchors * 4    loc_pred = slim.conv2d(net, num_loc_pred, [3, 3], activation_fn=None,                           scope='conv_loc')    loc_pred = custom_layers.channel_to_last(loc_pred)    loc_pred = tf.reshape(loc_pred,                          reshape + [num_anchors, 4])    # Class prediction.    num_cls_pred = num_anchors * num_classes    cls_pred = slim.conv2d(net, num_cls_pred, [3, 3], activation_fn=None,                           scope='conv_cls')    cls_pred = custom_layers.channel_to_last(cls_pred)    cls_pred = tf.reshape(cls_pred,                          reshape + [num_anchors, num_classes])    return cls_pred, loc_pred

3、anchor先验框生成

# ==========================生成先验框部分========================== #def anchors(self, img_shape, dtype=np.float32):    """    计算给定图像形状的默认定位框，调用外部函数，获得先验框。    """    return ssd_anchors_all_layers(img_shape,                                    self.params.feat_shapes,                                    self.params.anchor_sizes,                                    self.params.anchor_ratios,                                    self.params.anchor_steps,                                    self.params.anchor_offset,                                    dtype)

在anchor函数中，其调用了一个外部的函数ssd_anchors_all_layers，用于构建先验框。
先验框的构建和上述网络的构建关系不大，但是需要用到上述网络net的特征层size，先验框的构建目的是为了让图片构建出合适比例的框，同时可以减少运算量。
在进入ssd_anchors_all_layers函数后，根据名字可以知道，该函数用于生成所有层的先验框，其会进入一个循环，该循环用于根据每个特征层的size进行先验框的构建，代码如下：

#############################################################   该部分供SSDNet的anchors函数调用，用于获取先验框           ##   返回y,x,h,w的组和                                       #############################################################def ssd_anchors_all_layers(img_shape,                           layers_shape,                           anchor_sizes,                           anchor_ratios,                           anchor_steps,                           offset=0.5,                           dtype=np.float32):    """    对所有特征层进行计算    """    layers_anchors = []    for i, s in enumerate(layers_shape):        anchor_bboxes = ssd_anchor_one_layer(img_shape, s,                                             anchor_sizes[i],                                             anchor_ratios[i],                                             anchor_steps[i],                                             offset=offset, dtype=dtype)        layers_anchors.append(anchor_bboxes)    return layers_anchors

此时再调用ssd_anchor_one_layer，根据名字可以知道，该函数用于生成单层的先验框，该部分是先验框生成的核心。

输入参数包括图像大小img_shape，特征层大小feat_shape，先验框大小sizes，先验框长宽比率sizes，先验框放大倍数step。

执行过程：
1、根据feat_shape生成x、y的网格。
2、将x和y归一化到0到1之间，这里的x和y对应每个特征层的每一个点，同时x，y对应每个框的中心。
3、生成每个特征层的每个点对应的num_anchors大小相同的h和w，即4、6、6、6、4、4，这里的h和w对应着每一个点对应的num_anchors个框中的h和w。
4、将h和w每个赋值，h[0]对应比较小的正方形，h[1]对应比较大的正方形，h[2]和h[3]对应√2下不同的长方形，h[4]和h[5]对应√3下不同的长方形。

输出的参数包括：
X和Y的shape为(block.shape[0],block.shape[1],1)
H和w的shape为(boxes_len)

具体的执行代码如下：

#############################################################   该部分供ssd_anchors_all_layers函数调用                  ##   用于获取单层的先验框返回y,x,h,w                          #############################################################def ssd_anchor_one_layer(img_shape,                         feat_shape,                         sizes,                         ratios,                         step,                         offset=0.5,                         dtype=np.float32):    """    输入：图像大小img_shape，特征层大小feat_shape，先验框大小sizes，        先验框长宽比率sizes，先验框放大倍数step。    执行过程：        生成x、y的网格。        将x和y归一化到0到1之间。        生成每个特征层的每个点对应的boxes_len大小相同的h和w，即4、6、6、6、4、4。        将h和w每个赋值，h[0]对应比较小的正方形，h[1]对应比较大的正方形，                    h[2]和h[3]对应√2下不同的长方形，h[4]和h[5]对应√3下不同的长方形。    输出：    X和Y的shape为(block.shape[0],block.shape[1],1)    H和w的shape为(boxes_len)    """    # 网格化    y, x = np.mgrid[0:feat_shape[0], 0:feat_shape[1]]    # 归一化    y = (y.astype(dtype) + offset) * step / img_shape[0]    x = (x.astype(dtype) + offset) * step / img_shape[1]    # 拓充维度，便于后面decode计算    y = np.expand_dims(y, axis=-1)    x = np.expand_dims(x, axis=-1)        # 每一个点框框的数量     num_anchors = len(sizes) + len(ratios)    h = np.zeros((num_anchors, ), dtype=dtype)    w = np.zeros((num_anchors, ), dtype=dtype)    # 第一个第二个框框是正方形    h[0] = sizes[0] / img_shape[0]    w[0] = sizes[0] / img_shape[1]    di = 1    if len(sizes) > 1:        h[1] = math.sqrt(sizes[0] * sizes[1]) / img_shape[0]        w[1] = math.sqrt(sizes[0] * sizes[1]) / img_shape[1]        di += 1    for i, r in enumerate(ratios):        h[i+di] = sizes[0] / img_shape[0] / math.sqrt(r)        w[i+di] = sizes[0] / img_shape[1] * math.sqrt(r)    return y, x, h, w

在看该部分的时候，需要结合参数，所用参数如下：

img_shape=(300, 300)feat_shapes=[(38, 38), (19, 19), (10, 10), (5, 5), (3, 3), (1, 1)],# 先验框的sizeanchor_sizes=[(21., 45.),                (45., 99.),                (99., 153.),                (153., 207.),                (207., 261.),                (261., 315.)],# 框的数量为4，6，6，6，4，4# 框的数量为2+len(anchor_ratios[i])anchor_ratios=[[2, .5],                [2, .5, 3, 1./3],                [2, .5, 3, 1./3],                [2, .5, 3, 1./3],                [2, .5],                [2, .5]],# 放大倍数anchor_steps=[8, 16, 32, 64, 100, 300],

仔细研读这段代码会发现其设计非常巧妙哈。
x和y会执行归一化，到0，1之间，如果除去xy的最后一维进行plot，其会呈现一个0到1的网格，以38x38的特征层的先验框为例，其绘制出的网格如下，其实每一个点对应的就是每个框的中心点。

h和w对应着每个框的高与宽，宽高成一定比例。

4、bboxes_decode框的解码

# =============================解码部分============================= #def bboxes_decode(self, feat_localizations, anchors,                    scope='ssd_bboxes_decode'):    """    进行解码操作    """    return ssd_common.tf_ssd_bboxes_decode(        feat_localizations, anchors,        prior_scaling=self.params.prior_scaling,        scope=scope)

在bboxes_decode函数中，其调用了一个外部的函数ssd_common.tf_ssd_bboxes_decode，用于构建框的解码，其位于其它的文件中。
执行框的解码的原因是，利用net网络预测得到的locations并不是实际的框的位置，其需要与先验框结合处理后才能得到最后的框的位置。
这里需要注意的是，decode的过程需要两个参数的结合，分别是net网络构建得到的locations和anchor先验框生成得到的先验框。
在进入ssd_common.tf_ssd_bboxes_decode函数后，其执行过程与anchor先验框生成类似，内部也有一个循环，意味着要对每一个特征层进行单独的处理。

def tf_ssd_bboxes_decode(feat_localizations,                         anchors,                         prior_scaling=[0.1, 0.1, 0.2, 0.2],                         scope='ssd_bboxes_decode'):    """      从ssd网络特性和先验框框计算相对边界框。    """    with tf.name_scope(scope):        bboxes = []        for i, anchors_layer in enumerate(anchors):            bboxes.append(                tf_ssd_bboxes_decode_layer(feat_localizations[i],                                           anchors_layer,                                           prior_scaling))        return bboxes

在如上的执行过程中，内部存在一个tf_ssd_bboxes_decode_layer函数，该部分是先验框生成的核心，在tf_ssd_bboxes_decode_layer中，程序会对每一个特征层的框进行解码。
其输入包括，一个特征层的框的预测定位feat_localizations，每一层的先验框anchors_layer，先验框比率prior_scaling
执行过程：
1、分解anchors_layer，因为anchors_layer由多个y，x，h，w构成
2、计算cx和cy，这里存在一个计算公式，公式论文中给出了。
3、计算cw和ch，这里存在一个计算公式，公式论文中给出了。
4、 将[cy - ch / 2.0, cx - cw / 2.0, cy + ch / 2.0, cx + cw / 2.0]输出，其对应左上角角点和右下角角点。
其输出包括：左上角角点和右下角角点的集合bboxes。
bboxes的shape为(?,block.shape[0],block.shape[1], boxes_len,4)
具体执行代码如下：

# =========================================================================== ## 编码解码部分# =========================================================================== #def tf_ssd_bboxes_decode_layer(feat_localizations,                               anchors_layer,                               prior_scaling=[0.1, 0.1, 0.2, 0.2]):    """    其输入包括，一个特征层的框的预测定位feat_localizations，每一层的先验框anchors_layer，先验框比率prior_scaling    执行过程：    1、分解anchors_layer，因为anchors_layer由多个y，x，h，w构成    2、计算cx和cy，这里存在一个计算公式    3、计算cw和ch，这里存在一个计算公式    4、将[cy - ch / 2.0, cx - cw / 2.0, cy + ch / 2.0, cx + cw / 2.0]输出，其对应左上角角点和右下角角点。    其输出包括：左上角角点和右下角角点的集合bboxes。    bboxes的shape为(?,block.shape[0],block.shape[1], boxes_len,4)    """    yref, xref, href, wref = anchors_layer    # 计算中心点和它的宽长    cx = feat_localizations[:, :, :, :, 0] * wref * prior_scaling[0] + xref    cy = feat_localizations[:, :, :, :, 1] * href * prior_scaling[1] + yref    w = wref * tf.exp(feat_localizations[:, :, :, :, 2] * prior_scaling[2])    h = href * tf.exp(feat_localizations[:, :, :, :, 3] * prior_scaling[3])    # 计算左上角点和右下角点    ymin = cy - h / 2.    xmin = cx - w / 2.    ymax = cy + h / 2.    xmax = cx + w / 2.    bboxes = tf.stack([ymin, xmin, ymax, xmax], axis=-1)    return bboxes

解码完后的bboxes表示某一个特征层中的框在真实图像中的位置。

利用ssd_vgg_300进行预测预测步骤

进行预测需要进行以下步骤：
1、建立ssd对象
2、利用ssd_net = ssd_vgg_300.SSDNet()获得网络，得到两个tensorflow格式的预测结果。
3、载入ssd模型。
4、读入图片image_names。
5、将图片预处理后，传入网络结构，获得预测结果，预测结果包括框的位置、每个框的预测结果。
6、利用ssd_bboxes_select函数选择得分高于门限的框。
7、对所有的得分进行排序，取出得分top400的框
8、非极大值抑制，该部分用于去除重复率过高的框。
9、在原图中绘制框框。

具体预测过程 1、图片的预处理

图片预处理时，需要调用如下代码：

# 输入图片大小net_shape = (300, 300)# data_format 设置为 "NHWC" 时，排列顺序为 [batch, height, width, channels]# 具体使用方法可以查看该网址：https://www.jianshu.com/p/d8a699745529data_format = 'NHWC'# img_input的placeholderimg_input = tf.placeholder(tf.uint8, shape = (None, None, 3))# 对图片进行预处理，得到bbox_img和image_4dimage_pre, labels_pre, bboxes_pre, bbox_img = ssd_vgg_preprocessing.preprocess_for_eval(    img_input, None, None, net_shape, data_format, resize = ssd_vgg_preprocessing.Resize.WARP_RESIZE)# 由于只检测一张图片，所以需要在第一维添加一维度image_4d = tf.expand_dims(image_pre, 0)

看起来代码很长，特别是倒数第二段代码，但是其实里面什么也没有。
ssd_vgg_preprocessing.preprocess_for_eval的主要执行过程就是：
1、将image减去voc2012得到的所有图片的RGB平均值。
2、增加比例预处理框（这个的作用我不太懂，我觉得它的意思应该就是这个图片可能是一个大图片里面截出的一小个图片，需要对这个比例进行缩放，但是实际运用的时候应该就是一个大图片）。
3、将图片resize到300x300。
4、判断使用CPU还是GPU。

def preprocess_for_eval(image, labels, bboxes,                        out_shape=EVAL_SIZE, data_format='NHWC',                        difficults=None, resize=Resize.WARP_RESIZE,                        scope='ssd_preprocessing_train'):    """    预处理    """    with tf.name_scope(scope):        if image.get_shape().ndims != 3:            raise ValueError('Input must be of size [height, width, C>0]')                # 将image减去voc2012得到的所有图片的RGB平均值        image = tf.to_float(image)        image = tf_image_whitened(image, [_R_MEAN, _G_MEAN, _B_MEAN])        # 增加比例预处理框        bbox_img = tf.constant([[0., 0., 1., 1.]])        if bboxes is None:            bboxes = bbox_img        else:            bboxes = tf.concat([bbox_img, bboxes], axis=0)        # 这一大段其实只调用了最后一个elif        # 将图片resize到300x300        if resize == Resize.NONE:            # No resizing...            pass        elif resize == Resize.CENTRAL_CROP:            # Central cropping of the image.            image, bboxes = tf_image.resize_image_bboxes_with_crop_or_pad(                image, bboxes, out_shape[0], out_shape[1])        elif resize == Resize.PAD_AND_RESIZE:            # Resize image first: find the correct factor...            shape = tf.shape(image)            factor = tf.minimum(tf.to_double(1.0),                                tf.minimum(tf.to_double(out_shape[0] / shape[0]),                                           tf.to_double(out_shape[1] / shape[1])))            resize_shape = factor * tf.to_double(shape[0:2])            resize_shape = tf.cast(tf.floor(resize_shape), tf.int32)            image = tf_image.resize_image(image, resize_shape,                                          method=tf.image.ResizeMethod.BILINEAR,                                          align_corners=False)            # Pad to expected size.            image, bboxes = tf_image.resize_image_bboxes_with_crop_or_pad(                image, bboxes, out_shape[0], out_shape[1])        elif resize == Resize.WARP_RESIZE:            # Warp resize of the image.            image = tf_image.resize_image(image, out_shape,                                          method=tf.image.ResizeMethod.BILINEAR,                                          align_corners=False)        # 分割比例box        bbox_img = bboxes[0]        bboxes = bboxes[1:]        # ……不知道干嘛        if difficults is not None:            mask = tf.logical_not(tf.cast(difficults, tf.bool))            labels = tf.boolean_mask(labels, mask)            bboxes = tf.boolean_mask(bboxes, mask)        # 看使用cpu还是GPU        if data_format == 'NCHW':            image = tf.transpose(image, perm=(2, 0, 1))        return image, labels, bboxes, bbox_img

2、载入ssd模型

载入ssd模型分为以下几步：
1、建立Session会话
2、建立ssd网络
3、载入模型
执行代码如下：

# 载入ssd的模型# 建立Session()isess = tf.Session()reuse = True if 'ssd_net' in locals() else None# 建立网络ssd_net = ssd_vgg_300.SSDNet()with slim.arg_scope(ssd_net.arg_scope(data_format = data_format)):    predictions, localisations, _, _ = ssd_net.net(image_4d, is_training = False, reuse = reuse)# 载入模型ckpt_filename = 'D:/Collection/SSD-Tensorflow-master/logs/model.ckpt-18602'isess.run(tf.global_variables_initializer())saver = tf.train.Saver()saver.restore(isess, ckpt_filename)

3、读取图片进行预测

该部分需要进行如下操作：
1、获取先验框。
2、读取图片。
3、将图片放入已经完成载入的模型，得到predictions和locations。
4、将每个特征层的预测结果都进行筛选，得分小于threshold的都剔除，并使得所有特征层的预测结果都并排存入一个list。
5、对所有的预测结果进行得分的排序，取出top400的框框。
6、进行非极大抑制，取出重复率过高的框。
7、在原图中绘制框。

具体执行代码如下：

# 获得所有先验框，六个特征层的ssd_anchors = ssd_net.anchors(net_shape) def process_image(img, select_threshold = 0.5, nms_threshold = .45, net_shape = (300, 300)):    # 运行SSD模型    rimg, rpredictions, rlocalisations, rbbox_img = isess.run([image_4d, predictions, localisations, bbox_img],                                                              feed_dict = {img_input: img})    # 得到20个类的得分，框框的位置    rclasses, rscores, rbboxes = np_methods.ssd_bboxes_select(        rpredictions, rlocalisations, ssd_anchors,        select_threshold = select_threshold, img_shape = net_shape, num_classes = 21, decode = True)        # 防止超出边界    rbboxes = np_methods.bboxes_clip(rbbox_img, rbboxes)    # 取出top400，并通过极大值抑制除去类似框    rclasses, rscores, rbboxes = np_methods.bboxes_sort(rclasses, rscores, rbboxes, top_k = 400)    rclasses, rscores, rbboxes = np_methods.bboxes_nms(rclasses, rscores, rbboxes, nms_threshold = nms_threshold)        # 在img里进行等比例缩放resize    rbboxes = np_methods.bboxes_resize(rbbox_img, rbboxes)    return rclasses, rscores, rbboxes  # 读取图片img = mpimg.imread('./street.jpg')# 进行图片的预测rclasses, rscores, rbboxes = process_image(img) visualization.plt_bboxes(img, rclasses, rscores, rbboxes)

其中，预测结果筛选的代码如下：
该部分首先解码；再将每个特征层进行reshape完成平铺；读出除去背景的得分；将得分多余threshold的类进行保存，小于的进行剔除；利用np.concatenate将结果同一排摆放。

def ssd_bboxes_select_layer(predictions_layer,                            localizations_layer,                            anchors_layer,                            select_threshold=0.5,                            img_shape=(300, 300),                            num_classes=21,                            decode=True):    """        选择大于门限的框    """    # 对框进行解码    if decode:        localizations_layer = ssd_bboxes_decode(localizations_layer, anchors_layer)    # 将所有预测结果变为3维，第一维度维batch，第二维度为size，第三维度为class_num | 4    p_shape = predictions_layer.shape    batch_size = p_shape[0] if len(p_shape) == 5 else 1    predictions_layer = np.reshape(predictions_layer,                                   (batch_size, -1, p_shape[-1]))    l_shape = localizations_layer.shape    localizations_layer = np.reshape(localizations_layer,                                     (batch_size, -1, l_shape[-1]))    if select_threshold is None or select_threshold == 0:        classes = np.argmax(predictions_layer, axis=2)        scores = np.amax(predictions_layer, axis=2)        mask = (classes > 0)        classes = classes[mask]        scores = scores[mask]        bboxes = localizations_layer[mask]    else:        # 取出所有的预测结果        sub_predictions = predictions_layer[:, :, 1:]        # 判断哪里的预测结果大于门限        idxes = np.where(sub_predictions > select_threshold)        # 如果大于门限则留下，并+1，除去背景        classes = idxes[-1]+1        # 取出所有分数        scores = sub_predictions[idxes]        # 和框的位置        bboxes = localizations_layer[idxes[:-1]]    return classes, scores, bboxes

对所有的预测结果进行得分的排序，取出top400的框框的过程非常简单，代码如下：
首先利用argsort对得分进行排序，并从大到小排序得分的序号；取出种类classes、得分scores、框bboxes的top400个。

def bboxes_sort(classes, scores, bboxes, top_k=400):    """    进行排序筛选    """    idxes = np.argsort(-scores)    classes = classes[idxes][:top_k]    scores = scores[idxes][:top_k]    bboxes = bboxes[idxes][:top_k]    return classes, scores, bboxes

进行非极大抑制的过程也比较简单，具体代码如下：
将bboxes中每一个框，从得分最高到得分最低依次与其之后所有的框比较；IOU较小或者属于不同类的框得到保留；

def bboxes_nms(classes, scores, bboxes, nms_threshold=0.45):    """    非极大抑制，去除重复率过大的框.    """    keep_bboxes = np.ones(scores.shape, dtype=np.bool)    for i in range(scores.size-1):        if keep_bboxes[i]:            # 计算重叠区域            overlap = bboxes_jaccard(bboxes[i], bboxes[(i+1):])            # 保留重叠区域不是很大或者种类不同的            keep_overlap = np.logical_or(overlap < nms_threshold, classes[(i+1):] != classes[i])            keep_bboxes[(i+1):] = np.logical_and(keep_bboxes[(i+1):], keep_overlap)    # 保留重叠部分小或者种类不同的    idxes = np.where(keep_bboxes)    return classes[idxes], scores[idxes], bboxes[idxes]

4、全部预测代码

import osimport mathimport randomimport numpy as npimport tensorflow as tfimport cv2import matplotlib.pyplot as pltimport matplotlib.image as mpimgimport sys sys.path.append('./') from nets import ssd_vgg_300, ssd_common, np_methodsfrom preprocessing import ssd_vgg_preprocessingfrom notebooks import visualization# 构建slim框架。slim = tf.contrib.slim# 输入图片大小net_shape = (300, 300)# data_format 设置为 "NHWC" 时，排列顺序为 [batch, height, width, channels]# 具体使用方法可以查看：https://www.jianshu.com/p/d8a699745529。data_format = 'NHWC'# img_input的placeholderimg_input = tf.placeholder(tf.uint8, shape = (None, None, 3))# 对图片进行预处理，得到bbox_img和image_4dimage_pre, labels_pre, bboxes_pre, bbox_img = ssd_vgg_preprocessing.preprocess_for_eval(    img_input, None, None, net_shape, data_format, resize = ssd_vgg_preprocessing.Resize.WARP_RESIZE)# 由于只检测一张图片，所以需要在第一维添加一维度image_4d = tf.expand_dims(image_pre, 0)# 载入ssd的模型# 建立Session()isess = tf.Session()reuse = True if 'ssd_net' in locals() else None# 建立网络ssd_net = ssd_vgg_300.SSDNet()with slim.arg_scope(ssd_net.arg_scope(data_format = data_format)):    predictions, localisations, _, _ = ssd_net.net(image_4d, is_training = False, reuse = reuse)# 载入模型ckpt_filename = './logs/model.ckpt-1498'isess.run(tf.global_variables_initializer())saver = tf.train.Saver()saver.restore(isess, ckpt_filename) # 获得所有先验框，六个特征层的ssd_anchors = ssd_net.anchors(net_shape) def process_image(img, select_threshold = 0.5, nms_threshold = .45, net_shape = (300, 300)):    # 运行SSD模型    rimg, rpredictions, rlocalisations, rbbox_img = isess.run([image_4d, predictions, localisations, bbox_img],                                                              feed_dict = {img_input: img})    # 得到20个类的得分，框框的位置    rclasses, rscores, rbboxes = np_methods.ssd_bboxes_select(        rpredictions, rlocalisations, ssd_anchors,        select_threshold = select_threshold, img_shape = net_shape, num_classes = 21, decode = True)        # 防止超出边界    rbboxes = np_methods.bboxes_clip(rbbox_img, rbboxes)    # 取出top400，并通过极大值抑制除去类似框    rclasses, rscores, rbboxes = np_methods.bboxes_sort(rclasses, rscores, rbboxes, top_k = 400)    rclasses, rscores, rbboxes = np_methods.bboxes_nms(rclasses, rscores, rbboxes, nms_threshold = nms_threshold)        # 在img里进行等比例缩放resize    rbboxes = np_methods.bboxes_resize(rbbox_img, rbboxes)    return rclasses, rscores, rbboxes  # 读取图片img = mpimg.imread('./street.jpg')# 进行图片的预测rclasses, rscores, rbboxes = process_image(img) visualization.plt_bboxes(img, rclasses, rscores, rbboxes)

以上就是python目标检测SSD算法预测部分源码详解的详细内容，更多关于python目标检测SSD算法预测的资料请关注脚本之家其它相关文章！

Python面试题-6 编织幻境的妖 python 服务器开发语言
1.请解释Python中的动态类型。Python中的动态类型Python是一种动态类型语言，这意味着你不需要在编程时声明变量的类型，而是在运行时自动推断类型。在Python中，变量的类型是在程序运行时决定的，这意味着同一个变量可以在不改变其类型的情形下被赋予不同类型的值。动态类型的优点在于它提高了编程的灵活性，因为你不需要预先确定数据的类型，可以更容易地写出简洁的代码。然而，这也可能导致运行时错误
AWS架构师咸鱼一条_o.0?! aws 云计算
AWS架构师部分定义S3（S3存储桶）EC2弹性计算云EBS弹性块存储SNAPSHOT快照AMI：EC2镜像ELB弹性负载均衡器EFSDATABASEDATAWAREHOUSEOLTPOLAPElastiCacheVPCRoute53部分定义UserGroup:用户组下的用户继承该用户组所有权限Policy：Jasonformat：类似文字描述，指定object的类型。给user和group提供权
手机在哪买绝对是正品？京东手机自营旗舰店是正品吗日常购物小技巧
确保购买正品手机：京东手机自营旗舰店是否可信？随着科技的发展，手机已经成为我们日常生活中不可或缺的一部分。拥有一部功能强大的手机能让我们的生活更加便捷。然而，市面上手机品牌和型号繁多，如何购买到正品手机成为很多人关心的问题。本文将为您解答：手机在哪买绝对是正品？京东手机自营旗舰店是否可靠？首先，我们要了解什么是正品手机。正品手机指的是由手机品牌官方生产，通过正规渠道销售的手机。正品手机具有以下特点
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
塑料海洋观后感 R琳茜
在我们地球上大部分都是海洋，而海洋如果被污染说明了地球也要被污染。现在最污染环境的东西是塑料。近些年来，海洋便成为了接收塑料的收纳场。各种掉入河水中支流里塑料垃圾，最终流入了海洋。那海洋动物怎么办？这些年来，有海洋动物都死于塑料。死于人造垃圾。死鱼沉淀在。海底的绳子，海鸟，海边领养动物，收养动物和救动物的医生。把盐水冲进奄奄一息的鸟的胃里。最后发现。从小嘴里吐出来的是大量的油。有绳子有红色袋子，颜
LWIP学习记录1——认识
一、LWIP是什么，有什么作用Lwip是一个阉割版的TCP/IP协议栈，开源的，它只实现了TCP/IP协议栈大部分功能。TCP/IP协议栈应该在生活中哪些产品？交换机、路由器、光纤收发机等等，这些产品都是使用TCP/IP协议栈来实现的。那么LWIP能做什么？云台接入、无线网关、工控器、远程模块、网络摄像头、嵌入式NAT无线路由器（注：LWIP没有NAT协议，之所以能实现是因为我们在LWIP基础上添
王阳明心外无物，是一种先后观，不是主客观2022-05-08 仁也
王阳明心外无物，是一种先后观，不是主客观王阳明说的心外无物，不是在所谓的主客观层面上说的，不是说心之外就没有客观世界存在，如果你从主客观的层面来解读心学，其实是走偏了。【原文】爱问：“‘知止而后有定’，朱子以为‘事事物物皆有定理’，似与先生之说相戾。”【仁也详解】徐爱问：“知止而后有定”，朱熹认为是事事物物都有定理的意思，这个好像和先生的说法相悖？徐爱这里问的，还是“四书”中的入门书《大学》里面的
TDengine时序数据库数据写入操作详解沈宝彤
TDengine时序数据库数据写入操作详解引言TDengine作为一款高性能的时序数据库，其数据写入方式与传统关系型数据库有所不同。本文将详细介绍TDengine中各种数据写入方式的特点和使用场景，帮助开发者更好地理解和应用TDengine的数据写入功能。基础写入操作单条数据写入在TDengine中，最基本的写入方式是使用INSERT语句向单个子表写入一条数据。以智能电表场景为例：--指定列名写入
火爆全网的条形竞赛图，Python轻松实现统计学家
image这个动图叫条形竞赛图，非常适合制作随时间变动的数据。我已经用streamlit+bar_chart_race实现了，然后白嫖了heroku的服务器，大家通过下面的网址上传csv格式的表格就可以轻松制作条形竞赛图，生成的视频可以保存本地。https://bar-chart-race-app.herokuapp.com/本文我将实现过程介绍一下，白嫖服务器+部署留在下期再讲。纯matplot
node.js详解思静鱼 node.js node.js
文章目录一、什么是Node.js？二、Node.js的核心组成三、Node.js的运行机制（事件循环）四、常见内置模块（无需安装）五、应用场景六、npm包生态七、Node.js适合哪些人？八、优缺点总结一、什么是Node.js？Node.js是一个基于ChromeV8引擎的JavaScript运行时，用于构建高性能网络应用。由RyanDahl于2009年发布。允许你在服务器端使用JavaScrip
【无标题】Python---day9 模块化编程概念（模块、包、导入）及常见系统模块总结和第三方模块管理 AnAn__kang python java 服务器
系列文章目录前言跟着博主学Python，今天我们来到了第九天的学习，模块化编程的概念。Python作为一门编程语言，本身就是用于对模块以及各种包的使用来达到我们自己想到创作的目的。所以今天博主就给大家盘点一下有关于各种常见的包以及如何进行导入的。一.模块Module，模块1.1基本概念定义：模块是一个Python文件，每个.py.py.py文件就是一个模块。作用：用于组织代码，避免代码重复，提高复
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
【无标题】Python --- Day5 函数的位置传参、关键词传参及其可变性和解包操作 AnAn__kang python 前端人工智能
系列文章目录前言今天小伙伴们跟我进入第五天的Python课程学习，主要是关于函数的位置传参，关键传参和可变性和解包传参这其中的具体定义以及它们的使用场景`一、调用传参函数调用时传递参数的方式有多种，包括位置传参、关键词传参、多个参数解包、参数默认值等。1.1位置传参最常见的传参方式，参数按定义的顺序依次传入函数。示例：defgreet(name,age):print(f"Hello,{name}.
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
大学英语四级阅读之细节阅读答题技巧英闻者说
长篇巨制！！建议收藏起来慢慢看~细节阅读是最为常见的一种阅读题型了，但是它在四级考试中又有独特之处。本文将从整体概况，题材体裁，出题特点，答题程序和答案特点五个部分对细节阅读做出剖析，同时会引用历年真题给出例证，仔细学习后自会对这种题型有着全新的理解和更好的把握。一、整体概况细节阅读一共2篇，字数大概都在350左右，分段情况不太好说，大多在5段以上（几乎没有平时模拟题里出现的两段或三段的情况）。想
抖音无门槛优惠券怎么获得?无门槛优惠券领取步骤氧券超好用
抖音无门槛优惠券怎么获得？领取步骤详解如今，抖音购物已成为许多用户的选择，而抖音无门槛优惠券更是让用户在购物过程中享受到更多实惠。本文将为您详细介绍如何获得抖音无门槛优惠券以及领取步骤。一、如何获得抖音无门槛优惠券？1.参与抖音活动：抖音会定期举办各类活动，如节日促销、主题活动等，用户参与活动就有机会获得无门槛优惠券。2.关注抖音店铺：关注抖音上的店铺，店铺有时会发放优惠券，用户可及时领取。3.成
STM32F4-ETH通信（lwip）——学习笔记_stm32 lwip 2401_84010497 程序员嵌入式
7、CSMA/CD冲突检测：8、MAC子层：MAC数据包、MAC数据包格式、MAC地址：MAC地址由48位数字组成，它是网卡的物理地址，在以太网传输的最底层，就是根据MAC地址来收发数据的。部分MAC地址用于广播和多播，在同一个网络里不能有两个相同的MAC地址。PC的网卡在出厂时已经设置好了MAC地址，但也可以通过一些软件来进行修改，在嵌入式的以太网控制器中可由程序进行配置。数据包中的DA是目标地
时序数据库在工业物联网领域的核心优势与应用价值时序数据说时序数据库物联网数据库 iotdb 大数据
一、工业物联网的数据挑战与需求工业物联网(IIoT)正在重塑全球制造业格局，通过连接设备、传感器和控制系统，实现了生产过程的数字化与智能化。然而，这一转型也带来了前所未有的数据管理挑战：海量数据：单个工厂可能部署数万个传感器，每秒产生数千万数据点高速写入：工业设备常需毫秒级数据采集，对数据库写入性能要求极高严格时效：质量控制、故障预测等场景要求实时数据分析长期存储：设备生命周期数据需保存数年甚至数
Python --- Day3 推导式及常见语句和内置函数的学习！！！
系列文章目录前言相信各位伙伴们在前俩次的文章和Python的基础学习中大有收获，这次我们将进入推导式，常见语句和内置函数的学习！跟着博主一起成为一名Ai的算法工程师！一、推导式用更简洁的方式创建列表、字典和集合。是Python特有的一种表达式形式。1.1列表推导式a=[1,2,3,4]result=[x*2forxina]#创建一个新列表，元素是原列表每个元素的两倍1.2字典推导式a=['a','
cuda编程python接口_使用Python写CUDA程序的方法 weixin_39822184 cuda编程python接口
使用Python写CUDA程序有两种方式：*Numba*PyCUDAnumbapro现在已经不推荐使用了，功能被拆分并分别被集成到accelerate和Numba了。例子numbaNumba通过及时编译机制(JIT)优化Python代码，Numba可以针对本机的硬件环境进行优化，同时支持CPU和GPU的优化，并且可以和Numpy集成，使Python代码可以在GPU上运行，只需在函数上方加上相关的指
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
哲学何以教人高贵慧小田哲思学
作者邓安庆，节选自布鲁斯.N.沃勒著《思考哲学基本问题》陈晓曦杨晞帆译/中国轻工业出版社/2016一书中译本前言部分配图由《设计与哲学》公众号（ID：PhilosophyDesign）提供近年来，我身边真心喜欢哲学的人确实越来越多了，他们有的是事业有成的领导者，有的是生意亨通的企业家，有的是朝气蓬勃的青年人，当然也有一些“民哲”，再加上那些“被教育”而爱上哲学的“天之骄子”—复旦大学的学生，给我的
基于 Python 的网站信息探测工具设计与实现计算机毕业设计指导 python 网络服务器
基于Python的网站信息探测工具设计与实现摘要在渗透测试与网络安全评估中，信息探测是最基础且关键的一步。通过对目标网站的操作系统、服务器、CMS、端口、目录结构等信息进行自动化探测，可为后续攻击路径识别提供基础数据支撑。传统工具如WhatWeb、FOFA等虽功能强大，但在定制化与扩展性方面受限。本文设计并实现了一款基于Python的轻量级网站信息探测工具，支持URL/IP扫描、开放端口探测、CM
开源Agent平台Dify源码剖析系列（六）核心模块core/agent之CotCompletionAgentRunner ATM006 机器智能人工智能大模型人机协同 Agent Dify
每一篇文章都短小精悍，不啰嗦。笔者寄语本期介绍Dify框架的核心模块core/agent。接下来我们一起深入剖析core/agent目录下的所有代码，并以通俗易懂的方式解释。我们需要先了解这个目录的完整结构，然后逐个分析关键文件，最后总结整个Agent框架的设计和工作原理。首先，让我查看core/agent目录的完整结构：dify/api/core/agent.├──base_agent_runn
C++ STL教程-vector用法详解 yhwang-hub C++
目录C++STL基本组成（6大组件+13个头文件）C++STLvector容器迭代器用法详解vector容器迭代器的基本用法vector容器迭代器的独特之处C++STLvector容器访问元素的几种方式访问vector容器中多个元素C++STLvector添加元素（push_back()和emplace_back()）详解C++STLvector插入元素（insert()和emplace()）详解
C++ STL教程-set yhwang-hub C++
目录C++STLset容器完全攻略（超级详细）C++STLset容器包含的成员方法C++STLset容器迭代器用法详解C++STLsetinsert()方法详解C++STLsetemplace()和emplace_hint()方法详解C++STLset删除数据：erase()和clear()方法C++STLset容器完全攻略（超级详细）前面章节讲解了map容器和multimap容器的用法，类似地，
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
使用CrewAI创建一个研究团队 AI量化投资 php 开发语言多智能体智能体人工智能
本指导文档将带你一步步完成使用CrewAI框架创建你的第一个AI代理团队的过程。通过这个简单的示例，你将学习如何构建一个研究团队，用于研究和分析指定主题，并生成一份综合报告。本教程基于CrewAI官方文档，适合初学者快速上手。前提条件在开始之前，请确保你已完成以下准备工作：安装Python：确保你的系统安装了Python版本在3.10到3.13之间。你可以通过以下命令检查Python版本：pyth
Python成第四个支持CUDA的编程语言
Python成第四个支持CUDA的编程语言3月19日NVIDIA的GTC2013图形技术大会将开幕，在此之前会有很多宣传造势内容，其中最重大也是最主要的就是NVIDIA老总黄仁勋的开幕词了，其他合作伙伴也会发布各自的演讲。ContinuumAnalytics联合NVIDIA宣布将会引入新的PythonCUDA编译器——NumbaPro，Python也成为继C、C++以及Fortan之后的第四个支持
48Days-Day03 | 删除公共字符，两个链表的第一个公共结点，mari和shiny TinaAmber 笔试训练48Days 链表 java 算法
删除公共字符删除公共字符_牛客题霸_牛客网算法思路直接哈希，把第二个字符塞集合里面，遍历第一个，只要在集合里面有的就跳过代码importjava.util.HashSet;importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannerscan=newScanner(System.in);Strin
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

python目标检测SSD算法预测部分源码详解

目录

学习前言

什么是SSD算法

ssd_vgg_300主体的源码

你可能感兴趣的:(python目标检测SSD算法预测部分源码详解)