Bubbliiiing

睿智的目标检测25——Keras搭建M2Det目标检测平台

学习前言
什么是M2det目标检测算法
源码下载
M2det实现思路

一、预测部分

1、主干网络介绍
2、FFM1特征初步融合
3、细化U型模块TUM
4、FFM2特征加强融合
5、注意力机制模块SFAM
6、从特征获取预测结果
7、预测结果的解码
8、在原图上进行绘制

二、训练部分

1、真实框的处理
2、利用处理完的真实框与对应图片的预测结果计算loss

训练自己的M2det模型

学习前言

一起来看看M2det的keras实现吧，顺便训练一下自己的数据。

什么是M2det目标检测算法

常见的特征提取方法如图所示有SSD形，FPN形，STDN形：

SSD型：使用了主干网络的最后两层，再加上4个使用stride=2卷积的下采样层构成；
FPN型：也称为U型网络，经过上采样操作，然后对应融合相同的scale；
STDN型：基于DenseNet的最后一个dense block，通过池化和scale-transfer操作来构建；

这三者有一定的缺点：
一是均基于分类网络作为主干提取，对目标检测任务而言特征表示可能不够；二是每个feature map仅由主干网络的single level给出，不够全面

M2det论文新提出MLFPN型，整体思想是Multi-level&Multi-scale。是一种更加有效的适合于检测的特征金字塔结构。

源码下载

https://github.com/bubbliiiing/M2det-Keras
喜欢的可以点个star噢。

M2det实现思路

一、预测部分

1、主干网络介绍

M2det采用可以采用VGG和ResNet101作为主干特征提取网络，上图的backbone network指的就是VGG和Resnet101，本文以VGG为例介绍。

M2DET采用的主干网络是VGG网络，关于VGG的介绍大家可以看我的另外一篇博客https://blog.csdn.net/weixin_44791964/article/details/102779878。

在m2det中，我们去掉了全部的全连接层，只保留了卷积层和最大池化层，即Conv1到Conv5。

1、一张原始图片被resize到(320,320,3)。
2、conv1两次[3,3]卷积网络，输出的特征层为64，输出为(320,320,64)，再2X2最大池化，输出net为(160,160,64)。
3、conv2两次[3,3]卷积网络，输出的特征层为128，输出net为(160,160,128)，再2X2最大池化，输出net为(80,80,128)。
4、conv3三次[3,3]卷积网络，输出的特征层为256，输出net为(80,80,256)，再2X2最大池化，输出net为(40,40,256)。
5、conv4三次[3,3]卷积网络，输出的特征层为512，输出net为(40,40,512)，再2X2最大池化，此时不进行池化，输出net为(40,40,512)。conv4-3的结果会进入FFM1进行特征的融合。
6、conv5三次[3,3]卷积网络，输出的特征层为1024，输出net为(40,40,1024)，再2X2最大池化，输出net为(20,20,1024)。池化后的结果会进入FFM1进行特征的融合。

def VGG16(inputs):

    net = {} 
    image_input = inputs
    net['input'] = image_input
    # 第一个卷积部分
    net['conv1_1'] = Conv2D(64, kernel_size=(3,3),
                                   activation='relu',
                                   padding='same',
                                   name='conv1_1')(net['input'])
    net['conv1_2'] = Conv2D(64, kernel_size=(3,3),
                                   activation='relu',
                                   padding='same',
                                   name='conv1_2')(net['conv1_1'])
    net['pool1'] = MaxPooling2D((2, 2), strides=(2, 2), padding='same',
                                name='pool1')(net['conv1_2'])

    # 第二个卷积部分
    net['conv2_1'] = Conv2D(128, kernel_size=(3,3),
                                   activation='relu',
                                   padding='same',
                                   name='conv2_1')(net['pool1'])
    net['conv2_2'] = Conv2D(128, kernel_size=(3,3),
                                   activation='relu',
                                   padding='same',
                                   name='conv2_2')(net['conv2_1'])
    net['pool2'] = MaxPooling2D((2, 2), strides=(2, 2), padding='same',
                                name='pool2')(net['conv2_2'])
    y0 = net['pool2']
    # 第三个卷积部分
    net['conv3_1'] = Conv2D(256, kernel_size=(3,3),
                                   activation='relu',
                                   padding='same',
                                   name='conv3_1')(net['pool2'])
    net['conv3_2'] = Conv2D(256, kernel_size=(3,3),
                                   activation='relu',
                                   padding='same',
                                   name='conv3_2')(net['conv3_1'])
    net['conv3_3'] = Conv2D(256, kernel_size=(3,3),
                                   activation='relu',
                                   padding='same',
                                   name='conv3_3')(net['conv3_2'])
    net['pool3'] = MaxPooling2D((2, 2), strides=(2, 2), padding='same',
                                name='pool3')(net['conv3_3'])
    y1 = net['pool3']
    # 第四个卷积部分
    net['conv4_1'] = Conv2D(512, kernel_size=(3,3),
                                   activation='relu',
                                   padding='same',
                                   name='conv4_1')(net['pool3'])
    net['conv4_2'] = Conv2D(512, kernel_size=(3,3),
                                   activation='relu',
                                   padding='same',
                                   name='conv4_2')(net['conv4_1'])
    net['conv4_3'] = Conv2D(512, kernel_size=(3,3),
                                   activation='relu',
                                   padding='same',
                                   name='conv4_3')(net['conv4_2'])
    # net['pool4'] = MaxPooling2D((2, 2), strides=(2, 2), padding='same',
    #                             name='pool4')(net['conv4_3'])
    y2 = net['conv4_3']
    # 第五个卷积部分
    net['conv5_1'] = Conv2D(1024, kernel_size=(3,3),
                                   activation='relu',
                                   padding='same',
                                   name='conv5_1')(net['conv4_3'])
    net['conv5_2'] = Conv2D(1024, kernel_size=(3,3),
                                   activation='relu',
                                   padding='same',
                                   name='conv5_2')(net['conv5_1'])
    net['conv5_3'] = Conv2D(1024, kernel_size=(3,3),
                                   activation='relu',
                                   padding='same',
                                   name='conv5_3')(net['conv5_2'])
    net['pool5'] = MaxPooling2D((3, 3), strides=(2, 2), padding='same',
                                name='pool5')(net['conv5_3'])
    y3 = net['pool5']
    model = Model(inputs, [y0,y1,y2,y3], name='resnet50')

    return model

2、FFM1特征初步融合

FFM1具体的结构如下：

FFM1会对VGG提取到的特征进行初步融合。

在利用VGG进行特征提取的时候，我们会取出shape为(40,40,512)、(20,20,1024)的特征层进行下一步的操作。

在FFM1中，其会对(20,20,1024)的特征层进行进行一个通道数为512、卷积核大小为3x3、步长为1x1的卷积，然后再进行上采样，使其Shape变为(40,40,512)；

同时会对(40,40,512)的特征层进行进行一个通道数为256、卷积核大小为1x1，步长为1x1的卷积，使其Shape变为(40,40,256)；

然后将两个卷积后的结果进行堆叠，变成一个(40,40,768)的初步融合特征层
实现代码为：

def FFMv1(C4, C5, feature_size_1=256, feature_size_2=512,
          name='FFMv1'):
    # 40,40,256
    F4 = conv2d(C4, filters=feature_size_1, kernel_size=(3, 3), strides=(1, 1), padding='same', name='F4')
    # 20,20,512
    F5 = conv2d(C5, filters=feature_size_2, kernel_size=(1, 1), strides=(1, 1), padding='same', name='F5')
    # 40,40,512
    F5 = keras.layers.UpSampling2D(size=(2, 2), name='F5_Up')(F5)

    outputs = keras.layers.Concatenate(name=name)([F4, F5])
    # 40,40,768
    return outputs

3、细化U型模块TUM

Tum的结构具体如下：

当我们给Tum输入一个(40,40,256)的有效特征层之后，Tum会对输入进来的特征层进行U型的特征提取，这里的结构比较类似特征金字塔的结构，先对特征层进行不断的特征压缩，然后再不断的上采样进行特征融合，利用Tum我们可以获得6个有效特征层，大小分别是(40,40,128)、(20,20,128)、(10,10,128)、(5,5,128)、(3,3,128)、(1,1,128)。

def TUM(stage, inputs, feature_size=256, name="TUM"):
    # 128
    output_features = feature_size // 2

    size_buffer = []

    # 40,40,256
    f1 = inputs
    # 20,20,256
    f2 = conv2d(f1, filters=feature_size, kernel_size=(3, 3), strides=(2, 2), padding='same',name=name + "_" + str(stage) + '_f2')
    # 10,10,256
    f3 = conv2d(f2, filters=feature_size, kernel_size=(3, 3), strides=(2, 2), padding='same',name=name + "_" + str(stage) + '_f3')
    # 5,5,256   
    f4 = conv2d(f3, filters=feature_size, kernel_size=(3, 3), strides=(2, 2), padding='same',name=name + "_" + str(stage) + '_f4')
    # 3,3,256
    f5 = conv2d(f4, filters=feature_size, kernel_size=(3, 3), strides=(2, 2), padding='same',name=name + "_" + str(stage) + '_f5')
    # 1,1,256
    f6 = conv2d(f5, filters=feature_size, kernel_size=(3, 3), strides=(2, 2), padding='valid',name=name + "_" + str(stage) + '_f6')

    # 40,40
    size_buffer.append([int(f1.shape[2])] * 2)
    # 20,20
    size_buffer.append([int(f2.shape[2])] * 2)
    # 10,10
    size_buffer.append([int(f3.shape[2])] * 2)
    # 5,5
    size_buffer.append([int(f4.shape[2])] * 2)
    # 3,3
    size_buffer.append([int(f5.shape[2])] * 2)
    
    # print(size_buffer)
    level = 2
    c6 = f6
    # 1,1,256
    c5 = conv2d(c6, filters=feature_size, kernel_size=(3, 3), strides=(1, 1), padding='same',name=name + "_" + str(stage) + '_c5')
    # 3,3,256
    c5 = keras.layers.Lambda(lambda x: tf.image.resize_bilinear(x, size=size_buffer[4]), name=name + "_" + str(stage) + '_upsample_add5')(c5)
    c5 = keras.layers.Add()([c5, f5])
 
    # 3,3,256
    c4 = conv2d(c5, filters=feature_size, kernel_size=(3, 3), strides=(1, 1), padding='same', name=name + "_" + str(stage) + '_c4')
    # 5,5,256
    c4 = keras.layers.Lambda(lambda x: tf.image.resize_bilinear(x, size=size_buffer[3]), name=name + "_" + str(stage) + '_upsample_add4')(c4)
    c4 = keras.layers.Add()([c4, f4])

    # 5,5,256
    c3 = conv2d(c4, filters=feature_size, kernel_size=(3, 3), strides=(1, 1), padding='same', name=name + "_" + str(stage) + '_c3')
    # 10,10,256
    c3 = keras.layers.Lambda(lambda x: tf.image.resize_bilinear(x, size=size_buffer[2]), name=name + "_" + str(stage) + '_upsample_add3')(c3)
    c3 = keras.layers.Add()([c3, f3])

    # 10,10,256
    c2 = conv2d(c3, filters=feature_size, kernel_size=(3, 3), strides=(1, 1), padding='same', name=name + "_" + str(stage) + '_c2')
    # 20,20,256
    c2 = keras.layers.Lambda(lambda x: tf.image.resize_bilinear(x, size=size_buffer[1]), name=name + "_" + str(stage) + '_upsample_add2')(c2)
    c2 = keras.layers.Add()([c2, f2])

    # 20,20,256
    c1 = conv2d(c2, filters=feature_size, kernel_size=(3, 3), strides=(1, 1), padding='same', name=name + "_" + str(stage) + '_c1')
    # 40,40,256
    c1 = keras.layers.Lambda(lambda x: tf.image.resize_bilinear(x, size=size_buffer[0]), name=name + "_" + str(stage) + '_upsample_add1')(c1)
    c1 = keras.layers.Add()([c1, f1])

    level = 3

    # 40,40,128 
    o1 = conv2d(c1, filters=output_features, kernel_size=(1, 1), strides=(1, 1), padding='valid',name=name + "_" + str(stage) + '_o1')
    # 20,20,128
    o2 = conv2d(c2, filters=output_features, kernel_size=(1, 1), strides=(1, 1), padding='valid',name=name + "_" + str(stage) + '_o2')
    # 10,10,128
    o3 = conv2d(c3, filters=output_features, kernel_size=(1, 1), strides=(1, 1), padding='valid',name=name + "_" + str(stage) + '_o3')
    # 5,5,128
    o4 = conv2d(c4, filters=output_features, kernel_size=(1, 1), strides=(1, 1), padding='valid',name=name + "_" + str(stage) + '_o4')
    # 3,3,128
    o5 = conv2d(c5, filters=output_features, kernel_size=(1, 1), strides=(1, 1), padding='valid',name=name + "_" + str(stage) + '_o5')
    # 1,1,128
    o6 = conv2d(c6, filters=output_features, kernel_size=(1, 1), strides=(1, 1), padding='valid',name=name + "_" + str(stage) + '_o6')

    outputs = [o1, o2, o3, o4, o5, o6]

    return outputs

4、FFM2特征加强融合

通过TUM，我们可以获得六个有效特征层，为了进一步加强网络的特征提取能力，M2det将6个有效特征层中的(40,40,128)特征层取出，和FFM1提取出来的初步融合特征层进行加强融合，再次输出一个(40,40,256)的加强融合的特征层。

此时FFM2输出的加强融合特征层可以再一次传入到TUM中进行U形特征提取。

如上图所示，我们可以进一步利用多个TUM模块进行特征提取，利用多个TUM模块我们可以获得多次有效特征层。

TUM模块的数量我们可以根据自身需要进行修改，本文使用4次TUM模块，可以分别获得四次(40,40,128)、(20,20,128)、(10,10,128)、(5,5,128)、(3,3,128)、(1,1,128)的有效特征层。（论文中做了实验，用8次TUM模块会有比较好的效果）。

我们可以将获得的有效特征层，按照shape进行堆叠，最终获得(40,40,512)、(20,20,512)、(10,10,512)、(5,5,512)、(3,3,512)、(1,1,512)六个有效特征层。

def FFMv2(stage, base, tum, base_size=(40,40,768), tum_size=(40,40,128), feature_size=128, name='FFMv2'):

    # 40,40,128
    outputs = conv2d(base, filters=feature_size, kernel_size=(1, 1), strides=(1, 1), padding='same', name=name+"_"+str(stage) + '_base_feature')
    outputs = keras.layers.Concatenate(name=name+"_"+str(stage))([outputs, tum])
    # 40,40,256
    return outputs

def _create_feature_pyramid(base_feature, stage=8):
    features = [[],[],[],[],[],[]]
    # 将输入进来的
    inputs = keras.layers.Conv2D(filters=256, kernel_size=1, strides=1, padding='same')(base_feature)
    # 第一个TUM模块
    outputs = TUM(1,inputs)
    max_output = outputs[0]
    for j in range(len(features)):
        features[j].append(outputs[j])

    # 第2,3,4个TUM模块，需要将上一个Tum模块输出的40x40x128的内容，传入到下一个Tum模块中
    for i in range(2, stage+1):
        # 将Tum模块的输出和基础特征层传入到FFmv2层当中
        # 输入为base_feature 40x40x768，max_output 40x40x128
        # 输出为40x40x256
        inputs = FFMv2(i - 1,base_feature, max_output)
        # 输出为40x40x128、20x20x128、10x10x128、5x5x128、3x3x128、1x1x128
        outputs = TUM(i,inputs)

        max_output = outputs[0]
        for j in range(len(features)):
            features[j].append(outputs[j])
    # 进行了4次TUM
    # 将获得的同样大小的特征层堆叠到一起
    concatenate_features = []
    for feature in features:
        concat = keras.layers.Concatenate()([f for f in feature])
        concatenate_features.append(concat)
    return concatenate_features

5、注意力机制模块SFAM

注意力机制模块如下：

其会对上一步获得的(40,40,512)、(20,20,512)、(10,10,512)、(5,5,512)、(3,3,512)、(1,1,512)六个有效特征层。进行各个通道的注意力机制调整，判断每一个通道数应该有的权重。

# 注意力机制
def SE_block(inputs, input_size, compress_ratio=16, name='SE_block'):
    pool = keras.layers.GlobalAveragePooling2D()(inputs)
    reshape = keras.layers.Reshape((1, 1, input_size[2]))(pool)

    fc1 = keras.layers.Conv2D(filters=input_size[2] // compress_ratio, kernel_size=1, strides=1, padding='valid',
                              activation='relu', name=name+'_fc1')(reshape)
    fc2 = keras.layers.Conv2D(filters=input_size[2], kernel_size=1, strides=1, padding='valid', activation='sigmoid',
                              name=name+'_fc2')(fc1)

    reweight = keras.layers.Multiply(name=name+'_reweight')([inputs, fc2])

    return reweight


def SFAM(feature_pyramid,input_sizes, compress_ratio=16, name='SFAM'):
    outputs = []
    for i in range(len(input_sizes)):
        input_size = input_sizes[i]
        _input = feature_pyramid[i]
        _output = SE_block(_input, input_size, compress_ratio=compress_ratio, name='SE_block_' + str(i))

        outputs.append(_output)
    return outputs

6、从特征获取预测结果

通过第五步，我们获取了6个融合了注意力机制的有效特征层。

对获取到的每一个有效特征层，我们分别对其进行一次num_priors x 4的卷积、一次num_priors x num_classes的卷积、并需要计算每一个有效特征层对应的先验框。而num_priors指的是该特征层所拥有的先验框数量。

其中：
num_priors x 4的卷积 用于预测 该特征层上 每一个网格点上每一个先验框的变化情况。（为什么说是变化情况呢，这是因为M2DET的预测结果需要结合先验框获得预测框，预测结果就是先验框的变化情况。）

num_priors x num_classes的卷积 用于预测 该特征层上 每一个网格点上 每一个预测框对应的种类。

每一个有效特征层对应的先验框对应着该特征层上 每一个网格点上预先设定好的六个框。

所有的特征层对应的预测结果的shape如下：

实现代码为：

def m2det(num_classes,inputs, num_anchors=6, name='m2det',backbone='mobilenet'):
    if inputs==None:
        inputs = keras.layers.Input(shape=(320, 320, 3))
    else:
        inputs = inputs
    if backbone=='mobilenet':
        C3, C4, C5 = MobileNet(inputs).outputs[1:]
    elif backbone=='resnet':
        C3, C4, C5 = ResNet50(inputs).outputs[1:]
    elif backbone=="vgg":
        C3, C4, C5 = VGG16(inputs).outputs[1:]

    # 40,40,768
    base_feature = FFMv1(C4, C5, feature_size_1=256, feature_size_2=512)

    if backbone=='mobilenet':
        feature_pyramid = _create_feature_pyramid(base_feature, stage=4)
    elif backbone=='resnet':
        feature_pyramid = _create_feature_pyramid(base_feature, stage=4)
    elif backbone=="vgg":
        feature_pyramid = _create_feature_pyramid(base_feature, stage=4)

    feature_pyramid_sizes = _calculate_input_sizes(feature_pyramid)

    outputs = SFAM(feature_pyramid,feature_pyramid_sizes)

    regressions = []
    classifications = []
    for feature in outputs:
        classification = keras.layers.Conv2D(filters=num_classes * num_anchors,kernel_size=3,strides=1,padding='same')(feature)
        classification = keras.layers.Reshape((-1, num_classes))(classification)
        classification = keras.layers.Activation('softmax')(classification)

        regression = keras.layers.Conv2D(filters=num_anchors * 4,kernel_size=3,strides=1,padding='same')(feature)
        regression = keras.layers.Reshape((-1, 4))(regression)

        regressions.append(regression)
        classifications.append(classification)
    
    regressions = keras.layers.Concatenate(axis=1, name="regression")(regressions)
    classifications = keras.layers.Concatenate(axis=1, name="classification")(classifications)
    pyramids = [regressions,classifications]

    return keras.models.Model(inputs=inputs, outputs=pyramids, name=name)

7、预测结果的解码

我们通过对每一个特征层的处理，可以获得两个内容，分别是：

num_priors x 4的卷积 用于预测 该特征层上 每一个网格点上每一个先验框的变化情况。

num_priors x num_classes的卷积 用于预测 该特征层上 每一个网格点上 每一个预测框对应的种类。

每一个有效特征层对应的先验框对应着该特征层上 每一个网格点上预先设定好的六个框。

我们利用 num_priors x 4的卷积 与 每一个有效特征层对应的先验框 获得框的真实位置。

每一个有效特征层对应的先验框就是，如图所示的作用：
每一个有效特征层将整个图片分成与其长宽对应的网格，如conv4-3和fl7组合成的特征层就是将整个图像分成38x38个网格；然后从每个网格中心建立多个先验框，如conv4-3和fl7组合成的有效特征层就是建立了6个先验框；对于conv4-3和fl7组合成的特征层来讲，整个图片被分成38x38个网格，每个网格中心对应6个先验框，一共包含了，38x38x6个，8664个先验框。

先验框虽然可以代表一定的框的位置信息与框的大小信息，但是其是有限的，无法表示任意情况，因此还需要调整，RFBnet利用num_priors x 4的卷积的结果对先验框进行调整。

num_priors x 4中的num_priors表示了这个网格点所包含的先验框数量，其中的4表示了x_offset、y_offset、h和w的调整情况。

x_offset与y_offset代表了真实框距离先验框中心的xy轴偏移情况。
h和w代表了真实框的宽与高相对于先验框的变化情况。

RFBnet解码过程就是将每个网格的中心点加上它对应的x_offset和y_offset，加完后的结果就是预测框的中心，然后再利用 先验框和h、w结合计算出预测框的长和宽。这样就能得到整个预测框的位置了。

当然得到最终的预测结构后还要进行得分排序与非极大抑制筛选这一部分基本上是所有目标检测通用的部分。
1、取出每一类得分大于self.obj_threshold的框和得分。
2、利用框的位置和得分进行非极大抑制。
实现代码如下：

def decode_boxes(self, mbox_loc, mbox_priorbox):
    # 获得先验框的宽与高
    prior_width = mbox_priorbox[:, 2] - mbox_priorbox[:, 0]
    prior_height = mbox_priorbox[:, 3] - mbox_priorbox[:, 1]
    # 获得先验框的中心点
    prior_center_x = 0.5 * (mbox_priorbox[:, 2] + mbox_priorbox[:, 0])
    prior_center_y = 0.5 * (mbox_priorbox[:, 3] + mbox_priorbox[:, 1])

    # 真实框距离先验框中心的xy轴偏移情况
    decode_bbox_center_x = mbox_loc[:, 0] * prior_width * 0.1
    decode_bbox_center_x += prior_center_x
    decode_bbox_center_y = mbox_loc[:, 1] * prior_height * 0.1
    decode_bbox_center_y += prior_center_y
    
    # 真实框的宽与高的求取
    decode_bbox_width = np.exp(mbox_loc[:, 2] * 0.2)
    decode_bbox_width *= prior_width
    decode_bbox_height = np.exp(mbox_loc[:, 3] * 0.2)
    decode_bbox_height *= prior_height

    # 获取真实框的左上角与右下角
    decode_bbox_xmin = decode_bbox_center_x - 0.5 * decode_bbox_width
    decode_bbox_ymin = decode_bbox_center_y - 0.5 * decode_bbox_height
    decode_bbox_xmax = decode_bbox_center_x + 0.5 * decode_bbox_width
    decode_bbox_ymax = decode_bbox_center_y + 0.5 * decode_bbox_height

    # 真实框的左上角与右下角进行堆叠
    decode_bbox = np.concatenate((decode_bbox_xmin[:, None],
                                    decode_bbox_ymin[:, None],
                                    decode_bbox_xmax[:, None],
                                    decode_bbox_ymax[:, None]), axis=-1)
    # 防止超出0与1
    decode_bbox = np.minimum(np.maximum(decode_bbox, 0.0), 1.0)
    return decode_bbox

def detection_out(self, predictions, mbox_priorbox, background_label_id=0, keep_top_k=200,
                    confidence_threshold=0.4):
    
    # 网络预测的结果
    mbox_loc = predictions[0]
    # 先验框
    mbox_priorbox = mbox_priorbox
    # 置信度
    mbox_conf = predictions[1]
    results = []
    # 对每一个图片进行处理
    for i in range(len(mbox_loc)):
        results.append([])
        decode_bbox = self.decode_boxes(mbox_loc[i], mbox_priorbox)
        for c in range(self.num_classes):
            if c == background_label_id:
                continue
            c_confs = mbox_conf[i, :, c]
            c_confs_m = c_confs > confidence_threshold
            if len(c_confs[c_confs_m]) > 0:
                # 取出得分高于confidence_threshold的框
                boxes_to_process = decode_bbox[c_confs_m]
                confs_to_process = c_confs[c_confs_m]
                # 进行iou的非极大抑制
                feed_dict = {self.boxes: boxes_to_process,
                                self.scores: confs_to_process}
                idx = self.sess.run(self.nms, feed_dict=feed_dict)
                # 取出在非极大抑制中效果较好的内容
                good_boxes = boxes_to_process[idx]
                confs = confs_to_process[idx][:, None]
                # 将label、置信度、框的位置进行堆叠。
                labels = c * np.ones((len(idx), 1))
                c_pred = np.concatenate((labels, confs, good_boxes),
                                        axis=1)
                # 添加进result里
                results[-1].extend(c_pred)

        if len(results[-1]) > 0:
            # 按照置信度进行排序
            results[-1] = np.array(results[-1])
            argsort = np.argsort(results[-1][:, 1])[::-1]
            results[-1] = results[-1][argsort]
            # 选出置信度最大的keep_top_k个
            results[-1] = results[-1][:keep_top_k]
    # 获得，在所有预测结果里面，置信度比较高的框
    # 还有，利用先验框和m2det的预测结果，处理获得了真实框（预测框）的位置
    return results

8、在原图上进行绘制

通过第三步，我们可以获得预测框在原图上的位置，而且这些预测框都是经过筛选的。这些筛选后的框可以直接绘制在图片上，就可以获得结果了。

二、训练部分

1、真实框的处理

从预测部分我们知道，每个特征层的预测结果，num_priors x 4的卷积 用于预测 该特征层上 每一个网格点上每一个先验框的变化情况。

也就是说，我们直接利用M2DET网络预测到的结果，并不是预测框在图片上的真实位置，需要解码才能得到真实位置。

而在训练的时候，我们需要计算loss函数，这个loss函数是相对于M2DET网络的预测结果的。我们需要把图片输入到当前的M2DET网络中，得到预测结果；同时还需要把真实框的信息，进行编码，这个编码是把真实框的位置信息格式转化为M2DET预测结果的格式信息。

也就是，我们需要找到 每一张用于训练的图片的每一个真实框对应的先验框，并求出如果想要得到这样一个真实框，我们的预测结果应该是怎么样的。

从预测结果获得真实框的过程被称作解码，而从真实框获得预测结果的过程就是编码的过程。

因此我们只需要将解码过程逆过来就是编码过程了。

实现代码如下：

def iou(self, box):
    # 计算出每个真实框与所有的先验框的iou
    # 判断真实框与先验框的重合情况
    inter_upleft = np.maximum(self.priors[:, :2], box[:2])
    inter_botright = np.minimum(self.priors[:, 2:4], box[2:])

    inter_wh = inter_botright - inter_upleft
    inter_wh = np.maximum(inter_wh, 0)
    inter = inter_wh[:, 0] * inter_wh[:, 1]
    # 真实框的面积
    area_true = (box[2] - box[0]) * (box[3] - box[1])
    # 先验框的面积
    area_gt = (self.priors[:, 2] - self.priors[:, 0])*(self.priors[:, 3] - self.priors[:, 1])
    # 计算iou
    union = area_true + area_gt - inter

    iou = inter / union
    return iou

def encode_box(self, box, return_iou=True):
    iou = self.iou(box)
    encoded_box = np.zeros((self.num_priors, 4 + return_iou))

    # 找到每一个真实框，重合程度较高的先验框
    assign_mask = iou > self.overlap_threshold
    if not assign_mask.any():
        assign_mask[iou.argmax()] = True
    if return_iou:
        encoded_box[:, -1][assign_mask] = iou[assign_mask]
    
    # 找到对应的先验框
    assigned_priors = self.priors[assign_mask]
    # 先计算真实框的中心与长宽
    box_center = 0.5 * (box[:2] + box[2:])
    box_wh = box[2:] - box[:2]
    # 再计算重合度较高的先验框的中心与长宽
    assigned_priors_center = 0.5 * (assigned_priors[:, :2] +
                                    assigned_priors[:, 2:4])
    assigned_priors_wh = (assigned_priors[:, 2:4] -
                            assigned_priors[:, :2])
    
    # 逆向求取RFB应该有的预测结果
    encoded_box[:, :2][assign_mask] = box_center - assigned_priors_center
    encoded_box[:, :2][assign_mask] /= assigned_priors_wh
    # 除以0.1
    encoded_box[:, :2][assign_mask] /= 0.1

    encoded_box[:, 2:4][assign_mask] = np.log(box_wh / assigned_priors_wh)
    # 除以0.2
    encoded_box[:, 2:4][assign_mask] /= 0.2
    return encoded_box.ravel()

利用上述代码我们可以获得，真实框对应的所有的iou较大先验框，并计算了真实框对应的所有iou较大的先验框应该有的预测结果。

在训练的时候我们只需要选择iou最大的先验框就行了，这个iou最大的先验框就是我们用来预测这个真实框所用的先验框。

因此我们还要经过一次筛选，将上述代码获得的真实框对应的所有的iou较大先验框的预测结果中，iou最大的那个筛选出来。

通过assign_boxes我们就获得了，输入进来的这张图片，应该有的预测结果是什么样子的。

实现代码如下：

def assign_boxes(self, boxes):
    assignment = np.zeros((self.num_priors, 4 + 1 + 1 + self.num_classes + 1))

    assignment[:, 4] = 0.0        
    assignment[:, 5] = 1
    assignment[:, -1] = 0.0
    if len(boxes) == 0:
        return assignment
        
    # (n, num_priors, 5)
    encoded_boxes = np.apply_along_axis(self.encode_box, 1, boxes[:, :4])
    # 每一个真实框的编码后的值，和iou
    # (n, num_priors)
    encoded_boxes = encoded_boxes.reshape(-1, self.num_priors, 5)

    # 取重合程度最大的先验框，并且获取这个先验框的index
    # (num_priors)
    best_iou = encoded_boxes[:, :, -1].max(axis=0)
    # (num_priors)
    best_iou_idx = encoded_boxes[:, :, -1].argmax(axis=0)
    # (num_priors)
    best_iou_mask = best_iou > 0
    # 某个先验框它属于哪个真实框
    best_iou_idx = best_iou_idx[best_iou_mask]

    assign_num = len(best_iou_idx)
    # 保留重合程度最大的先验框的应该有的预测结果
    # 哪些先验框存在真实框
    encoded_boxes = encoded_boxes[:, best_iou_mask, :]

    assignment[:, :4][best_iou_mask] = encoded_boxes[best_iou_idx,np.arange(assign_num),:4]
    # 4代表为背景的概率，为0
    assignment[:, 4][best_iou_mask] = 1
    assignment[:, 5][best_iou_mask] = 0
    assignment[:, 6:-1][best_iou_mask] = boxes[best_iou_idx, 4:]
    assignment[:, -1][best_iou_mask] = 1
    # 通过assign_boxes我们就获得了，输入进来的这张图片，应该有的预测结果是什么样子的

    return assignment

2、利用处理完的真实框与对应图片的预测结果计算loss

loss的计算分为三个部分：
1、获取所有正标签的框的预测结果的回归loss。
2、获取所有正标签的种类的预测结果的交叉熵loss。
3、获取一定负标签的种类的预测结果的交叉熵loss。

由于在M2DET的训练过程中，正负样本极其不平衡，即存在对应真实框的先验框可能只有十来个，但是不存在对应真实框的负样本却有几千个，这就会导致负样本的loss值极大，因此我们可以考虑减少负样本的选取，对于M2DET的训练来讲，常见的情况是取三倍正样本数量的负样本用于训练。这个三倍呢，也可以修改，调整成自己喜欢的数字。

实现代码如下：

def rand(a=0, b=1):
    return np.random.rand()*(b-a) + a
    
def softmax_loss(y_true, y_pred):
    y_pred = tf.maximum(y_pred, 1e-7)
    softmax_loss = -tf.reduce_sum(y_true * tf.log(y_pred),
                                    axis=-1)
    return softmax_loss

def conf_loss(neg_pos_ratio = 3,negatives_for_hard = 100):
    def _conf_loss(y_true, y_pred):
        batch_size = tf.shape(y_true)[0]
        num_boxes = tf.to_float(tf.shape(y_true)[1])
        
        labels         = y_true[:, :, :-1]
        classification = y_pred

        cls_loss = softmax_loss(labels, classification)
        
        num_pos = tf.reduce_sum(y_true[:, :, -1], axis=-1)
        
        pos_conf_loss = tf.reduce_sum(cls_loss * y_true[:, :, -1],
                                      axis=1)
        # 获取一定的负样本
        num_neg = tf.minimum(neg_pos_ratio * num_pos,
                             num_boxes - num_pos)


        # 找到了哪些值是大于0的
        pos_num_neg_mask = tf.greater(num_neg, 0)
        # 获得一个1.0
        has_min = tf.to_float(tf.reduce_any(pos_num_neg_mask))
        num_neg = tf.concat( axis=0,values=[num_neg,
                                [(1 - has_min) * negatives_for_hard]])

        # 求平均每个图片要取多少个负样本
        num_neg_batch = tf.reduce_mean(tf.boolean_mask(num_neg,
                                                      tf.greater(num_neg, 0)))
        num_neg_batch = tf.to_int32(num_neg_batch)

        max_confs = tf.reduce_max(y_pred[:, :, 1:-1],
                                  axis=2)

        # 取top_k个置信度，作为负样本
        x, indices = tf.nn.top_k(max_confs * (1 - y_true[:, :, -1]),
                                 k=num_neg_batch)

        # 找到其在1维上的索引
        batch_idx = tf.expand_dims(tf.range(0, batch_size), 1)
        batch_idx = tf.tile(batch_idx, (1, num_neg_batch))
        full_indices = (tf.reshape(batch_idx, [-1]) * tf.to_int32(num_boxes) +
                        tf.reshape(indices, [-1]))

        neg_conf_loss = tf.gather(tf.reshape(cls_loss, [-1]),
                                  full_indices)
        neg_conf_loss = tf.reshape(neg_conf_loss,
                                   [batch_size, num_neg_batch])
        neg_conf_loss = tf.reduce_sum(neg_conf_loss, axis=1)


        num_pos = tf.where(tf.not_equal(num_pos, 0), num_pos,
                            tf.ones_like(num_pos))
        total_loss = tf.reduce_sum(pos_conf_loss) + tf.reduce_sum(neg_conf_loss)
        total_loss /= tf.reduce_sum(num_pos)
        # total_loss = tf.Print(total_loss,[labels,full_indices,tf.reduce_sum(pos_conf_loss)/tf.reduce_sum(num_pos),tf.reduce_sum(neg_conf_loss)/tf.reduce_sum(num_pos),tf.reduce_sum(num_pos)])
        return total_loss
    return _conf_loss


def smooth_l1(sigma=1.0):
    sigma_squared = sigma ** 2

    def _smooth_l1(y_true, y_pred):
        # y_true [batch_size, num_anchor, 4+1]
        # y_pred [batch_size, num_anchor, 4]
        regression        = y_pred
        regression_target = y_true[:, :, :-1]
        anchor_state      = y_true[:, :, -1]

        # 找到正样本
        indices           = tf.where(keras.backend.equal(anchor_state, 1))
        regression        = tf.gather_nd(regression, indices)
        regression_target = tf.gather_nd(regression_target, indices)

        # 计算 smooth L1 loss
        # f(x) = 0.5 * (sigma * x)^2          if |x| < 1 / sigma / sigma
        #        |x| - 0.5 / sigma / sigma    otherwise
        regression_diff = regression - regression_target
        regression_diff = keras.backend.abs(regression_diff)
        regression_loss = backend.where(
            keras.backend.less(regression_diff, 1.0 / sigma_squared),
            0.5 * sigma_squared * keras.backend.pow(regression_diff, 2),
            regression_diff - 0.5 / sigma_squared
        )

        normalizer = keras.backend.maximum(1, keras.backend.shape(indices)[0])
        normalizer = keras.backend.cast(normalizer, dtype=keras.backend.floatx())
        loss = keras.backend.sum(regression_loss) / normalizer

        return loss

    return _smooth_l1

训练自己的M2det模型

M2det整体的文件夹构架如下：

本文使用VOC格式进行训练。
训练前将标签文件放在VOCdevkit文件夹下的VOC2007文件夹下的Annotation中。

训练前将图片文件放在VOCdevkit文件夹下的VOC2007文件夹下的JPEGImages中。

在训练前利用voc2M2det.py文件生成对应的txt。

再运行根目录下的voc_annotation.py，运行前需要将classes改成你自己的classes。

classes = ["aeroplane", "bicycle", "bird", "boat", "bottle", "bus", "car", "cat", "chair", "cow", "diningtable", "dog", "horse", "motorbike", "person", "pottedplant", "sheep", "sofa", "train", "tvmonitor"]

就会生成对应的2007_train.txt，每一行对应其图片位置及其真实框的位置。

在训练前需要修改model_data里面的voc_classes.txt文件，需要将classes改成你自己的classes。

运行train.py即可开始训练。

你可能感兴趣的:(睿智的目标检测)

【深度学习】Anaconda3 + PyCharm 的环境配置 5：手把手带你运行 predict.py 文件，史上最全的问题解决记录作者正在煮茶深度学习人工智能 python pytorch
前言文章性质：实操记录主要内容：主要记录了运行predict.py文件时遇到的错误以及相应的解决方案。项目源码：GitHub-SZU-AdvTech-2022/213-Rethinking-Image-Restoration-for-Object-Detection相关文档：睿智的目标检测26：Pytorch搭建yolo3目标检测平台冷知识+1：小伙伴们不经意的点赞与收藏✨可以让作者更有创作动力！
【深度学习】Anaconda3 + PyCharm 的环境配置 4：手把手带你运行 train.py 文件，史上最全的问题解决记录作者正在煮茶深度学习人工智能 pytorch python
前言文章性质：实操记录主要内容：主要记录了运行train.py文件时遇到的错误以及相应的解决方案。项目源码：GitHub-SZU-AdvTech-2022/213-Rethinking-Image-Restoration-for-Object-Detection相关文档：睿智的目标检测26：Pytorch搭建yolo3目标检测平台冷知识+1：小伙伴们不经意的点赞与收藏✨可以让作者更有创作动力！目录
Retinaface实现人脸检测与关键点定位-深度学习学习笔记-1 friklogff python 深度学习深度学习学习笔记
前言本文基于人工智能领域大佬Bubbliiiing睿智的目标检测42——Pytorch搭建Retinaface人脸检测与关键点定位平台原文链接：https://blog.csdn.net/weixin_44791964/article/details/106872072这是是我的学习笔记，记录我复现与拓展的学习过程，万分感谢大佬的开源和无私奉献。本文部分内容来自网上搜集与个人实践。如果任何信息存在
RetinaFace人脸检测模型-Gradio界面设计 friklogff gradio python 深度学习 python 深度学习
前言本文基于人工智能领域大佬Bubbliiiing睿智的目标检测42——Pytorch搭建Retinaface人脸检测与关键点定位平台原文链接：https://blog.csdn.net/weixin_44791964/article/details/106872072这是是我的学习笔记，记录我对开源项目的本地复现，重新封装和功能拓展的学习历程，万分感谢大佬的开源和无私奉献。本文部分内容来自网上搜
聪明的人脸识别4——Pytorch 利用Retinaface+Facenet搭建人脸识别平台 Bubbliiiing 聪明的人脸识别人脸识别 python Retinaface Facenet 人工智能
睿智的目标检测51——Pytorch利用Retinaface+Facenet搭建人脸识别平台学习前言什么是Retinface和Facenet1、Retinface2、Facenet整体实现代码实现流程一、数据库的初始化二、检测图片的处理1、人脸的截取与对齐2、利用Facenet对矫正后的人脸进行编码3、将实时图片中的人脸特征与数据库中的进行比对4、图片绘制使用Retinaface+Facenet进
Bubbliiiing版本yolov7 c++opencv dnn部署河海CV小菜鸡深度学习 pytorch 人工智能 opencv dnn
使用B导的yolov7代码部署，代码地址：https://github.com/bubbliiiing/yolov7-pytorch模型的的训练看B导即可，up主地址：Bubbliiiing的博客_CSDN博客-神经网络学习小记录,睿智的目标检测,有趣的数据结构算法领域博主模型训练完成之后，在predict.py中设置mode="export_onnx"即可生成。注意，此处有个坑，B导的yolov
Pytorch+Yolov3搭建自己的目标检测项目工程（带你从理论到实践）夏天是冰红茶目标检测 pytorch YOLO 目标检测
学习目标使用pytorch去构建一个Yolov3的项目工程。参考的原作者的博客：睿智的目标检测26——Pytorch搭建yolo3目标检测平台构建主干网络darknet53yolov3采用的主干网络是darknet53，借鉴了yolov2中的网络darknet19结构，相较于后者，前者加入了大量的残差模块，并且使用了步长为2，卷积核大小为3×3卷积层Conv2D替代池化层Maxpooling2D，
睿智的目标检测66——Pytorch搭建YoloV8目标检测平台 Bubbliiiing 睿智的目标检测目标检测 pytorch YOLO YoloV8 计算机视觉
睿智的目标检测66——Pytorch搭建YoloV8目标检测平台学习前言源码下载YoloV8改进的部分（不完全）YoloV8实现思路一、整体结构解析二、网络结构解析1、主干网络Backbone介绍2、构建FPN特征金字塔进行加强特征提取3、利用YoloHead获得预测结果三、预测结果的解码1、获得预测框与得分2、得分筛选与非极大抑制四、训练部分1、计算loss所需内容2、正样本的匹配过程a、判断特
yolo v5 太简单了目标检测目标检测
参考睿智的目标检测56——Pytorch搭建YoloV5目标检测平台原理前处理网络结构整体思想思想框架特征提取-特征加强-预测先验框对应的物体情况。改进部分1、主干部分：使用了Focus网络结构，具体操作是在一张图片中每隔一个像素拿到一个值，这个时候获得了四个独立的特征层，然后将四个独立的特征层进行堆叠，此时宽高信息就集中到了通道信息，输入通道扩充了四倍。该结构在yolov5第5版之前有所应用，最
保存Mask R-CNN掩膜到本地学而时玩儿之 Mask R-CNN 深度学习 python pycharm
1、MaskR-CNN源码：睿智的目标检测19——Keras搭建MaskR-CNN实例分割平台_Bubbliiiing的学习小课堂-CSDN博客_kerasmaskrcnn睿智的目标检测19——Keras搭建MaskR-CNN实例分割平台学习前言什么是MaskR-CNN源码下载MaskR-CNN实现思路一、预测部分1、主干网络介绍2、特征金字塔FPN的构建3、获得Proposal建议框4、Prop
睿智的目标检测64——目标检测中的MixUp数据增强方法 Bubbliiiing 睿智的目标检测目标检测计算机视觉深度学习
睿智的目标检测64——目标检测中的MixUp数据增强方法学习前言代码下载什么是MixUp数据增强方法实现思路全部代码1、数据增强与MixUp2、调用代码学习前言哈哈哈！我再来一次数据增强！代码下载https://github.com/bubbliiiing/object-detection-augmentation什么是MixUp数据增强方法MixUp数据增强方法在最新的几个Yolo算法中得到了广
睿智的目标检测65——Pytorch搭建DETR目标检测平台 Bubbliiiing 睿智的目标检测目标检测 pytorch 深度学习
睿智的目标检测65——Pytorch搭建DETR目标检测平台学习前言源码下载DETR实现思路一、整体结构解析二、网络结构解析1、主干网络Backbone介绍a、什么是残差网络b、什么是ResNet50模型c、位置编码2、编码网络Encoder网络介绍a、TransformerEncoder的构建b、Self-attention结构解析3、解码网络Decoder网络介绍4、预测头的构建三、预测结果的
睿智的目标检测——YoloV7-Tiny-OBB旋转目标检测算法部署 _白鹭先生_ 睿智的目标检测目标检测 YOLO 算法
YoloV7-OBB旋转目标检测算法部署学习前言源码下载安装TensorRT1.TensorRT简介2.下载TensorRT3.TensorRT安装安装torch2trt1.torch2trt简介2.torch2trt安装模型转换结果比对学习前言本文将借助torch2trt工具实现Yolov7-Tiny-OBB算法的TensorRT快速推理。源码下载https://github.com/Egrt/
睿智的目标检测——YOLOv7-OBB中的环境配置 _白鹭先生_ 目标检测 YOLO 深度学习
学习前言在文章「Pytorch搭建YoloV7-OBB旋转目标检测平台」中需要安装旋转目标检测非极大抑制库；后台私信经常有人遇到安装过程的问题，本文将详细介绍安装的过程。源码下载https://github.com/Egrt/yolov7-obb喜欢的可以点个star噢。VisualStudio安装进入以下链接VisualStudio旧版本下载地址安装VisualStudio2019版本。跳转到以
睿智的目标检测——Pytorch搭建YoloV7-Tiny-OBB旋转目标检测平台 _白鹭先生_ 睿智的目标检测目标检测 pytorch YOLO
睿智的目标检测——Pytorch搭建[YoloV7-Tiny-OBB]旋转目标检测平台学习前言源码下载YoloV7-Tiny-OBB改进的部分（不完全）YoloV7-Tiny-OBB实现思路一、整体结构解析二、网络结构解析1、主干网络Backbone介绍2、构建FPN特征金字塔进行加强特征提取3、利用YoloHead获得预测结果三、预测结果的解码1、获得预测框与得分2、得分筛选与非极大抑制四、训练
睿智的目标检测61——Pytorch搭建YoloV7目标检测平台 vvoennvv 深度学习人工智能
YoloV7改进的部分1、主干部分：使用了创新的多分支堆叠结构进行特征提取，相比以前的Yolo，模型的跳连接结构更加的密集。使用了创新的下采样结构，使用Maxpooling和步长为2x2的特征并行进行提取与压缩。2、加强特征提取部分：同主干部分，加强特征提取部分也使用了多输入堆叠结构进行特征提取，使用Maxpooling和步长为2x2的特征并行进行下采样。3、特殊的SPP结构：使用了具有CSP机构
睿智的目标检测——PyQt5搭建目标检测界面 _白鹭先生_ 睿智的目标检测目标检测 qt 人工智能
睿智的目标检测——PyQt5搭建目标检测界面学习前言基于B导开源的YoloV4-Pytorch源码开发了戴口罩人脸检测系统（21年完成的本科毕设，较为老旧，可自行替换为最新的目标检测算法）。源码下载https://github.com/Egrt/YOLO_PyQt5喜欢的可以点个star噢。支持功能支持读取本地图片支持读取本地视频支持打开摄像头实时检测支持多线程，防止卡顿支持检测到人脸未佩戴口罩时
睿智的目标检测——Pytorch搭建YoloV7-OBB旋转目标检测平台 _白鹭先生_ pytorch 目标检测 YOLO 计算机视觉
睿智的目标检测——Pytorch搭建[YoloV7-OBB]旋转目标检测平台学习前言源码下载YoloV7-OBB改进的部分（不完全）YoloV7-OBB实现思路一、整体结构解析二、网络结构解析1、主干网络Backbone介绍2、构建FPN特征金字塔进行加强特征提取3、利用YoloHead获得预测结果三、预测结果的解码1、获得预测框与得分2、得分筛选与非极大抑制四、训练部分1、计算loss所需内容2
YOLOV3从数据集到预测向前走就是我深度学习目标检测深度学习计算机视觉
实现代码使用Bubbliiiing博主的git代码，宝藏博主，希望自己能全部实现一遍博主实现过的代码睿智的目标检测26——Pytorch搭建yolo3目标检测平台_Bubbliiiing的博客-CSDN博客_睿智的目标检测26第一步先将代码跑起来，跑起来后很多看着抽象的变量都能看的更具体，不用想象，从以下几个方面介绍1、数据集处理2、模型生成3、计算loss4、训练5、预测一、数据集处理上一篇介绍
labelimg使用简介敲代码的小风
PyPI链接:labelImg参考链接:睿智的目标检测12——使用labelimg进行目标检测数据集标注LabelImgisagraphicalimageannotationtoolandlabelobjectboundingboxesinimages.pip安装:pipinstalllabelImgcmd下启动:labelimg打开图片文件夹和xml文件保存文件夹标注后的效果展示:待标注图片展示
睿智的目标检测21——如何调用摄像头进行目标检测 Bubbliiiing 睿智的目标检测 opencv python 计算机视觉
睿智的目标检测21——如何调用摄像头进行目标检测学习前言使用到的库实现思路实现代码2020/4/26更新：FPS计算FPS记录的原理FPS实现代码学习前言好多人都想了解一下如何对摄像头进行调用，然后进行目标检测，于是我做了这个小BLOG。使用到的库opencv-python==4.1.2.30Pillow==6.2.1numpy==1.17.4这些都是通用的库，版本不同问题应该也不大。实现思路利用
yolov5-计算fps（新加入：4. 记录运行B导yolov7-tiny后计算fps的方法）孟孟单单深度学习项目经验tips 深度学习人工智能
目录0.FPS记录的原理1.自己的2.其实yolov5有自带的打印这些参数3.清风大佬分享的3.1单个的计算fps函数3.2整体的完整代码4.记录运行B导yolov7-tiny后计算fps的方法0.FPS记录的原理参考自：睿智的目标检测21——如何调用摄像头进行目标检测FPS简单来理解就是图像的刷新频率，也就是每秒多少帧假设目标检测网络处理1帧要0.02s，此时FPS就是50#----------
睿智的目标检测12——使用labelimg进行目标检测数据集标注 Bubbliiiing 睿智的目标检测目标检测 labelimg 数据集标注
睿智的目标检测12——使用labelimg进行目标检测数据集标注学习前言labelimg的安装进行批量标注学习前言好久没写博文了，先水一水。labelimg的安装其实安装labelimg很简单，网上给了各种各样的方法，其实还不如直接使用cmd里面的pip进行安装。如果你的电脑安装了python3，在cmd命令行里面执行以下命令即可：pipinstalllabelimg安装完成后显示如下。之后利用命
睿智的目标检测50——Tensorflow2 利用mobilenet系列（v1,v2,v3）搭建yolov4目标检测平台 wouderw 目标检测 tensorflow 深度学习
网络替换实现思路1、网络结构解析与替换思路解析对于YoloV4而言，其整个网络结构可以分为三个部分。分别是：1、主干特征提取网络Backbone，对应图像上的CSPdarknet532、加强特征提取网络，对应图像上的SPP和PANet3、预测网络YoloHead，利用获得到的特征进行预测其中：第一部分主干特征提取网络的功能是进行初步的特征提取，利用主干特征提取网络，我们可以获得三个初步的有效特征层
睿智的目标检测55——Keras搭建YoloV5目标检测平台普通网友 java 后端目标检测 keras 深度学习
睿智的目标检测55——Keras搭建YoloV5目标检测平台学习前言源码下载YoloV5改进的部分（不完全）YoloV5实现思路一、整体结构解析二、网络结构解析1、主干网络Backbone介绍2、构建FPN特征金字塔进行加强特征提取3、利用YoloHead获得预测结果三、预测结果的解码1、获得预测框与得分2、得分筛选与非极大抑制四、训练部分1、计算loss所需内容2、正样本的匹配过程a、匹配先验框
小目标检测1_Focal loss zxm_ 目标检测相关目标检测深度学习人工智能
主要参考：睿智的目标检测9——Focalloss详解及其实现信息量与熵添加链接描述交叉熵损失函数（CrossEntropyLoss）（原理详解）有参考很多文章与博客，有的可能忘记放出处了，侵权请联系，马上修改~文章目录准备知识FocallossOHEM与Focalloss实现Focalloss是何恺明大神提出，最初用于图像领域解决数据不平衡造成的模型性能问题。Focalloss作用：1、控制正负样
ConvNext做Backbone的Faster R-CNN和YOLOV4（结合博主Bubbliiing的TF2实现代码） shAd0wst0rm cnn tensorflow 深度学习
参考Bubbliiing：睿智的目标检测45——TF2搭建FasterR-CNN目标检测平台太阳花的小绿豆：ConvNeXt网络详解立Sir:【神经网络】(19)ConvNeXt代码复现，网络解析，附Tensorflow完整代码facebook：AConvNetforthe2020sConvNext结构ConvNext结构简单易懂，没有什么新颖的东西，新人可以看着结构图就能写。甚至连类都不用写。下
深度学习——mAP 计算 XS30 TensorFlow 深度学习
0、引言本文仅作为学习mAP相关知识点的记录，主要参考博文为Bubbliiiing大佬所创作的以及百度飞桨相关在线课程，在此表示感谢睿智的目标检测20——利用mAP计算目标检测精确度1、IoU（交并比）在中学数学中，我们学习了交集、并集，而在深度学习中，使用交并的概念设计了交并比IoU用以评估预测质量，简单来说就是计算预测框与标注框的交集面积、并集面积，当IoU值越大时，则表明预测结果与标注结果越
睿智的目标检测63——Tensorflow2搭建YoloV7目标检测平台 Bubbliiiing 睿智的目标检测目标检测 tensorflow 深度学习 YoloV7 计算机视觉
睿智的目标检测63——Tensorflow2搭建YoloV7目标检测平台学习前言源码下载YoloV7改进的部分（不完全）YoloV7实现思路一、整体结构解析二、网络结构解析1、主干网络Backbone介绍2、构建FPN特征金字塔进行加强特征提取3、利用YoloHead获得预测结果三、预测结果的解码1、获得预测框与得分2、得分筛选与非极大抑制四、训练部分1、计算loss所需内容2、正样本的匹配过程a
Faster RCNN流程图 RedMery 目标检测论文 FasterRCNN 目标检测人工智能
最近在看FasterRCNN的源码，按照数据的计算过程，绘制了数据的流程图根据一下内容：CSDN讲解文章：睿智的目标检测27——Pytorch搭建FasterR-CNN目标检测平台*视频讲解：手把手带你实战操作,Faster-RCNN（代码解析+理论集合+多年累积的经验）先到先得噢！人工智能/计算机视觉/深度学习/机器学习github源码：faster-rcnn-pytorch下面是根据源码绘制的
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj