狒狒非废

Faster-RCNN的Keras实现

Faster-RCNN的流程图

以下将根据流程图来简单介绍各个模块的实现。

数据预处理

我们采用物体检测最常用的数据集PASCAL VOC，包括VOC2007和VOC2012。将三个压缩包该数据集的目录结构是这样的：

VOCdevkit

VOC2007

Annotations

ImageSets

JPEGImages

SegmentationClass

SegmentationObject

VOC2012

...

（略）

其中Annotations中是xml格式的标注文件，包含了分类和bounding box等各种信息；ImageSets以文本文件的形式保存了训练集、验证集和测试集的图片名；JPEGImages里面是所有的图片；SegmentationClass和SegmentationObject分别包含了图片语义分割和实例分割的信息。

pascal_voc_parser.py文件用来读取数据。定义了get_data函数返回每张图片的信息，每个类别的图片数量和类别编号。代码如下：

import os
import cv2
import xml.etree.ElementTree as ET
import numpy as np
def get_data(input_path):
   all_imgs = []

   classes_count = {}

   class_mapping = {}

   visualise = False

   data_paths = [os.path.join(input_path,s) for s in ['VOC2007','VOC2012']]
   

   print('Parsing annotation files')
   # 设置路径
   for data_path in data_paths:

      annot_path = os.path.join(data_path, 'Annotations')
      imgs_path = os.path.join(data_path, 'JPEGImages')
      imgsets_path_trainval = os.path.join(data_path, 'ImageSets','Main','trainval.txt')
      imgsets_path_test = os.path.join(data_path, 'ImageSets','Main','test.txt')
      # 生成训练验证集和测试集
      trainval_files = []
      test_files = []
      try:
         with open(imgsets_path_trainval) as f:
            for line in f:
               trainval_files.append(line.strip() + '.jpg')
      except Exception as e:
         print(e)

      try:
         with open(imgsets_path_test) as f:
            for line in f:
               test_files.append(line.strip() + '.jpg')
      except Exception as e:
         if data_path[-7:] == 'VOC2012':
            # this is expected, most pascal voc distibutions dont have the test.txt file
            pass
         else:
            print(e)
      # 读取annotations文件,构建字典annotation_data
      annots = [os.path.join(annot_path, s) for s in os.listdir(annot_path)]
      idx = 0
      for annot in annots:
         try:
            idx += 1

            et = ET.parse(annot)
            element = et.getroot()
            
            element_objs = element.findall('object')
            element_filename = element.find('filename').text
            element_width = int(element.find('size').find('width').text)
            element_height = int(element.find('size').find('height').text)

            if len(element_objs) > 0:
               annotation_data = {'filepath': os.path.join(imgs_path, element_filename), 'width': element_width,
                              'height': element_height, 'bboxes': []}

               if element_filename in trainval_files:
                  annotation_data['imageset'] = 'trainval'
               elif element_filename in test_files:
                  annotation_data['imageset'] = 'test'
               else:
                  annotation_data['imageset'] = 'trainval'
            # 对一张图片中所有的目标得到：name,计算字典classes_count(每个类型的图片张数),class_mapping(类型名编号).bbox,取得四个坐标值.
            for element_obj in element_objs:
               class_name = element_obj.find('name').text
               if class_name not in classes_count:
                  classes_count[class_name] = 1
               else:
                  classes_count[class_name] += 1

               if class_name not in class_mapping:
                  class_mapping[class_name] = len(class_mapping)

               obj_bbox = element_obj.find('bndbox')
               x1 = int(round(float(obj_bbox.find('xmin').text)))
               y1 = int(round(float(obj_bbox.find('ymin').text)))
               x2 = int(round(float(obj_bbox.find('xmax').text)))
               y2 = int(round(float(obj_bbox.find('ymax').text)))
               difficulty = int(element_obj.find('difficult').text) == 1 # 复杂目标
               annotation_data['bboxes'].append(
                  {'class': class_name, 'x1': x1, 'x2': x2, 'y1': y1, 'y2': y2, 'difficult': difficulty})
            all_imgs.append(annotation_data) # all_imgs包含了所需的全部图片信息

            if visualise:
               img = cv2.imread(annotation_data['filepath'])
               for bbox in annotation_data['bboxes']:
                  cv2.rectangle(img, (bbox['x1'], bbox['y1']), (bbox[
                             'x2'], bbox['y2']), (0, 0, 255))
               cv2.imshow('img', img)
               cv2.waitKey(0)

         except Exception as e:
            print(e)
            continue
   return all_imgs, classes_count, class_mapping

特征提取

在Faster-RCNN中，RPN和Classifier分类器共用一个base网络，用来提取原始特征，可以直接套用常用的卷积网络比如VGG、GoogLenet等等。这里我们使用ResNet作为base。ResNet也是一个近年来很流行的网络，它利用了较低层次的特征，可以有效地减轻梯度消失的问题，提高了网络深度的上限。ResNet-50的网络结构如图所示：

对于ResNet来说，最重要的概念就是残差单元。ResNet相比普通网络每两层间增加了短路机制，将残差加入特征学习。

残差单元根据网络深度有两种典型结构。我们使用的ResNet-50网络采用的残差单元是下图右侧这种类型。注意，1x1的卷积可以改变维度，使得短路连接时输入输出的维度一致。

在文件resnet.py中我们基于ResNet-50构造了Faster-RCNN的base网络，代码如下：

from __future__ import print_function
from __future__ import absolute_import

from keras.layers import Input, Add, Dense, Activation, Flatten, Convolution2D, MaxPooling2D, ZeroPadding2D, \
    AveragePooling2D, TimeDistributed

from keras import backend as K

from keras_frcnn.RoiPoolingConv import RoiPoolingConv
from keras_frcnn.FixedBatchNormalization import FixedBatchNormalization
# 默认的模型文件地址
def get_weight_path():
    if K.image_dim_ordering() == 'th':
        return 'resnet50_weights_th_dim_ordering_th_kernels_notop.h5'
    else:
        return 'resnet50_weights_tf_dim_ordering_tf_kernels.h5'
# 根据输入的宽高计算输出的大小
def get_img_output_length(width, height):
    def get_output_length(input_length):
        # zero_pad
        input_length += 6
        # apply 4 strided convolutions
        filter_sizes = [7, 3, 1, 1]
        stride = 2
        for filter_size in filter_sizes:
            input_length = (input_length - filter_size + stride) // stride
        return input_length

    return get_output_length(width), get_output_length(height) 
# Identity Block模块，输入和输出相同
def identity_block(input_tensor, kernel_size, filters, stage, block, trainable=True):

    nb_filter1, nb_filter2, nb_filter3 = filters
    
    if K.image_dim_ordering() == 'tf':
        bn_axis = 3
    else:
        bn_axis = 1

    conv_name_base = 'res' + str(stage) + block + '_branch'
    bn_name_base = 'bn' + str(stage) + block + '_branch'

    x = Convolution2D(nb_filter1, (1, 1), name=conv_name_base + '2a', trainable=trainable)(input_tensor)
    x = FixedBatchNormalization(axis=bn_axis, name=bn_name_base + '2a')(x)
    x = Activation('relu')(x)

    x = Convolution2D(nb_filter2, (kernel_size, kernel_size), padding='same', name=conv_name_base + '2b', trainable=trainable)(x)
    x = FixedBatchNormalization(axis=bn_axis, name=bn_name_base + '2b')(x)
    x = Activation('relu')(x)

    x = Convolution2D(nb_filter3, (1, 1), name=conv_name_base + '2c', trainable=trainable)(x)
    x = FixedBatchNormalization(axis=bn_axis, name=bn_name_base + '2c')(x)

    x = Add()([x, input_tensor])
    x = Activation('relu')(x)
    return x
# Conv Block模块，输入和输出的维度不同。
def conv_block(input_tensor, kernel_size, filters, stage, block, strides=(2, 2), trainable=True):

    nb_filter1, nb_filter2, nb_filter3 = filters
    if K.image_dim_ordering() == 'tf':
        bn_axis = 3
    else:
        bn_axis = 1

    conv_name_base = 'res' + str(stage) + block + '_branch'
    bn_name_base = 'bn' + str(stage) + block + '_branch'

    x = Convolution2D(nb_filter1, (1, 1), strides=strides, name=conv_name_base + '2a', trainable=trainable)(input_tensor)
    x = FixedBatchNormalization(axis=bn_axis, name=bn_name_base + '2a')(x)
    x = Activation('relu')(x)

    x = Convolution2D(nb_filter2, (kernel_size, kernel_size), padding='same', name=conv_name_base + '2b', trainable=trainable)(x)
    x = FixedBatchNormalization(axis=bn_axis, name=bn_name_base + '2b')(x)
    x = Activation('relu')(x)

    x = Convolution2D(nb_filter3, (1, 1), name=conv_name_base + '2c', trainable=trainable)(x)
    x = FixedBatchNormalization(axis=bn_axis, name=bn_name_base + '2c')(x)

    shortcut = Convolution2D(nb_filter3, (1, 1), strides=strides, name=conv_name_base + '1', trainable=trainable)(input_tensor)
    shortcut = FixedBatchNormalization(axis=bn_axis, name=bn_name_base + '1')(shortcut)

    x = Add()([x, shortcut])
    x = Activation('relu')(x)
    return x
# base网络的整体构造
def nn_base(input_tensor=None, trainable=False):

    # Determine proper input shape
    if K.image_dim_ordering() == 'th':
        input_shape = (3, None, None)
    else:
        input_shape = (None, None, 3)

    if input_tensor is None:
        img_input = Input(shape=input_shape) # placeholder
    else:
        if not K.is_keras_tensor(input_tensor):
            img_input = Input(tensor=input_tensor, shape=input_shape)
        else:
            img_input = input_tensor

    if K.image_dim_ordering() == 'tf':
        bn_axis = 3
    else:
        bn_axis = 1
# 用ZeroPadding调整维度
    x = ZeroPadding2D((3, 3))(img_input)

    x = Convolution2D(64, (7, 7), strides=(2, 2), name='conv1', trainable = trainable)(x)
    x = FixedBatchNormalization(axis=bn_axis, name='bn_conv1')(x)
    x = Activation('relu')(x)
    x = MaxPooling2D((3, 3), strides=(2, 2))(x)

    x = conv_block(x, 3, [64, 64, 256], stage=2, block='a', strides=(1, 1), trainable = trainable)
    x = identity_block(x, 3, [64, 64, 256], stage=2, block='b', trainable = trainable)
    x = identity_block(x, 3, [64, 64, 256], stage=2, block='c', trainable = trainable)

    x = conv_block(x, 3, [128, 128, 512], stage=3, block='a', trainable = trainable)
    x = identity_block(x, 3, [128, 128, 512], stage=3, block='b', trainable = trainable)
    x = identity_block(x, 3, [128, 128, 512], stage=3, block='c', trainable = trainable)
    x = identity_block(x, 3, [128, 128, 512], stage=3, block='d', trainable = trainable)

    x = conv_block(x, 3, [256, 256, 1024], stage=4, block='a', trainable = trainable)
    x = identity_block(x, 3, [256, 256, 1024], stage=4, block='b', trainable = trainable)
    x = identity_block(x, 3, [256, 256, 1024], stage=4, block='c', trainable = trainable)
    x = identity_block(x, 3, [256, 256, 1024], stage=4, block='d', trainable = trainable)
    x = identity_block(x, 3, [256, 256, 1024], stage=4, block='e', trainable = trainable)
    x = identity_block(x, 3, [256, 256, 1024], stage=4, block='f', trainable = trainable)

    return x

接着定义了RPN()和Classifier()函数，用base网络的输出作为输入，分别提取RPN和Classifier的分类和回归特征。为了简化网络，我们去除了Classifier中的Timedistributed层。

def rpn(base_layers,num_anchors):

    x = Convolution2D(512, (3, 3), padding='same', activation='relu', kernel_initializer='normal', name='rpn_conv1')(base_layers) # output of base_layers

    x_class = Convolution2D(num_anchors, (1, 1), activation='sigmoid', kernel_initializer='uniform', name='rpn_out_class')(x)
    x_regr = Convolution2D(num_anchors * 4, (1, 1), activation='linear', kernel_initializer='zero', name='rpn_out_regress')(x)

    return [x_class, x_regr, base_layers]

def classifier_layers(x, input_shape, trainable=False):

        if K.backend() == 'tensorflow':
        x = conv_block(x, 3, [512, 512, 2048], stage=5, block='a', input_shape=input_shape, strides=(2, 2), trainable=trainable)
    elif K.backend() == 'theano':
        x = conv_block(x, 3, [512, 512, 2048], stage=5, block='a', input_shape=input_shape, strides=(1, 1), trainable=trainable)

    x = identity_block(x, 3, [512, 512, 2048], stage=5, block='b', trainable=trainable)
    x = identity_block(x, 3, [512, 512, 2048], stage=5, block='c', trainable=trainable)
    x = AveragePooling2D((7, 7), name='avg_pool')(x)

    return x

def classifier(base_layers, input_rois, num_rois, nb_classes = 21, trainable=False):

    if K.backend() == 'tensorflow':
        pooling_regions = 14
        input_shape = (num_rois,14,14,1024)
    elif K.backend() == 'theano':
        pooling_regions = 7
        input_shape = (num_rois,1024,7,7)

    out_roi_pool = RoiPoolingConv(pooling_regions, num_rois)([base_layers, input_rois])
    out = classifier_layers(out_roi_pool, input_shape=input_shape, trainable=True)

    out = Flatten()(out)

    out_class = Dense(nb_classes, activation='softmax', kernel_initializer='zero', name='dense_class_{}'.format(nb_classes)(out)
    # note: no regression target for bg class
    out_regr = Dense(4 * (nb_classes-1), activation='linear', kernel_initializer='zero', name='dense_regress_{}'.format(nb_classes)(out)
    return [out_class, out_regr]

对于RPN来说，每一个输入的点都对应num_anchor个输出。其中x_class经过二分类输出当前的框中有目标物体的概率；x_regr输出框的坐标。RoiPoolingConv是一个自定义的层。参数包括池化核大小pool_size和每次处理的roi个数num_rois。输入是base网络输出的特征图张量，其中一个形式为(1,rows,cols,channels)，1个为(1,num_rois,4)。输出是经过RoiPooling的标准大小的特征，形式为(1,num_rois,channels,pool_size,pool_size)的张量。

RPN的思想和实现

RPN的思路是将上一步提取出的特征图映射到原图，从而将生成的框与原图中的ground truth进行IOU的计算，判断匹配的程度。满足一定条件时就对框进行初步的回归。对于Faster-RCNN来说，也就是将特征图的每一个点作为一个锚点，生成num_anchor个尺度不同的Anchor。由于尺度是设定好的，这样做就避免了多次放缩造成的浪费，提高了检测效率。这一部分的代码如下：


from __future__ import absolute_import

import numpy as np

import cv2

import random

import copy

# 这里C代表一个参数类(上面的Config)，C = Config()

def calc_rpn(C, img_data, width, height, resized_width, resized_height, img_length_calc_function):


    # 接下来读取了几个参数，downscale就是从图片到特征图的缩放倍数(默认为16.0) 这里,

    # img_length_calc_function（也就是实际的resnet中的get_img_output_length中整除的值一样。）

    # anchor_size和anchor_ratios是我们初步选区大小的参数，比如3个size和3个ratios，可以组合成9种不同形状大小的选区。

    downscale = float(C.rpn_stride)

    anchor_sizes = C.anchor_box_scales

    anchor_ratios = C.anchor_box_ratios

    num_anchors = len(anchor_sizes) * len(anchor_ratios)    

 

    # calculate the output map size based on the network architecture

    # 接下来,

    # 通过img_length_calc_function 对VGG16 返回的是一个height和width都整除16的结果这个方法计算出了特征图的尺寸。

    # output_width = output_height = 600 // 16 = 37

    (output_width, output_height) = img_length_calc_function(resized_width, resized_height)

 

 

    # 下一步是几个变量初始化可以先不看，后面用到的时候再看。

 

    # n_anchratios = 3

    n_anchratios = len(anchor_ratios)

 

    # initialise empty output objectives

    y_rpn_overlap = np.zeros((output_height, output_width, num_anchors))

    y_is_box_valid = np.zeros((output_height, output_width, num_anchors))

    y_rpn_regr = np.zeros((output_height, output_width, num_anchors * 4))

 

    num_bboxes = len(img_data['bboxes'])

 

    num_anchors_for_bbox = np.zeros(num_bboxes).astype(int)

    best_anchor_for_bbox = -1*np.ones((num_bboxes, 4)).astype(int)

    best_iou_for_bbox = np.zeros(num_bboxes).astype(np.float32)

    best_x_for_bbox = np.zeros((num_bboxes, 4)).astype(int)

    best_dx_for_bbox = np.zeros((num_bboxes, 4)).astype(np.float32)

 

 

    # 因为我们的计算都是基于resize以后的图像的，所以接下来把bbox中的x1,x2,y1,y2分别通过缩放匹配到resize以后的图像。

    # 这里记做gta，尺寸为(num_of_bbox,4)。

    # get the GT box coordinates, and resize to account for image resizing

    gta = np.zeros((num_bboxes, 4))

    for bbox_num, bbox in enumerate(img_data['bboxes']):

        # get the GT box coordinates, and resize to account for image resizing

        gta[bbox_num, 0] = bbox['x1'] * (resized_width / float(width))

        gta[bbox_num, 1] = bbox['x2'] * (resized_width / float(width))

        gta[bbox_num, 2] = bbox['y1'] * (resized_height / float(height))

        gta[bbox_num, 3] = bbox['y2'] * (resized_height / float(height))

 

    # rpn ground truth

    # 这一段计算了anchor的长宽，然后比较重要的就是把特征图的每一个点作为一个锚点，

    # 通过乘以downscale，映射到图片的实际尺寸，再结合anchor的尺寸，忽略掉超出图片范围的。

    # 一个个大小、比例不一的矩形选框就跃然纸上了。

    # 第一层for 3层

    # 第二层for 3层

    for anchor_size_idx in range(len(anchor_sizes)):

        for anchor_ratio_idx in range(n_anchratios):

            # 框的尺寸选定

            anchor_x = anchor_sizes[anchor_size_idx] * anchor_ratios[anchor_ratio_idx][0]

            anchor_y = anchor_sizes[anchor_size_idx] * anchor_ratios[anchor_ratio_idx][1]   

            # 对1024 --> 600 --> 37的形式，output_width = 37

            # 选定锚点坐标: x_anc y_anc

            for ix in range(output_width):                  

                # x-coordinates of the current anchor box   

                x1_anc = downscale * (ix + 0.5) - anchor_x / 2

                x2_anc = downscale * (ix + 0.5) + anchor_x / 2  

 

                # ignore boxes that go across image boundaries                  

                if x1_anc < 0 or x2_anc > resized_width:

                    continue

 

                for jy in range(output_height):

 

                    # y-coordinates of the current anchor box

                    y1_anc = downscale * (jy + 0.5) - anchor_y / 2

                    y2_anc = downscale * (jy + 0.5) + anchor_y / 2

 

                    # ignore boxes that go across image boundaries

                    if y1_anc < 0 or y2_anc > resized_height:

                        continue

 

 

                    # 定义了两个变量，bbox_type和best_iou_for_loc，后面会用到。计算了anchor与gta的交集 iou()，

                    # 然后就是如果交集大于best_iou_for_bbox[bbox_num]或者大于我们设定的阈值，就会去计算gta和anchor的中心点坐标，

                    # bbox_type indicates whether an anchor should be a target 

                    bbox_type = 'neg'

 

                    # this is the best IOU for the (x,y) coord and the current anchor

                    # note that this is different from the best IOU for a GT bbox

                    best_iou_for_loc = 0.0

 

                    # 对选出的选择框，判断其和实际上图片的所有Bbox中，有无满足大于规定threshold的情况。

                    for bbox_num in range(num_bboxes):

 

                        # get IOU of the current GT box and the current anchor box

                        curr_iou = iou([gta[bbox_num, 0], gta[bbox_num, 2], gta[bbox_num, 1], gta[bbox_num, 3]], [x1_anc, y1_anc, x2_anc, y2_anc])

                        # calculate the regression targets if they will be needed

                        # 默认的最大rpn重叠部分(rpn_max_overlap)为0.7,最小(rpn_min_overlap)为0.3

                        if curr_iou > best_iou_for_bbox[bbox_num] or curr_iou > C.rpn_max_overlap:

                            cx = (gta[bbox_num, 0] + gta[bbox_num, 1]) / 2.0

                            cy = (gta[bbox_num, 2] + gta[bbox_num, 3]) / 2.0

                            cxa = (x1_anc + x2_anc)/2.0

                            cya = (y1_anc + y2_anc)/2.0

 

                            # 计算出x,y,w,h四个值的梯度值。

                            # 为什么要计算这个梯度呢？因为RPN计算出来的区域不一定是很准确的，从只有9个尺寸的anchor也可以推测出来，

                            # 因此我们在预测时还会进行一次回归计算，而不是直接使用这个区域的坐标。

                            tx = (cx - cxa) / (x2_anc - x1_anc)

                            ty = (cy - cya) / (y2_anc - y1_anc)

                            tw = np.log((gta[bbox_num, 1] - gta[bbox_num, 0]) / (x2_anc - x1_anc))

                            th = np.log((gta[bbox_num, 3] - gta[bbox_num, 2]) / (y2_anc - y1_anc))

 

                        # 前提是:当前的bbox不是背景 != 'bg'

                        if img_data['bboxes'][bbox_num]['class'] != 'bg':

 

                            # all GT boxes should be mapped to an anchor box, so we keep track of which anchor box was best

                            if curr_iou > best_iou_for_bbox[bbox_num]:

                                # jy 高度 ix 宽度

                                best_anchor_for_bbox[bbox_num] = [jy, ix, anchor_ratio_idx, anchor_size_idx]

                                best_iou_for_bbox[bbox_num] = curr_iou

                                best_x_for_bbox[bbox_num,:] = [x1_anc, x2_anc, y1_anc, y2_anc]

                                best_dx_for_bbox[bbox_num,:] = [tx, ty, tw, th]

 

                            # we set the anchor to positive if the IOU is >0.7 (it does not matter if there was another better box, it just indicates overlap)

                            if curr_iou > C.rpn_max_overlap:

                                bbox_type = 'pos'

                                # 因为num_anchors_for_bbox 形式为 [0, 0, 0, 0]

                                # 这步操作的结果为 [1, 1, 1, 1]

                                num_anchors_for_bbox[bbox_num] += 1

                                # we update the regression layer target if this IOU is the best for the current (x,y) and anchor position

                                if curr_iou > best_iou_for_loc:

                                    # 不断修正最佳iou对应的区域和梯度

                                    best_iou_for_loc = curr_iou

                                    best_grad = (tx, ty, tw, th)

 

                            # if the IOU is >0.3 and <0.7, it is ambiguous and no included in the objective

                            if C.rpn_min_overlap < curr_iou < C.rpn_max_overlap:

                                # gray zone between neg and pos

                                if bbox_type != 'pos':

                                    bbox_type = 'neutral'

 

                    # turn on or off outputs depending on IOUs

                    # 接下来根据bbox_type对本anchor进行打标，y_is_box_valid和y_rpn_overlap分别定义了这个anchor是否可用和是否包含对象。

                    if bbox_type == 'neg':

                        y_is_box_valid[jy, ix, anchor_ratio_idx + n_anchratios * anchor_size_idx] = 1

                        y_rpn_overlap[jy, ix, anchor_ratio_idx + n_anchratios * anchor_size_idx] = 0

                    elif bbox_type == 'neutral':

                        y_is_box_valid[jy, ix, anchor_ratio_idx + n_anchratios * anchor_size_idx] = 0

                        y_rpn_overlap[jy, ix, anchor_ratio_idx + n_anchratios * anchor_size_idx] = 0

                    elif bbox_type == 'pos':

                        y_is_box_valid[jy, ix, anchor_ratio_idx + n_anchratios * anchor_size_idx] = 1

                        y_rpn_overlap[jy, ix, anchor_ratio_idx + n_anchratios * anchor_size_idx] = 1

                        # 默认是36个选择

                        start = 4 * (anchor_ratio_idx + n_anchratios * anchor_size_idx)

                        y_rpn_regr[jy, ix, start:start+4] = best_grad

 

 

    # we ensure that every bbox has at least one positive RPN region

    # 这里又出现了一个潜在问题: 可能会有bbox可能找不到心仪的anchor，那这些训练数据就没法利用了，

    # 因此我们用一个折中的办法来保证每个bbox至少有一个anchor与之对应。

    # 下面是具体的方法，比较简单，对于没有对应anchor的bbox，在中性anchor里挑最好的，当然前提是你不能跟我完全不相交，那就太过分了。。

    for idx in range(num_anchors_for_bbox.shape[0]):

        if num_anchors_for_bbox[idx] == 0:

            # no box with an IOU greater than zero ... 遇到这种情况只能pass了

            if best_anchor_for_bbox[idx, 0] == -1:

                continue

            y_is_box_valid[

                best_anchor_for_bbox[idx,0], best_anchor_for_bbox[idx,1], best_anchor_for_bbox[idx,2] + n_anchratios *

                best_anchor_for_bbox[idx,3]] = 1

            y_rpn_overlap[

                best_anchor_for_bbox[idx,0], best_anchor_for_bbox[idx,1], best_anchor_for_bbox[idx,2] + n_anchratios *

                best_anchor_for_bbox[idx,3]] = 1

            start = 4 * (best_anchor_for_bbox[idx,2] + n_anchratios * best_anchor_for_bbox[idx,3])

            y_rpn_regr[

                best_anchor_for_bbox[idx,0], best_anchor_for_bbox[idx,1], start:start+4] = best_dx_for_bbox[idx, :]

 

    # y_rpn_overlap 原来的形式np.zeros((output_height, output_width, num_anchors))

    # 现在变为 (num_anchors, output_height, output_width)

    y_rpn_overlap = np.transpose(y_rpn_overlap, (2, 0, 1))

    # (新的一列,num_anchors, output_height, output_width)

    y_rpn_overlap = np.expand_dims(y_rpn_overlap, axis=0)

 

    y_is_box_valid = np.transpose(y_is_box_valid, (2, 0, 1))

    y_is_box_valid = np.expand_dims(y_is_box_valid, axis=0)

 

    y_rpn_regr = np.transpose(y_rpn_regr, (2, 0, 1))

    y_rpn_regr = np.expand_dims(y_rpn_regr, axis=0)

 

    # pos表示box neg表示背景

    pos_locs = np.where(np.logical_and(y_rpn_overlap[0, :, :, :] == 1, y_is_box_valid[0, :, :, :] == 1))

    neg_locs = np.where(np.logical_and(y_rpn_overlap[0, :, :, :] == 0, y_is_box_valid[0, :, :, :] == 1))

 

    num_pos = len(pos_locs[0])

 

    # one issue is that the RPN has many more negative than positive regions, so we turn off some of the negative

    # regions. We also limit it to 256 regions.

    # 因为negtive的anchor肯定远多于postive的，

    # 因此在这里设定了regions数量的最大值为256，并对pos和neg的样本进行了均匀的取样。

    num_regions = 256

 

    # 对感兴趣的框超过128的时候...

    if len(pos_locs[0]) > num_regions/2:

        # val_locs为一个list

        val_locs = random.sample(range(len(pos_locs[0])), len(pos_locs[0]) - num_regions/2)

        y_is_box_valid[0, pos_locs[0][val_locs], pos_locs[1][val_locs], pos_locs[2][val_locs]] = 0

        num_pos = num_regions/2

    # 使得neg（背景）和pos（锚框）数量一致

    if len(neg_locs[0]) + num_pos > num_regions:

        val_locs = random.sample(range(len(neg_locs[0])), len(neg_locs[0]) - num_pos)

        y_is_box_valid[0, neg_locs[0][val_locs], neg_locs[1][val_locs], neg_locs[2][val_locs]] = 0


    y_rpn_cls = np.concatenate([y_is_box_valid, y_rpn_overlap], axis=1)

    y_rpn_regr = np.concatenate([np.repeat(y_rpn_overlap, 4, axis=1), y_rpn_regr], axis=1)

    # 最后，得到了两个返回值y_rpn_cls,y_rpn_regr。分别用于确定anchor是否包含物体，和回归梯度。

    # 值得注意的是， y_rpn_cls和y_rpn_regr数量是比实际的输入图片对应的Bbox数量多挺多的。

    return np.copy(y_rpn_cls), np.copy(y_rpn_regr)

生成RPN这一步骤的关键在于用多个for循环不断地选择和匹配anchor box与ground truth的bounding box。这样一个多对多的过程可以筛选掉过多的anchor box并保证每个bbox有至少一个anchor box与之匹配。

从RPN到ROI

这一步是由rpn_to_roi和calc_iou两个函数实现的。rpn_to_roi主要作用是非极大值抑制，对重叠的rpn框进行筛选，使它们的数量进一步减少，得到roi。而calc_iou的作用是，通过calc_iou()找出剩下的不多的roi对应ground truth里重合度最高的bbox，从而获得model_classifier的数据和标签。

import numpy as np
import pdb
import math
from . import data_generators
import copy


def calc_iou(R, img_data, C, class_mapping):

	bboxes = img_data['bboxes']
	(width, height) = (img_data['width'], img_data['height'])
	# 获取resize后的原图尺度
	(resized_width, resized_height) = data_generators.get_new_img_size(width, height, C.im_size)

	gta = np.zeros((len(bboxes), 4))
        # 计算resize后的bounding box坐标
	for bbox_num, bbox in enumerate(bboxes):

		gta[bbox_num, 0] = int(round(bbox['x1'] * (resized_width / float(width))/C.rpn_stride))
		gta[bbox_num, 1] = int(round(bbox['x2'] * (resized_width / float(width))/C.rpn_stride))
		gta[bbox_num, 2] = int(round(bbox['y1'] * (resized_height / float(height))/C.rpn_stride))
		gta[bbox_num, 3] = int(round(bbox['y2'] * (resized_height / float(height))/C.rpn_stride))

	x_roi = []
	y_class_num = []
	y_class_regr_coords = []
	y_class_regr_label = []
	IoUs = [] 
        # R = [boxes, probs]
        # 计算每个roi的坐标
	for ix in range(R.shape[0]):
		(x1, y1, x2, y2) = R[ix, :]
		x1 = int(round(x1))
		y1 = int(round(y1))
		x2 = int(round(x2))
		y2 = int(round(y2))

		best_iou = 0.0
		best_bbox = -1
                # 计算每个roi最匹配的bbox
		for bbox_num in range(len(bboxes)):
			curr_iou = data_generators.iou([gta[bbox_num, 0], gta[bbox_num, 2], gta[bbox_num, 1], gta[bbox_num, 3]], [x1, y1, x2, y2])
			if curr_iou > best_iou:
				best_iou = curr_iou
				best_bbox = bbox_num
                # 如果所有bbox与该roi的IOU小于最小值，则该roi被舍去。
		if best_iou < C.classifier_min_overlap:
				continue
		else: # 否则采用
			w = x2 - x1
			h = y2 - y1
			x_roi.append([x1, y1, w, h])
			IoUs.append(best_iou)
                        # 如果所有的bbox与该rois的IOU都介于最小值和最大值之间，则为背景类。
			if C.classifier_min_overlap <= best_iou < C.classifier_max_overlap:
				cls_name = 'bg'
                        # 如果有一个bbox与该rois匹配度高，则为正类。
			elif C.classifier_max_overlap <= best_iou: 
				cls_name = bboxes[best_bbox]['class']
                                # 该bbox的中心点坐标
				cxg = (gta[best_bbox, 0] + gta[best_bbox, 1]) / 2.0
				cyg = (gta[best_bbox, 2] + gta[best_bbox, 3]) / 2.0
                                # rois的中心点坐标
				cx = x1 + w / 2.0
				cy = y1 + h / 2.0
                                # 反向传播
				tx = (cxg - cx) / float(w)
				ty = (cyg - cy) / float(h)
				tw = np.log((gta[best_bbox, 1] - gta[best_bbox, 0]) / float(w))
				th = np.log((gta[best_bbox, 3] - gta[best_bbox, 2]) / float(h))
			else:
				print('roi = {}'.format(best_iou))
				raise RuntimeError
                
		class_num = class_mapping[cls_name] # 取类型编号
		class_label = len(class_mapping) * [0]
		class_label[class_num] = 1          # 0-1标签
		y_class_num.append(copy.deepcopy(class_label))
		coords = [0] * 4 * (len(class_mapping) - 1)
		labels = [0] * 4 * (len(class_mapping) - 1)
                # 坐标和类别的标签
		if cls_name != 'bg':
			label_pos = 4 * class_num   
			sx, sy, sw, sh = C.classifier_regr_std
                        # 回归坐标
			coords[label_pos:4+label_pos] = [sx*tx, sy*ty, sw*tw, sh*th]
			labels[label_pos:4+label_pos] = [1, 1, 1, 1]
			y_class_regr_coords.append(copy.deepcopy(coords))
			y_class_regr_label.append(copy.deepcopy(labels)) 		else:
			y_class_regr_coords.append(copy.deepcopy(coords))
			y_class_regr_label.append(copy.deepcopy(labels)) # 背景类标签全0

	if len(x_roi) == 0:
		return None, None, None, None

	X = np.array(x_roi) # bbox
	Y1 = np.array(y_class_num) # one-hot类别标签
	Y2 = np.concatenate([np.array(y_class_regr_label),np.array(y_class_regr_coords)],axis=1) # 类别和回归坐标的标签
        # np.expand_dims:增加一个通道
	return np.expand_dims(X, axis=0), np.expand_dims(Y1, axis=0), np.expand_dims(Y2, axis=0), IoUs

X保留所有的背景和正类bbox的roi框； Y1 是类别one-hot转码； Y2是对应类别的标签及回归要学习的坐标位置; IouS只用于debug。

训练过程

Faster-RCNN总共有4个损失函数，分别是RPN到ROI阶段的两个,即函数calc_rpn的两个输出：y_rpn_cls（RPN是否包含物体）和y_rpn_regr（RPN的回归坐标）；ROI到bbox阶段的两个，即函数calc_iou的输出：y_class_regr_label(最终输出的物体类型）和y_class_regr_coords(最终输出的bbox)。四个损失函数分成了两个RPN和Classifier两个模型来训练。

抛开上面这些bounding box的选择和回归操作，训练过程和之前介绍过的分类网络是类似的。优化器和训练过程的超参数如下：

optimizer = Adam(lr=1e-5)
optimizer_classifier = Adam(lr=1e-5)
model_rpn.compile(optimizer=optimizer, loss=[losses.rpn_loss_cls(num_anchors), losses.rpn_loss_regr(num_anchors)])
model_classifier.compile(optimizer=optimizer_classifier, loss=[losses.class_loss_cls, losses.class_loss_regr(len(classes_count)-1)], metrics={'dense_class_{}'.format(len(classes_count)): 'accuracy'})
model_all.compile(optimizer='sgd', loss='mae')

epoch_length = 300
num_epochs = int(options.num_epochs)
iter_num = 0

采用了train_on_batch函数来训练模型。每训练完一个batch就输出四个损失函数的大小。每个epoch结束输出在验证集上的准确率。假设batch_size=300,epoch_num=20，训练结果如图

train_frcnn.py文件会将训练得到的权重保存为hdf5文件，路径C.model_path见config.py文件。

测试

在test_frcnn.py文件中指定测试图片的位置，程序从默认路径载入训练好的权重，结果如图：

你可能感兴趣的:(Faster-RCNN的Keras实现)

C语言_数据结构总结8：链式队列 *.✧屠苏隐遥(ﾉ◕ヮ◕)ﾉ*.✧ C语言—数据结构数据结构 c语言开发语言 visualstudio visual studio 链表
纯C语言实现，不涉及C++链队列队列的链式表示称为链队列，它实际上是一个同时具有队头指针和队尾指针的单链表，头指针指向对头结点，尾指针指向队尾结点。头结点是链式队列中的特殊结点，通常不存储实际的队列元素数据，其主要作用是方便对队列的操作，例如在进行入队、出队操作时，可以统一操作逻辑，无需特殊处理队列为空的情况。它作为队列的头部标识，其next指针指向队列中的第一个真正存储数据的结点。尾结点（注意区
C语言_数据结构总结10：二叉树的递归/非递归遍历 *.✧屠苏隐遥(ﾉ◕ヮ◕)ﾉ*.✧ C语言—数据结构数据结构算法链表 visualstudio visual studio c语言 b树
纯C语言实现，不涉及C++遍历是二叉树各种操作的基础，例如对于一棵给定二叉树求结点的双亲/求结点的孩子/求二叉树的高度/求叶结点个数/判断两棵二叉树是否相等……所有这些操作都是在二叉树遍历的过程中进行的。因此必须掌握二叉树的各种遍历过程，并能灵活用以解决各种问题。常见的遍历次序有：先序，中序，后序->其中“序”是指根结点何时被访问。先序：根结点->左子树->右子树中序:左子树->根结点->右子树后
蓝桥杯2023年第十四届省赛真题-异或和之差好好学习^按时吃饭蓝桥杯
题目来自DOTCPP：思路：什么是异或和？①题目要求我们选择两个不相交的子段，我们可以枚举一个分界线i，子段1在i的左边，子段2在i的右边，分别找到子段1和子段2的最大值、最小值。②怎么确定这两个子段呢？根据：A^B=C-->A^C=B-->B^C=A。对于i左边的子段，我们是从前往后枚举的，因此可以先求出每个点的前缀异或和ls[i]，ls[i]表示的是从0-i的子段的前缀异或和，我们在找到和ls
使用 UV 管理 Python 项目 | python小知识 aiweker 跟我学python uv python 人工智能
使用UV管理Python项目|python小知识1.引言在Python开发中，项目管理工具是必不可少的。常见的工具如pip、pipenv、poetry等，它们各有优缺点。近年来，uv作为一个新兴的Python项目管理工具，逐渐受到开发者的关注。uv旨在提供更快的依赖解析和安装速度，同时保持与现有工具的兼容性。本文将详细介绍uv的功能和应用场景，并通过代码示例展示其使用方法。最后，我们将对比uv与其
Python 常用内建模块-HTMLParser 赔罪 Python 系统学习 python 开发语言
目录HTMLParser小结练习HTMLParser如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非
Python 常用内建模块-venv 赔罪 Python 系统学习 python 开发语言
目录venv小结venv在开发Python应用程序的时候，系统安装的Python3只有一个版本：3.x。所有第三方的包都会被pip安装到Python3的site-packages目录下。如果我们要同时开发多个应用程序，那这些应用程序都会共用一个Python，就是安装在系统的Python3。如果应用A需要jinja2.7，而应用B需要jinja2.6怎么办？这种情况下，每个应用可能需要各自拥有一套“
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
可视化埋点在React Native中的实践 Shopee技术团队前端 react native 前端 react.js
本文首发于微信公众号“Shopee技术团队”。1.背景笔者所在团队为Shopee的本地生活前端团队，用户可以在我们的平台购买优惠券，然后去线下门店使用。随着用户规模不断增加，研究用户行为数据可以更好地指导产品功能设计，提供更加优秀的用户体验。用户行为数据的研究首先涉及到如何采集，即我们常说的“埋点”。一直以来，我们项目中的埋点都采用代码埋点，每次新增埋点往往是一些重复性的工作，且需要重新发布代码才
去哪儿网 ReactNative 跨小程序多端方案介绍去哪儿网技术沙龙大前端前端 react native 小程序
1前言qrn-remax-unir是由去哪儿网前端技术团队实现的一套将RN适配到小程序端的跨端组件，通过该组件库可快速方便的将RN源代码直接运行到小程序端。方案参考了react-native-web的适配方案，使用remax框架来实现适配组件库并达到适配多小程序的目的。和react-native-web一样，它对RN源代码侵入度低，并且调试和替换组件相当方便。方案来自于社区，我们只是合理的应用用来
计算机基础：源码、反码、补码、位运算。盘点源码常见的位运算操作，祝您源码阅读更上一层楼。 pumpkin的玄学 my 二进制 java kotlin 计算机基础二进制
源码、反码、补码计算机中对数字的编码表示有三种方式：「原码」，「反码」，「补码」：「原码」：原码表示法在数值前面增加了一位符号位（即最高位为符号位）：正数该位为0，负数该位为1。比如十进制10如果用8个二进制位来表示就是00001010，-10就是10001010。「反码」：反码表示方法：正数的反码是其本身；负数的反码是在其原码的基础上，符号位不变，其余各个位取反。「补码」：补码表示方法：正数的补
python Qt Solkatt's
最近帮朋友做了一个将文本文件按条件导出到excel里面的小程序。使用了PyQT，发现Python真是一门强大的脚本语言，开发效率极高。首先需要引用fromPyQt4importQtGui,uic,QtCore很多控件像QPushButton是从QtGui的空间中得来的，下面def__init__(self,parent=None)中定义了界面的设计及与控件相互联系的方法。classAddressB
流浪地球 - 华为OD机试真题(E卷、Java) 什码情况华为od java 数据结构算法面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
Rust + 时序数据库 TDengine：打造高性能时序数据处理利器涛思数据（TDengine）时序数据库 rust tdengine
引言：为什么选择TDengine与Rust？TDengine是一款专为物联网、车联网、工业互联网等时序数据场景优化设计的开源时序数据库，支持高并发写入、高效查询及流式计算，通过“一个数据采集点一张表”与“超级表”的概念显著提升性能。Rust作为一门系统级编程语言，近年来在数据库、嵌入式系统、分布式服务等领域迅速崛起，以其内存安全、高性能著称，与TDengine的高效特性天然契合，适合构建高可靠、高
MATLAB数据的保存与读取晚风微凉～ java 前端 javascript
在工程应用中，我们经常需要将未处理完的数据保存起来以便后期使用，或者在一些复杂计算中，我们需要多次计算过程中，由于系统的工作空间会随着系统的关闭而被释放掉，导致下次使用时无法快速调用，所有需要对数据进行保存与读取。1.核心代码1）数据保存基于MATALB的储存数据的常用命令是"save",使用save会将数据以二进制的方式存储在后缀名）为"文件名字.mat";savedemo01使用该命令会将数据
MATLAB的function函数的使用晚风微凉～ matlab 开发语言
在工程应用中，我们经常会遇到算法的计算较为复杂，很多算法的过程重复次数过多的问题，针对这个问题我们可以考虑使用function函数简化代码编写的工作量。1、单个传参在使用function的函数时，我们首先需要定义function函数的结构；function[输出参数]=函数名（输入参数）%注释：function函数的使用一般是比较多的，因此需要注意注释的编写，避免后期工作的误导；主要代码：****
三维点云重建的原理及代码晚风微凉～ matlab 图像处理
点云重建是将来自各种传感器（如激光雷达、相机等）采集的离散点云数据转换为具有结构和几何形状的物体模型的过程。在这个过程中，算法的核心任务是从大量的离散点中提取出具有几何意义的特征，并将这些特征组合成相应的物体模型。在实际应用中，无法获得物体所有表面的三维坐标数据，因此点云重建算法必须处理部分点云数据，尽可能准确地还原物体的几何结构。点云重建的目标是通过对描述物体表面形状的点数据进行处理，根据它们的
编译链接过程 YancyKahn 编译链接编译链接 GCC
编译链接过程C/C++程序从文本到可执行文件之间是一个复杂的过程.对于源代码(.c/.cpp)文件我们是不能直接运行的,必须经过一系列的处理才能转化为机器语言,再通过链接相应的文件转化为可执行程序.这个过程称为编译链接过程.本文篇幅较长,想直接看分析过程点击这里下面是从源代码到可执行文件的整个编译链接的过程:整个编译链接过程无非就分为编译过程和链接过程1.编译过程C文件编译过程又可分为:编译和汇编
Android端ReactNative环境搭建——上 hzulwy reactnative react native android react.js
前言最近一年，因为公司业务需要，部门引入了rn这门跨段技术来开发业务需求。从去年部门大佬调研rn这个框架到现在已有超过一年的时间了。而我从当时毕业不到1年的小白成长到现在负责维护项目的Android端代码的主力。同时，自己对rn相关的技术有了不少理解。因此，想要分享一些知识点，希望可以帮助到大家。我会以一个专栏的方式述说在这一年当中使用rn开发需求遇到的困难。大家可以借鉴参考下，共同进步！！！使用
nvm管理多版本node,nvm 配置国内镜像，npm配置国内镜像奇纳尼 npm 前端 node.js
目录前言nvm是什么？安装nvm配置nvm国内镜像nvm常用命令npm配置国内镜像：淘宝镜像nrm源管理命令：可以不用实际项目中会遇到的问题前言公司多个项目需要配置不同版本的node,按照传统方式一直切换下载安装不同版本的node太麻烦了，发现nvm可以管理多版本nodenvm是什么？nvm（node.jsversionmanagement），是一个nodejs的版本管理工具。nvm和n都是nod
autojs之乐旅商城自动报名自动约恶猫 javascript 前端开发语言 autojs 安卓脚本
之前用的。现在能不能用不知道了啊。自己测试吧。//一键亮屏device.wakeUp();device.wakeUpIfNeeded();sleep(1000);//滑开swipe(device.width/2,device.height*0.8,device.width/2,device.height*0.1,2000);sleep(2000);//一键开微信launchApp("微信");sl
C语言指针入门(一) 悄悄敲敲敲 c语言开发语言
1.什么是指针？内存会划分为一个个内存单元（一个内存单元大小为1字节）每个内存单元都有一个编号即地址也被称为指针，我们可以理解为指针就是地址。通过指针可以找到其所指向的内存单元。就像我们第一次去一个朋友家时可以通过门牌号找到她的家一样，指针就是所存储数据的“门牌号”但不同的地方是在C语言中不同类型的数据在内存中所占用的字节数和存储方式是不一样的，所以我们在存取数据时不仅要知道位置信息还要知道该数据
C语言指针入门(二) 悄悄敲敲敲 c语言开发语言算法 c++
1.二级指针二级指针就是指针的指针，即存放指针变量地址的一个变量。#includeintmain(){inta=10;int*p=&a;int**pp=&p;printf("%d\n",a);printf("%d\n",*p);printf("%d\n",**pp);//打印结果全为10printf("%p\n",a);printf("%p\n",*p);printf("%p\n",**pp);/
基于 STC89C52 的 8x8 点阵显示数字 @小张要努力单片机嵌入式硬件 stm32 51单片机 proteus
一、引言在电子设计领域，信息的有效展示是众多项目的关键环节。8x8点阵作为一种经济且实用的显示模块，能够呈现数字、简单字母及图形等信息，在电子时钟、简易游戏机等产品中广泛应用。STC89C52单片机凭借其低成本、丰富的I/O资源与稳定的性能，成为驱动8x8点阵的理想选择。本文将深入探讨如何利用STC89C52单片机结合74LS245芯片，实现8x8点阵的数字显示功能，并借助Proteus软件进行仿
基于 STC89C52 的智能秒表 @小张要努力单片机 stm32 51单片机 proteus mcu c++c语言
引言秒表作为一种常见的计时工具，在体育赛事、实验测量等众多场景中有着广泛应用。随着电子技术的发展，基于单片机的智能秒表凭借其高精度、多功能等优势逐渐取代传统机械秒表。本文将详细介绍一款基于STC89C52单片机的智能秒表设计，该秒表通过两位数码管进行时间显示。STC89C52单片机特性回顾STC89C52是一款性能卓越的8位CMOS微控制器。它拥有8K字节的系统可编程Flash存储器，可方便地存储
uboot（bootrom的作用）花落已飘 uboot linux uboot
BootROM详细讲解1.什么是BootROM？BootROM（BootRead-OnlyMemory）是一种固化在芯片内部的只读存储器（ROM），用于存放设备启动时执行的第一阶段引导代码。由于它是只读的，意味着其内容在芯片出厂时已经写入，无法更改。作用：当设备上电或复位时，BootROM负责最早的引导过程，它会初始化硬件环境，并决定从哪个存储介质加载操作系统或用户程序。2.BootROM的作用B
回归任务中的评价指标MAE，MSE，RMSE，R-Squared 旺旺棒棒冰统计学习方法机器学习回归评价指标 r2 mse
转自博客。仅供自己学习使用，如有侵权，请联系删除分类任务的评价指标有准确率，P值，R值，F1值，而回归任务的评价指标就是MSE，RMSE，MAE、R-SquaredMSE均方误差MSE是真实值与预测值的差值的平方和然后求平均。通过平方的形式便于求导，所以常被用作线性回归的损失函数。MSE=1m∑i=1m(yi−y^i)2MSE=\frac{1}{m}\sum_{i=1}^{m}\left(y_{i
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
第十八章：模板的多态力量_《C++ Templates》notes 郭涤生 c/c++c++开发语言笔记
模板的多态力量一、动态多态vs静态多态二、奇异递归模板模式（CRTP）三、策略模式（编译期策略选择）关键要点总结第一部分：多选题(10题)第二部分：设计题(5题)答案与详解多选题答案：设计题参考答案1.编译期策略选择器2.类型安全访问者模式3.概念约束数学库4.编译期工厂模式5.静态多态容器测试说明一、动态多态vs静态多态核心概念：动态多态：基于虚函数和继承体系，函数调用在运行时决定（通过虚函数表
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
React Native 迁移的阵痛 Ethan. L ReactNative &JS react native react.js android ios
背景由于我们的移动应用程序已经存在多年，经历了许多开发者的更替，因此变得越来越臃肿和难以维护。此外，我们团队中的Android开发人员一直很短缺，这导致我们在两个平台上的开发进度和质量存在巨大差异。因此，我们决定采用ReactNative技术，将原生工程迁移到该平台上，以提高应用程序的可维护性和整体性能。我在《ReactNative技术选型分析》中，阐述了对现有原生工程集成ReactNative的
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多