Mr-MegRob

保姆级 Keras 实现 Faster R-CNN 十三 (训练)

保姆级 Keras 实现 Faster R-CNN 十三训练

一. 将 Faster R-CNN 包装成一个类
二. 修改模型结构
- 1. 修改 input_reader 函数
- 2. 增加 RoiLabelLayer 层
三. 损失函数
- 1. 自定义损失函数
- 2. 自定义精度评价函数
四. 模型编译
五. 模型训练
六. 预训练模型
- 1. 分步训练
- 2. 端到端训练
- 3. 修改学习率
七. 保存模型与参数
八. 代码下载

上一篇文章中我们实现了整个 Faster R-CNN 的前向计算过程, 现在到了可能是你最想看的训练部分了

FBL Warning! 接下来如果不点赞的话, 可能会看不懂

一. 将 Faster R-CNN 包装成一个类

之前的文章为了方便理解与讲解都是一个函数一个函数的 “散装” 的方式完成的, 为了后面操作方便和维护, 将这些散装的变量或函数放到类里面去. 定义一个 FasterRcnn 类如下

# 定义 FasterRcnn 类
class FasterRcnn:
    def __init__(self,
                 base_net = None,                # 特征提取网络
                 short_size = 300,               # 图像缩放最短边度长
                 anchor_size = (64, 128, 256),   # anchor 三种尺寸
                 anchor_ratio = (0.5, 1.0, 2.0), # anchor 三种比例
                 feature_stride = 16,            # 特征图相对于原始输入图像的缩小的倍数
                 train_num = 256,                # 每一张图中参加训练的 anchor box 的数量
                 iou_thres = (0.3, 0.7),         # 正负样本阈值 (负样本 0.3, 正样本 0.7)
                 nms_thres = 0.7,                # 做 NMS 是的阈值
                 categories = None,              # 类别列表
                 dense_cells = 2048,             # 分类与回归之前全连接层的神经元个数
                 data_path = "data_set",         # 存放图像和标签文件的路径, 里面有图像和标签文件
                 log_path = None,                # 日志目录
                 **kwargs):
        self.base_net = base_net
        self.short_size = short_size
        self.anchor_size = anchor_size
        self.anchor_ratio = anchor_ratio
        self.feature_stride = feature_stride
        self.train_num = train_num
        self.iou_thres = iou_thres
        self.nms_thres = nms_thres
        self.categories = categories
        self.dense_cells = dense_cells
        self.data_path = data_path
        self.log_path = log_path
        
        self.model = None     # Faster R-CNN 模型
        self.train_set = None # 由 get_data_set 函数划分的训练集
        self.valid_set = None # 由 get_data_set 函数划分的验证集
        self.test_set  = None # 由 get_data_set 函数划分的测试集
        
        # 9 个基础 anchor box
        self.base_anchors = self.create_base_anchors()
        
        self.POS_VAL =  1 # 正样本
        self.NEG_VAL =  0 # 负样本
        self.NEUTRAL = -1 # 其他不参与计算 loss 的样本
        
        self.REG_NO_TRAIN = 8.0 # 不参与训练的修正标签值
                                # 因为修正值一般不会大于 1
                                # 所以可以用小于 8 的值来判断是否参与训练
        
        # 因为 K 和 ANCHOR_DIMS 很多地方都要用到, 所以这里就当成一个常量来用
        self.K = len(self.base_anchors) # k 个基础 anchor box        
        self.ANCHOR_DIMS = 4            # 一个 anchor box 需要 4 个坐标
        self.NUM_CLS = len(self.categories) # 类别数量, 包括背景
        
        if not osp.exists(log_path):
            os.mkdir(log_path)
            
    #----------------------------------------------------------------------------
    # 取得图像和标注文件路径
    # split_rate: 这些文件中用于训练, 验证, 测试所占的比例
    #             如果为 None, 则不区分, 直接返回全部
    #             如果只写一个小数, 如 0.8, 则表示 80% 为训练集, 20% 为验证集, 没有测试集
    #             如果是一个 tuple 或 list, 只有一个元素的话, 同上面的一个小数的情况
    # shuffle_enable: 是否要打乱顺序
    def get_data_set(self, split_rate = (0.8, 0.1, 0.1), shuffle_enable = True):
        pass
    
    #----------------------------------------------------------------------------
    # 图像缩放函数
    # image: 原始图像
    # interpolation: 插值方式
    # 返回缩放后的图像和缩放比例
    def new_size_image(self, image, interpolation = cv.INTER_LINEAR):
        pass
    
    #----------------------------------------------------------------------------
    # 生成基础的 k 个 anchor box
    def create_base_anchors(self):
        pass

    #----------------------------------------------------------------------------
    # 显示基础 anchor box
    def show_base_anchors(self):
        pass
    
    #----------------------------------------------------------------------------
    # 按特征图大小生成训练的 anchor box
    # feature_size: 特征图尺寸
    def create_train_anchors(self, feature_size):
        pass

    #----------------------------------------------------------------------------
    # 测试 create_train_anchors 并画到图像上
    # data_set: 数据集
    # image_index: 显示图像的索引序号
    def show_train_anchors(self, data_set = None, image_index = 0):
        pass
    
    #----------------------------------------------------------------------------
    # 计算 IoU
    # anchor_box 坐标格式为 (x1, y1, x2, y2)
    def get_iou(self, a1, a2):
        pass
    
    #----------------------------------------------------------------------------
    # 从 xml 或 json 文件中读出 ground_truth
    # label_path: 图标与标签路径
    # file_type: 标注文件类型
    # scale: 缩放系数, 因为输入的图像都要把最短边变成指定值, 所以需要缩放
    # 返回 ground_truth 坐标与类别
    def get_ground_truth(self, label_path, file_type, scale = 1.0):
        pass
    
    #----------------------------------------------------------------------------
    # 测试 get_ground_truth
    # data_set: 数据集
    # image_index: 显示图像的索引序号
    def show_ground_truth(self, data_set = None, image_index = 0):
        pass
    
    #----------------------------------------------------------------------------
    #拆分 ground_truth
    # ground_truth: 从标签文件中读出的标签信息, 由 get_ground_truth 返回
    # 返回拆分后的类别列表和坐标列表
    def split_ground_truth(self, ground_truth):
        pass
        
    #----------------------------------------------------------------------------
    # 为每一个 anchor box 打类别标签
    # img_shape: 图像形状
    # anchors: create_train_anchors 生成的 anchor box
    # ground_truth: get_ground_truth 从标签文件中读出来的标签
    # neg_thres: 负样本阈值
    # pos_thres: 正样本阈值
    # train_num: 每一张图中参加训练的样本数量
    # 返回每一个 anchor box 的标签类型 1: 正, 0: 负: -1: 中立
    # 代码的实现逻辑见 https://blog.csdn.net/yx123919804/article/details/120651815
    def get_rpn_cls_label(self, img_shape, anchors, ground_truth,
                          neg_thres = 0.3, pos_thres = 0.7, train_num = 256):
        pass
    
    #----------------------------------------------------------------------------
    # 测试 get_rpn_cls_label
    # data_set: 数据集
    # image_index: 显示图像的索引序号
    # show_num: 最多显示的 anchor box 数量, 因为太多会把图画满了
    def show_rpn_cls_label(self, data_set = None, image_index = 0, show_num = 32):
        pass
    
    #----------------------------------------------------------------------------
    # 生成 rpn anchor box 修正量标签
    # 只有类别为目标的 anchor box 才参数修正
    # anchors: 由 create_train_anchors 函数生成的 anchor_box
    # cls_labels: get_rpn_cls_label 生成的类别标签列表
    # gt_boxes: get_rpn_cls_label 返回的对应的 ground_truth
    # 返回每一个 anchor box 修正量 Δx, Δy, Δw, Δh
    def get_rpn_reg_label(self, anchors, cls_labels, gt_boxes):
        pass
    
    #----------------------------------------------------------------------------
    # 测试 get_rpn_reg_label 函数
    # data_set: 数据集
    # image_index: 显示图像的索引序号
    def show_rpn_reg_label(self, data_set = None, image_index = 0):
        pass
    
    #----------------------------------------------------------------------------
    # 数据增强函数, 包括左右, 上下, 左右上翻转
    # data_pair: data_set_path 返回的数据元素
    # train_num: 一次参数训练的 anchor 的数量
    # 返回增强后的图像和标签
    def data_augment(self, data_pair, train_num = 256):
        pass
    
    #----------------------------------------------------------------------------
    # 测试 data_augment
    # data_set: 数据集
    # image_index: 显示图像的索引序号
    # show_num: 最多显示的 anchor box 数量, 因为太多会把图画满了
    def show_data_augment(self, data_set = None, image_index = 0, show_num = 32):
        pass
    
    #----------------------------------------------------------------------------
    # 网络输入数据 generator
    # data_set: 训练或测试数据列表
    # batch_size: 一次输入训练的图像数量
    # train_num: 参加训练的 anchor 的数量
    # augment_fun: 数据增强函数
    # train_mode: True: 训练模式, False: 测试模式
    # shuffle_enable: 打乱标记
    # 返回图像和标签
    def input_reader(self, data_set, batch_size = 1, train_num = 256,
                     augment_fun = None, train_mode = True, shuffle_enable = True):
        pass
    
    #----------------------------------------------------------------------------
    # 测试 input_reader
    # reader: 生成器
    # show_cols: 显示列数
    def show_next_batch(self, reader, show_cols = 4):
        pass
        
    #----------------------------------------------------------------------------
    # RPN 网络
    # feature: base_net 输出
    def rpn_net(self, feature):
        pass
    
    #----------------------------------------------------------------------------
    # Fast R-CNN 网络
    # pooled_rois: RoiPooling 输出
    # cells: 全连接网络的神经元的数量
    # num_classes: 类别数量
    def fast_rcnn(self, pooled_rois, cells, num_classes):
        pass
    
    #----------------------------------------------------------------------------
    # 创建训练模型
    def create_train_model(self, summary = True):
        pass
            
    #----------------------------------------------------------------------------
    # RPN 网络分类损失函数
    def rpn_cls_loss(self, y_true, y_pred):
        pass
    
    #----------------------------------------------------------------------------
    # RPN 网络分类精度评价函数
    def rpn_cls_acc(self, y_true, y_pred):
        pass
    
    #----------------------------------------------------------------------------
    # RPN 网络回归损失失函数
    def rpn_reg_loss(self, y_true, y_pred):
        pass
    
    #----------------------------------------------------------------------------
    # RPN 网络回归精度评价函数
    def rpn_reg_acc(self, y_true, y_pred):
        pass
    
    #----------------------------------------------------------------------------
    # RCNN 网络分类损失函数
    def rcnn_cls_loss(self, y_true, y_pred):
        pass
    
    #----------------------------------------------------------------------------
    # RCNN 网络分类精度评价函数
    def rcnn_cls_acc(self, y_true, y_pred):
        pass
    
    #----------------------------------------------------------------------------
    # RCNN 网络回归损失失函数
    def rcnn_reg_loss(self, y_true, y_pred):
        pass
    
    #----------------------------------------------------------------------------
    # RCNN 网络回归精度评价函数
    def rcnn_reg_acc(self, y_true, y_pred):
        pass
    
    #----------------------------------------------------------------------------
    # 编译模型
    def compile(self, optimizer = keras.optimizers.Adam(learning_rate = 1e-4)):
        pass
    
    #----------------------------------------------------------------------------
    # 训练模型
    # augment_fun: 数据增强函数
    # augmented_num: 一张图像增强后的数量, 默认只有翻转, 所以是 4
    # trained_weight: 加载序训练模型路径
    def train(self, epochs = 128, batch_size = 4,
              augment_fun = None, augmented_num = 4, trained_weights = None):        
        pass
    
    #----------------------------------------------------------------------------
    # 保存模型与参数
    # file_name: 保存的文件名称
    # save_model: 是否要保存模型
    # save_weight: 是否要保存参数
    def save(self, file_name, save_model = True, save_weight = True):
        pass

类中的成员函数并没有具体的定义, 但并不影响本文的理解与阅读. 只需要把以前散装的函数修改一下参数放到类里, 再将相关的全局变量换成类成员变量就可以了, 完整的代码我会传上来供大家下载

要仔细看的是类的初始化函数中的一些变量定义, 这些变量可以修改成你喜欢的值就好, 比如把最短边改一下. anchor 的形状数量之类的改一下

我们要达到的效果是, 如果想训练的话, 定义一个 FasterRcnn 类的实例, 再调用 train 函数就可以, 像下面这样

# 定义类实例
faster_rcnn = FasterRcnn(base_net = base_net, categories = CATEGORIES)
# 训练模型
faster_rcnn.train(epochs = 64, batch_size = 4, "再加其他一些不是必须的参数..")

就是这样简单的代码, 听懂的掌声!

二. 修改模型结构

上一篇文章中定义的模型结构如下

# 组合成 Faster R-CNN 模型
x = keras.layers.Input(shape = (None, None, 3), name = "input")

feature = vgg16_conv(x)
rpn_cls, rpn_reg = rpn(feature)

proposal = ProposalLayer(base_anchors, num_rois = TRAIN_NUM, iou_thres = 0.7,
                         name = "proposal")([x, rpn_cls, rpn_reg])

pooled_rois = RoiPoolingLayer(name = "roi_pooling")([x, feature, proposal])
y_cls, y_reg = fast_rcnn(pooled_rois, cells = 2048, num_classes = len(CATEGORIES))

faster_rcnn = keras.Model(x, [y_cls, y_reg], name = "faster_rcnn")
faster_rcnn.summary()

输出只有 y_cls 与 y_reg, 也就是最后的分类和回归, 这是用于预测的结构, 因为预测只需要这两个. 如果要训练模型的话, 就要将 RPN 网络的输出也放出来, 才能计算 RPN 训练时的损失. 现在我们用类成员函数的方式修改一下模型结构. 函数名是 create_train_model. 后面预测时就不会用这个模型了, 相应的函数名则是 create_predict_model

# 创建训练模型
def create_train_model(self, summary = True):
    x = keras.layers.Input(shape = (None, None, 3), name = "input")
    
    features = self.base_net(x) # base_net 在定义类实例的时候需要传的一个参数, 也就是特征提取网络
    rpn_cls, rpn_reg = self.rpn(features)
    
    proposals = ProposalLayer(self.base_anchors,
                              stride = self.feature_stride,
                              num_rois = self.train_num,
                              iou_thres = self.nms_thres,
                              name = "proposal")([x, rpn_cls, rpn_reg])
    
    pooled_rois = RoiPoolingLayer(name = "roi_pooling")([x, features, proposals])
    # 分类与回归
    rcnn_cls, rcnn_reg = self.fast_rcnn(pooled_rois, cells = self.dense_cells, num_classes = self.NUM_CLS)
    
    self.model = keras.Model(x, [rpn_cls, rpn_reg, rcnn_cls, rcnn_reg], name = "faster_rcnn")
    
    if summary:
        self.model.summary()

这样一改的话, 问题就出来了

input_reader 函数输出的标签只有 2 个, 现在需要 4 个, 因为 rcnn_cls, rcnn_reg 没有对应的 y_true, 这个问题看起来好像很好办, 在 input_reader 返回数据时添加就好了. 但是请看下面个问题
rcnn_cls 和 rcnn_reg 是网络的输出值, 但是对应的 y_true 是需要动态计算的, 在哪里动态计算? 在 ProposalLayer 输出之后, 因为建议框的大小和类别我们不能提前在 input_reader 函数中知道, 所以怎么在训练的时候将动态的 y_true 传递给 loss 计算函数呢? 和前面文章中自定义的损失函数比较一下, 这里的问题是不是有点棘手

注: y_true 是 loss 计算函数的形参, 相对的则是 y_pred, 也就是网络的输出(预测值), 监督型学习需要 y_true 去矫正 y_pred. 这个在前面文章中自定义损失函数的时候已经见识过了

接下来讲怎么解决这两个问题

1. 修改 input_reader 函数

原本 input_reader 函数只为 RPN 网络服务, 输出是 (x, [rpn_cls, rpn_reg]), 现在貌似需要改成 (x, [rpn_cls, rpn_reg, rcnn_cls, rcnn_reg]), 让每个输出有对应的 y_true

那怎么改? rcnn_cls, rcnn_reg 两个里面又装的是什么?

我们来分析一下, 原本的 input_reader 输出就已经满足了 RPN 的需求. fast_rcnn 输出的是最终的分类类别和对建议框的修正值, 所以 rcnn_cls 对应的 y_true 就要包含从标签文件读出来的具体的类别, rcnn_reg 对应的 y_true 是从标签文件读出来的绝对坐标. 包含具体类别这个都好理解, 但是使用绝对坐标而不使用像 RPN 回归标签那样归一化的值是为什么, 不是说不能预测绝对坐标吗? 这个也是没有办法的办法, 因为不能提前知道 ProposalLayer 输出的是什么鬼, 所以我们需要在 ProposalLayer 之后操作一番, 才能让绝对坐标变成归一化的值. 具体怎么操作下面会慢慢讲, 先解决 input_reader 函数的输出问题

因为在 input_reader 函数中用到了数据增强函数 data_augment, 所以要先修改 data_augment 函数的输出, 让其返回值中增加类别标签和绝对坐标

不过在这之前, 我们定义一个成员函数以方便处理 get_ground_truth 的返回值, get_ground_truth 返回的格式是 [bnd_box, cls_id], 新定义的这个成员函数将 [bnd_box, cls_id] 拆分成 [cls_id] 和 [bnd_box] 两个列表

# 拆分 ground_truth
# ground_truth: 从标签文件中读出的标签信息, 由 get_ground_truth 返回
# 返回拆分后的类别列表和坐标列表
def split_ground_truth(self, ground_truth):
    boxes = []
    cls_ids = []
    for b, c, in ground_truth:
        boxes.append(b)
        cls_ids.append(c)
    return cls_ids, boxes

有了 split_ground_truth 函数这后, 修改 data_augment 如下

# 数据增强函数, 包括左右, 上下, 左右上翻转
# data_pair: data_set_path 返回的数据元素
# train_num: 一次参数训练的 anchor 的数量
# 返回增强后的图像和标签
def data_augment(self, data_pair, train_num = 256):
    augmented = [] # 返回增强后的数据

    img_src = cv.imread(data_pair[0])
    img_new, scale = self.new_size_image(img_src)
    feature_size = (img_new.shape[0] // self.feature_stride,
    img_new.shape[1] // self.feature_stride)
    anchors = self.create_train_anchors(feature_size)

    # 原始图像与标签------------------------------------------------------
    ground_truth = self.get_ground_truth(data_pair[1], data_pair[2], scale)

    rpn_cls_label, gt_boxes = self.get_rpn_cls_label(img_new.shape,
                                                     anchors,
                                                     ground_truth,
                                                     self.iou_thres[0],
                                                     self.iou_thres[1],
                                                     train_num = train_num)

    rpn_reg_label = self.get_rpn_reg_label(anchors, rpn_cls_label, gt_boxes)
    
    # 增加部分
    rcnn_cls_idx, rcnn_boxes = self.split_ground_truth(ground_truth)

    augmented.append([img_new,
                      rpn_cls_label, rpn_reg_label,
                      rcnn_cls_idx, rcnn_boxes])
    
    # 原始图像与标签------------------------------------------------------

    # 左右翻转与标签------------------------------------------------------
    # 复制一份,后面的操作在备份上操作
    gt_copy = copy.deepcopy(ground_truth)
    x_flip = cv.flip(img_new, 1) # 左右翻转图像
    for gt in gt_copy: # 左右翻转标签
        gt[0][0] = x_flip.shape[1] - 1 - gt[0][0]
        gt[0][2] = x_flip.shape[1] - 1 - gt[0][2]
        gt[0][0], gt[0][2] = gt[0][2], gt[0][0]

    rpn_cls_label, gt_boxes = self.get_rpn_cls_label(x_flip.shape,
                                                     anchors,
                                                     gt_copy,
                                                     self.iou_thres[0],
                                                     self.iou_thres[1],
                                                     train_num = train_num)

    rpn_reg_label = self.get_rpn_reg_label(anchors, rpn_cls_label, gt_boxes)

    # 增加部分
    rcnn_cls_idx, rcnn_boxes = self.split_ground_truth(gt_copy)

    augmented.append([x_flip,
                      rpn_cls_label, rpn_reg_label,
                      rcnn_cls_idx, rcnn_boxes])
    
    # 左右翻转与标签------------------------------------------------------

    # 上下翻转与标签------------------------------------------------------
    # 复制一份,后面的操作在备份上操作
    gt_copy = copy.deepcopy(ground_truth)
    y_flip = cv.flip(img_new, 0) # 左右翻转图像
    for gt in gt_copy: # 上下翻转标签
        gt[0][1] = y_flip.shape[0] - 1 - gt[0][1]
        gt[0][3] = y_flip.shape[0] - 1 - gt[0][3]
        gt[0][1], gt[0][3] = gt[0][3], gt[0][1]

    rpn_cls_label, gt_boxes = self.get_rpn_cls_label(y_flip.shape,
                                                     anchors,
                                                     gt_copy,
                                                     self.iou_thres[0],
                                                     self.iou_thres[1],
                                                     train_num = train_num)

    rpn_reg_label = self.get_rpn_reg_label(anchors, rpn_cls_label, gt_boxes)

    # 增加部分
    rcnn_cls_idx, rcnn_boxes = self.split_ground_truth(gt_copy)

    augmented.append([y_flip,
                      rpn_cls_label, rpn_reg_label,
                      rcnn_cls_idx, rcnn_boxes])
    
    # 上下翻转与标签------------------------------------------------------

    # 左右上下翻转与标签--------------------------------------------------
    # 复制一份,后面的操作在备份上操作
    gt_copy = copy.deepcopy(ground_truth)
    xy_flip = cv.flip(img_new, -1) # 左右翻转图像
    for gt in gt_copy: # 左右上下翻转标签
        gt[0][0] = xy_flip.shape[1] - 1 - gt[0][0]
        gt[0][1] = xy_flip.shape[0] - 1 - gt[0][1]
        gt[0][2] = xy_flip.shape[1] - 1 - gt[0][2]
        gt[0][3] = xy_flip.shape[0] - 1 - gt[0][3]

        gt[0][0], gt[0][2] = gt[0][2], gt[0][0]
        gt[0][1], gt[0][3] = gt[0][3], gt[0][1]

    rpn_cls_label, gt_boxes = self.get_rpn_cls_label(xy_flip.shape,
                                                     anchors,
                                                     gt_copy,
                                                     self.iou_thres[0],
                                                     self.iou_thres[1],
                                                     train_num = train_num)

    rpn_reg_label = self.get_rpn_reg_label(anchors, rpn_cls_label, gt_boxes)

    # 增加部分
    rcnn_cls_idx, rcnn_boxes = self.split_ground_truth(gt_copy)

    augmented.append([xy_flip,
                      rpn_cls_label, rpn_reg_label,
                      rcnn_cls_idx, rcnn_boxes])
    
    # 左右上下翻转与标签--------------------------------------------------

    return augmented

对比旧的 data_augment 函数, 可以看到修改的地方很少, 除了输出多了 rcnn_cls_idx, rcnn_boxes. 还有增加了下面一句

# 增加部分
rcnn_cls_idx, rcnn_boxes = self.split_ground_truth(ground_truth)

接下来就可以修改 input_reader 函数了

# 网络输入数据 generator
# data_set: 训练或测试数据列表
# batch_size: 一次输入训练的图像数量
# train_num: 参加训练的 anchor 的数量
# augment_fun: 数据增强函数
# train_mode: True: 训练模式, False: 测试模式
# shuffle_enable: 打乱标记
# 返回图像和标签
def input_reader(self, data_set, batch_size = 1, train_num = 256,
                 augment_fun = None, train_mode = True, shuffle_enable = True):
    assert(isinstance(data_set, (tuple, list)))

    stop_now = False
    data_nums = len(data_set)
    index_list = [x for x in range(data_nums)] # 用这个列表序号来打乱 data_set 排序

    x = []        # 图像
    rpn_cls = []  # RPN 分类标签
    rpn_reg = []  # RPN 回归标签
    rcnn_cls = [] # RCNN 分类标签
    rcnn_reg = [] # RCNN 回归标签

    max_rows = 0 # 记录一个 batch 中图像的最大行数
    max_cols = 0 # 记录一个 batch 中图像的最大列数

    while False == stop_now:
        if train_mode and shuffle_enable:
            shuffle(index_list)

        for i in index_list:
            # 如果 3 == data_set[i], 表示带标签输入, 否则只有图像
            is_with_label = 3 == len(data_set[i])
            data_list = [] # 图像与标签 list

            if is_with_label:
                if augment_fun and train_mode:
                    data_list.extend(augment_fun(data_set[i], train_num))
                else:
                    # 这里的代码和 augment_fun 中的开始部分一样, 就不解释了
                    img_src = cv.imread(data_set[i][0])
                    img_new, scale = self.new_size_image(img_src)
                    feature_size = (img_new.shape[0] // self.feature_stride,
                                    img_new.shape[1] // self.feature_stride)
                    
                    anchors = self.create_train_anchors(feature_size)
                    ground_truth = self.get_ground_truth(data_set[i][1], data_set[i][2], scale)

                    rpn_cls_label, gt_boxes = self.get_rpn_cls_label(img_new.shape,
                                                                     anchors,
                                                                     ground_truth,
                                                                     self.iou_thres[0],
                                                                     self.iou_thres[1],
                                                                     train_num = train_num)    

                    rpn_reg_label = self.get_rpn_reg_label(anchors, rpn_cls_label, gt_boxes)
                    
                    rcnn_cls_idx, rcnn_boxes = self.split_ground_truth(ground_truth)

                    data_list.append([img_new, rpn_cls_label, rpn_reg_label,
                                      rcnn_cls_idx, rcnn_boxes])
            else:
                train_mode = False
                img_src = cv.imread(data_set[i])
                img_new, scale = self.new_size_image(img_src)
                data_list.append([img_new, [], [], [], []]) # 为了保持和时候相同的形状

            for data in data_list:
                x.append(data[0])
                
                rpn_cls.append(data[1])
                rpn_reg.append(data[2])
                
                rcnn_cls.append(data[3]) # 此处为增加的 rcnn_cls 标签
                rcnn_reg.append(data[4]) # 此处为增加的 rcnn_reg 标签
                
                max_rows = max(max_rows, x[-1].shape[0])
                max_cols = max(max_cols, x[-1].shape[1])

                if len(x) >= batch_size:
                    # 一个 batch 中图像的尺寸不一样是不能一起训练的, 所以要将其统一到相同的尺寸
                    # 行数小于最大行数在图像下方填充 0, 列数小于最大列数在图像右方填充 0
                    # 图像填充的同时标签也要填充
                    new_shape = (max_rows // self.feature_stride,
                                 max_cols // self.feature_stride)

                    for j, img in enumerate(x):
                        # 原图对应的特征图尺寸
                        old_shape = (img.shape[0] // self.feature_stride,
                                     img.shape[1] // self.feature_stride)
                        
                        # 这里 = 号前要用 x[j] 不能用 img, 因为要改变 x[j], img 只是一个副本
                        x[j] = cv.copyMakeBorder(img,
                                                 0, max_rows - img.shape[0], 0, max_cols - img.shape[1],
                                                 cv.BORDER_CONSTANT, (0, 0, 0))
                        
                        if is_with_label:
                            # 行方向填充数据
                            if new_shape[0] - old_shape[0] > 0:
                                pad_num = (new_shape[0] - old_shape[0]) * old_shape[1] * self.K
                                y_pad = [self.NEUTRAL] * pad_num
                                rpn_cls[j].extend(y_pad)
                                
                                y_pad = [self.REG_NO_TRAIN] * pad_num * self.ANCHOR_DIMS
                                rpn_reg[j].extend(y_pad)

                            # 列方向填充
                            # 行方向时直接加在末尾, 而列方向是不连续的, 所以一行一行加在末尾
                            if new_shape[1] - old_shape[1] > 0:
                                pad_pos = old_shape[1] * self.K 

                                pad_num = (new_shape[1] - old_shape[1]) * self.K
                                y_pad = [self.NEUTRAL] * pad_num
                                for r in range(new_shape[0]):
                                    # 这里不能用 insert 函数, insert 会把 y_pad 整体当成一个元素
                                    rpn_cls[j][pad_pos: pad_pos] = y_pad
                                    pad_pos += (pad_num + old_shape[1] * self.K)

                                pad_pos = old_shape[1] * self.K * self.ANCHOR_DIMS
                                pad_num = (new_shape[1] - old_shape[1]) * self.K * self.ANCHOR_DIMS
                                y_pad = [self.REG_NO_TRAIN] * pad_num
                                for r in range(new_shape[0]):
                                    # 这里不能用 insert 函数, insert 会把 y_pad 整体当成一个元素
                                    rpn_reg[j][pad_pos: pad_pos] = y_pad
                                    pad_pos += (pad_num + old_shape[1] * self.K * self.ANCHOR_DIMS)
                            
                            # 一个 batch 中的数据的维度要相同, 不足的要填充
                            # max_targets 为 一个 batch 中一张图中最多的目标个数
                            max_targets = 0
                        
                            for each in rcnn_cls:
                                targets = len(each)
                                if targets > max_targets:
                                    max_targets = targets
                            
                            for k in range(batch_size):
                                targets = len(rcnn_cls[k])
                                rcnn_cls[k].extend([0] * (max_targets - targets)) # 填充 0
                                
                            for k in range(batch_size):
                                targets = len(rcnn_reg[k])
                                rcnn_reg[k].extend([[0, 0, 0, 0]] * (max_targets - targets)) # 填充 0
                                
                    # 图像数据
                    x = np.array(x).astype(np.float32) / 255.0
                    
                    # RPN 分类标签
                    rpn_cls = np.array(rpn_cls).astype(np.float32)
                    if is_with_label:
                        rpn_cls = rpn_cls.reshape((-1, new_shape[0], new_shape[1], self.K))

                    # RPN 回归标签
                    rpn_reg = np.array(rpn_reg)
                    if is_with_label:
                        rpn_reg = rpn_reg.reshape((-1, new_shape[0], new_shape[1], self.K * self.ANCHOR_DIMS))

                    # RCNN 分类标签
                    rcnn_cls = np.array(rcnn_cls)
                    if is_with_label:
                        rcnn_cls = rcnn_cls.reshape((batch_size, -1, 1))

                    # RCNN 回归标签
                    rcnn_reg = np.array(rcnn_reg)
                    if is_with_label:
                        rcnn_reg = rcnn_reg.reshape((batch_size, -1, self.ANCHOR_DIMS))
                        
                    yield x, [rpn_cls, rpn_reg, rcnn_cls, rcnn_reg]

                    x = []
                    rpn_cls = []
                    rpn_reg = []
                    rcnn_cls = []
                    rcnn_reg = []

                    max_rows = 0
                    max_cols = 0

        if False == train_mode:
            stop_now = True

相对于旧的 input_reader 函数, 修改的地方也很少, 只要和旧的对比着看, 很容易就能发现修改的地方. 主要是 yield 返回增加了 rcnn_cls, rcnn_reg, 要特别注意的地方是同一个 batch 中数据的维度要一样, 所以当一个 batch 中有的图像目标数量多, 有的目标数量少的时候, 少的要填充到和多的一样多, 填充 0 就好. 相当于填充的是背景, 并不影响后面的类别判断. 填充代码摘出来放下面方便看

# 一个 batch 中的数据的维度要相同, 不足的要填充
# max_targets 为 一个 batch 中一张图中最多的目标个数
max_targets = 0

for each in rcnn_cls:
    targets = len(each)
    if targets > max_targets:
        max_targets = targets

for k in range(batch_size):
    targets = len(rcnn_cls[k])
    rcnn_cls[k].extend([0] * (max_targets - targets)) # 填充 0
    
for k in range(batch_size):
    targets = len(rcnn_reg[k])
    rcnn_reg[k].extend([[0, 0, 0, 0]] * (max_targets - targets)) # 填充 0

修改之后, input_reader 返回数据变成了 (x, [rpn_cls, rpn_reg, rcnn_cls, rcnn_reg]), 这样也就符合了网络的结构

那现在可以训练了吗? 答案是不可以. 损失函数暂且我们还没有定义, 单是 input_reader 返回的 rcnn_cls, rcnn_reg 维度就对应不了网络输出维度, 因为 ProposalLayer 输出的建议框的个数可能远大于标签文件中的目标个数, 这样的话, 有很多建议框就找不到对应的标签了. 这个我们后面会处理, 先暂时不用理会

注意: 因为 input_reader 中返回值的命名和网络输出层一样, 请注意根据上下文区分

2. 增加 RoiLabelLayer 层

这是一个非常重要的层. 前面我们有提到, 网络输出 rcnn_cls 和 rcnn_reg 对应的 y_true 是在 ProposalLayer 之后动态计算的, 如何动态计算? 这就需要我们再弄一个自定义层, 这个层吃的是 ProposalLayer 输出的建议框矩形和 input_reader 给出的 rcnn_cls, rcnn_reg. 两个一比较就可以计算 y_true 了. 吐的是网络输出 rcnn_cls 和 rcnn_reg 对应的 y_true, 也就是各 ROI 对应的类别标签和回归标签. 此时回归标签就是归一化的值. 所以这个层的功能就是打标签

# 定义 RoiLabel Layer
# iou_thres: 正负样本阈值
# negative_flag: 负样本标记, 不参与 loss 计算, 正样本是自动计算的
class RoiLabelLayer(Layer):
    def __init__(self, iou_thres = 0.5, negative_flag = 8.0, **kwargs):
        self.iou_thres = iou_thres
        self.negative_flag = negative_flag
        super(RoiLabelLayer, self).__init__(**kwargs)

    def build(self, input_shape):
        super(RoiLabelLayer, self).build(input_shape)

    def call(self, inputs):
        proposals, class_true, regression_true = inputs
        # 计算每个候选框与真实目标框之间的 IoU
        ious = self.calculate_iou(proposals, regression_true)
        class_true = self.get_class_label(ious, class_true)
        regression_true = self.get_regression_label(ious, proposals, regression_true)        
        return [class_true, regression_true]

    def compute_output_shape(self, input_shape):
        return [(input_shape[0][0], input_shape[0][1], 1), input_shape[0]]

    # IoU 计算函数
    # 需要计算每个建议框与每个目标框之间的 IoU
    # proposals: ProposalLayer 选出来的建议框
    # regression_true: 标签文件中的目标框, 也就是 input_reader 返回的目标框坐标
    def calculate_iou(self, proposals, regression_true):
        num_proposals = tf.shape(proposals)[1] # ProposalLayer 选出来的建议框的个数
        num_regression_true = tf.shape(regression_true)[1] # 标签文件中的目标数量
        
        # 因为不能用 for 循环这样的操作来一一计算 IoU 所以要按下面的方式扩展维度后计算
        # 将 proposals 和 regression_true 的维度扩展
        # proposals 扩展后 shape == (batch_size, num_proposals, 1, 4)
        proposals = tf.expand_dims(proposals, axis = 2)
        # 扩展后 shape == (batch_size, 1, num_regression_true, num_regression_true)
        regression_true = tf.expand_dims(regression_true, axis = 1)
        
        # proposal_box_box 的坐标顺序是 (y1, x1, y2, x2)
        # true_box_box 的坐标顺序是 (x1, y1, x2, y2)
        proposals_y1, proposals_x1, proposals_y2, proposals_x2 = tf.unstack(proposals, axis = -1)
        true_x1, true_y1, true_x2, true_y2 = tf.unstack(regression_true, axis = -1)

        intersection_x1 = tf.maximum(proposals_x1, true_x1)
        intersection_y1 = tf.maximum(proposals_y1, true_y1)
        intersection_x2 = tf.minimum(proposals_x2, true_x2)
        intersection_y2 = tf.minimum(proposals_y2, true_y2)

        w = tf.maximum(intersection_x2 - intersection_x1, 0)
        h = tf.maximum(intersection_y2 - intersection_y1, 0)
        intersection_area = w * h

        proposal_area = (proposals_x2 - proposals_x1) * (proposals_y2 - proposals_y1)
        true_area = (true_x2 - true_x1) * (true_y2 - true_y1)

        # 计算 IoU
        # 完成后 ious.shape == (batch_size, num_regression_true, num_regression_true)
        # (i, j) 元素为 第 i 个建议框与第 j 个目标框的 IoU
        ious = tf.where(tf.equal(proposal_area + true_area, 0),
                        tf.zeros_like(intersection_area),
                        intersection_area / (proposal_area + true_area - intersection_area + 1e-8))
        return ious
    
    # 计算每个建议框的类别标签
    # ious: calculate_iou 返回的 IoU
    # class_true: 每个目标框类别序号(整数)
    def get_class_label(self, ious, class_true):
        # 每个建议框与所有目标框的最大 IoU
        max_ious = tf.reduce_max(ious, axis = -1)
        # 最大 IoU 的索引
        max_indices = tf.argmax(ious, axis = -1)        
        # 利用 max_indices 将类别值(整数)从 class_true 中取出来, 相当于一个查表操作
        y_true = tf.gather(class_true, max_indices, axis = 1, batch_dims = 1)      
        y_shape = tf.shape(y_true)
        
        # 超过阈值的 IoU 转换成 1, 其他为 0
        mask = tf.cast(max_ious >= self.iou_thres, dtype = tf.float32)
        
        # 转换成符合 RoiLabelLayer 输出的形状
        mask = tf.reshape(mask, (y_shape[0], y_shape[1], 1))
        y_true = tf.reshape(y_true, (y_shape[0], y_shape[1], 1))
        
        # 将小于阈值的 y_true 变成 0, 也就是背景序号
        y_true = y_true * mask
        
        return y_true
    
    # 计算每个建议框的回归标签, 其中负样本全部设置为 self.negative_flag
    # ious: calculate_iou 返回的 IoU
    # proposals: ProposalLayer 选出来的建议框
    # regression_true: 每个目标框坐标
    def get_regression_label(self, ious, proposals, regression_true):
        # 每个建议框与所有目标框的最大 IoU
        max_ious = tf.reduce_max(ious, axis = -1)
        # 最大 IoU 的索引
        max_indices = tf.argmax(ious, axis = -1)
        # 利用 max_indices 将坐标从 regression_true 中取出来, 相当于一个查表操作
        regression_true = tf.gather(regression_true, max_indices, axis = 1, batch_dims = 1)
        
        # 建议框宽度和高度
        proposal_w = proposals[..., 3] - proposals[..., 1]
        proposal_h = proposals[..., 2] - proposals[..., 0]
        # 建议框中心坐标
        proposal_x = proposals[..., 1] + proposal_w * 0.5
        proposal_y = proposals[..., 0] + proposal_h * 0.5

        # 目标框宽度和高度
        true_w = regression_true[..., 2] - regression_true[..., 0]
        true_h = regression_true[..., 3] - regression_true[..., 1]
        # 目标框中心坐标
        true_x = regression_true[..., 0] + true_w * 0.5
        true_y = regression_true[..., 1] + true_h * 0.5
        
        # 超过阈值的 IoU 转换成 1, 其他为 0
        postive_mask = tf.cast(max_ious >= self.iou_thres, dtype = tf.float32)
        # 负样本位置转换成负样本标签值, 其他为 0
        negative_mask = tf.cast(max_ious < self.iou_thres, dtype = tf.float32) * self.negative_flag
        
        # 修正量, 负样本的标签修正值都变成 8.0
        dx = (true_x - proposal_x) / proposal_w * postive_mask + negative_mask
        dy = (true_y - proposal_y) / proposal_h * postive_mask + negative_mask
        dw = tf.math.log(true_w / proposal_w)   * postive_mask + negative_mask
        dh = tf.math.log(true_h / proposal_h)   * postive_mask + negative_mask
        
        y_true = tf.stack([dx, dy, dw, dh], axis = -1)
        
        return y_true

上面的代码并不难, 主要是要理解 TensorFlow 的一些函数的用法以及如何为每个建议框打标签的原理. 打标签的话, 可以看一下前面相关的文章, 里面有祥细的讲解

这个层放在网络中的什么地方呢? 正所谓有图有真相, No 图 No bi bi. 看下就很明了了. 橙色的框表示网络输出

好, 理解了上面的图之后, 可以举一个带数字的例子, 如下图

图中有 4 个建议框, 3个目标框
图中红框表示 ProposalLayer 输出的建议框, 左上和右下角圆括号中的数字表示坐标, 顺序是 $y_1, x_1, y_2, x_2)$ , 左上角的小号数字表示建议框的序号
图中绿框表示目标框, 由 input_reader 函数给出, 左上和右下角圆括号中的数字表示坐标, 顺序是 $x_1, y_1, x_2, y_2)$ , 左上角的小号数字表示目标框的序号, 中心字号大点的数字表示这个目标框的类别序号

交待完毕, 用代码测试

# 测试 RoiLabel
# 4 个建议框
proposals = [[[36, 77, 187, 160], [50, 269, 176, 372], [240, 77, 354, 243], [113, 334, 240, 554]]]
proposals = np.array(proposals).astype(np.float32)

# 3 个 目标, 其类别分别为 3, 1, 2
class_true = [[3, 1, 2]]
class_true = np.array(class_true).astype(np.float32)

# 3 个目标框的坐标, 其类别对应于上面的 3, 1, 2
reg_true = [[[316, 147, 536, 274], [86, 219, 268, 344], [49, 49, 194, 166]]]
reg_true = np.array(reg_true).astype(np.float32)

测试

roi_label = RoiLabelLayer(name = "roi_label")
ious = roi_label.calculate_iou(proposals, reg_true)
print("ious:", ious)
cls_id, regs = roi_label.call([proposals, class_true, reg_true])
print("\ncls_id:", cls_id, "\n\nregs:", regs)

输出

ious: tf.Tensor(
[[[0.         0.         0.49077678]
  [0.04132947 0.         0.        ]
  [0.         0.6442042  0.        ]
  [0.5064431  0.         0.        ]]], shape=(1, 4, 3), dtype=float32)

cls_id: tf.Tensor(
[[[0]
  [0]
  [1]
  [3]]], shape=(1, 4, 1), dtype=int32) 

regs: tf.Tensor(
[[[ 8.          8.          8.          8.        ]
  [ 8.          8.          8.          8.        ]
  [ 0.10240964 -0.13596492  0.09201895  0.09211528]
  [-0.08181818  0.26771653  0.          0.        ]]], shape=(1, 4, 4), dtype=float32)

上面的输出中, ious 中的 $(i, j)$ 元素表示第 $i$ 个建议框与第 $j$ 个目标框的 IoU.

0.49077678 表示红框 0 与绿框 2 的 IoU 为 0.49077678. 但是未超过正样本阈值 0.5, 所以在 cls_id 中对应的类别序号为 0
0.6442042 表示红框 2 与绿框 1 的 IoU 为 0.6442042. 超过正样本阈值 0.5, 而绿框 1 的类别序号是 1, 所以在 cls_id 中对应的类别序号为 1. 因为是正样本, 所以有不为 0 的修正值 $[0.10240964, - 0.13596492, 0.09201895, 0.09211528]$
负样本回归标签全部为 self.negative_flag, 在这里是 8.0, 后面计算损失时并不会参与计算

有了 RoiLabelLayer 层, 现在可以将其加到模型中吗? 还是不可以. 因为 RoiLabelLayer 要吃 input_reader 给的相关标签, 但是目前 input_reader 的输出是 (x, [rpn_cls, rpn_reg, rcnn_cls, rcnn_reg]), 真正输入到网络的只有 x, 列表 [rpn_cls, rpn_reg, rcnn_cls, rcnn_reg] 是给损失函数用的, 所以 RoiLabelLayer 得不到 input_reader 给的 rcnn_cls, rcnn_reg. 基于这个原因, 我们要改一下 input_reader 返回数据的地方, 也就一句话, 把

yield x, [rpn_cls, rpn_reg, rcnn_cls, rcnn_reg]

改成

yield [x, rcnn_cls, rcnn_reg], [rpn_cls, rpn_reg, rcnn_cls, rcnn_reg]

改完了之后, 模型就需要增加两个输入. 还有一点要处理. 就是怎么把 RoiLabelLayer 的输出告诉 loss 计算函数呢? 因为 RoiLabelLayer 在模型内部, 只有将其作为输出, 外部才能访问. 模型结构如下图. 橙色的框表示网络输出

这样的结构也没有错, 只是这样损失函数会比较麻烦. 需要用到自定义损失层, 训练也不方便. 我们用更简单的方式来. 用下面的结构. 橙色的框表示网络输出

新的结构将预测值和标签组合 (Concatenate) 成一个层作为输出. 改成组合的方式有一个好处, 就是计算 loss 很方便. 在自定义损失函数中将 y_pred 拆分开就有了 y_true 与 y_pred. 灰常银杏

现在修改 create_train_model 函数如下

# 创建训练模型
def create_train_model(self, summary = True):
    # 输入图像
    x_image = keras.layers.Input(shape = (None, None, 3), name = "input_image")
    # 从标签文件中读出的类别
    y_class = keras.layers.Input(shape = (None, 1), name = "input_classes")
    # 从标签文件中读出的目标框坐标
    y_boxes = keras.layers.Input(shape = (None, self.ANCHOR_DIMS), name = "input_boxes")
    
    features = self.base_net(x_image)
    rpn_cls, rpn_reg = self.rpn_net(features)
    
    proposals = ProposalLayer(self.base_anchors,
                              stride = self.feature_stride,
                              num_rois = self.train_num,
                              iou_thres = self.nms_thres,
                              name = "proposal")([x_image, rpn_cls, rpn_reg])
    
    pooled_rois = RoiPoolingLayer(name = "roi_pooling")([x_image, features, proposals])
    
    rcnn_cls, rcnn_reg = self.fast_rcnn(pooled_rois, cells = self.dense_cells, num_classes = self.NUM_CLS)
    
    # 类别标签与回归标签
    class_true, regression_true = RoiLabelLayer(iou_thres = 0.5,
                                                negative_flag = self.REG_NO_TRAIN,
                                                name = "roi_label")([proposals, y_class, y_boxes])
    
    rcnn_cls_concat = keras.layers.Concatenate(axis = -1, name = "class")([rcnn_cls, class_true])
    rcnn_reg_concat = keras.layers.Concatenate(axis = -1, name = "regression")([rcnn_reg, regression_true])
    
    self.model = keras.Model(inputs = [x_image, y_class, y_boxes],
                             outputs = [rpn_cls, rpn_reg, rcnn_cls_concat, rcnn_reg_concat],
                             name = "faster_rcnn")
    
    # plot_model(self.model, to_file = self.model.name + ".png", show_shapes = True)
    
    if summary:
        self.model.summary()

三. 损失函数

基于上面的修改后, 目前到了损失函数的定义了. RPN 网络的损失函数不用修改, 因为 input_reader 提供的标签已经够用了. 现在差的是 RCNN 网络的损失函数. 也是两个, 分别是分类和回归. 因为 RCNN 网络和 RPN 网络输出的相似性, 两个网络的损失函数很大程度上是相似的

1. 自定义损失函数

由于 ProposalLayer 输出只有正负样本, 也就不再区分中立样本. 分类损失函数可以光明正大的用 Keras 提供的与分类相关的损失函数. 而 RoiLabelLayer 输出的分类标签是整数类别标签, 虽然是多分类, 也没有必要转换成 one-hot 标签, sparse_categorical_crossentropy 损失函数吃的就是整数类别标签. 所以直接使用 sparse_categorical_crossentropy 作为 RCNN 分类的损失函数很合理. 因为预测值和标签是组合在一起的, 所以在自定义函数中要将其拆分. 因为不是 one-hot 标签, 所以 y_true 最后一维是 1

# RCNN 网络分类损失函数
def rcnn_cls_loss(self, y_true, y_pred):
    pred_shape = tf.shape(y_pred)
    # 拆分, 标签最后一维是 1
    y_pred, y_true = tf.split(
        y_pred, num_or_size_splits = [pred_shape[-1] - 1, 1], axis = -1)
    
    y_true = tf.cast(y_true, dtype = tf.int32)        
    loss = K.sparse_categorical_crossentropy(y_true, y_pred)
    return loss

同理, RCNN 回归的损失函数可以写成下面这样, 简直和 RPN 的回归损失函数一模一样

# RCNN 网络回归损失失函数
def rcnn_reg_loss(self, y_true, y_pred):
    pred_shape = tf.shape(y_pred)
    
    # 拆分, 预测和标签各占一半
    y_pred, y_true = tf.split(
        y_pred, num_or_size_splits = [pred_shape[-1] // 2, pred_shape[-1] // 2], axis = -1)
    
    # 这里的 mask 用于区分正负样本, 负样本不参与计算损失
    mask = tf.cast(y_true < self.REG_NO_TRAIN, dtype = tf.float32)
    offset = mask * K.abs(y_true - y_pred)

    less_than_1 = tf.cast(offset <= 1.0, dtype = tf.float32)
    loss = K.sum(less_than_1 * 0.5 * offset ** 2 +
                 (1 - less_than_1) * (offset - 0.5)) / (1e-6 + K.sum(mask))
    
    return loss

2. 自定义精度评价函数

有了损失函数, 也需要精度评价函数

# RCNN 网络分类精度评价函数
def rcnn_cls_acc(self, y_true, y_pred):
    pred_shape = tf.shape(y_pred)
    y_pred, y_true = tf.split(
        y_pred, num_or_size_splits = [pred_shape[-1] - 1, 1], axis = -1)
    
    acc = keras.metrics.sparse_categorical_accuracy(y_true, y_pred)
    return acc

# RCNN 网络回归精度评价函数
def rcnn_reg_acc(self, y_true, y_pred):
    pred_shape = tf.shape(y_pred)
    
    y_pred, y_true = tf.split(
        y_pred, num_or_size_splits = [pred_shape[-1] // 2, pred_shape[-1] // 2], axis = -1)
    
    mask = tf.cast(y_true < self.REG_NO_TRAIN, dtype = tf.float32)
    offset = mask * K.abs(y_true - y_pred)
    ofst_true = mask * K.abs(y_true)

    acc = 1 - K.sum(offset) / (1e-6 + K.sum(ofst_true))
    return acc

四. 模型编译

有了损失函数, 就可以编译模型了, 如下

# 编译模型
def compile(self, optimizer = keras.optimizers.Adam(learning_rate = 1e-4)):
    self.model.compile(optimizer = optimizer,
                       loss = [self.rpn_cls_loss, self.rpn_reg_loss,
                               self.rcnn_cls_loss, self.rcnn_reg_loss],
                       loss_weights = [1.0, 10.0, 1.0, 10.0],
                       metrics = {"rpn_cls": self.rpn_cls_acc,
                                  "rpn_reg": self.rpn_reg_acc,
                                  "class": self.rcnn_cls_acc,
                                  "regression": self.rcnn_reg_acc})

五. 模型训练

到了最激动的时刻了, 定义训练的函数

# 训练模型
# augment_fun: 数据增强函数
# augmented_num: 一张图像增强后的数量, 默认只有翻转, 所以是 4
def train(self, epochs = 64, batch_size = 4, augment_fun = None, augmented_num = 4):
    if None == augment_fun:
        augment_fun = self.data_augment
    
    train_reader = self.input_reader(self.train_set, batch_size = batch_size,
                                     augment_fun = augment_fun, train_num = self.train_num)

    valid_reader = self.input_reader(self.valid_set, batch_size = batch_size,
                                     augment_fun = augment_fun, train_num = self.train_num)
                                     
    steps_per_epoch = len(self.train_set) * augmented_num // batch_size
    validation_steps = max(1, len(self.valid_set) * augmented_num // batch_size)
    
    history = self.model.fit(train_reader,
                             steps_per_epoch = steps_per_epoch,
                             epochs = epochs,
                             verbose = 1,
                             validation_data = valid_reader,
                             validation_steps = validation_steps,
                             max_queue_size = 8,
                             workers = 1)

像最开始的说那样, 我们要的效果是定义一个类实例, 调用函数就可以开始训练, 我们来试一下

# 特征提取网络
base_net = vgg16_conv 
# 日志路径
log_path = osp.join(os.getcwd(), "train_log")
# 定义实例
faster_rcnn = FasterRcnn(base_net = base_net, categories = CATEGORIES, log_path = log_path)
# 划分数据集
faster_rcnn.get_data_set(split_rate = (0.8, 0.1, 0.1))
# 创建模型
faster_rcnn.create_train_model(summary = True)
# 编译模型
faster_rcnn.compile()
# 训练模型
faster_rcnn.train(epochs = 64, batch_size = 4)

Model: "faster_rcnn"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
==================================================================================================
input_image (InputLayer)        (None, None, None, 3 0                                            
__________________________________________________________________________________________________
vgg16_x1_1 (Conv2D)             (None, None, None, 6 1792        input_image[0][0]                
__________________________________________________________________________________________________
vgg16_x1_2 (Conv2D)             (None, None, None, 6 36928       vgg16_x1_1[0][0]                 
__________________________________________________________________________________________________
max_pooling2d_5 (MaxPooling2D)  (None, None, None, 6 0           vgg16_x1_2[0][0]                 
__________________________________________________________________________________________________
vgg16_x2_1 (Conv2D)             (None, None, None, 1 73856       max_pooling2d_5[0][0]            
__________________________________________________________________________________________________
vgg16_x2_2 (Conv2D)             (None, None, None, 1 147584      vgg16_x2_1[0][0]                 
__________________________________________________________________________________________________
max_pooling2d_6 (MaxPooling2D)  (None, None, None, 1 0           vgg16_x2_2[0][0]                 
__________________________________________________________________________________________________
vgg16_x3_1 (Conv2D)             (None, None, None, 2 295168      max_pooling2d_6[0][0]            
__________________________________________________________________________________________________
vgg16_x3_2 (Conv2D)             (None, None, None, 2 590080      vgg16_x3_1[0][0]                 
__________________________________________________________________________________________________
vgg16_x3_3 (Conv2D)             (None, None, None, 2 590080      vgg16_x3_2[0][0]                 
__________________________________________________________________________________________________
max_pooling2d_7 (MaxPooling2D)  (None, None, None, 2 0           vgg16_x3_3[0][0]                 
__________________________________________________________________________________________________
vgg16_x4_1 (Conv2D)             (None, None, None, 5 1180160     max_pooling2d_7[0][0]            
__________________________________________________________________________________________________
vgg16_x4_2 (Conv2D)             (None, None, None, 5 2359808     vgg16_x4_1[0][0]                 
__________________________________________________________________________________________________
vgg16_x4_3 (Conv2D)             (None, None, None, 5 2359808     vgg16_x4_2[0][0]                 
__________________________________________________________________________________________________
max_pooling2d_8 (MaxPooling2D)  (None, None, None, 5 0           vgg16_x4_3[0][0]                 
__________________________________________________________________________________________________
vgg16_x5_1 (Conv2D)             (None, None, None, 5 2359808     max_pooling2d_8[0][0]            
__________________________________________________________________________________________________
vgg16_x5_2 (Conv2D)             (None, None, None, 5 2359808     vgg16_x5_1[0][0]                 
__________________________________________________________________________________________________
vgg16_x5_3 (Conv2D)             (None, None, None, 5 2359808     vgg16_x5_2[0][0]                 
__________________________________________________________________________________________________
rpn_conv (Conv2D)               (None, None, None, 5 2359808     vgg16_x5_3[0][0]                 
__________________________________________________________________________________________________
rpn_cls (Conv2D)                (None, None, None, 9 4617        rpn_conv[0][0]                   
__________________________________________________________________________________________________
rpn_reg (Conv2D)                (None, None, None, 3 18468       rpn_conv[0][0]                   
__________________________________________________________________________________________________
proposal (ProposalLayer)        (None, 256, 4)       0           input_image[0][0]                
                                                                 rpn_cls[0][0]                    
                                                                 rpn_reg[0][0]                    
__________________________________________________________________________________________________
roi_pooling (RoiPoolingLayer)   (None, 256, 7, 7, 51 0           input_image[0][0]                
                                                                 vgg16_x5_3[0][0]                 
                                                                 proposal[0][0]                   
__________________________________________________________________________________________________
roi_flatten (TimeDistributed)   (None, 256, 25088)   0           roi_pooling[0][0]                
__________________________________________________________________________________________________
fc_1 (TimeDistributed)          (None, 256, 2048)    51382272    roi_flatten[0][0]                
__________________________________________________________________________________________________
fc_2 (TimeDistributed)          (None, 256, 2048)    4196352     fc_1[0][0]                       
__________________________________________________________________________________________________
input_classes (InputLayer)      (None, None, 1)      0                                            
__________________________________________________________________________________________________
input_boxes (InputLayer)        (None, None, 4)      0                                            
__________________________________________________________________________________________________
rcnn_cls (TimeDistributed)      (None, 256, 21)      43029       fc_2[0][0]                       
__________________________________________________________________________________________________
roi_label (RoiLabelLayer)       [(None, 256, 1), (No 0           proposal[0][0]                   
                                                                 input_classes[0][0]              
                                                                 input_boxes[0][0]                
__________________________________________________________________________________________________
rcnn_reg (TimeDistributed)      (None, 256, 4)       8196        fc_2[0][0]                       
__________________________________________________________________________________________________
class (Concatenate)             (None, 256, 22)      0           rcnn_cls[0][0]                   
                                                                 roi_label[0][0]                  
__________________________________________________________________________________________________
regression (Concatenate)        (None, 256, 8)       0           rcnn_reg[0][0]                   
                                                                 roi_label[0][1]                  
==================================================================================================
Total params: 72,727,430
Trainable params: 72,727,430
Non-trainable params: 0
__________________________________________________________________________________________________

Epoch 1/64
   36/4008 [..............................] - ETA: 31:49 - loss: 2.4105 - 
   rpn_cls_loss: 0.2319 - rpn_reg_loss: 0.0445 - class_loss: 1.1483 - regression_loss: 0.0585 - 
   rpn_cls_rpn_cls_acc: 0.9587 - rpn_reg_rpn_reg_acc: -0.0715 - class_rcnn_cls_acc: 0.7901 - regression_rcnn_reg_acc: 0.0537

这样看训练是跑起来了, 但是你有 99.99% 的可能性看到 loss 虽然在下降, 但是精度不提升. rpn_cls_rpn_cls_acc 和 class_rcnn_cls_acc 分别维持在 0.95 和 0.8 左右. 而 rpn_reg_rpn_reg_acc 和 regression_rcnn_reg_acc 一会升一会降, 不过都在 0 左右. 这些值表明网络并没有学到想要的东西, 胡乱猜也就是这样的值

按理说这样端到端的训练是没有问题的, 一开始我为了训练快一点, 将图像的短边设置成了 300, 对应的 anchor_box 的尺寸分别为 (64, 128, 256), 但是这样的设置并不太合适. 有两个原因:

太小的建议框映射到特征图上后会变得只有一到两个点, 会丢失信息
相对更大的图像尺寸来讲, 小尺寸图像的 feature_stride 使 anchor 间隔相对较大, 正样本的数量会少很多, 样本不均衡

如下图为例, 以 300 为短边时, 正样本数量为 17, 以 600 为短边时, 正样本为数量为 56

后来将图像的短边设置成 600, 对应的 anchor_box 尺寸设置为 (128, 256, 512). 修改之后端到端的训练就没有问题了. 只是训练花的时间会长很多

如果你还是想以 300 为短边尺寸训练的话, 下面的方法可以让训练过程收敛, 就算用 600 为短边训练也可以用下面的方法

六. 预训练模型

1. 分步训练

以 300 为短边尺寸时训练达不到预期效果. 如果我们只训练 RPN 的分类部分(参见保姆级 Keras 实现 Faster R-CNN 五)的话, 就非常好训练. 只训练 RPN 分类可以为模型参数的更新指示一个大致的方向, 充当 “药引子” 的功能. 当 RPN 分类训练得差不多的时候, 接着训练整个 RPN 模型(参见保姆级 Keras 实现 Faster R-CNN 八). 等 RPN 训完成后, 就可以训练整个模型了

那如何让这样分步训练的过程自动化的完成呢? 这就需要用到回调函数的功能. 在 fit 函数中有一个 callbacks 参数, 可以在训练过程中控制或者修改一些参数, 以达到控制训练过程的目的. 下面定义的这个 TrainCallback 类就是传递给 callbacks 的参数, 在不同的阶段冻结不需要训练的层并修改模型的 loss_weights 列表, 控制某个输出 loss 的权重

# 训练回调函数
# metrics: 各输出精度评价函数
class TrainCallback(keras.callbacks.Callback):
    def __init__(self, metrics, **kwargs):
        self.metrics = metrics
        super(TrainCallback, self).__init__(**kwargs)
        
    def on_epoch_begin(self, epoch, logs = None):
        # 是否显示各层 trainable 参数
        show_trainable = False
        layer_names = [layer.name for layer in self.model.layers]
        
        if 0 == epoch:
            show_trainable = True
            # 冻结从 rpn_reg 到后面所有层, 只训练 RPN 分类
            start = layer_names.index("rpn_reg")
            end = len(layer_names)
            self.freeze_layers(self.model, [i for i in range(start, end)], True)

            # loss_weights 中将暂时不训练的输出 weight 设置为 0
            self.model.compile(optimizer = self.model.optimizer,
                               loss = self.model.loss,
                               loss_weights = [1.0, 0.0, 0.0, 0.0],
                               metrics = self.metrics)
        elif 32 == epoch:
            show_trainable = True
            # 解冻 rpn_reg, 训练整个 RPN 网络
            self.freeze_layers(self.model, "rpn_reg", False)
            # 将 loss_weights 中 rpn_reg 对应的 weight 设置为 10.0
            self.model.compile(optimizer = self.model.optimizer,
                               loss = self.model.loss,
                               loss_weights = [1.0, 10.0, 0.0, 0.0],
                               metrics = self.metrics)
        elif 64 == epoch:
            show_trainable = True
           	# 解冻 RCNN 相关层, 训练整个模型
            proposal = layer_names.index("proposal")
            end = len(layer_names)
            self.freeze_layers(self.model, [i for i in range(proposal, end)], False)
            
            self.model.compile(optimizer = self.model.optimizer,
                               loss = self.model.loss,
                               loss_weights = [1.0, 10.0, 1.0, 10.0],
                               metrics = self.metrics)
                               
        if show_trainable:
            for i, layer in enumerate(self.model.layers):
                print("%.2d" % i, layer.name, "trainable:", layer.trainable)
    
    # 冻结 layers
    # layers: 需要冻结的层的 name 或者序号
    # freeze: True 表示冻结, False 表示解冻
    def freeze_layers(self, model, layers, freeze):
        if not isinstance(layers, (tuple, list)):
            layers = [layers]
        
        for each in layers:
            if isinstance(each, str):
                model.get_layer(each).trainable = not freeze
            else:
                model.get_layer(index = each).trainable = not freeze

这个回调函数也很简单, 就是在每个 epoch 开始的时候, 判断是否要冻结不想训练的层, 并修改相应的 loss_weight, 当 loss_weight 修改为 0 时, 相应的 loss 对总的 loss 就没有影响了, 参数更新只受 loss_weight 不为 0 的输出影响

现在 train 函数修改如下

# 训练模型
# augment_fun: 数据增强函数
# augmented_num: 一张图像增强后的数量, 默认只有翻转, 所以是 4
# trained_weights: 预训练模型参数
def train(self, epochs = 128, batch_size = 4,
          augment_fun = None, augmented_num = 4, trained_weights = None):
    
    if None == augment_fun:
        augment_fun = self.data_augment
        
    # 加载预训练参数
    if trained_weights:
        self.model.load_weights(trained_weights, True)
        
    train_reader = self.input_reader(self.train_set, batch_size = batch_size,
                                     augment_fun = augment_fun, train_num = self.train_num)

    valid_reader = self.input_reader(self.valid_set, batch_size = batch_size,
                                     augment_fun = augment_fun, train_num = self.train_num)
    
    steps_per_epoch = len(self.train_set) * augmented_num // batch_size
    validation_steps = max(1, len(self.valid_set) * augmented_num // batch_size)
    
    metrics = {"rpn_cls": self.rpn_cls_acc,
               "rpn_reg": self.rpn_reg_acc,
               "class": self.rcnn_cls_acc,
               "regression": self.rcnn_reg_acc}
    
    # 如果加载了预训练的参数, 就没有必要使用 TrainCallback 了
    callbacks = [TrainCallback(metrics)] if None == trained_weights else None
    
    history = self.model.fit(train_reader,
                             steps_per_epoch = steps_per_epoch,
                             epochs = epochs,
                             verbose = 1,
                             validation_data = valid_reader,
                             validation_steps = validation_steps,
                             callbacks = callbacks,
                             max_queue_size = 8,
                             workers = 1)

修改后如果从头开始训练的话, 调用方式如下

# 训练模型
faster_rcnn.train(epochs = 128, batch_size = 4)

经过上面的修改, 开始就只训练 RPN 分类, 总的 loss 等于 rpn_cls_loss, 其他冻结的层不起作用. 这样训练下去就不会卡住了

Epoch 1/128
00 input_image trainable: False
01 vgg16_x1_1 trainable: True
02 vgg16_x1_2 trainable: True
03 max_pooling2d_1 trainable: True
04 vgg16_x2_1 trainable: True
05 vgg16_x2_2 trainable: True
06 max_pooling2d_2 trainable: True
07 vgg16_x3_1 trainable: True
08 vgg16_x3_2 trainable: True
09 vgg16_x3_3 trainable: True
10 max_pooling2d_3 trainable: True
11 vgg16_x4_1 trainable: True
12 vgg16_x4_2 trainable: True
13 vgg16_x4_3 trainable: True
14 max_pooling2d_4 trainable: True
15 vgg16_x5_1 trainable: True
16 vgg16_x5_2 trainable: True
17 vgg16_x5_3 trainable: True
18 rpn_conv trainable: True
19 rpn_cls trainable: True
20 rpn_reg trainable: False
21 proposal trainable: False
22 roi_pooling trainable: False
23 roi_flatten trainable: False
24 fc_1 trainable: False
25 fc_2 trainable: False
26 input_classes trainable: False
27 input_boxes trainable: False
28 rcnn_cls trainable: False
29 roi_label trainable: False
30 rcnn_reg trainable: False
31 class trainable: False
32 regression trainable: False

4008/4008 [==============================] - 1006s 251ms/step - loss: 0.1498 - 
rpn_cls_loss: 0.1498 - rpn_reg_loss: 0.0498 - class_loss: 3.7898 - regression_loss: 0.0215 - 
rpn_cls_rpn_cls_acc: 0.9559 - rpn_reg_rpn_reg_acc: 8.2870e-08 - class_rcnn_cls_acc: 0.0019 - regression_rcnn_reg_acc: 0.0513 - 
val_loss: 0.1007 - val_rpn_cls_loss: 0.1410 - val_rpn_reg_loss: 0.0417 - val_class_loss: 3.2293 - val_regression_loss: 0.0217 - 
val_rpn_cls_rpn_cls_acc: 0.9556 - val_rpn_reg_rpn_reg_acc: 7.8678e-08 - val_class_rcnn_cls_acc: 0.0025 - val_regression_rcnn_reg_acc: 0.0333

2. 端到端训练

如果加载了预训练的参数, 就可以用端到端的训练方式, 训练的 epochs 数也可以减少一半

# 训练模型
faster_rcnn.train(epochs = 64, batch_size = 4,
                  trained_weights = osp.join(faster_rcnn.log_path, "trained_weights.h5"))

trained_weights 只需要是训练好的 RPN 分类部分就可以了, 可以直接使用训练好的参数. 同样, 使用 600 为短边训练时也可以加载这个参数, 可以使模型更快的收敛. 甚至训练其他数据集也可以加载也这个参数. 在下一篇文章中会展示用这个参数训的练模型识别小浣熊的效果

加载参数后训练的话, 可以看到回归的精度提升是明显的, 也不需要使用回调函数

经过九九八十一天的训练… …

3. 修改学习率

在前面的训练过程中, 我们没有使用任何高深的调参手法, 这样训练下去差不多训练到一半的时候, 大概率 loss 下降会很缓慢, 开始震荡. 甚至会出现 loss 为 nan 的情况. 一看就是学习率太大了, 所以到一定的时候, 我们需要将学习率减少, 一般是小一个数量级. Keras 也提供了一个很容易修改学习率的方式, 也是使用回调函数, 在指定的 epoch 数后修改学习率. Talk is cheap, show you the code

# 加载预训练参数后端到端训练调节学习率
def lr_schedule(epoch):
    lr = 1e-4
    
    if epoch < 16:
        return lr
    elif epoch < 32:
        return lr * 1e-1
    else:
        return lr * 1e-2
'''
# 如果是分步训练, 判断的 epoch 需要修改, 可以像下面这样
# 64 是 RPN 训练需要的 epoch 数量
def lr_schedule(epoch):
    lr = 1e-4    
    if epoch < 16 + 64:
        return lr
    elif epoch < 32 + 64:
        return lr * 1e-1
    else:
        return lr * 1e-2
'''

这样 train 函数就需要添加一个参数 lr_schedule 参数, 修改如下

# 训练模型
# augment_fun: 数据增强函数
# augmented_num: 一张图像增强后的数量, 默认只有翻转, 所以是 4
# lr_schedule: 学习率调节函数
# trained_weights: 预训练模型参数
def train(self, epochs = 128, batch_size = 4,
          augment_fun = None, augmented_num = 4,
          lr_schedule = None, trained_weights = None):

    if None == augment_fun:
        augment_fun = self.data_augment

    # 加载预训练参数
    if trained_weights:
        self.model.load_weights(trained_weights, True)

    train_reader = self.input_reader(self.train_set, batch_size = batch_size,
                                     augment_fun = augment_fun, train_num = self.train_num)

    valid_reader = self.input_reader(self.valid_set, batch_size = batch_size,
                                     augment_fun = augment_fun, train_num = self.train_num)

    steps_per_epoch = len(self.train_set) * augmented_num // batch_size
    validation_steps = max(1, len(self.valid_set) * augmented_num // batch_size)

    metrics = {"rpn_cls": self.rpn_cls_acc,
               "rpn_reg": self.rpn_reg_acc,
               "class": self.rcnn_cls_acc,
               "regression": self.rcnn_reg_acc}
    
    callbacks = None
    
    if None == trained_weights:
        # 如果加载了预训练的参数, 就没有必要使用 TrainCallback 了
        callbacks = [TrainCallback(metrics)]
        
    if lr_schedule:
        if None == callbacks:
            callbacks = []
            
        callbacks.append(LearningRateScheduler(lr_schedule))

    history = self.model.fit(train_reader,
                             steps_per_epoch = steps_per_epoch,
                             epochs = epochs,
                             verbose = 1,
                             validation_data = valid_reader,
                             validation_steps = validation_steps,
                             callbacks = callbacks,
                             max_queue_size = 8,
                             workers = 1)

调用的时候, 传递 lr_schedule 参数

faster_rcnn.train(epochs = 64, batch_size = 4,
                  lr_schedule = lr_schedule,
                  trained_weights = osp.join(faster_rcnn.log_path, "trained_weights.h5"))

七. 保存模型与参数

训练完成后需要保存参数, 要不然就白干了

# 保存模型与参数
# file_name: 保存的文件名称
# save_model: 是否要保存模型
# save_weight: 是否要保存参数
def save(self, file_name, save_model = True, save_weight = True):
    if save_model:
        self.model.save(osp.join(self.log_path, file_name + "_model.h5"))
        
    if save_weight:
        self.model.save_weights(osp.join(self.log_path, file_name + "_weights.h5"))

需要解释一下 file_name 这个参数, 只需要文件名就可以了, 不用带扩展名. 调用如下

faster_rcnn.save("faster_rcnn", True, True)

在 log_path 路径下会保存两个相应的文件, 预测的时候会用到 faster_rcnn_weights.h5

以上就是整个 Faster R-CNN 从零到训练完成的所有步骤

八. 代码下载

示例代码可下载 Jupyter Notebook 示例代码

上一篇: 保姆级 Keras 实现 Faster R-CNN 十二
下一篇: 保姆级 Keras 实现 Faster R-CNN 十四 (预测)

你可能感兴趣的:(Keras,#,Faster,R-CNN,深度学习,keras,faster_rcnn)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f