joker_xiansen

基于tensorflow 2.x 搭建Faster RCNN网络训练自己的数据

前言：暑期实习做了一些目标检测方面的工作，按照目标检测的发展史也逐步进行了学习，但是总感觉看论文只是纸上谈兵，训练模型也只是调用模块中的函数fit别人准备好的数据，这个过程中没有自己的东西。恰好呢看了Faster RCNN的论文，Faster RCNN又是一个使用anchor、RPN网络、端到端训练的经典的算法，又想学习一下tensorflow，更恰巧手边有一些实际项目的数据，所以历时一个月左右，管理零碎的时间有限的资源跑通了Faster RCNN网络，取得了理想的效果。

当然也不是完全自己复现，搭建网络过程中参考了这位老哥的文章，对其中的实现细节进行了更深入的了解，并对训练过程中出现的问题以及解决方法进行了进一步记录。

1、utils.py实用程序函数说明

导入需要的包，wandhG数组存放9个anchor先验框的高宽尺寸，是基于训练数据集中的gt框进行聚类生成的（聚类生成先验anchor框）。输入图片的尺寸为512*512，可自行调整，想计算速度快一点的就设置小一点的图像尺寸。

import numpy as np
import cv2
from xml.dom.minidom import parse
import tensorflow as tf
# box width and height
wandhG = np.array([[ 45.5 ,  48.47058824],
       [ 48.5 , 105.17647059],
       [ 91.5 ,  76.23529412],
       [ 60., 103.52941177],
       [112.25  ,  48.],
       [ 75. ,  96. ],
       [ 24. ,  26.82352941],
       [107. ,  61.17647059],
       [ 87. ,  26.35294118]], dtype=np.float32)

image_height = 512
image_width = 512

load_gt_boxes函数将图片的标注文件进行解析，可解析labelimg标注的xml文件以及yolov格式的txt文件，最终返回一张图像上的多个gt框的label以及左上和右下角坐标。

def load_gt_boxes(path):
    '''
    load the ground truth bounding box info: label, xmin, ymin, xmax, ymax
    '''
    ## parse xml file
    # dom_tree = parse(path)

    # root element
    # root_node = dom_tree.documentElement
    # print('root node', root_node.nodeName)

    # # extract image size
    # size = root_node.getElementsByTagName('size')
    # # size info
    # width = size[0].getElementsByTagName('width')[0].childNodes[0].data
    # height = size[0].getElementsByTagName('height')[0].childNodes[0].data
    # depth = size[0].getElementsByTagName('depth')[0].childNodes[0].data
    # print([int(width), int(height), int(depth)])

    # extract BB objects
    # objects = root_node.getElementsByTagName('object')
    # boxes = []
    # for obj in objects:
    #     # name = obj.getElementsByTagName('name')[0].childNodes[0].data
    #     bndbox = obj.getElementsByTagName('bndbox')[0]
    #     xmin = int(bndbox.getElementsByTagName('xmin')[0].childNodes[0].data)
    #     ymin = int(bndbox.getElementsByTagName('ymin')[0].childNodes[0].data)
    #     xmax = int(bndbox.getElementsByTagName('xmax')[0].childNodes[0].data)
    #     ymax = int(bndbox.getElementsByTagName('ymax')[0].childNodes[0].data)
    #     # w = np.abs(xmax - xmin)
    #     # h = np.abs(ymax - ymin)
    #     boxes.append([xmin, ymin, xmax, ymax])
    #     boxes = np.array(boxes)
    # return boxes

    ## parse txt files
    boxes = []
    with open(path, 'r') as f:
        lines = f.readlines()
    for line in lines:
        data = line.split(' ')
        x_center = np.float64(data[1])*2*image_width
        y_center = np.float64(data[2])*2*image_height
        w = np.float64(data[3])*image_width
        h = np.float64(data[4])*image_height
        xmin = (x_center - w)/2
        xmax = (x_center + w)/2
        ymin = (y_center - h)/2
        ymax = (y_center + h)/2
        boxes.append([xmin, ymin, xmax, ymax])
    return boxes

plot_boxes_on_image函数将boxes坐标绘制在图片上，并返回RGB格式的图像。(可测试坐标数据解析是否正确)

def plot_boxes_on_image(image_with_boxes, boxes, thickness=2, color=[255, 0, 0]):
    '''plot boxes on image'''
    boxes = np.array(boxes).astype(np.int32)
    for box in boxes:
        cv2.rectangle(image_with_boxes, pt1=(box[0], box[1]), pt2=(box[2], box[3]), color=color, thickness=thickness)
    image_with_boxes = cv2.cvtColor(image_with_boxes, cv2.COLOR_BGR2RGB)
    return image_with_boxes

compute_iou计算两个坐标框的交并比，iou是衡量预测框和gt框的重合和接近程度，iou越接近1，预测框和gt框越接近。

def compute_iou(box1, box2):
    """
    compute the IOU(Intersection Over Union)
    :param box1:
    :param box2:
    :return: iou
    """
    w_1 = box1[2] - box1[0]
    h_1 = box1[3] - box1[1]
    w_2 = box2[2] - box2[0]
    h_2 = box2[3] - box2[1]
    x = [box1[0], box1[2], box2[0], box2[2]]
    y = [box1[1], box1[3], box2[1], box2[3]]
    delta_x = np.max(x) - np.min(x)
    delta_y = np.max(y) - np.min(y)
    w_in = w_1 + w_2 - delta_x
    h_in = h_1 + h_2 - delta_y
    if w_in <= 0 or h_in <= 0:
        iou = 0
    else:
        area_in = w_in*h_in
        area_un = w_1*h_1 + w_2*h_2 - area_in
        iou = area_in/area_un
    return iou

regression_box_shift函数计算检测到目标并且得分大于positive_threshold，于gt框的交并比大于iou阈值的proposal框向ground_truth框的变换量，tx,ty为坐标平移量，tw，th为高度和宽度的缩放量。一定要注意变换的顺序，要不然训练和测试的时候会发现候选框离目标框越来越远，得分越来越低，loss越来越爆炸。

def regression_box_shift(p, g):
    """
    compute t to transform p to g
    :param p: proposal box
    :param g: ground truth
    :return: t
    """
    w_p = p[2] - p[0]
    h_p = p[3] - p[1]
    w_g = g[2] - g[0]
    h_g = g[3] - g[1]
    tx = (g[0] - p[0])/w_p
    ty = (g[1] - p[1])/h_p
    tw = np.log(w_g/w_p)
    th = np.log(h_g/h_p)
    t = [tx, ty, tw, th]
    return t

output_decode函数对预测的boxes和得分进行解码。根据Faster RCNN的网络结构，图像经过backbone网络进行了4次Maxpool，最后得到的feature map大小为输入图像尺寸的十六分之一，也就是512/16=32。feature map中的每一个像素对应原输入图像上的一个16*16大小的grid。此函数先计算原输入图像上的每个grid的中心坐标，以及以此坐标为中心的9个anchor框的坐标。再将anchor先验框与预测得到的变换量进行变换得到所有anchor的预测框，在经过预测框得分的阈值筛选，得到最终的预测框和对应得分。

def output_decode(pred_bboxes, pred_scores, score_thresh=0.5):
    grid_x, grid_y = tf.range(32, dtype=tf.int32), tf.range(32, dtype=tf.int32)
    grid_x, grid_y = tf.meshgrid(grid_x, grid_y)
    grid_x, grid_y = tf.expand_dims(grid_x, -1), tf.expand_dims(grid_y, -1)
    grid_xy = tf.stack([grid_x, grid_y], axis=-1)
    center_xy = grid_xy * 16 + 8
    center_xy = tf.cast(center_xy, tf.float32)
    anchor_xymin = center_xy - 0.5 * wandhG
    anchor_xymin = np.expand_dims(anchor_xymin, axis=0)
    # print(anchor_xymin.shape)
    xy_min = pred_bboxes[..., 0:2] * wandhG[:, 0:2] + anchor_xymin
    xy_max = tf.exp(pred_bboxes[..., 2:4]) * wandhG[:, 0:2] + xy_min

    pred_bboxes = tf.concat([xy_min, xy_max], axis=-1)
    pred_scores = pred_scores[..., 1]
    score_mask = pred_scores > score_thresh
    pred_bboxes = tf.reshape(pred_bboxes[score_mask], shape=[-1, 4]).numpy()
    pred_scores = tf.reshape(pred_scores[score_mask], shape=[-1, ]).numpy()
    return pred_bboxes, pred_scores

nms函数为非极大抑制(Non-Maximum Suppression)过程，目的是筛选每张图像每个目标的预测框中得分最高的框，并滤除与之重合的框。

def nms(pred_boxes, pred_score, iou_threshold):
    """Non-Maximum Suppression"""
    nms_boxes = []
    while len(pred_boxes) > 0:
        max_id = np.argmax(pred_score)
        selected_box = pred_boxes[max_id]
        nms_boxes.append(selected_box)
        del pred_boxes[max_id]
        del pred_score[max_id]
        ious = compute_iou(selected_box, pred_boxes)
        iou_mask = ious <= iou_threshold
        pred_boxes = pred_boxes[iou_mask]
        pred_score = pred_score[iou_mask]
    nms_boxes = np.array(nms_boxes)
    return nms_boxes

2、demo.py测试上述函数

这其中for循环为代码主要部分，其对每个anchor框进行遍历，步骤是先计算每个anchor框的坐标，检验其是否超出边界，接着计算anchor框与此张图像中的所有gt框的交并比，根据正反例iou阈值判断是否检测到目标，并相应进行更新target_boxes, target_scores, target_mask三个tensor(numpy)，其中target_boxes只有在检测到目标时进行更新，并选取与之交并比最大的gt框计算坐标偏移量。最终的效果和直接将标注框绘制在图像上无异啦，即说明前面的代码是正常运行的。

这里是一个坑，如果你的图像数据中存在待检测目标位于图像边缘区域，即待检测目标很小一部分位于图像内，这时就会出现anchor框易超出边界的情况，超出图像边界一定范围的anchor框都会被过滤掉，进一步造成训练过程中出现nan的情况。

import matplotlib.pyplot as plt
import cv2
from utils import load_gt_boxes, compute_iou, regression_box_shift, nms, output_decode, wandhG, plot_boxes_on_image
import numpy as np

# 标记为正例的阈值(检测到目标)
pos_thresh = 0.5
# 标记为反例的阈值(未检测到目标)
neg_thresh = 0.1
iou_thresh = 0.5
image_height = 512
image_width = 512
grid_height = 16
grid_width = 16

# 测试样例
label_path = '2821.txt'
img_path = '2821.png'

gt_boxes = load_gt_boxes(label_path)

raw_img = cv2.imread(img_path)
img_boxes = np.copy(raw_img)
print(gt_boxes)
img_with_boxes = plot_boxes_on_image(img_boxes, np.array(gt_boxes)*2)
plt.figure()
plt.imshow(img_with_boxes)
plt.show()

# 初始化预测框坐标，得分，以及是否检测到目标的mask
# shape对应32*32的feature map上每一个像素对应原图16*16的grid，每一个grid对应9个anchor，每个anchor有4个坐标
# 得分中为检测到目标的正例得分和未检测到目标的得分
# mask中检测到目标记为1，未检测到目标记为-1，其它记为0
target_boxes = np.zeros(shape=[32, 32, 9, 4])
target_scores = np.zeros(shape=[32, 32, 9, 2])
target_mask = np.zeros(shape=[32, 32, 9])

"*********************************"
"*********将feature map分成32*32个小块"
#
encoding_img = np.copy(raw_img)
encoding_img = cv2.resize(encoding_img, dsize=(512, 512), interpolation=cv2.INTER_CUBIC)
for i in range(32):
    for j in range(32):
        for k in range(9):
            center_y = i*grid_height + grid_height*0.5
            center_x = j*grid_width + grid_width*0.5
            # calculate the cordinates
            xmin = center_x - wandhG[k][0]*0.5
            xmax = center_x + wandhG[k][0]*0.5
            ymin = center_y - wandhG[k][1]*0.5
            ymax = center_y + wandhG[k][1]*0.5
            # filter the cross-boundary anchors
            if (xmin > -5) & (ymin > -5) & (xmax < (image_width + 5)) & (ymax < (image_height + 5)):
                anchor_boxes = np.array([xmin, ymin, xmax, ymax])
                # print(anchor_boxes)
                anchor_boxes = np.expand_dims(anchor_boxes, axis=0)
                print(anchor_boxes)
                # compute iou between anchor_box and gt
                ious = []
                for gt_box in gt_boxes:
                    iou = compute_iou(anchor_boxes[0], gt_box)
                    ious.append(iou)
                ious = np.array(ious)
                positive_masks = ious > pos_thresh
                negative_masks = ious < neg_thresh

                # identify positive or negative
                if np.any(positive_masks):
                    plot_boxes_on_image(encoding_img, anchor_boxes, thickness=1)
                    cv2.circle(encoding_img, center=(int(0.5 * (xmin + xmax)), int(0.5 * (ymin + ymax))), radius=1,
                               color=[255, 0, 0], thickness=1)
                    # 标记检测到物体
                    target_scores[i, j, k, 1] = 1
                    target_mask[i, j, k] = 1
                    # 找出最匹配此anchor box的gt
                    max_iou_id = np.argmax(ious)
                    selected_gt_boxes = gt_boxes[max_iou_id]
                    target_boxes[i, j, k] = regression_box_shift(anchor_boxes[0], selected_gt_boxes)

                if np.all(negative_masks):
                    target_scores[i, j, k, 0] = 0
                    target_mask[i, j, k] = -1
                    cv2.circle(encoding_img, center=(int(0.5 * (xmin + xmax)), int(0.5 * (ymin + ymax))), radius=1,
                               color=[0, 0, 0], thickness=1)

cv2.namedWindow('encoded image', cv2.WINDOW_NORMAL)
cv2.imshow('encoded image', encoding_img)
cv2.waitKey(0)
# cv2.imwrite('encoding_img.png', encoding_img)

# print(target_boxes)
faster_decode_img = np.copy(raw_img)
pred_boxes = np.expand_dims(target_boxes, 0).astype(np.float32)
pred_scores = np.expand_dims(target_scores, 0).astype(np.float32)
pred_boxes, pred_scores = output_decode(pred_boxes, pred_scores, 0.9)
nms_pred_boxes = nms(pred_boxes, pred_scores, 0.1)
img_with_predbox = plot_boxes_on_image(faster_decode_img, pred_boxes*2, color=[255, 0, 0], thickness=1)
cv2.namedWindow('pred_img', cv2.WINDOW_NORMAL)
cv2.imshow('pred_img', img_with_predbox)
cv2.waitKey(0)
cv2.imwrite('img_demo.png', img_with_predbox)

3、rpn.py搭建Faster RCNN网络

继承keras中的model并重写call方法进行Faster RCNN网络的搭建，其中在RPN网络层中，参考文章中的kernel_size为[5, 2]，暂时没弄清楚为什么要这样设置，难道是为了使得RPN网络产生的预测框更倾向于细长形的？由于自己数据集的关系，将kernel_size设置成了[3，3]。最终网络返回对应的预测框坐标以及得分。

import tensorflow as tf
from tensorflow.keras.layers import Conv2D, Dropout, BatchNormalization, MaxPool2D, Flatten, Dense, InputLayer

print(tf.__version__)


class RPN(tf.keras.Model):

    def __init__(self):
        super(RPN, self).__init__()
        self.conv1_1 = Conv2D(filters=64, kernel_size=(3, 3), activation='relu', padding='same')
        self.conv1_2 = Conv2D(filters=64, kernel_size=(3, 3), activation='relu', padding='same')
        self.pool1 = MaxPool2D(pool_size=(2, 2), strides=2, padding='same')

        self.conv2_1 = Conv2D(filters=128, kernel_size=(3, 3), activation='relu', padding='same')
        self.conv2_2 = Conv2D(filters=128, kernel_size=(3, 3), activation='relu', padding='same')
        self.pool2 = MaxPool2D(pool_size=(2, 2), strides=2, padding='same')

        self.conv3_1 = Conv2D(filters=256, kernel_size=(3, 3), activation='relu', padding='same')
        self.conv3_2 = Conv2D(filters=256, kernel_size=(3, 3), activation='relu', padding='same')
        self.conv3_3 = Conv2D(filters=256, kernel_size=(3, 3), activation='relu', padding='same')
        self.pool3 = MaxPool2D(pool_size=(2, 2), strides=2, padding='same')
        self.dropout3 = Dropout(rate=0.1)

        self.conv4_1 = Conv2D(filters=512, kernel_size=(3, 3), activation='relu', padding='same')
        self.conv4_2 = Conv2D(filters=512, kernel_size=(3, 3), activation='relu', padding='same')
        self.conv4_3 = Conv2D(filters=512, kernel_size=(3, 3), activation='relu', padding='same')
        self.pool4 = MaxPool2D(pool_size=(2, 2), strides=2, padding='same')
        self.dropout4 = Dropout(rate=0.2)

        self.conv5_1 = Conv2D(filters=512, kernel_size=(3, 3), activation='relu', padding='same')
        self.conv5_2 = Conv2D(filters=512, kernel_size=(3, 3), activation='relu', padding='same')
        self.conv5_3 = Conv2D(filters=512, kernel_size=(3, 3), activation='relu', padding='same')
        self.pool5 = MaxPool2D(pool_size=(2, 2), strides=2, padding='same')
        self.dropout5 = Dropout(rate=0.25)

        # region proposal conv
        self.rpn_conv1 = Conv2D(filters=256, kernel_size=[3, 3], activation='relu', padding='same', use_bias=False)
        self.rpn_conv2 = Conv2D(filters=512, kernel_size=[3, 3], activation='relu', padding='same', use_bias=False)

        # bboox regression layer
        self.bbox_conv = Conv2D(filters=36, kernel_size=[1, 1], padding='same', activation=None, use_bias=False)

        # box score layer
        self.score_conv = Conv2D(filters=18, kernel_size=[1, 1], activation=None, padding='same', use_bias=False)

    def call(self, x, training=True, mask=None):
        output = self.conv1_1(x)
        output = self.conv1_2(output)
        output = self.pool1(output)

        output = self.conv2_1(output)
        output = self.conv2_2(output)
        output = self.pool2(output)

        output = self.conv3_1(output)
        output = self.conv3_2(output)
        output = self.conv3_3(output)
        output = self.pool3(output)
        # output = self.dropout3(output)

        pool3_p = self.pool3(output)
        pool3_p = self.rpn_conv1(pool3_p)

        output = self.conv4_1(output)
        output = self.conv4_2(output)
        output = self.conv4_3(output)
        output = self.pool4(output)
        # output = self.dropout4(output)

        pool4_p = self.rpn_conv2(output)

        output = self.conv5_1(output)
        output = self.conv5_2(output)
        output = self.conv5_3(output)
        # output = self.dropout5(output)
        #
        pool5_p = self.rpn_conv2(output)

        region_proposal = tf.concat([pool3_p, pool4_p, pool5_p], axis=-1)
        # region_proposal = tf.concat([pool3_p, pool4_p], axis=-1)

        # compute the bbox and scores
        conv_cl_boxes = self.bbox_conv(region_proposal)
        conv_cl_scores = self.score_conv(region_proposal)

        cl_boxes = tf.reshape(conv_cl_boxes, [-1, 32, 32, 9, 4])
        cl_scores = tf.reshape(conv_cl_scores, [-1, 32, 32, 9, 2])

        return cl_boxes, cl_scores

4、metrices.py绘制训练过程中的loss变化曲线以及混淆矩阵

此py文件中的函数对各个部分的损失函数进行绘制可视化，并绘制分类结果的混淆矩阵。

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# Author: Joker_xiansen
# @Time  :2021/9/8 15:46
import numpy as np
import matplotlib.pyplot as plt


def confusion_matrix():
    pass


def plot_learning_curve(loss_path):
    with open(loss_path, 'r') as f:
        lines = f.readlines()
    score_loss = []
    box_loss = []
    total_loss = []
    for line in lines:
        split_line = line.split(' ')
        score_loss.append(np.float32(split_line[2]))
        box_loss.append(np.float32(split_line[3]))
        total_loss.append(np.float32(split_line[4]))
    plt.plot(score_loss, '-g')
    plt.plot(box_loss, '-b')
    plt.plot(total_loss, '-r')
    plt.xlim((0, len(score_loss)))
    plt.legend(['score_loss', 'box_loss', 'total_loss'])
    plt.xlabel('Steps')
    plt.ylabel('Loss')
    plt.title('Faster RCNN learning curve')
    plt.savefig('loss.png')
    plt.show()


if __name__ == "__main__":
    plot_learning_curve('loss.txt')

5、train.py

import random
import os
from utils import *
from rpn import RPN
from metrices import plot_learning_curve
from argparse import ArgumentParser
import yaml

parser = ArgumentParser(description='paras for train')
parser.add_argument('--data', default='data.yaml', help='data config yaml')
parser.add_argument('--img_size', default=512, help='input image size')
parser.add_argument('--grid_size', default=16, help='image grid size')
# parser.add_argument('--weights', default='RPN1.h5', help='trained model weights')
parser.add_argument('--pos_thresh', default=0.5, help='threshold to judge positive box')
parser.add_argument('--neg_thresh', default=0.1, help='threshold to judge negative box')
parser.add_argument('--task', default='train', help='choose from test, train, val')
parser.add_argument('--epochs', default=100, help='train budget')
parser.add_argument('--samples', default=1000, help='sample num')
parser.add_argument('--batch_size', default=16)
parser.add_argument('--lamda_scale', default=1, help='balance score loss and boxes loss')
parser.add_argument('--lr', default=1e-3, help='learning rate')

args = parser.parse_args()




# 对输入图像以及标注文件进行解析，主要为计算每个anchor框的坐标，判断是否符合要求(anchor框位于图像内部)，对于符合要求的anchor框计算IOU并判断正负样例，并相应更新得分和是否检测到物体的mask，对于检测到物体的anchor框，还需要选取iou最大的gt框与之计算shift坐标变换量存储在target_boxes中。
def encode_label(gt_boxes):
    target_boxes = np.zeros(shape=[32, 32, 9, 4])
    target_scores = np.zeros(shape=[32, 32, 9, 2])
    target_mask = np.zeros(shape=[32, 32, 9])
    for i in range(32):
        for j in range(32):
            for k in range(9):
                center_y = i * args.grid_size + args.grid_size * 0.5
                center_x = j * args.grid_size + args.grid_size * 0.5
                # calculate the cordinates
                xmin = center_x - wandhG[k][0] * 0.5
                xmax = center_x + wandhG[k][0] * 0.5
                ymin = center_y - wandhG[k][1] * 0.5
                ymax = center_y + wandhG[k][1] * 0.5
                # filter the cross-boundary anchors
                if (xmin > -5) & (ymin > -5) & (xmax < (image_width + 5)) & (ymax < (image_height + 5)):
                    anchor_boxes = np.array([xmin, ymin, xmax, ymax])
                    # print(anchor_boxes)
                    anchor_boxes = np.expand_dims(anchor_boxes, axis=0)
                    # compute iou between anchor_box and gt
                    ious = []
                    for gt_box in gt_boxes:
                        iou = compute_iou(anchor_boxes[0], gt_box)
                        ious.append(iou)
                    ious = np.array(ious)
                    positive_masks = ious > args.pos_thresh
                    negative_masks = ious < args.neg_thresh

                    # identify positive or negative
                    if np.any(positive_masks):
                        # 标记检测到物体
                        target_scores[i, j, k, 1] = 1
                        target_mask[i, j, k] = 1
                        # 找出最匹配此anchor box的ground truth
                        max_iou_id = np.argmax(ious)
                        selected_gt_boxes = gt_boxes[max_iou_id]
                        target_boxes[i, j, k] = regression_box_shift(anchor_boxes[0], selected_gt_boxes)

                    if np.all(negative_masks):
                        target_scores[i, j, k, 0] = 1
                        target_mask[i, j, k] = -1
    return target_boxes, target_scores, target_mask



# 解析yaml配置文件，返回一个字典类型的数据结构
def parse_yaml(path):
    with open(args.data, 'r', encoding='utf-8') as f:
        data = f.read()
    yaml_data = yaml.load(data, Loader=yaml.FullLoader)
    return yaml_data


# 预处理图像及标签，返回归一化后的图像和准备好的target数据
def process_image_label(image_path, label_path):
    raw_image = cv2.imread(image_path)
    gt_boxes = load_gt_boxes(label_path)
    target = encode_label(gt_boxes)
    # image normalization
    raw_image = raw_image/255.0
    return raw_image, target



# 随机成对返回image和对应的label文件
def image_label_generator(data_path):
    image_label_paths = [(os.path.join(data_path, 'image/%d.png') % (i+1),
                          os.path.join(data_path, 'label/%d.txt') % (i+1)) for i in range(args.samples)]
    images = os.listdir(os.path.join(data_path, 'images'))
    labels = os.listdir(os.path.join(data_path, 'labels'))
    sample_num = len(images)
    image_label_paths = [(os.path.join(data_path, 'images', '%s.png' % name.split('.')[0]),
                            os.path.join(data_path, 'labels', '%s.txt' % name.split('.')[0])) for name in images]
    while True:
        random.shuffle(image_label_paths)
        for i in range(sample_num):
            yield image_label_paths[i]


# 根据batch_size生成对应batch，size，通道的张量图像数据
def data_generator(data_path, batch_size):
    image_label_path_generator = image_label_generator(data_path)
    while True:
        images = np.zeros(shape=[batch_size, image_height, image_width, 3])
        target_bboxes = np.zeros(shape=[batch_size, 32, 32, 9, 4], dtype=np.float32)
        target_scores = np.zeros(shape=[batch_size, 32, 32, 9, 2], dtype=np.float32)
        target_mask = np.zeros(shape=[batch_size, 32, 32, 9], dtype=np.int32)

        for i in range(batch_size):
            image_path, label_path = next(image_label_path_generator)
            # print(label_path)
            print(image_path)
            image, target = process_image_label(image_path, label_path)
            input_image = cv2.resize(image, dsize=(512, 512), interpolation=cv2.INTER_CUBIC)
            images[i] = input_image
            target_bboxes[i] = target[0]
            target_scores[i] = target[1]
            target_mask[i] = target[2]
        yield images, target_bboxes, target_scores, target_mask



# 计算损失函数得分损失采用交叉熵损失函数，box损失采用平滑L1损失
def compute_loss(target_scores, target_bboxes, target_masks, pred_scores, pred_bboxes):
    """
    target_scores shape: [1, 64, 64, 9, 2],  pred_scores shape: [1, 68, 64, 9, 2]
    target_bboxes shape: [1, 68, 64, 9, 4],  pred_bboxes shape: [1, 68, 64, 9, 4]
    target_masks  shape: [1, 68, 64, 9]
    """
    score_loss = tf.nn.softmax_cross_entropy_with_logits(labels=target_scores, logits=pred_scores)
    foreground_background_mask = (np.abs(target_masks) == 1).astype(np.int32)
    score_loss = tf.reduce_sum(score_loss * foreground_background_mask, axis=[1, 2, 3]) / np.sum(foreground_background_mask)
    score_loss = tf.reduce_mean(score_loss)

    boxes_loss = tf.abs(target_bboxes - pred_bboxes)
    boxes_loss = 0.5 * tf.pow(boxes_loss, 2) * tf.cast(boxes_loss < 1, tf.float32) + (boxes_loss - 0.5) * tf.cast(boxes_loss >=1, tf.float32)
    boxes_loss = tf.reduce_sum(boxes_loss, axis=-1)
    foreground_mask = np.array(target_masks > 0).astype(np.float32)
    boxes_loss = tf.reduce_sum(boxes_loss * foreground_mask, axis=[1,2,3]) / np.sum(foreground_mask)
    boxes_loss = tf.reduce_mean(boxes_loss)

    return score_loss, boxes_loss


yaml_data = parse_yaml(args.data)
data_path = os.path.join(yaml_data['path'], yaml_data[args.task])
TrainSet = data_generator(data_path, args.batch_size)

model = RPN()
optimizer = tf.keras.optimizers.Adam(learning_rate=args.lr)
writer = tf.summary.create_file_writer("./log")
global_steps = tf.Variable(0, trainable=False, dtype=tf.int64)

with open('loss.txt', 'w') as fl:
    for epoch in range(args.epochs):
        for step in range(int(args.samples/args.batch_size)):
            global_steps.assign_add(1)
            image_data, target_bboxes, target_scores, target_masks = next(TrainSet)
            # image_data, target_bboxes, target_scores, target_masks = data_generator_test(1)
            # if np.any(np.isnan(target_bboxes)):
            #     print('target_bboxes contain nan')
            # if np.any(np.isnan(target_scores)):
            #     print('target_scores contain nan')
            with tf.GradientTape() as tape:
                pred_bboxes, pred_scores = model(image_data)
                # pred_scores1 = tf.nn.softmax(pred_scores, axis=-1)
                # pred_scores_test = pred_scores1.numpy().reshape((-1, 2))
                # pred_boxes2, pred_scores2 = output_decode(pred_bboxes, pred_scores1, 0.)
                # pred_boxes_test = pred_boxes2.reshape((-1, 4))
                if np.any(np.isnan(pred_scores)):
                    print('pred_scores contain nan')
                if np.any(np.isnan(pred_bboxes)):
                    print('pred_bboxes contain nan')
                score_loss, boxes_loss = compute_loss(target_scores, target_bboxes, target_masks, pred_scores, pred_bboxes)
                print(score_loss)
                if np.any(np.isnan(score_loss)):
                    score_loss = tf.constant(1e-8, dtype=tf.float32)
                    print('score_loss contain nan')
                if np.any(np.isnan(boxes_loss)):
                    boxes_loss = tf.constant(1e-8, dtype=tf.float32)
                    print('boxes_loss contain nan')
                total_loss = score_loss + args.lamda_scale * boxes_loss

                gradients = tape.gradient(total_loss, model.trainable_variables)
                optimizer.apply_gradients(zip(gradients, model.trainable_variables))
                print("=> epoch %d  step %d  total_loss: %.6f  score_loss: %.6f  boxes_loss: %.6f" % (epoch + 1, step + 1,
                                                                                                      total_loss.numpy(),
                                                                                                      score_loss.numpy(),
                                                                                                      boxes_loss.numpy()))

            fl.write('%d %d %.6f %.6f %.6f' % (epoch, step, score_loss.numpy(), boxes_loss.numpy(), total_loss.numpy()))
            fl.write('\n')
            # writing summary data
            with writer.as_default():
                tf.summary.scalar("total_loss", total_loss, step=global_steps)
                tf.summary.scalar("score_loss", score_loss, step=global_steps)
                tf.summary.scalar("boxes_loss", boxes_loss, step=global_steps)
            writer.flush()
        model.save_weights("RPN.h5")
fl.close()
plot_learning_curve('loss.txt')

train函数中采用parser进行参数管理，相关函数在代码中进行了解释，值得注意的是在损失函数计算过程中，得分的部分采用softmax交叉熵，因为网络原本的最后输出是未经过激活函数激活的；box部分的损失采用L1平滑损失进行计算，优点在于在远离原点的部分斜率稳定，不会造成梯度爆炸，训练过程等稳定，在原点的损失函数倒数不为0，可求解。

另外在计算损失函数过程中，为了防止出现网络神经元坏死的现象即loss出现nan值，代码中设置了损失截断，以一个极小值代替0损失，实验训练结果证明是有效果的。还有一种方法就是在对anchor框判断是否位于图像内部时，可以将边界适当放宽（此代码中为5），即使anchor框部分位于图像之外，也是符合要求不会被滤除。

6、test.py

import os
from argparse import ArgumentParser
from utils import output_decode, plot_boxes_on_image, nms
import cv2
import numpy as np
import tensorflow as tf
from rpn import RPN
import yaml
from tqdm import tqdm

parser = ArgumentParser(description='paras for test')
parser.add_argument('--data', default='data.yaml', help='test data config yaml')
parser.add_argument('--img_size', default=512, help='input image size')
parser.add_argument('--weights', default='RPN1.h5', help='trained model weights')
parser.add_argument('--score_thresh', default=0.3, help='threshold to filter low confidence boxes')
parser.add_argument('--nms_thresh', default=0.1, help='threshold to filter overlapped predict boxes')
parser.add_argument('--task', default='test', help='choose from test, train, val')
args = parser.parse_args()


def test():
    print('Testing...')
    # parse yaml config file
    with open(args.data, 'r', encoding='utf-8') as f:
        data = f.read()
    yaml_data = yaml.load(data, Loader=yaml.FullLoader)
    test_data_path = os.path.join(yaml_data['path'], yaml_data[args.task])
    pred_result_path = os.path.join(yaml_data['path'], 'pred')
    # pred_result_path = str(pred_result_path)
    print(test_data_path)
    print(pred_result_path)
    # test_data_path = '/'
    # load weights of rpn
    model = RPN()
    fake_data = np.ones(shape=(1, args.img_size, args.img_size, 3), dtype=np.float64)
    model(x=fake_data)
    model.load_weights(args.weights)

    if not os.path.exists(pred_result_path):
        os.mkdir(pred_result_path)
    for file in tqdm(os.listdir(test_data_path)):
        # print('Predicting...', file)
        raw_img = cv2.imread(os.path.join(test_data_path, file))
        # prepare data
        input_data = cv2.resize(raw_img, (args.img_size, args.img_size), interpolation=cv2.INTER_CUBIC)
        # print(input_data.shape)
        input_data = np.expand_dims(input_data/255.0, 0)
        # prediction
        pred_boxes, pred_scores = model(input_data)
        # decode prediction
        pred_scores1 = tf.nn.softmax(pred_scores, axis=-1)
        pred_boxes2, pred_scores2 = output_decode(pred_boxes, pred_scores1, args.score_thresh)
        # non maximum suppression
        pred_boxes3, pred_scores3 = nms(pred_boxes2, pred_scores2, args.nms_thresh)
        # plot prediction result on raw image
        img_with_boxes = plot_boxes_on_image(raw_img, np.array(pred_boxes3)*2, [256, 56, 56])
        for i in range(len(pred_scores3)):
            xmin = int(pred_boxes3[i, 0])*2
            xmax = int(pred_boxes3[i, 0])*2 + 145
            ymin = int(pred_boxes3[i, 1])*2 - 20
            ymax = int(pred_boxes3[i, 1])*2
            cv2.rectangle(img_with_boxes, pt1=(xmin, ymin), pt2=(xmax, ymax), color=[56, 56, 255], thickness=-1)
            cv2.putText(img_with_boxes, 'target %.3f' % pred_scores3[i],
                        (xmin, ymax - 4),
                        cv2.FONT_HERSHEY_SIMPLEX, 0.55, [255, 255, 255], 2)
        cv2.imwrite(os.path.join(pred_result_path, str(file)), img_with_boxes)


if __name__ == '__main__':
    test()

test中先使用fake_data加载训练好的模型参数初始化模型，也就是RPN.h5文件，接着按顺序对测试文件进行预处理并喂入模型进行预测，并对结果进行解码，最后将预测框和标签及得分绘制在图像上进行保存。

7、data.yaml配置文件的格式

# Faster RCNN data config yaml

 
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]

path: C:/Users/1234/Desktop/data_split # dataset root dir
train: train/images  # train images (relative to 'path') 128 images
test: new_test
#val: val/images  # val images (relative to 'path') 128 images
#test: test/images  # test images (optional)

# Classes
nc: 1  # number of classes
names: ['target']  # class names

8、有关训练的记录

能看到这里相信你一定非常想看到自己的模型跑出正确的结果，但常常不是那么顺利。构建网络准备数据的过程十分顺利，对函数逐个进行测试也没问题，但整体运行就容易出问题。下面总结的是我在训练Faster RCNN过程中出现的问题：

（1）训练速度慢，会报tensorflow的warning，一般是GPU拉跨。需要将输入图像尺寸缩小一点，batch_size缩小一点。

（2）训练过程中出现神经元坏死，这个问题很常见，一般是anchor框超出图像范围被滤除了，之前一篇文章已经解释过了。

（3）训练过程中出现梯度爆炸，第一可适当将learning_rate调小一点，学习率过大会导致网络参数的调整幅度太大，学习过程不稳定；第二检查代码中各个函数是否发生传参问题，比如计算anchor框向gt框偏移量的函数，传参反了会导致anchor框越来越偏离gt框，损失当然会越来越大。

（4）可适当增加batch_size，防止batch过小引起的训练过程不稳定。

9、结果展示

损失函数：损失收敛的比较快

训练好的模型的检测结果：定位框的精度还不够高，可能是因为colab有资源限制，训练轮数不够。

才疏学浅，欢迎指正！

你可能感兴趣的:(tensorflow,tensorflow,神经网络,深度学习)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
使用tensorflow的多项式回归的例子（二） lishaoan77 tensorflow tensorflow 回归人工智能多项式回归
例2importtensorflowastfimportnumpyasnpimportmatplotlib.pyplotaspltplt.style.use('default')#importtensorflow.contrib.eagerastfe#fromgoogle.colabimportfiles#tf.enable_eager_execution()x=np.arange(0,5,0.1
使用tensorflow的线性回归的例子（七） lishaoan77 tensorflow tensorflow 线性回归人工智能
L1与L2损失这个脚本展示如何用TensorFlow求解线性回归。在算法的收敛性中，理解损失函数的影响是很重要的。这里我们展示L1和L2损失函数是如何影响线性回归的收敛性的。我们使用iris数据集,但是我们将改变损失函数和学习速率来看收敛性的改变。importmatplotlib.pyplotaspltimportnumpyasnpimporttensorflowastffromsklearnim
使用tensorflow的线性回归的例子（十二） lishaoan77 tensorflow tensorflow 线性回归人工智能戴明回归
DemingRegression这里展示如何用TensorFlow求解线性戴明回归。=+y=Ax+b我们用iris数据集,特别是:y=SepalLength且x=PetalWidth。戴明回归Demingregression也称为totalleastsquares,其中我们最小化从预测线到实际点(x,y)的最短的距离。最小二乘线性回归最小化与预测线的垂直距离，戴明回归最小化与预测线的总的距离，这种
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
《从依赖纠缠到接口协作：ASP.NET Core注入式开发指南》后端
在C#的ASP.NETCore开发中，依赖注入绝非简单的技术技巧，而是重构代码关系的底层逻辑。它像一套隐形的神经网络，让程序模块摆脱硬编码的束缚，在运行时实现动态连接，从而为系统注入可测试、可进化的核心生命力。理解其深层价值，需要穿透"服务注册与获取"的表层操作，触及它对软件设计哲学的重塑。依赖注入的本质，是对"依赖关系"的去中心化治理。传统开发中，模块间的依赖如同藤蔓缠绕的树木，一个组件直接创建
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
【零基础学AI】第36讲：GPT模型原理 1989 0基础学AI 人工智能 gpt lstm rnn YOLO 目标检测
本节课你将学到理解GPT模型的基本原理掌握Transformer解码器的工作机制实现一个简单的文本生成应用开始之前环境要求Python3.8+安装包：pipinstalltransformerstorch硬件：CPU即可运行（GPU可加速）前置知识了解基本的神经网络概念（第23讲内容）熟悉Python编程基础核心概念什么是GPT？GPT（GenerativePre-trainedTransform
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi