自学小白菜

Faster-RCNN代码解读6：主要文件解读-中

前言

因为最近打算尝试一下Faster-RCNN的复现，不要多想，我还没有厉害到可以一个人复现所有代码。所以，是参考别人的代码，进行自己的解读。

代码来自于B站的UP主（大佬666），其把代码都放到了GitHub上了，我把链接都放到下面了（应该不算侵权吧，毕竟代码都开源了^_）：

b站链接：https://www.bilibili.com/video/BV1of4y1m7nj/?vd_source=afeab8b555e5eb1bfa1e7f267262cbf2

GitHub链接：https://github.com/WZMIAOMIAO/deep-learning-for-image-processing

目的

其实UP主已经做了很好的视频讲解了他的代码，只是有时候我还是喜欢阅读博客来学习，另外视频很长，6个小时，我看的时候容易睡着^_，所以才打算写博客记录一下学习笔记。

目前完成的内容

第一篇：VOC数据集详细介绍

第二篇：Faster-RCNN代码解读2：快速上手使用

第三篇：Faster-RCNN代码解读3：制作自己的数据加载器

第四篇：Faster-RCNN代码解读4：辅助文件解读

第五篇： Faster-RCNN代码解读5：主要文件解读-上

第六篇： Faster-RCNN代码解读6：主要文件解读-中（本文）

目录结构

文章目录

- Faster-RCNN代码解读6：主要文件解读-中
- - 1. 前言：
  - 2. faster_rcnn_framework.py文件解读：
  - - 2.1 FasterRCNNBase类：
    - 2.2 TwoMLPHead类：
    - 2.3 FastRCNNPredictor类：
    - 2.4 FasterRCNN类：
    - 2.5 小结：
  - 3. roi_head.py文件解读：
  - - 3.1 RoIHeads类：
    - 3.2 fastrcnn_loss函数：
  - 4. 总结：

1. 前言：

之前讲解了network_files文件夹下的transform.py \ boxes.py \ image_list.py文件，这篇文章继续讲解该文件夹下的内容，主要涉及的文件：

faster_rcnn_framework.py
roi_head.py

首先，放张图片，是作者根据代码来画的Faster-RCNN细节图。读过论文的朋友都知道，在论文中并没有详细的给出Faster-RCNN架构图，只是给了一张粗略的图片。

另外，在解读之前，我想补充一点：作者给出了不同的训练网络，比如mobilenet、res50+fpn，其中fpn表示引入不同的特征层。而为了方便代码的统一，作者一般会用一个索引字典来存储相关变量，而mobilenet只有一个特征层，所以只有一个值；而res50+fpn有多个特征层，所以字典有多个值。

关于这一点，你在读代码的时候会发现很多地方都出现了的。

2. faster_rcnn_framework.py文件解读：

这个文件的主要内容就是Faster-RCNN的架构实现。下面来一一讲解里面的类和实现思路。

2.1 FasterRCNNBase类：

这个类是Faster-RCNN的基础，里面主要有两个方法，一是初始化方法，二是前向传播方法。其主要实现了Faster-RCNN整体的正向传播定义。

__init__方法：

初始化一些变量。

输入参数：

参数	意义
backbone	特征提取网络模型
rpn	rpn模型
roi_heads	roi pooling和后面的部分
transform	变换操作

该方法具体内容就是将传入参数变为类变量：

self.transform = transform  # 预处理方法
self.backbone = backbone    # 骨干CNN架构网络
self.rpn = rpn  # RPN网络
self.roi_heads = roi_heads  # ROI_Head部分

forward方法：

前向传播方法。

传入参数：

参数	意义
images	需要处理的图像，batch
targets	target参数，一个列表，里面的每一个值都是字典，一个字典就是我们自定义数据加载器的target

首先，判断是否为训练模式，如果为训练模式，target不能为空：

# 判断是否为训练模式，如果为训练模式，target不能为空
if self.training and targets is None:
    raise ValueError("In training mode, targets should be passed")

接着，把boxes值（此时的为真实的值）提取出来并检测数据是否存在问题：

# 如果是训练模式
if self.training:
    # 保存target不是空的
    assert targets is not None
    # 对于targets列表中的每一个target
    for target in targets:         # 进一步判断传入的target的boxes参数是否符合规定
        boxes = target["boxes"]
        # 是否为tensor
        if isinstance(boxes, torch.Tensor):
            # boxes维度判断，必须为【N，4】，N表示一章图片中有N个对象，4为坐标
            if len(boxes.shape) != 2 or boxes.shape[-1] != 4:
                raise ValueError("Expected target boxes to be a tensor"
                                 "of shape [N, 4], got {:}.".format(
                                     boxes.shape))
		else:
            raise ValueError("Expected target boxes to be of type "
                             "Tensor, got {:}.".format(type(boxes)))

然后，获取图像原始尺寸；

# 定义一个空列表,后面的内容torch.jit.annotate是指明这个列表里面的值为啥形式，必须满足这个条件才可以存储进来
original_image_sizes = torch.jit.annotate(List[Tuple[int, int]], [])
# 获取图像的原始尺寸
for img in images:
    val = img.shape[-2:]
    assert len(val) == 2  # 防止输入的是个一维向量
    original_image_sizes.append((val[0], val[1]))

接着，对图像和图像对应的target进行预处理：

# 对图像进行预处理：需要归一化、resize处理（限制图像最小和最大尺度）
images, targets = self.transform(images, targets)

然后，就是将图像作为输入数据，按照Faster-RCNN架构顺序调用相关方法（即先送入backbone，，其输出特征图；接着利用特征图生成建议框；接着就是ROI Pooling以及后面的分类、回归等操作）：

features = self.backbone(images.tensors)  # 将图像输入backbone得到特征图
if isinstance(features, torch.Tensor):  # 若只在一层特征层上预测，将feature放入有序字典中，并编号为‘0’
    features = OrderedDict([('0', features)])  # 若在多层特征层上预测，传入的就是一个有序字典

# 将特征层以及标注target信息传入rpn中
# proposals: List[Tensor], Tensor_shape: [num_proposals, 4],
# 每个proposals是绝对坐标，且为(x1, y1, x2, y2)格式
proposals, proposal_losses = self.rpn(images, features, targets)

# 将rpn生成的数据以及标注target信息传入fast rcnn后半部分
detections, detector_losses = self.roi_heads(features, proposals, images.image_sizes, targets)

# 对网络的预测结果进行后处理（主要将bboxes还原到原图像尺度上）
detections = self.transform.postprocess(detections, images.image_sizes, original_image_sizes)

最后，不要忘记把损失值保存一下，方便后期画图：

# 损失保存一下，后期画图用
losses = {}
losses.update(detector_losses)
losses.update(proposal_losses)

2.2 TwoMLPHead类：

这个方法定义的就是下图对应的区域：

__init__方法：

传入的参数：

参数	意义
in_channels	ROI pooling后的输入通道个数
representation_size	FC1 和 FC2的通道数/神经元数目

该方法内部的代码也很简单，就是定义了fc1 和 fc2：

self.fc6 = nn.Linear(in_channels, representation_size)
self.fc7 = nn.Linear(representation_size, representation_size)

forward方法：

前向传播方法。首先，需要实现flatten展平操作，然后再用全连接层前向传播即可：

# 展平
x = x.flatten(start_dim=1)
# 前向传播，不要忘记relu激活函数
x = F.relu(self.fc6(x))
x = F.relu(self.fc7(x))

2.3 FastRCNNPredictor类：

这个类定义的就是下图对应的区域：

__init__方法：

传入的参数：

参数	意义
in_channels	输入的通道个数
num_classes	类别个数，包括背景

这个方法内容很简单，就是定义两个全连接层，只是注意这两个的输出通道个数如何定义的：

self.cls_score = nn.Linear(in_channels, num_classes)
self.bbox_pred = nn.Linear(in_channels, num_classes * 4)

在这里，分类全连接层输出通道数肯定是类别个数，而回归全连接层输出个数为4*类别个数，是因为每个类别的边界框坐标都有四个。

forward方法：

前向传播方法很简单，具体内容看代码注释：

# 如果输入数据为4维的，即【batch，channel，w，h】
# 说明之前的处理有问题，报错
# 但是一般情况下不会进入该判断
if x.dim() == 4:
    assert list(x.shape[2:]) == [1, 1]
# 展平处理
# 其实并不需要，其实之前的全连接层已经展平过了
x = x.flatten(start_dim=1)
# 预测
scores = self.cls_score(x)
bbox_deltas = self.bbox_pred(x)

2.4 FasterRCNN类：

这个类继承自FasterRCNNBase类，主要实现了Faster-RCNN的参数初始化部分。

其定义了一个方法，即__init__。首先，看看它的参数（）：

参数	意义
backbone	CNN架构
num_classes	类别个数，包括背景，采用VOC数据集为21
min_size 与 max_size	预处理resize时限制的最小尺寸与最大尺寸
image_mean 与 image_std	预处理normalize时使用的均值和方差
rpn_anchor_generator	通过后面的RPN方法定义的，用于生成anchors
rpn_head	也是后面RPN定义的，是RPN的部分结构
rpn_pre_nms_top_n_train 与 rpn_pre_nms_top_n_test	rpn中在nms处理前保留的proposal数(根据score)
rpn_post_nms_top_n_train 与 rpn_post_nms_top_n_test	rpn中在nms处理后保留的proposal数，主要针对的是FPN网络，每层都2000个，叠加起来超过上万个，于是使用nms保持2000个
rpn_nms_thresh	rpn中进行nms处理时使用的iou阈值
rpn_fg_iou_thresh 与 rpn_bg_iou_thresh	rpn计算损失时，采集正负样本设置的阈值
rpn_batch_size_per_image 与 rpn_positive_fraction	rpn计算损失时采样的样本数，以及正样本占总样本的比例
box_roi_pool	下面图片对应的1区域
box_head	下面图片对应的2区域
box_predictor	下面图片对应的3区域
box_score_thresh	移除低目标概率的阈值
box_nms_thresh	fast rcnn中进行nms处理的阈值
box_detections_per_img	对预测结果根据score排序取前100个目标
box_fg_iou_thresh 与 box_bg_iou_thresh	fast rcnn计算误差时，采集正负样本设置的阈值
box_batch_size_per_image 与 box_positive_fraction	fast rcnn计算误差时采样的样本数，以及正样本占所有样本的比例

其函数内容如下：

首先，判断backbone是否有输出通道属性，目的是防止backbone设置错误：

# backbone是否有out_channels属性，即输出通道数
if not hasattr(backbone, "out_channels"):
    raise ValueError(
        "backbone should contain an attribute out_channels"
        "specifying the number of output channels  (assumed to be the"
        "same for all the levels"
    )

接着，还是判断传入的参数是否存在问题：

# 进行一些判断
assert isinstance(rpn_anchor_generator, (AnchorsGenerator, type(None))) # 是否为我们自己定义的AnchorsGenerator类，如果为None，后面再创建
assert isinstance(box_roi_pool, (MultiScaleRoIAlign, type(None))) # 是否有ROI Pooling

# 如果num_classes不为空
if num_classes is not None:
    # 那么，说明num_classes是我们自己定义的，那么box_predictor也要有定义
    if box_predictor is not None:
        raise ValueError("num_classes should be None when box_predictor "
                         "is specified")
else:
    if box_predictor is None:
        raise ValueError("num_classes should not be None when box_predictor "
                         "is not specified")

然后，判断rpn_anchor_generator是否为空，对于train_mobilenetv2.py而言不为空，但是对于但是train_res50_fpn.py为空，因此需要针对该情况创建：

# 预测特征层的channels
out_channels = backbone.out_channels

# train_mobilenetv2.py文件已经定义了rpn_anchor_generator，但是train_res50_fpn.py没有定义
# 若anchor生成器为空，则自动生成针对resnet50_fpn的anchor生成器
if rpn_anchor_generator is None:
    # res50 + fpn 有五个特征层，因此传入的anchor_size参数，需要变为五个元组
    # 不同的特征层进行不同的尺度处理
    anchor_sizes = ((32,), (64,), (128,), (256,), (512,))
    aspect_ratios = ((0.5, 1.0, 2.0),) * len(anchor_sizes)
    rpn_anchor_generator = AnchorsGenerator(
        anchor_sizes, aspect_ratios
    )

后面，就是继续初始化一些变量并将一些构件进行组合方便后期使用，我就不细说了，把内容写在了注释上：

#  由于一般不会传rpn_head参数，所以需要创建
# 生成RPN通过滑动窗口预测网络部分
if rpn_head is None:
    rpn_head = RPNHead(
        out_channels, rpn_anchor_generator.num_anchors_per_location()[0]
    )

# 默认rpn_pre_nms_top_n_train = 2000, rpn_pre_nms_top_n_test = 1000,
# 默认rpn_post_nms_top_n_train = 2000, rpn_post_nms_top_n_test = 1000,
# 生成两个字典
rpn_pre_nms_top_n = dict(training=rpn_pre_nms_top_n_train, testing=rpn_pre_nms_top_n_test)
rpn_post_nms_top_n = dict(training=rpn_post_nms_top_n_train, testing=rpn_post_nms_top_n_test)

# 定义整个RPN框架，具体的实现在后面讲解
rpn = RegionProposalNetwork(
    rpn_anchor_generator, rpn_head,
    rpn_fg_iou_thresh, rpn_bg_iou_thresh,
    rpn_batch_size_per_image, rpn_positive_fraction,
    rpn_pre_nms_top_n, rpn_post_nms_top_n, rpn_nms_thresh,
    score_thresh=rpn_score_thresh)

#  Multi-scale RoIAlign pooling
# 如果我们用了res+fpn，是多个（5个）特征层，因此需要专门设定ROI Pooling
# 但是，官方实现的时候，没有加上最后一层，因此总共为4层
if box_roi_pool is None:
    box_roi_pool = MultiScaleRoIAlign(
        featmap_names=['0', '1', '2', '3'],  # 在哪些特征层进行roi pooling
        output_size=[7, 7],
        sampling_ratio=2)

# fast RCNN中roi pooling后的展平处理两个全连接层部分
# 定义
if box_head is None:
    resolution = box_roi_pool.output_size[0]  # 默认等于7
    representation_size = 1024
    # 这个类上面讲解过了
    box_head = TwoMLPHead(
        out_channels * resolution ** 2,
        representation_size
    )

# 在box_head的输出上预测部分
if box_predictor is None:
    representation_size = 1024
    # 这个类上面讲解过了
    box_predictor = FastRCNNPredictor(
        representation_size,
        num_classes)

# 将roi pooling, box_head以及box_predictor结合在一起： 方便定义处理方法和前向传播方法
# 见下面3.1讲解
roi_heads = RoIHeads(
    # box
    box_roi_pool, box_head, box_predictor,
    box_fg_iou_thresh, box_bg_iou_thresh,  # 0.5  0.5
    box_batch_size_per_image, box_positive_fraction,  # 512  0.25
    bbox_reg_weights,
    box_score_thresh, box_nms_thresh, box_detections_per_img)  # 0.05  0.5  100

# 预处理的图像均值和方差定义
if image_mean is None:
    image_mean = [0.485, 0.456, 0.406]
if image_std is None:
	image_std = [0.229, 0.224, 0.225]

# 对数据进行标准化，缩放，打包成batch等处理部分
transform = GeneralizedRCNNTransform(min_size, max_size, image_mean, image_std)

说明：

在上面的代码中，其实有一个函数实现了ROI Pooling，就是：

#  Multi-scale RoIAlign pooling
# 如果我们用了res+fpn，是多个（5个）特征层，因此需要专门设定ROI Pooling
# 但是，官方实现的时候，没有加上最后一层，因此总共为4层
if box_roi_pool is None:
    box_roi_pool = MultiScaleRoIAlign(
        featmap_names=['0', '1', '2', '3'],  # 在哪些特征层进行roi pooling
        output_size=[7, 7],
        sampling_ratio=2)

我之所以专门提出它，是因为作者并没有单独再去实现ROI pooling方法了。作者给出了解释：MultiScaleRoIAlign方法是torchvision官方实现的，并且已经封装好了，所以没有办法看到源码。但是网上仍然有许多相关的实现方法，感兴趣的可以取看看。

2.5 小结：

faster_rcnn_framework.py文件是该项目中非常重要的文件之一。当阅读完该文件代码后，我们可以知道：该文件实现了将Faster-RCNN的各个组件串联一起的功能。

比如，在network_files文件夹下，主要实现了rpn框架、预处理方法、ROI pooling及其后面流程组成的roi_head框架等功能，而faster_rcnn_framework.py就是将这些串起来了，构成了一个完整的Faster-RCNN。

如果上面有一些代码你没有弄明白，可以多看一遍，或者自己取调试代码，弄清变量含义。

3. roi_head.py文件解读：

3.1 RoIHeads类：

上面2.4小节第一次出现RoIHeads类，这个类的作用就是把下图框起来的部分结合在一起来处理：

__init__方法：

首先，看看传入的参数：

参数	意义
box_roi_pool	上图中的ROIPpooling
box_head	上图中的TwoMLPHead
box_predictor	上图中的FastRCNNPredictor
fg_iou_thresh 与 bg_iou_thresh	正负样本划分阈值，都为0.5
batch_size_per_image 与 positive_fraction	样本总数与正负样本比例
score_thresh 与 nms_thresh 与 detection_per_img	三个阈值，值分别为0.05，0.5，100

这里说明一下上面参数中的detection_per_img参数，其默认值为100。表示一张图片前100个score值最大的对象，之所以设置为100个，是因为一般图像并没有100个对象，因此设置100个可以让大部分图片的对象都包含在内。

初始化方法的内容就是初始化一些对象，其中有几个对象是文件det_utils.py中的，这些对象的具体内容会在下一篇讲解。

初始化方法很简单，看下面的注释即可：

# 将iou方法赋予给box_similarity
self.box_similarity = box_ops.box_iou
# det_utils.Matcher作用是划分正负样本
self.proposal_matcher = det_utils.Matcher(
    fg_iou_thresh,  # default: 0.5
    bg_iou_thresh,  # default: 0.5
    allow_low_quality_matches=False)
# BalancedPositiveNegativeSampler 作用是将划分好正负样本的proposal进行采样
self.fg_bg_sampler = det_utils.BalancedPositiveNegativeSampler(
    batch_size_per_image,  # default: 512
    positive_fraction)     # default: 0.25
# 超参数，后面用的时候再说
if bbox_reg_weights is None:
    bbox_reg_weights = (10., 10., 5., 5.)
    #
    self.box_coder = det_utils.BoxCoder(bbox_reg_weights)

    # 简单的赋值操作 / 初始化变量
    self.box_roi_pool = box_roi_pool    # Multi-scale RoIAlign pooling
    self.box_head = box_head            # TwoMLPHead
    self.box_predictor = box_predictor  # FastRCNNPredictor

    self.score_thresh = score_thresh  # default: 0.05
    self.nms_thresh = nms_thresh      # default: 0.5
    self.detection_per_img = detection_per_img  # default: 100

forward方法：

下面以前向传播方法为路径，遇到新方法就讲解新方法的内容（新方法补充在下面）。

首先，看看forward方法的参数：

参数	意义
features	图像特征层
proposals	rpn输出的proposal值，格式为List[Tensor[N, 4]]
image_shapes	预处理后的图像尺寸信息
targets	图像对应的target信息（真实值）

代码内容如下：

首先，检测target内部的值是否符合要求：

# 检查targets的数据类型是否正确
if targets is not None:
    for t in targets:
        floating_point_types = (torch.float, torch.double, torch.half)
        assert t["boxes"].dtype in floating_point_types, "target boxes must of float type"
        assert t["labels"].dtype == torch.int64, "target labels must of int64 type"

接着，判断是否为训练模式，如果为训练模式，则需要对proposal进行处理（划分正负样本，统计对应gt的标签以及边界框回归信息等），否则就不需要：（方法select_training_samples见后面）

if self.training:
    # 划分正负样本，统计对应gt的标签以及边界框回归信息
    # 因为传入的proposal 2000个，但是我们只需要512个，所以需要进行采样
    proposals, labels, regression_targets = self.select_training_samples(proposals, targets)
else:
    labels = None
    regression_targets = None

通过上面的方法，我们就获取到了proposal、label、anchor回归参数。接着，我们需要进行ROI Pooling操作：

# 将采集样本通过Multi-scale RoIAlign pooling层，即输出的大小都相同
# box_features_shape: [num_proposals, channel, height, width] = 【1024，256，7，7】 （2张图片=512*2=1024）
box_features = self.box_roi_pool(features, proposals, image_shapes)

然后，通过两个全连接层：

# 通过roi_pooling后的两层全连接层
# box_features_shape: [num_proposals, representation_size] = 【1024，1024】 后一个1024是全连接层的输出个数
box_features = self.box_head(box_features)

进行最后的回归和分类操作：

# 接着分别预测目标类别和边界框回归参数，这就是我们的预测结果
class_logits, box_regression = self.box_predictor(box_features)
# class_logits = 【1024，21】
# box_regression = 【1024，84】 ，81 = 21*4  ， 每个类别都有四个坐标值

最后，如果是训练模式，需要计入损失；如果不是，则需要进行后处理操作显示预测结果：

# 定义result格式
result = torch.jit.annotate(List[Dict[str, torch.Tensor]], [])
# 定义损失函数空字典
losses = {}
if self.training:
    # 如果是训练模式，需要计算损失
    assert labels is not None and regression_targets is not None
    loss_classifier, loss_box_reg = fastrcnn_loss(
        class_logits, box_regression, labels, regression_targets)
    # 把损失添加一下
    losses = {
        "loss_classifier": loss_classifier,
        "loss_box_reg": loss_box_reg
    }
else:
    # 如果是验证，不需要计算损失
    # 直接对预测结果进行后处理： 低概率筛选，nms处理
    boxes, scores, labels = self.postprocess_detections(class_logits, box_regression, proposals, image_shapes)
    # 获取个数
    num_images = len(boxes)
    # 将值传入result参数值返回
    for i in range(num_images):
        result.append(
            {
                "boxes": boxes[i],
                "labels": labels[i],
                "scores": scores[i],
            }
        )

后处理方法见后面。

elect_training_samples方法：

这个方法的作用是：划分正负样本，统计对应gt的标签以及边界框回归信息。

首先，传入的参数：

参数	意义
proposals	rpn预测的boxes，2000个
targets	真实图像的信息

代码内容如下：

首先，检测数据是否正常并获取一些基本值：

# 检查target数据是否为空
self.check_targets(targets)
# 如果不加这句，jit.script会不通过(看不懂)
assert targets is not None

# 获取proposal的类型和设备信息
dtype = proposals[0].dtype
device = proposals[0].device

# 获取标注好的真实boxes以及labels信息
gt_boxes = [t["boxes"].to(dtype) for t in targets]
gt_labels = [t["labels"] for t in targets]

由于正例的proposal很少，所以作者把真实样本框的值也加入了其中：（add_gt_proposals方法见后面）

# 将gt_boxes拼接到proposal后面
proposals = self.add_gt_proposals(proposals, gt_boxes)

然后，为计算每个proposal与对应的真实框的iou，并划分正负样本（该流程由方法assign_targets_to_proposals实现，见后面）：

# 为每个proposal匹配对应的gt_box，并划分到正负样本中
matched_idxs, labels = self.assign_targets_to_proposals(proposals, gt_boxes, gt_labels)

划分完正负样本后，就是按照给定的参数进行正负样本采样：（方法subsample见后面）

# 按给定数量和比例采样正负样本
sampled_inds = self.subsample(labels)

采样完成后，就是去获取正负样本和其对应的标签，并利用anchor和真实框进行回归：

# 遍历每张图像
for img_id in range(num_images):
    # 获取每张图像的正负样本索引
    img_sampled_inds = sampled_inds[img_id]
    # 获取对应 正负 样本的proposals信息
    proposals[img_id] = proposals[img_id][img_sampled_inds]
    # 获取对应 正负 样本的真实类别信息
    labels[img_id] = labels[img_id][img_sampled_inds]
    # 获取对应 正负 样本的gt索引信息
    matched_idxs[img_id] = matched_idxs[img_id][img_sampled_inds]

    # 获取图像的gt box
    gt_boxes_in_image = gt_boxes[img_id]
    # 如果gt box个数为0
    if gt_boxes_in_image.numel() == 0:
        # 给它一个0值
        gt_boxes_in_image = torch.zeros((1, 4), dtype=dtype, device=device)
	# 获取对应正负样本的gt box信息
    # matched_idxs[img_id] = gt box的索引
    # gt_boxes_in_image[matched_idxs[img_id]] 将索引对应的值提取出来
    # matched_gt_boxes就为[512,4]，坐标信息
    matched_gt_boxes.append(gt_boxes_in_image[matched_idxs[img_id]])

# 根据gt和proposal计算边框回归参数（针对gt的），真实的回归
regression_targets = self.box_coder.encode(matched_gt_boxes, proposals)
return proposals, labels, regression_targets

我们知道，这里作者定义的采集512个正负样本，那么可以在调试代码的时候验证一下输出，如下图所示：

另外，不要忘记，每个变量其实都是batch，因此具体的结构为[batch,512,4]：

add_gt_proposals方法：

该方法的作用：将gt_boxes拼接到proposal后面。

传入的参数：

参数	意义
proposals	一个batch中每张图像rpn预测的boxes
gt_boxes	一个batch中每张图像对应的真实目标边界框

该方法的实现很简单，就是直接遍历拼接即可：

# 直接遍历拼接
# 目的： 增加正样本个数
proposals = [
    torch.cat((proposal, gt_box))
    for proposal, gt_box in zip(proposals, gt_boxes)
]

为了让大家更直观的观测其值的变化，可以对代码进行调试，首先，运行前后的proposal变量shape：

而该方法的作用是把真实框加入其中，那么看看真实框的shape是不是[1,4]即可验证函数作用：

assign_targets_to_proposals方法：

该方法的作用就是：为每个proposal匹配对应的gt_box，并划分到正负样本中。

传入的参数：

参数	意义
proposals	rpn输出的proposals值
gt_boxes	真实框的坐标信息
gt_labels	真实框的类别信息

代码的具体内容可以看注释：

# 定义两个空列表，待会用于存储值
matched_idxs = []
labels = []
# 遍历每张图像的proposals, gt_boxes, gt_labels信息
for proposals_in_image, gt_boxes_in_image, gt_labels_in_image in zip(proposals, gt_boxes, gt_labels):
    # 该张图像中没有gt框，即这个图像里面没有任何一个对象，一般情况下不会发生
    if gt_boxes_in_image.numel() == 0:
        # 对上面这种情况做出一定的处理： 可以跳过不看
        # 具体来说，就是用0值填充
        device = proposals_in_image.device
        clamped_matched_idxs_in_image = torch.zeros(
            (proposals_in_image.shape[0],), dtype=torch.int64, device=device
        )
        labels_in_image = torch.zeros(
            (proposals_in_image.shape[0],), dtype=torch.int64, device=device
        )
	else:
        # 有对象的情况下
        # 计算proposal与每个gt_box的iou重合度
        match_quality_matrix = box_ops.box_iou(gt_boxes_in_image, proposals_in_image)

        # 计算proposal与每个gt_box匹配的iou最大值，并记录索引，
        # iou < low_threshold索引值为 -1， low_threshold <= iou < high_threshold索引值为 -2
        # 其中-2的值就是忽略的样本，-1的值就是负例样本
        matched_idxs_in_image = self.proposal_matcher(match_quality_matrix)

        # 限制最小值，防止匹配标签时出现越界的情况
        # 注意-1, -2对应的gt索引会调整到0,获取的标签类别为第0个gt的类别（实际上并不是）,后续会进一步处理
        clamped_matched_idxs_in_image = matched_idxs_in_image.clamp(min=0)
        # 获取proposal匹配到的gt对应标签
        labels_in_image = gt_labels_in_image[clamped_matched_idxs_in_image]
        labels_in_image = labels_in_image.to(dtype=torch.int64)

        # 将gt索引为-1的类别设置为0，即背景，负样本
        bg_inds = matched_idxs_in_image == self.proposal_matcher.BELOW_LOW_THRESHOLD  # -1
        labels_in_image[bg_inds] = 0

        # 将gt索引为-2的类别设置为-1, 即废弃样本
        ignore_inds = matched_idxs_in_image == self.proposal_matcher.BETWEEN_THRESHOLDS  # -2
            labels_in_image[ignore_inds] = -1  # -1 is ignored by sampler

# 将处理完的值添加至列表中并返回
matched_idxs.append(clamped_matched_idxs_in_image)
labels.append(labels_in_image)

subsample方法：

该方法的就是按照给定的参数进行样本的采样。

代码内容很简单（只大致看下意思）：

# 使用fg_bg_sampler进行采集正样本和负样本，返回其对应的索引值
sampled_pos_inds, sampled_neg_inds = self.fg_bg_sampler(labels)
# 定义一个空列表
sampled_inds = []
# 遍历每张图片的正负样本索引
for img_idx, (pos_inds_img, neg_inds_img) in enumerate(zip(sampled_pos_inds, sampled_neg_inds)):
    # 记录所有采集样本索引（包括正样本和负样本）： pos_inds_img | neg_inds_img 中的 | 是或操作
    img_sampled_inds = torch.where(pos_inds_img | neg_inds_img)[0]
    sampled_inds.append(img_sampled_inds)

postprocess_detections方法：

该方法的作用是进行后处理。后处理的内容包括：

（1）根据proposal以及预测的回归参数计算出最终bbox坐标
（2）对预测类别结果进行softmax处理
（3）裁剪预测的boxes信息，将越界的坐标调整到图片边界上
（4）移除所有背景信息
（5）移除低概率目标
（6）移除小尺寸目标
（7）执行nms处理，并按scores进行排序
（8）根据scores排序返回前topk个目标

首先，传入的参数：

参数	意义
class_logits	网络预测类别概率信息
box_regression	网络预测的边界框回归参数
proposals	rpn输出的proposal
image_shapes	打包成batch前每张图像的宽高

这个方法的整体思路很简单，但是很多方法涉及到另外一个文件det_utls.py，我会在下一篇中解读。这里只需要了解这个方法在干嘛即可：

# 获取设备
device = class_logits.device
# 预测目标类别数
num_classes = class_logits.shape[-1]

# 获取每张图像的预测bbox数量
boxes_per_image = [boxes_in_image.shape[0] for boxes_in_image in proposals]
# 根据proposal以及预测的回归参数计算出最终bbox坐标
pred_boxes = self.box_coder.decode(box_regression, proposals)

# 对预测类别结果进行softmax处理
pred_scores = F.softmax(class_logits, -1)

# 根据每张图像的预测bbox数量分割结果
pred_boxes_list = pred_boxes.split(boxes_per_image, 0)
pred_scores_list = pred_scores.split(boxes_per_image, 0)

# 定义一些变量
all_boxes = []
all_scores = []
all_labels = []
# 遍历每张图像预测信息
for boxes, scores, image_shape in zip(pred_boxes_list, pred_scores_list, image_shapes):
    # 裁剪预测的boxes信息，将越界的坐标调整到图片边界上
    boxes = box_ops.clip_boxes_to_image(boxes, image_shape)

    # create labels for each prediction
    labels = torch.arange(num_classes, device=device)
    labels = labels.view(1, -1).expand_as(scores)

    # 移除索引为0的所有信息（0代表背景）
    boxes = boxes[:, 1:]
    scores = scores[:, 1:]
    labels = labels[:, 1:]

    # batch everything, by making every class prediction be a separate instance
    boxes = boxes.reshape(-1, 4)
    scores = scores.reshape(-1)
    labels = labels.reshape(-1)

    # 移除低概率目标，self.scores_thresh=0.05
    # gt: Computes input > other element-wise.
    inds = torch.where(torch.gt(scores, self.score_thresh))[0]
    boxes, scores, labels = boxes[inds], scores[inds], labels[inds]

    # 移除小目标
    keep = box_ops.remove_small_boxes(boxes, min_size=1.)
    boxes, scores, labels = boxes[keep], scores[keep], labels[keep]

    # 执行nms处理，执行后的结果会按照scores从大到小进行排序返回
    keep = box_ops.batched_nms(boxes, scores, labels, self.nms_thresh)

    # 获取scores排在前topk个预测目标
    keep = keep[:self.detection_per_img]
    boxes, scores, labels = boxes[keep], scores[keep], labels[keep]

# 将处理后的值加入变量中
all_boxes.append(boxes)
all_scores.append(scores)
all_labels.append(labels)

return all_boxes, all_scores, all_labels

3.2 fastrcnn_loss函数：

该函数的作用是计算faster-rcnn的损失值。

首先，传入的参数为：

参数	意义
class_logits	预测类别概率信息，shape=[num_anchors, num_classes]
box_regression	预测边目标界框回归信息
labels	真实类别信息
regression_targets	真实目标边界框信息

其实这个函数的定义就是按照**Faster-RCNN损失函数定义来定义的，**为方便理解，我把faster-rcnn的损失函数放在这里：

而，函数代码内容如下，详细见注释：

# 思路： 分别计算回归损失和分类损失
# 将值进行拼接
# label=【batch，512】 ---》 label = 【1024】，此时batch=2
labels = torch.cat(labels, dim=0)
# regression_targets=【2，512，4】 ---》 【1024，4】
regression_targets = torch.cat(regression_targets, dim=0)

# 计算类别损失信息：交叉熵损失
# class_logits = 【1024，21】
classification_loss = F.cross_entropy(class_logits, labels)

# 计算预测框的回归损失：只有正样本才有意义
# 返回标签类别大于0的索引
sampled_pos_inds_subset = torch.where(torch.gt(labels, 0))[0]

# 返回标签类别大于0位置的类别信息
labels_pos = labels[sampled_pos_inds_subset]

# shape=[num_proposal, num_classes]
# N 1024 ；classes 21
N, num_classes = class_logits.shape
# reshape前=【1024，84】 --》 【1024，21，4】
box_regression = box_regression.reshape(N, -1, 4)

# 计算边界框损失信息
box_loss = det_utils.smooth_l1_loss(
    # 获取指定索引proposal的指定类别box信息
    box_regression[sampled_pos_inds_subset, labels_pos],
    regression_targets[sampled_pos_inds_subset],
    beta=1 / 9,
    size_average=False,
) / labels.numel()

4. 总结：

本篇主要介绍了Faster-RCNN的架构的大致实现流程，和ROI Pooling以及后面的部分的详细实现过程。

你可能感兴趣的:(Faster-RCNN代码复现,深度学习,目标检测,人工智能)

day39 心落薄荷糖 Python训练营 python
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
DAY 1 变量与格式化字符串
文章目录题目1：变量的认识小结：多重赋值题目2：格式化字符串小结：格式化字符串题目3：变量的基础运算题目1：变量的认识题目:定义三个变量a,b,c，并分别将整数1,2,3赋值给它们。然后，使用print()函数将每个变量的值单独打印出来，每个值占一行。输入:无输出:123a=1b=2c=3print(a)print(b)print(c)小结：多重赋值多重赋值：多重赋值允许你在一行代码里给多个变量同
Spring Boot 项目分层架构详解 damnItHUA 后端 spring boot 架构后端
在现代SpringBoot项目中，Controller、Service、Mapper和Entity四层架构能够有效提升代码可维护性、可测试性与团队协作效率。下面以“商品管理（Product）”为例，系统梳理这四层的职责分工与协作关系。一、Controller层作为Springboot应用程序的入口点，Controller层主要负责接收来自前端或其他系统的HTTP请求，校验输入参数，将业务委托给Se
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
JMH (Java Microbenchmark Harness) 阙芸 python 测试工具开发语言
JMH是Java的微基准测试工具，由OpenJDK团队开发，专门用于编写、运行和分析Java代码的微基准测试（microbenchmark）。为什么需要JMH普通的基准测试方法（如多次循环调用方法并计时）存在很多问题：JVM的JIT编译优化（方法内联、死代码消除等）预热效应（JVM需要"热身"才能达到最佳性能）垃圾回收的干扰操作系统调度的影响JMH解决了这些问题，提供了准确的基准测试环境。基本使用
MySQL 连接指定端口后，为什么实际仍是 3306？ XMYX-0 mysql 数据库
文章目录MySQL连接指定端口后，为什么实际仍是3306？问题现象复现原因分析没有指定-h，默认走的是本地UnixSocket多实例环境中未显式指定目标地址正确的连接方法方法一：添加-h127.0.0.1方法二：添加--protocol=TCP验证是否连接成功附加说明总结✅建议MySQL连接指定端口后，为什么实际仍是3306？在日常运维或开发过程中，有时我们在使用mysql命令行工具连接MySQL
Go中interface接口的设计理念 Code季风 golang 开发语言学习 rpc
Go语言中的接口（interface）是一种非常强大的抽象机制，它允许开发者定义行为的集合，而不必关心这些行为是如何具体实现的。接口在Go中扮演着核心角色，尤其是在实现多态性和代码解耦方面。以下是对Go中接口设计理念的深入讲解：接口的基本概念在Go中，接口是一组方法签名的集合。一个类型如果实现了某个接口中的所有方法，则称该类型实现了这个接口。值得注意的是，Go中的接口是隐式实现的，这意味着你不需要
使用CSS @layer控制样式优先级的新方式海派程序猿 css 前端
CSS@layer：拯救你的样式优先级，告别“!important”的焦虑各位前端同僚们，你们有没有经历过这样的噩梦？深夜，正当你准备结束一天的工作，舒舒服服地躺在床上刷手机时，测试突然甩来一个bug：一个看起来简单的样式问题，却怎么改都改不过来！你瞪大了眼睛，一行一行地检查CSS，发现优先级简直乱成了一锅粥。仿佛无数个小恶魔在你代码里跳舞，疯狂地嘲笑你的努力。最后，你无奈地祭出了“!import
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
vue3.5中useTemplateRef获取DOM元素 whhhhhhhhhw vue.js javascript 前端
前言：vue3.5推出了一种新的获取DOM元素的API（useTemplateRef），它与vue3.5之前获取DOM元素有什么不同呢？今天我们来学习一下。1.vue3.5之前如何获取DOM元素在vue3.5之前，我们要给需要获取DOM元素上面添加一个ref，然后给这个ref一个名字，在逻辑代码中创建一个变量，变量名需要和DOM元素上ref的名称相同。代码如下：import{ref,onMount
校园志愿者系统前端代码实现及技术解析创新工场
本文还有配套的精品资源，点击获取简介：本项目集中展示了Web开发中的关键技术和框架，包含PHP、Vue.js、ElementUI和Laravel在校园志愿者系统前台构建中的应用。首先，PHP用于后端开发，处理业务逻辑并与数据库交互。接着，Vue.js作为前端框架，实现交云动界面和用户交互。ElementUI提供企业级UI组件，加速开发流程，提高界面美观度。Laravel框架则用于搭建后端架构，处理
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
当凌晨的键盘声，遇见黎明的星光涔溪笔记
地铁玻璃映出你困倦的脸，耳机里的音乐循环到第17遍，早高峰的人群像沙丁鱼罐头般挤压着你。这是你每天雷打不动的三小时通勤路，从城市边缘到写字楼林立的CBD，窗外的风景换了四季，而你始终困在摇晃的车厢里，困在日复一日的代码世界。深夜加班时，办公室只剩你工位的灯还亮着。屏幕蓝光映着你通红的眼睛，键盘声在寂静中格外清晰。你曾以为热爱能抵御一切，可如今，修改了无数次的需求文档、永远修复不完的BUG、凌晨三点
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
C51填坑记：中断处理导致主程序函数参数改变 albert_812 C51 C51 Data Overlay 中断参数异常改变
1.现象平台：keilc51，中颖SH79F7019A现象：在增加了一个中断处理逻辑后，发现主程序异常，断点调试发现某个函数的参数被改变了，程序使用了错误的数据导致逻辑出错。2.排查初步分析，可能原因如下：1.参数寄存器(R0-R7)的值，被中断函数改变。2.堆栈溢出。2.1参数寄存器首先排查参数寄存器（中断里面调用了函数，有参数传递）。通过仿真器观察中断函数汇编代码，发现在进入中断之前是对R0-
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
中断与其他函数共享变量、临界资源的保护匠在江湖 C语言知识点单片机嵌入式硬件
volatilevolatile概念作用volatile(英译:易变的)是一个特征修饰符关键字，防止编译器对修饰的变量相关代码进行优化，每次使用都重新读取变量的值，而不是使用寄存器里的备份。volatile字面意思不太好理解，其实它是提醒编译器这个变量是易变的，不要去优化它！XBYTE[2]=0x55;XBYTE[2]=0x56;XBYTE[2]=0x57;XBYTE[2]=0x58;对外部硬件而
单片机中断细水长流煮红豆｛单片机
1、中断是什么中断指的是在设备运行过程中，当某个事件或条件发生时，处理器能够暂停当前正在执行的程序，转而执行一段特定的代码（称为中断服务程序或中断处理程序），以响应这个事件或条件。中断处理完成后，处理器将返回到被中断的程序中继续执行。中断的主要目的是提高系统的响应能力和处理效率。通过中断机制，嵌入式系统可以实时地响应外部设备或内部状态的变化，而无需轮询或等待这些变化的发生。这使得嵌入式系统能够更加
mcu secure boot 设计（一、Flash layout） lwz070 单片机嵌入式硬件
Flashlayout此flash为MCU内部flash，需要硬件保护，防篡改和读取。1.PBL:为bootloader代码pbl中不支持远程升级，仅在APP中支持远程。pbl中可以支持uart和can协议升级。2.globalstate:{runflag//1:runimageA,2:runimageBImageAsecuritypassflag//1:pass,2:failImageBsecu
基于MATLAB的资源优化与工期固定-资源均衡分析方法研究【附代码】拉勾科研工作室 matlab 开发语言
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）资源均衡优化相关理论与问题分类在现代工程项目中，资源的合理分配和使用是确保项目按时完成、成本可控的关键因素。资源均衡优化作为项目管理中的核心环节，旨在通过调整资源的使用方案，使资源消耗在整个工期内尽可能平稳，避免
医学图像增强的层级化模糊与虚拟仪器无参考质量评价研究【附代码】拉勾科研工作室计算机视觉图像处理人工智能
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）层级模糊隶属度的X光医学图像增强算法针对X光医学图像普遍存在的对比度差、细节模糊等问题，本算法提出了一种基于层级模糊隶属度的增强方法。该方法的核心思想在于利用拉普拉斯金字塔分解图像，并在多尺度下分层计算模糊隶属度
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
关于uniapp+vue2 升级 Vue3 后无法获取 query的问题代码简单说 2025开发必备(限时特惠)uni-app vue2迁移到vue3 获取不到query 小程序获取不到query mp获取不到路由路由参数获取 url参数获取
关于uniapp+vue2升级Vue3后无法获取query的问题tag：vue3迁移、uniapp兼容性、$mp变更、vue2升级、前端坑点记录在升级公司项目的时候，从uniapp+Vue2迁移到uniapp+Vue3，想着应该是个平滑过渡，没成想，一个小小的$mp把我绊了一脚。事情是这样的项目中有这么一段代码，用于判断当前页面的路由参数：onLoad(){constscene=this.
工厂模式中使用Map管理策略实例时，为何仍需要Context？
看这篇文章前，可以先了解一下：策略模式与工厂模式的黄金组合：从设计到实战一、核心矛盾：创建职责与调用职责的分离问题当使用Map管理策略实例时（如MapstrategyMap），工厂确实能高效获取策略实例，但这仅解决了**“策略从哪里来"的问题。而策略的"如何使用”**仍面临以下挑战：上下文逻辑碎片化：策略调用前后的公共逻辑（如参数校验、结果处理）会散落在客户端代码中调用流程不一致：不同客户端可能以
【MSSQL】sql server怎样整理某个表的碎片厦门德仔 MSSQL sqlserver 数据库服务器
SQLServer如何整理某个表的碎片在数据库的维护过程中，碎片化是一个常见的问题。随着数据的插入、更新和删除，SQLServer中的表和索引可能会出现碎片，这会导致查询性能下降。本文将介绍如何在SQLServer中整理某个表的碎片，并提供代码示例帮助你理解。什么是碎片化？碎片化是指数据在物理存储上不连续，导致数据库无法有效利用存储空间。碎片化通常分为两种类型：内部碎片：数据页中存在空闲空间，没有
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本