travellerss

【目标检测系列】六、Faster R-CNN

参考资料
第1章 Faster R-CNN概述
第2章 Backbone
- 2.1 ResNet50网络结构
- 2.2 ResNet50代码
第3章 Region Proposal Networks
- 3.1 Anchors的生成
- 3.2 Anchors的类别判断
- 3.3 Bounding Box Regression原理
- 3.4 Proposal Layer筛选
- 3.5 RPN网络小结
第4章 RoI pooling Layer
- 4.1 为何需要RoI Pooling
- 4.2 RoI Pooling原理
- - （1）概念
  - （2）举例
- 4.3 RoI Pooling工作过程
第5章 Classification Layer
第6章 Faster RCNN训练
- 6.1 RPN网络训练
- 6.2 RoI网络训练
总结
QA

参考资料

论文：

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

博客：

RCNN 系列详解

一文读懂Faster RCNN

睿智的目标检测27——Pytorch搭建Faster R-CNN目标检测平台

代码：

bubbliiiing/faster-rcnn-pytorch

WZMIAOMIAO/deep-learning-for-image-processing

捋一捋pytorch官方FasterRCNN代码

从编程实现角度学习Faster R-CNN（附极简实现）

视频：

Pytorch 搭建自己的Faster-RCNN目标检测平台（Bubbliiiing 深度学习教程）

Faster RCNN源码解析(pytorch)

第1章 Faster R-CNN概述

Faster R-CNN算是RCNN系列算法的最杰出产物，也是 two-stage 中最为经典的物体检测算法。

Faster RCNN可以看作 RPN+Fast RCNN，其中RPN使用CNN来生成候选区域，并且RPN网络可以认为是一个使用了注意力机制的候选区域选择器。

整个Faster RCNN网络可以分为四个部分：

（1）Backnone。作为一种CNN网络目标检测方法，Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps，该feature maps被共享用于后续RPN层和全连接层。
（2）Region Proposal Networks。RPN网络用于生成region proposals。该层通过softmax判断anchors属于positive或者negative，再利用bounding box regression修正anchors获得精确的proposals。
（3）Roi Pooling。该层收集输入的feature maps和proposals，综合这些信息后提取proposal feature maps，送入后续全连接层判定目标类别。
（4）Classification。利用proposal feature maps计算proposal的类别，同时再次bounding box regression获得检测框最终的精确位置。

第2章 Backbone

Faster-RCNN可以采用多种的主干特征提取网络，常用的有 VGG ，Resnet，Xception 等等，本文以Resnet50网络为例子。

【注意】：

Faster-Rcnn对输入进来的图片尺寸没有固定，但是一般会把输入进来的图片短边固定成600，如输入一张1200x1800的图片，会把图片不失真的resize到600x900上。

2.1 ResNet50网络结构

ResNet50有两个基本的块，分别名为Conv Block和Identity Block，其中Conv Block输入和输出的维度是不一样的，所以不能连续串联，它的作用是改变网络的维度；Identity Block输入维度和输出维度相同，可以串联，用于加深网络的。

Conv Block 和 Identity Block的结构如下：

Faster-RCNN的主干特征提取网络部分只包含了长宽压缩了 4 次的内容，第五次压缩后的内容在ROI中使用。以输入的图片为 $600\times 600$ 为例，shape变化如下：

最后一层的输出就是公用特征层，即Feature Map的大小为 $38\times 38\times1024$ 。

2.2 ResNet50代码

代码路径：/nets/resnet50.py

在代码里里面，我们使用resnet50()函数来获得resnet50的公用特征层。

其中features部分为公用特征层，classifier部分为第二阶段用到的分类器。

import math

import torch.nn as nn
from torch.hub import load_state_dict_from_url


class Bottleneck(nn.Module):
    expansion = 4

    def __init__(self, inplanes, planes, stride=1, downsample=None):
        super(Bottleneck, self).__init__()
        self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=1, stride=stride, bias=False)
        self.bn1 = nn.BatchNorm2d(planes)

        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=1, padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(planes)

        self.conv3 = nn.Conv2d(planes, planes * self.expansion, kernel_size=1, bias=False)
        self.bn3 = nn.BatchNorm2d(planes * self.expansion)

        self.relu = nn.ReLU(inplace=True)
        self.downsample = downsample
        self.stride = stride

    def forward(self, x):
        residual = x

        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)

        out = self.conv2(out)
        out = self.bn2(out)
        out = self.relu(out)

        out = self.conv3(out)
        out = self.bn3(out)
        if self.downsample is not None:
            residual = self.downsample(x)

        out += residual
        out = self.relu(out)

        return out


class ResNet(nn.Module):
    def __init__(self, block, layers, num_classes=1000):
        # -----------------------------------#
        #   假设输入进来的图片是600,600,3
        # -----------------------------------#
        self.inplanes = 64
        super(ResNet, self).__init__()

        # 600,600,3 -> 300,300,64
        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)

        # 300,300,64 -> 150,150,64
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=0, ceil_mode=True)

        # 150,150,64 -> 150,150,256
        self.layer1 = self._make_layer(block, 64, layers[0])
        # 150,150,256 -> 75,75,512
        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
        # 75,75,512 -> 38,38,1024 到这里可以获得一个38,38,1024的共享特征层
        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
        # self.layer4被用在classifier模型中
        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)

        self.avgpool = nn.AvgPool2d(7)
        self.fc = nn.Linear(512 * block.expansion, num_classes)

        # 初始化权重
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
                m.weight.data.normal_(0, math.sqrt(2. / n))
            elif isinstance(m, nn.BatchNorm2d):
                m.weight.data.fill_(1)
                m.bias.data.zero_()

    def _make_layer(self, block, planes, blocks, stride=1):
        downsample = None
        # -------------------------------------------------------------------#
        #   当模型需要进行高和宽的压缩的时候，就需要用到残差边的downsample
        # -------------------------------------------------------------------#
        if stride != 1 or self.inplanes != planes * block.expansion:
            downsample = nn.Sequential(
                nn.Conv2d(self.inplanes, planes * block.expansion, kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(planes * block.expansion),
            )
        layers = [block(self.inplanes, planes, stride, downsample)]  # conv_block

        self.inplanes = planes * block.expansion
        for i in range(1, blocks):
            layers.append(block(self.inplanes, planes))
        return nn.Sequential(*layers)

    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)

        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)

        x = self.avgpool(x)
        x = x.view(x.size(0), -1)
        x = self.fc(x)
        return x


def resnet50(pretrained=False):
    model = ResNet(Bottleneck, [3, 4, 6, 3])

    # 是否加载预训练模型
    if pretrained:
        state_dict = load_state_dict_from_url("https://download.pytorch.org/models/resnet50-19c8e357.pth",
                                              model_dir="./model_data")
        model.load_state_dict(state_dict)

    # ----------------------------------------------------------------------------#
    #   获取特征提取部分，从conv1到model.layer3，最终获得一个38,38,1024的特征层
    # ----------------------------------------------------------------------------#
    features = list([model.conv1, model.bn1, model.relu, model.maxpool, model.layer1, model.layer2, model.layer3])

    # ----------------------------------------------------------------------------#
    #   获取分类部分，从model.layer4到model.avgpool，去掉了最后一个全连接层
    # ----------------------------------------------------------------------------#
    classifier = list([model.layer4, model.avgpool])

    features = nn.Sequential(*features)
    classifier = nn.Sequential(*classifier)
    return features, classifier

第3章 Region Proposal Networks

经典的检测方法生成检测框都非常耗时，如OpenCV adaboost使用滑动窗口+图像金字塔生成检测框；或如R-CNN使用SS(Selective Search)方法生成检测框。而Faster RCNN则抛弃了传统的滑动窗口和SS方法，直接使用RPN生成检测框，这也是Faster R-CNN的巨大优势，能极大提升检测框的生成速度。

下图展示了RPN网络的具体结构，分为以下几个步骤：

（1）首先使用 $3\times3$ 的filter对Feature Map进行卷积，目的是使提取出来的Feature更鲁棒。

（2）然后分为两个平行的分支：

①获得anchor的类别信息：通过softmax分类 anchors 是 positive 还是 negative ，获得anchor的类别信息，也就是该anchor是背景还是前景（只要有要识别的物品就属于前景）；
②获得anchor的偏移信息：计算该anchor（类别为前景）的位置相当于 Ground Truth（训练集图片上真实的框）的偏移信息，这一步也称为 bounding box regression ；

（3）最后的 Proposal Layer 则负责综合（2）中的两个分支获取精确的proposals，并利用 NMS 非极大值抑制进行筛选，同时剔除太小和超出边界的proposals。

3.1 Anchors的生成

所谓anchors，实际上就是一组由rpn/generate_anchors.py生成的矩形框。直接运行作者demo中的generate_anchors.py可以得到以下输出：

[[ -84.  -40.   99.   55.]
 [-176.  -88.  191.  103.]
 [-360. -184.  375.  199.]
 [ -56.  -56.   71.   71.]
 [-120. -120.  135.  135.]
 [-248. -248.  263.  263.]
 [ -36.  -80.   51.   95.]
 [ -80. -168.   95.  183.]
 [-168. -344.  183.  359.]]

表示一个矩形框就需要四个参数，可以有两种表示方式：

中心坐标+长宽： $x_{center}, y_{center}, width, height)$

左上角坐标+右下角坐标： $x_{min}, y_{min}, x_{max}, y_{max})$

从上面的输出可以发现，采用的是左上角坐标+右下角坐标： $x_{min}, y_{min}, x_{max}, y_{max})$ 这种方式，在原图中生成anchor主要分为三步：

（1） 有一个base anchor，这个base anchor的尺寸可以自定义，默认尺寸为 $16\times16$ 。

（2） 从这个base acnhor生成 9 个不同尺寸的anchor，可以把这9个anchor视为后续anchor的模板。

①这9个anchor的生成主要依靠两组参数，一组是scales，用于缩放anchor的宽度和高度，默认值是[8, 16, 32]；另一组是ratios，即anchor的宽高之比，默认值是 $w i d t h : h e i g h t \in (1 : 1, 1 : 2, 2 : 1)$ 。
②首先对base anchor的宽高进行缩放操作，这一步比较简单，因为base anchor是16x16，那么使用scales的默认值，在经过一系列的缩放操作后，就得到了三个不同大小的anchor，即**[128x128, 256x256, 512x512]**。
③然后用ratios的默认值对宽高进行变化，需要注意的是这一步的变化不可以改变anchor的面积，换句话说原来面积多大，变化后还是多大（可以有一定的上下浮动）。下图中绿色的框，面积均为512x512；红色的框，面积均为256x256；蓝色的框，面积均为128x128；

注：关于上面的anchors size，其实是根据检测图像设置的。在python demo中，会把任意大小的输入图像reshape成800x600（即图2中的W=800，H=600）。再回头来看anchors的大小，anchors中长宽1:2中最大为352x704，长宽2:1中最大736x384，基本是cover了800x600的各个尺度和形状。

（3）使用上一步生成的9个anchor模板在原始图像上生成具体的anchor。（关键步骤）

原图800x600，VGG下采样16倍，feature map每个点设置9个Anchor，所以：

$ce i l (800/16) \times ce i l (600/16) \times 9 = 50 \times 38 \times 9 = 17100$

VGG输出的feature map size= 50x38，ceil()表示向上取整。

3.2 Anchors的类别判断

这里讲一下rpn如何识别每一个anchor的类别，注意这边进行的是二分类，即判断anchor的内容是背景还是前景，而不是具体的类别，具体的类别判断还在这之后。

一副MxN大小的矩阵送入Faster RCNN网络后，到RPN网络变为(M/16)x(N/16)，不妨设 W=M/16，H=N/16。在进入reshape与softmax之前，先做了1x1卷积，如下图所示：

9 x 2 =18的通道 用于预测 公用特征层上 每一个网格点上 每一个预测框内部是否包含了物体，序号为1的内容为包含物体的概率。

假设输入图像的维度为 $(3 ， 800 ， 600)$ ，经过这里 1x1的卷积后，维度变为 $(1, 18, 50, 38)$ ，其中通道数为18，又因为有 9 个anchor，所以每 2 个通道为一个anchor的类别，这2个通道分别代表了anchor是背景和前景的概率，这一部分需要特别注意特征维度的变化。

因为我们需要对类别进行softmax，但由于维度为 $(1, 18, 50, 38)$ ，类别信息18是在第1维（此处从0开始计数），所以需要进行reshape操作。

（1）首先将类别信息放到第3维中，也就是变为 $(1, 50, 38, 18)$ 。
（2）然后增加一个维度，变为 $(1, 50, 38, 9, 2)$ ，这样就可以对每一个anchor进行softmax分类。
（2）完成softmax分类后再去掉背景的概率，只保留anchor是前景的概率，此时维度变为 $(1, 50, 38, 9, 1)$ 。
（3）最后再进行一次reshape操作，去掉所有多余的维度，只保留两个维度，一个是batch，另一个是前景概率，即 $(1, 17100)$ ，这样就得到了每一anchor属于前景的概率。

3.3 Bounding Box Regression原理

如图所示绿色框为飞机的Ground Truth(GT)，红色为提取的positive anchors，即便红色的框被分类器识别为飞机，但是由于红色的框定位不准，这张图相当于没有正确的检测出飞机。所以我们希望采用一种方法（Bounding Box Regression）对红色的框进行微调，使得positive anchors和GT更加接近。

Bounding Box Regression 主要是为了对生成的anchors进行位置上的微调，这里简写成bbox reg。在上文提到，作者在代码中表示一个anchor主要用了两种方式，其中第二种方式用的比较多，但在bbox reg中主要用第一种，也就是中心坐标+宽高的表示方式。

在经过下面这个1x1的卷积之后，根据前文对输入的假设，此时feature map变成了 $(1, 36, 50, 38)$ ，其中通道数为36，这36个通道每4个代表一个anchor的位置偏移信息，一共有9组，而上文也提到，每一个feature map上的点会生成9个尺度不一的anchor。

9 x 4的卷积 用于预测 公用特征层上 每一个网格点上每一个先验框的位置偏移情况。

每一个anchor的位置偏移信息格式是： $d_x,d_y,d_w,d_h)$ ，每一个分量代表的含义如下：

$d_x$ 与 $d_y$ 分别代表anchor在x轴和y轴上的偏移程度。
$d_w$ 与 $d_h$ 分别代表anchor在宽和高上的指数缩放量。

假设 $(x, y, w, h)$ 为变换前的坐标， $(x^{'}, y^{'}, w^{'}, h^{'})$ 为变换后的坐标，则变换关系如下：
$w\times d_x+x\\ y' = h\times d_y+y\\ w'=w\times e^{d_w}\\ h'=h\times e^{d_h}$

下面我们用严谨的数学公式推导重写一下上述过程：

对于窗口一般使用四维向量 $(x, y, w, h)$ 表示，分别表示窗口的中心点坐标和宽高。对于下图，红色的框A代表原始的positive Anchors，绿色的框 $G$ 代表目标的 $G_T$ （Ground Truth），我们的目标是寻找一种关系，使得输入原始的anchor A经过映射得到一个跟真实窗口G更接近的回归窗口G’，即：

给定 $anchor A=(A_x,A_y,A_w,A_h)$ 和 $G_T=[G_x,G_y,G_w,G_h]$
寻找一种变换 $F$ ，使得： $F(A_x,A_y,A_w,A_h)=(G_x′,G_y′,G_w′,G_h′)$ ，其中 $G_x′,G_y′,G_w′,G_h′)≈(G_x,G_y,G_w,G_h)$

那么经过何种变换 $F$ 才能从图10中的anchor A变为 $G^{'}$ 呢？比较简单的思路就是:

先做平移：

$G_x′=A_w⋅d_x(A)+A_x \\ G_y′=A_h⋅d_y(A)+A_y$

再做缩放：

$G_w′=A_w⋅\exp ⁡(d_w(A)) \\ G_h′=A_h⋅\exp ⁡(d_h(A))$

观察上面4个公式发现，需要学习的是 $d_x(A),d_y(A),d_w(A),d_h(A)$ 这四个变换。观察上面4个公式发现，当输入的anchor A与GT相差较小时，可以认为这种变换是一种线性变换，那么就可以用线性回归来建模对窗口进行微调（注意，只有当anchors A和GT比较接近时，才能使用线性回归模型，否则就是复杂的非线性问题了）。

接下来的问题就是如何通过线性回归获得 $d_x(A),d_y(A),d_w(A),d_h(A)$ 了。线性回归就是给定输入的特征向量X, 学习一组参数 $W$ , 使得经过线性回归后的值跟真实值 $Y$ 非常接近，即 $Y = W X$ 。对于该问题，输入 $X$ 是Feature Map，定义为 $Φ$ ；同时还有训练传入 $A$ 与 $G_T$ 之间的变换量，即 $t_x,t_y,t_w,t_h)$ 。输出是 $d_x(A),d_y(A),d_w(A),d_h(A)$ 四个变换。那么目标函数可以表示为：
$d_∗(A)=W_∗^T⋅ϕ(A)$
其中 $ϕ (A)$ 是对应anchor的feature map组成的特征向量， $W_∗$ 是需要学习的参数， $d_∗(A)$ 是得到的预测值（ $*$ 表示 $x ， y ， w ， h$ ，也就是每一个变换对应一个上述目标函数）。为了让预测值 $d_∗(A)$ 与真实值 $t_∗$ 差距最小，设计 $L 1$ 损失函数：
$Loss=∑\limits_{N}\limits^i|t_∗^i−W_∗^T⋅ϕ(A_i)|$
函数优化目标为：
$\hat{W_∗}=argmin_{W_∗}∑\limits_{N}\limits^i|t_∗^i−W_∗^T⋅ϕ(A_i)|+λ||W_∗||$

为了方便描述，这里以L1损失为例介绍，而真实情况中一般使用soomth-L1损失。

需要说明，只有在 $G_T$ 与需要回归框位置比较接近时，才可近似认为上述线性变换成立。说完原理，对应于Faster RCNN原文，positive anchor与ground truth之间的平移量 $t_x,t_y)$ 与尺度因子 $t_w,t_h)$ 如下：
$t_x=(x−x_a)/w_a\\ t_y=(y−y_a)/h_a \\ t_w=log⁡(w/w_a)\\ t_h=log⁡(h/h_a)$
对于训练bouding box regression网络回归分支，输入是cnn feature $Φ$ ，监督信号是Anchor与 $G_T$ 的差距 $t_x,t_y,t_w,t_h)$ ，即训练目标是：输入 $Φ$ 的情况下使网络输出与监督信号尽可能接近。那么当bouding box regression工作时，再输入 $Φ$ 时，回归网络分支的输出就是每个Anchor的平移量和变换尺度 $t_x,t_y,t_w,t_h)$ ，显然即可用来修正Anchor位置了。

现在来总结一下：

VGG输出 $50\times38\times256$ 的Feature Map，RPN输出：

大小为 $50\times 38\times 2k$ 的positive/negative softmax分类特征矩阵；
大小为 $50\times 38\times 4k$ 的regression坐标回归特征矩阵；

恰好满足RPN完成positive/negative分类+bounding box regression坐标回归。

3.4 Proposal Layer筛选

Proposal Layer 负责综合所有 $d_x(A),d_y(A),d_w(A),d_h(A)]$ 变换量和positive anchors，计算出精准的proposal，并使用一些方法（NMS非极大值抑制等）剔除一些候选框，送入后续RoI Pooling Layer。

我们已经有一堆经过修正后的anchor，并且也知道了每一个anchor属于前景的概率，但我们细想一下，现在anchor的数量是不是太多了，我们只用了一张800*600的图像作为输入就生成了16650个anchor，如果全部作为RoI（Region of Intererst，也就是感兴趣区域或者说候选区域）输入到后续网络中，这计算量属实有点大，所以就需要进行一些筛选工作，这其实也就是RPN网络中Proposal层所做的工作。

Proposal Layer有4个输入：

（1）positive vs negative anchors分类器结果rpn_cls_prob_reshape；
（2）bbox reg的 $d_x(A),d_y(A),d_w(A),d_h(A)]$ 变换量rpn_bbox_pred；
（3）im_info；
（4）参数feat_stride=16。

im_info和 feat_stride的含义为：对于一副任意大小PxQ图像，传入Faster RCNN前首先reshape到固定MxN，im_info=[M, N, scale_factor]则保存了此次缩放的所有信息。然后经过Conv Layers，经过4次pooling变为WxH=(M/16)x(N/16)大小，其中feature_stride=16则保存了该信息，用于计算anchor偏移量。

现在来梳理一下Proposal Layer的处理流程：

生成anchors，利用 $d_x(A),d_y(A),d_w(A),d_h(A)]$ 对所有的anchors做bbox regression回归（这里的anchors生成和训练时完全一致）
限定超出图像边界的positive anchors为图像边界，防止后续roi pooling时proposal超出图像边界；
剔除尺寸非常小的positive anchors；
按照positive softmax scores由大到小排序anchors，提取前pre_nms_topN(比如说6000)个anchors，即提取修正位置后的positive anchors；
对剩余的positive anchors进行NMS（非极大值抑制）；

首先，现在我们的anchor有许多因为是在边缘生成的，所以它们的坐标可能是负值，或者简单来说就是超出了图片的范围，那么就需要对这些anchor进行裁剪，把它们统一裁剪到图片范围内，也就是将anchor左上角坐标小于0的值用0代替，右下角坐标的X轴数值大于W就用W代替，Y轴数值大于H的用H代替。

经过上一步的裁剪工作，就会有许多anchor会变得很小，这里我们设定一个阈值，凡是小于16x16的anchor，我们都把它丢弃掉。

接着，因为我们已经有了每一个anchor属于前景的概率，那么很明显如果一个anchor属于前景的概率太小，那么也没有留着的必要性，所以对这些anchor的前景概率从大到小进行argsort，得到每一个anchor的排序索引，只取前6000个，到这一步anchor还是很多，但此时不能再鲁莽的去除anchor，因为有可能会有误判（毕竟这个前景概率只是rpn的预测，并不是真实的），此时需要用NMS方法把IoU大于0.7的进行合并，对于合并完的anchor再取前300个，这样就把输入到RoI网络的anchor的数量大大减少了。

之后输出 $proposal=[x_1, y_1, x_2, y_2]$ （左上角+右下角的坐标形式），注意，由于在第三步中将anchors映射回原图判断是否超出边界，所以这里输出的proposal是对应MxN输入图像尺度的，这点在后续网络中有用。

RPN网络结构就介绍到这里，总结起来就是：

（1）生成anchors -> softmax分类器提取positvie anchors；

（2）bbox reg回归positive anchors；

（3）Proposal Layer生成proposals；

3.5 RPN网络小结

在作者代码中，主要把RPN主要分成了两部分，一个是RPN Head，另一个是Proposal。

RPN Head 主要负责anchor的生成、anchor位置偏移量预测以及anchor的类别判断；
Proposal 负责对生成的anchor进行进一步的筛选，将筛选后的anchor作为RoI输入到后续的网络中。

第4章 RoI pooling Layer

4.1 为何需要RoI Pooling

先来看一个问题：对于传统的CNN（如AlexNet和VGG），当网络训练好后输入的图像尺寸必须是固定值，同时网络输出也是固定大小的vector or matrix。如果输入图像大小不定，问题就变得很麻烦，有2种解决办法：

从图像中crop一部分传入网络；
将图像warp成需要的大小后传入网络；

无论采取哪种办法都不好，要么crop后破坏了图像的完整结构，要么warp破坏了图像原始形状信息。

回忆RPN网络生成的proposals的方法：对positive anchors进行bounding box regression，那么这样获得的300个proposals也是大小形状各不相同，所以Faster R-CNN中提出了RoI Pooling解决这个问题。

RoI Pooling是从Spatial Pyramid Pooling提出。

4.2 RoI Pooling原理

（1）概念

在R-CNN中为了统一输入使用了比较暴力的方法（resize），但在Fast R-CNN中，使用了RoI Pooling，这一方法参考了SPPNet的空间金字塔池化，可以将RoI Pooling看做空间金字塔池化的一个简化版。

ROI是框在conv特征图上的一个方型，用四元组定义（左上顶点r、c，高h和宽w），显然，RoI的大小是各不相同的，（无预处理的情况下）CNN无法处理大小不同的特征。这也是为什么R-CNN想不到共享特征的原因。那么，我们需要一个将特征图的特定区域改变维度（通常是降维）的工具，这个工具就是我们经常使用的池化（pooling）。

然而，Fast R-CNN中提出的兴趣域池化层 Roi Pooling 与我们熟知的各类池化层不同。

传统池化层通过设置池化窗口宽度 width 、填充 padding 和步幅 stride 来间接控制输出形状。
而 Roi Pooling 层则通过参数设置直接控制输出形状。

例如，指定每个区域输出的高和宽为 $h_2$ 和 $w_2$ ，假设某一兴趣区域窗口的高和宽分别为 $h$ 和 $w$ ，该窗口将被划分为形状为 $h_2 \times w_2$ 的子窗口网格，且每个子窗口的大小约为 $(\frac{h}{h_2}\times \frac{w}{w_2})$ 。

任一子窗口的高和宽要取整，其中的最大元素作为该子窗口的输出。因此，兴趣区域池化层可从形状各异的兴趣区域中均抽取出形状相同的特征。

（2）举例

下图在4×4的输入上，选取了左上角的3×3区域作为Roi。对Roi做2×2的Roi Pooling 得到2×2的输出。

4个划分后的子窗口分别含有元素 （Roi pooling的每个网格大小不一定相等！） ：

0、1、4、5（5最大）
2、6（6最大）
8、9（9最大）
10

4.3 RoI Pooling工作过程

首先我们可以看到有两个输入，一个是黄色线的输入，这个是BackBone(ResNet50)的输出，也就是Feature Map，另一个是紫色线的输入，也就是RPN的输出（300个RoI的坐标信息）。

我们将上述两组数据输入到RoI Pooling中，得到每一个RoI对应位置的Feature Map，且每一个Feature Map的尺寸均为7x7。

第5章 Classification Layer

从RoI Pooling获取到7x7=49大小的proposal feature maps后，送入后续Classification Layer，可以看到做了如下2件事：

（1）利用已经获得的proposal feature maps，通过full connect层与softmax计算每个proposal具体属于那个类别（如人，车，电视等），输出 cls_prob 概率向量；
（2）同时再次利用bounding box regression获得每个proposal的位置偏移量bbox_pred，用于回归更加精确的目标检测框。

这里来看看全连接层InnerProduct layers：

其计算公式如下：

其中W和bias B都是预先训练好的，即大小是固定的，当然输入X和输出Y也就是固定大小。

第6章 Faster RCNN训练

Faster RCNN有三个部分需要训练，分别是特征提取器VGG16，RPN以及RoIHead。其中特征提取器一般是采用预训练模型进行微调，所以此处重点介绍RPN的训练以及RoI的训练。

虽然原论文中Faster RCNN是将这两部分分开训练的，但现在大多数实现都是进行联合训练的方式。分开训练的讲解可以参考：一文读懂Faster RCNN

6.1 RPN网络训练

首先来回想一下RPN的网络结构，在上文我把它分成了两部分，一部分是 RPN Head Layer，另一部分是 Proposal Layer，但只有RPN Head真正有参数需要训练，Proporsal只是用来进行RoI筛选的，并不需要训练，所以我们重点关注RPN Head部分，如下图所示：

上文有提到，RPN Head部分主要用于anchor的位置偏移预测以及anchor类别的预测，对于前文假定的图像输入，RPN Head会生成 $50\times38\times9=17100$ 个anchor，很显然把这些全部用于训练并不合理，因为这里面有大量的负样本，所以需要先进行一波筛选，选出256个作为训练样本（这个数目是作者提出的），其中正样本128个，负样本128个，其中负样本个数肯定可以满足，但正样本基本很难会有128个，所以作者在文中说，如果正样本不足128个，则空缺部分用负样本填充，具体的训练样本筛选步骤如下：

去掉所有不在图片范围的anchor，并将剩余的所有anchor的标签标记为-1；
将与ground truth（gt）的IoU小于0.3的anchor作为负样本，标签记为0；
将与每个gt的IoU最大的anchor作为正样本，标签记为1；
将与gt的IoU不小于0.7的anchor作为正样本，标签记为1；
如果某一类样本超过128个，则随机从中选择多出的样本将其标签记为-1；
如果正样本小于128个，则使用负样本填充，保证总体样本数为256。
仅将标签为0和1的样本用于训练，忽略标签为-1的anchor

在筛选出了训练样本之后，就需要计算每一个anchor的Loss。

如上图所示，RPN的损失函数由两部分组成，一个是分类损失，另一个是边界框回归损失，其中公式中一些变量的含义已在图中标明了。

首先是分类损失，此处的类别仅仅是指anchor属于物品还是背景，所以这是一个二分类问题，因此在论文中作者是使用了 二值交叉熵损失 来计算RPN的分类损失，具体如下图所示：

然后是边界框回归损失，具体如下图所示：

如上图所示， $L_{reg}(t_i,t_i^∗)$ 是 $Smooth L_1$ 函数（这里可以考虑下为什么用 $Smooth L_1$ 而不是 $L_2$ ，可以参考Single Bounding Box Regression）， $t_i$ 是anchor的四个回归预测值，它代表了预测的偏移量，即预测anchor的中心坐标以及宽高相对于真实anchor的偏移量 $t_x,t_y,t_w,t_h)$ ， $t_i^∗$ 代表了真实的偏移量 $t_x^∗,t_y^∗,t_w^∗,t_h^∗)$ 。

此处特别需要注意： $t_i$ 其实就是RPN网络的一个输出，即下图中框出的部分，我看论文的时候被作者的那些公式迷惑住了，之后看代码才会明白，即 $t_i$ 是神经网络的输出，而不是公式计算所得，公式仅仅只是用来解释 $t_i$ 所代表的含义。

而真正需要用公式进行计算的是 $t_i^∗$ ，也就是预测的anchor与真实bbox的偏移量 ，计算公式就如上图所示，其中 $x^∗,y^∗,w^∗,h^∗)$ 都代表真实的bbox的中心坐标与宽高， $x_a,y_a,w_a,h_a)$ 代表预测的anchor的中心坐标以及宽和高。

最后，在知道了预测的偏移量以及真实的偏移量后，就可以使用Smooth L1计算回归损失了。

6.2 RoI网络训练

前文中有提到RPN网络中的Proposal Layer会对生成的anchor进行一些筛选工作，筛选出的anchor就是RoI，而且在测试阶段筛选出的RoI数量是300，但在训练阶段RPN会筛选出2000个RoI，然后再在这2000个RoI中挑选出128个高质量样本用于RoIHead的训练，其中正负样本的比例为1:3，具体的样本筛选步骤如下所示：

计算每个RoI与每个gt bbox的IoU。
获得每一个RoI的最大IoU值。
若某个RoI的最大IoU不小于0.5，则为正样本，并将其类别标签记为最大IoU对应gt bbox的类别标签，也就是说，如果这个RoI与第3个gt bbox的IoU最大，且大于0.5，那么就把这个RoI的标签记为第3个gt bbox所对应的类别。
若某个RoI的最大IoU小于0.5，则标记为负样本，类别标签为0（背景）。
限制正负样本的数量，正样本数量不超过32个，负样本数量不超过96个。
如果正样本数量少于32个，空缺的使用负样本填充。

在有了训练样本后，就需要计算该部分的损失，RoIHead的损失计算和RPN几乎一模一样，也是分为分类损失与回归损失，分类损失使用交叉熵损失函数（注意，这是与RPN训练的一个不同点，RoI的分类是多分类问题），回归也是用 $Smooth L_1$ 损失。

总结

QA

1.为什么 RPN能够预测 groud truth 的位置（输入特征只有图像像素的卷积特征，完全没有位置信息）

参考：RPN网络的个人疑惑

2.为什么要生成一堆anchor，再对它们进行修正，而不是一开始直接预测候选区域的坐标？

其实YOLO v1就是没有使用anchor，直接对候选区域的坐标进行预测，但作者发现，效果并不好，主要是因为网络很难收敛，训练难度较大，所以YOLO的作者后来就将Faster RCC的RPN进行了相关的修改，加入到了YOLO v2中，效果有了显著的提高。

3.为什么Faster-rcnn、SSD中使用Smooth L1 Loss 而不用Smooth L2 Loss？

参考：为什么Faster-rcnn、SSD中使用Smooth L1 Loss

4.RPN网络相关详解

参考：

RPN网络结构及详解

RPN 解析

RPN疑点解析

Faster RCNN之RPN理解

5.什么是模型的训练、推理和部署？

【扫盲】什么是模型推理（model inference）

深度学习的宏观框架——训练（training）和推理（inference）及其应用场景

你可能感兴趣的:(#,目标检测网络,r语言,cnn,深度学习)

什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
玩转Docker | 使用Docker部署gopeed下载工具心随_风动玩转Docker docker 容器运维
玩转Docker|使用Docker部署gopeed下载工具前言一、gopeed介绍Gopeed简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署gopeed服务下载镜像创建容器检查容器状态检查服务端口安全设置四、访问gopeed应用五、测试与下载六、总结前言在当今信息爆炸的时代，高效地获取和管理网络资源变得尤为重要。无论是下载大型文件还是进行日常的数据传输，一个稳
Docker指定网桥和指定网桥IP
$dockernetworklsNETWORKIDNAMEDRIVER7fca4eb8c647bridgebridge9f904ee27bf5nonenullcf03ee007fb4hosthostBridge默认bridge网络,我们可以使用dockernetworkinspect命令查看返回的网络信息，我们使用dockerrun命令是将网络自动应用到新的容器Host如果是hosts模式，启动容
UNIX域套接字
1、UNIX域套接字的定义UNIX域套接字是进程间通信（IPC）的一种方式，不涉及网络协议栈，因此在同一台主机上的通信中，它比基于TCP/IP协议的网络套接字更快速、更高效。2、UNIX域套接字的分类字节流套接字（SOCK_STREAM）：提供面向连接的、可靠的数据传输服务。数据报套接字（SOCK_DGRAM）：提供无连接的数据传输服务，数据以独立的数据报形式传输。3、UNIX套接字与TCP/IP
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
Docker容器底层原理详解：从零理解容器化技术 Debug Your Career 面试 docker 容器 docker java
一、容器本质：一个“隔离的进程”关键认知：Docker容器并不是一个完整的操作系统，而是一个被严格隔离的进程。这个进程拥有独立的文件系统、网络、进程视图等资源，但它直接运行在宿主机内核上（而虚拟机需要模拟硬件和操作系统）。类比理解：想象你在一个办公楼里租了一间独立办公室（容器）。你有自己的桌椅（文件系统）、电话分机（网络）、门牌号（主机名），但共享整栋楼的水电（宿主机内核）和电梯（硬件资源）。办公
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
11. TCP 滑动窗口、拥塞控制是什么，有什么区别 yqcoder 前端面试-服务协议 tcp/ip 网络 php
总结滑动窗口：早期网络，通信双方不考虑网络拥挤情况，导致掉包。滑动窗口大小意味着有多少缓冲区接受数据。拥塞控制：防止过多数据注入网络中，拥塞控制是一个全局过程，控制网络流量。区别：滑动窗口解决掉包问题，拥塞控制解决网络拥塞问题。TCP滑动窗口与拥塞控制详解在TCP协议中，为了实现可靠传输和高效通信，引入了两个核心机制：滑动窗口（SlidingWindow）和拥塞控制（CongestionContr
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
上位机知识篇---Linux中的文件挂载 Atticus-Orion 上位机操作篇 linux 运维网络文件挂载
文章目录前言1.挂载的基本概念文件系统挂载点设备文件2.挂载的命令挂载文件系统示例卸载文件系统示例3.挂载的常用选项示例4.自动挂载（/etc/fstab文件）示例使用UUID挂载5.挂载网络文件系统（NFS）挂载NFS示例6.挂载ISO文件挂载ISO文件示例7.查看已挂载的文件系统8.挂载的注意事项9.挂载的常见问题挂载失败卸载失败10.总结前言在Linux系统中，文件挂载是指将一个文件系统（如
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
计算机科学与技术柳依依@ 学习前端 c4前端后端
计算机科学是一个庞大且关联性强的学科体系，初学者常面临以下痛点：-**知识点零散**：容易陷入"只见树木不见森林"的学习困境-**方向不明确**：面对海量技术栈不知从何入手-**体系缺失**：难以建立完整的知识网络1.计算机基础-计算机组成原理-冯·诺依曼体系-CPU/内存/IO设备-操作系统-进程与线程-内存管理-文件系统-计算机网络-TCP/IP模型-HTTP/HTTPS-网络安全2.编程能力
Ubuntu 服务器虚拟主机,ubuntu云服务器虚拟机 Gamer42 Ubuntu 服务器虚拟主机
ubuntu云服务器虚拟机内容精选换一换通过云服务器或者外部镜像文件创建私有镜像时，如果云服务器或镜像文件所在虚拟机的网络配置是静态IP地址时，您需要修改网卡属性为DHCP，以使私有镜像发放的新云服务器可以动态获取IP地址。本节以WindowsServer2008R2操作系统为例。其他操作系统配置方法略有区别，请参考对应操作系统的相关资料进行操作，文档中不对此进行详细说明后端虚拟机绑定EIP。登录
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
ModBus总线协议小仇学长 STM32 网络 Modbus协议
一、知识点1.什么是Modbus协议？Modbus是一种工业通信协议，最早由Modicon公司在1979年提出，目的是用于PLC（可编程逻辑控制器）之间的数据通信。它是主从式通信，即一个主机（主设备）控制一个或多个从机（从设备）。它常用于RS-232、RS-485串口通信，也可以用于TCP/IP网络通信（叫做ModbusTCP）。2.核心特征特征项内容通信结构主从式（Master/Slave）通信
2.4 基于dpdk的用户态协议栈的实现百亿苍狗高性能网络设计专栏开发语言网络
操作系统PosixAPI所提供的网络接口，数据收发是基于用户态与内核态的频繁切换实现。而dpdk实现了绕过内核监管，直接在用户态访问网络硬件，避免频繁状态切换。DPDK安装与配置虚拟机环境配置检查是否支持多队列网卡cat/proc/interrupts|grepens33(获取整个机器的终端)，结果19:4202120IO-APIC19-fasteoiens33，不支持多队列网卡。虚拟机关机，修改
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少