秋天的风儿

两阶段目标检测重要论文总结

文章目录

Selective Search方法
- 1、论文简介
- 2、算法原理
EdgeBoxes方法
- 1、论文简介
- 2、算法原理
一、R-CNN
- 1、论文简介
- 2、结构设计
- 3、论文总结及改进点
二、SPPNet-解决R-CNN速度慢的问题
- 1、论文简介
- 2、结构设计
- 3、论文总结及改进点
- 4、SPPnet代码（Pytorch）
三、Fast R-CNN
- 1、论文简介
- 2、结构设计
- - ROI池化层
  - multi-task损失
  - 截断SVD方法
- 3、论文总结及改进点
- 4、ROI池化层代码（Pytorch）
- 5、selective search方法提取region proposal代码
- 6、输出分类概率及Bbox回归网络代码
四、Faster R-CNN
- 1、论文简介
- 2、结构设计
- - RPN模块
  - Anchor
  - anchor金字塔
- 3、RPN和Fast RCNN共享特征的细节
- 4、论文总结及改进点
五、RFCN
- 1、论文简介
- 2、结构设计
- - backbone
  - ROI区域的分类
  - ROI区域的回归
- 3、论文总结
六、Light-Head RCNN
- 1、论文简介
- 2、结构设计
- - RCNN检测子网
  - RoI warping
  - light-head RCNN结构分解
- 3、论文总结
七、FPN
- 1、论文简介
- - 特征金字塔的发展历程
  - 自上而下结构和跳跃式连接结构
- 2、结构设计
- - 自下而上路径（具高分辨率低语义）
  - 自上而下路径（具低分辨率高语义）和横向连接
  - FPN用在RPN
  - FPN用在Fast RCNN
- 3、论文总结
- 4、FPN代码（pytorch）
八、Mask R-CNN
- 1、论文简介
- 2、结构设计
- - Mask R-CNN
  - Mask表示
  - RoIAlign
  - 网络结构
  - 3、论文总结
引用

Selective Search方法

1、论文简介

论文名称：Selective Search for Object Recognition

论文地址：Selective Search

论文代码：Selective Search代码

2、算法原理

# Selective Search算法流程
Algorithm1:Selective Search
Input:(color)image
Output:Set of object location hypotheses L
1、生成初始化区域集R
2、初始化相似集合S为空集
3、foreach (ri,rj) do #计算区域内每个相邻区域的相似度
     计算s(ri,rj)
     把s(ri,rj)合并到S里面
4、while S不等于空集的时候 do  #对S集合中相似度最高的区域进行合并为一个区域
     取出S集合中相似度最高的s(ri,ji)
     对ri，ji进行合并成为rt
     把rt加入到S中
     删除S集合中与ri有关的子集
     删除S集合中与rj有关的子集
     计算新集合与所有集和的相似度
5、跳转到步骤4，直到S为空

# 生成初始化区域集R的方法
Algorithm2:区域分割算法
Input:有n个节点和m条边的图G
Output:一系列区域集R
1、	将边按照权重值以非递减方式排序
2、	最初的分割记为S(0)，即每一个节点属于一个区域
3、	按照以下的方式由S(q-1)构造S(q)：记第q条边连接的两个节点为vi和vj，如果在S(q-1)中vi和vj是分别属于两个区域并且第q条边的权重小于两个区域的区域内间距，则合并两个区域。否则令S(q) = S(q-1)。
4、	从q=1到q=m，重复步骤2
5、	返回S（m）即为所求分割区域集合

1、区域内间距求法：

MST为区域对应最小生成树，即区域内间距为区域对应最小生成树中权值最大的边对应的权值。

2、区域间间距的求法：

即在所有分别属于两个区域且有边链接的点对中，寻找权值最小的那对边的权值即为区域间间距（若两个区域内的点没有边相连，则定义间距为正无穷大）

3、判断两个集合是否可以合并的方法

如上公式三求取两个区域是否可以合并的结果为true表示不可合并（也即是区域间间距远大于区域内间距），fasle表示可以合并。

4、图的最小生成树

见博客https://blog.csdn.net/qq_35644234/article/details/59106779讲解

5、区域相似度的计算

①颜色相似度：对各个通道计算颜色直方图，然后取各个对应bins的直方图最小值。这样做的话两个区域合并后的直方图也很好计算，直接通过直方图大小加权区域大小然后除以总区域大小就好了。将色彩空间转为HSV，每个通道下以bins=25计算直方图，这样每个区域的颜色直方图有25*3=75个区间。

②纹理相似度：计算方式和颜色距离几乎一样，我们计算每个区域的快速sift特征，其中方向个数为8，3个通道，每个通道bins为10，对于每幅图像得到240维的纹理直方图。

③尺寸相似度：优先合并小区域，如果仅仅是通过颜色和纹理特征合并的话，很容易使得合并后的区域不断吞并周围的区域，后果就是多尺度只应用在了那个局部，而不是全局的多尺度。因此我们给小的区域更多的权重，这样保证在图像每个位置都是多尺度的在合并。

④区域合适相似度：不仅要考虑每个区域特征的吻合程度，区域的吻合度也是重要的，吻合度的意思是合并后的区域要尽量规范，不能合并后出现断崖的区域，这样明显不符合常识，体现出来就是区域的外接矩形的重合面积要大。因此区域的合适相似度定义为：

⑤综合各种相似度，通过多种策略去得到region proposal，最简单的方法当然是加权：

⑥参数初始化多样性，我们基于图的图像分割得到初始区域，而这个初始区域对于最终的影响是很大的，因此我们通过多种参数初始化图像分割，也算是扩充了多样性。

6、给区域打分

通过上述的步骤我们能够得到很多很多的区域，但是显然不是每个区域作为目标的可能性都是相同的，因此我们需要衡量这个可能性，这样就可以根据我们的需要筛选region proposal个数。

本文做法是给予最先合并的图片块较大的权重，比如最后一块完整图像权重为1，倒数第二次合并的区域权重为2以此类推。但是当我们策略很多，多样性很多的时候这个权重就会有太多的重合了，因为不好排序。本文做法是给他们乘以一个随机数，然后对于相同的区域多次出现的就做权重叠加，毕竟多个方法都说你是目标，也是有理由的。这样就得到了所有区域的目标分数，也就可以根据自己的需要选择需要多少个区域了。

EdgeBoxes方法

1、论文简介

论文名称：Edge Boxes: Locating Object Proposals from Edges

论文链接：EdgeBoxes

论文源码：EdgeBoxes实现

selective search与edgeboxes的调包实现

2、算法原理

①对于一张image，计算每一个pixel的edge response，在论文中使用Structured Edge Detector来判断物体的边界。然后使用NMS去整理edge，得到最后较为稳定的object edges。

②计算edge groups 和 affinity：直观的来说，笔直的边界具有较高的affinity，而曲率较高的边界的affinity较低。给定一个bbox，根据bbox内部含有的edge的affinity的最大值来判断bbox的boundary。给定一个edges group的几个，计算两两相邻groups之间的affinity。如果两个groups之间均值夹角接近于groups的方向，则说明这两个edge groups有着较高的affinity。

③计算bounding box的score：从上面得到了edges groups集合S和他们的affinity，可以计算每一个candidate bounding box的object proposal score。首先计算在group Si 中的所有edges p的mp值的和，为mi，在group Si中计算si是否完全包含在b中的连续值wb(xi) ，介于[0,1]。

使用一种高效的算法，去计算每一个Sb。上面的公式可以求出edges group Si 与bounding box中含有最高的affinity的一些path。在上面的公式计算下，很多的pairwise都是0。下面可以计算score：

其中 $b_w$ 和 $b_n$ 代表box的width 和height。k值为1.5，作用是对大windows会有更多的edges进行偏置调节。同时发现box中央的edges会比靠近box边界的edges的作用更小。所以在这里对位于box中央的bin做一个调整处理。定义box的center的指标是：bin的width和height是整个box的一半，即 $\frac{b_w}{2}$ , $\frac{b_n}{2}$ 。

④查找策略：使用sliding window search 在一个image上进行位置，尺度和纵横比上的查找bbox，在含有一个object的区域，可能会产生更多的bounding boxes和更密集地聚集。利用IoU去筛选，提炼最终合并bounding box。然后最后是对得到的bounding boxes进行NMS，得到最终的sorted boxes。

一、R-CNN

1、论文简介

论文名称：《Rich feature hierarchies for accurate object detection and semantic segmentation》

论文链接：R-CNN

摘要：在过去几年中，在标准PASCAL VOC数据集上目标检测性能保持稳定。性能最好的方法是复杂的集成系统，通常将多个低级图像特征与高级上下文相结合。在本文中，我们提出了一种简单且可扩展的检测算法，与之前在VOC 2012上获得的53.3%的平均精度相比，平均精度（mAP）提高了30%以上。我们的方法结合了两个关键观点：（1）一个可以将高容量CNN应用于自下而上的region proposal，以便定位和分割对象；（2）当有label的训练数据稀缺时，这时就用到了监督预训练作为辅助任务，然后进行特定区域的微调，就可以显著提高性能。由于我们将区域提议与CNN相结合，我们将此方法称为R-CNN：具有CNN特征的区域。我们还将R-CNN与OverFeat进行了比较，OverFeat是最近提出的一种基于类似CNN结构的滑动窗口检测器。我们发现，在200类别的ILSVRC2013检测数据集上，R-CNN的表现远优于OverFeat。

关注的两个问题：①用深度网络定位目标②用小量的标注数据训练一个高容量模型。

解决CNN定位问题：使用区域识别范式操作。具体操作为：测试时在输入图片上产生2000个类别独立的region proposal，用CNN从每个proposal上提取固定长度的向量，然后用特定类别的线性SVM对每个region进行分类。用仿射图像变形去计算来自每个region proposal的固定大小CNN输入。

解决标注数据缺失问题：在大型辅助数据集ImageNet上进行监督预训练，在小数据集VOC上进行迁移学习微调操作。（传统方法为先进行无监督预训练再进行有监督微调操作）

2、结构设计

R-CNN结构图：

R-CNN包括三个模块：RP生成模块，特征提取模块，分类模块。

①RP生成模块：生成类别独立的region proposal模块，使用选择性搜索方法。

选择性搜索方法：首先通过类似聚类方法在图像中找到初始的分割区域（颜色、纹理、大小、形状、相似度比较相似的区域），然后对这些区域进行加权合并产生不同层次的2000个候选框。

②特征提取模块：用大型CNN(AlexNet)从每个region提取固定长度的特征向量的模块。

候选框缩放原则：使用非等比例缩放（不保留长宽比）且连带邻近像素的方法（dilate proposal），连带的像素作者使用P=16，多出来的像素全部填为此图的像素平均值，喂到CNN之前每个像素都要做去均值操作。下图最右边的两张图表示本文使用的缩放原则。

③分类模块：使用特定类别的线性SVM分类器。

为什么用SVM分类而不用softmax？

答：微调时正负样本的选择策略是与GT的IOU最大且IOU大于0.5的候选框为正样本（与GT有偏离，精确定位性能差），其余候选框为负样本；而训练各类别SVM分类器时GT框为正样本（精确定位性能好），与GT的IOU小于0.3的候选框为该类负样本（用到难例挖掘），忽略与GT的IOU大于0.3的候选框。
选择sotfmax之后正负样本的选择策略要跟着微调时的策略来，因此造成性能没有SVM分类那么好。

整个过程描述：将输入图像用选择性搜索方法生成2000个候选框，将每个候选框都强制缩放为227×227大小的RGB图像，然后将每一张RGB图像逐一输入同一个CNN中提取出一个4096维度的特征向量，最后用线性SVM对这个向量进行分类，在分类的同时还进行了BBox的回归操作。

在这里BBox回归是什么？

答：对候选框进行精调，得到偏移量，然后对候选框施加这个偏移量得到最终的预测框。总的来说就是BBox回归使得微调后的窗口与GT更接近了。

BBox回归怎么做？

上图测试阶段黄色的为预测的偏移量，将偏移量都放到等式左边，然后在训练阶段由给定的GT框和输入框就可以算出要拟合的比例因子(要预测的偏移量)了。让神经网络去拟合这个比例因子，即现在要让黄色的 $W_*^T \phi_5(P^i)$ 去拟合 $t_*^i$ ， $W_*^T \phi_5(P^i)$ 代表在第五个池化层的特征上乘以一个线性回归的权重矩阵， $(t_*^i-W_*^T \phi_5(P^i))^2$ 可以看出这是一个典型的回归问题，为了防止权重过大在后面加上L2正则化。

3、论文总结及改进点

总结：该设计是一个由上而下产业链的设计，不是端到端的设计，这使得流程中只要有一个地方出差错整体性能将会跟着下降。而且这种设计很耗时，主要耗费都在2000张RGB图像逐一输入到CNN中得到特征向量的计算上。

R-CNN缺点：①训练是个多阶段的流水线过程（首先在目标proposal上对卷积网络进行微调，然后让SVM适应卷积网络输出的特征，最后需要学习BBox回归）
②训练非常耗费时间和空间
③检测速度非常慢（测试阶段）

改进点：①提取候选框：EdgeBoxes、RPN网络
②共享卷积运算：SPPNet、Fast R-CNN
③兼容任意尺寸图像：SPP、ROI Pooling
④预设长宽比：Anchor
⑤网络结构：端到端
⑥融合各层特征：FPN

二、SPPNet-解决R-CNN速度慢的问题

1、论文简介

论文名称：《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》

论文地址：SPPNet

论文源码：SPPNet实现

摘要：现有CNN需要一个固定大小的输入图像。这一要求是“人为的”，可能会降低任意大小/比例的图像或子图像的识别精度。在这项工作中，我们为网络配备了另一种**池化策略“空间金字塔池化”**以消除上述要求。这种新的网络结构称为SPP网络，它可以生成固定长度的表示，而不管图像大小/比例如何。金字塔池化对于目标变形也鲁棒。有了这些优势，SPP网络总体上改进了所有基于CNN的图像分类方法。在ImageNet 2012数据集上，我们证明了SPP net提高了各种CNN架构的准确性，尽管它们的设计不同。在Pascal VOC 2007和Caltech101数据集上，SPP net使用单个完整图像表示，无需微调，即可获得最先进的分类结果。
SPP网络的功能在目标检测中也很重要。使用SPP网络，我们只从整个图像中计算一次特征映射，然后在任意区域（子图像）中汇集特征，生成用于训练检测器的固定长度表示。该方法避免了重复计算卷积特征。在处理测试图像时，我们的方法比R-CNN方法快24-102倍，同时在Pascal VOC 2007上实现了更好或类似的精度。
在2014年ImageNet大规模视觉识别挑战赛（ILSVRC）中，我们的方法在所有38个团队中的目标检测和图像分类排名分别为#2和#3。

问题：CNN需要固定大小的输入图像（卷积层其实不需要固定尺寸的输入图也能产生任意尺寸大小的特征图，但是FC层则需要固定大小的输入）。

方案：提出空间金字塔池化层，在卷积层最后一层加SPP层，该层可以池化特征产生固定大小的输出。

SPP优点：①不论输入图像大小可产生固定带小的输出；
②使用多级空间池化核，多级池化对目标变形具有鲁棒性；
③由于输入尺寸较灵活，SPP可以池化在不同尺度上提取到的特征。

对R-CNN的改进点：
①让卷积层在整张输入图像中只运行一次（而不是像R-CNN中在整张图像中提取到2000多个候选框再强制扭曲为227×227大小的2000张图像最后逐图像输入CNN中让CNN运行2000多次），然后让SPPnet在特征图上提取特征。
②用到EdgeBoxes的快速提案法，整张图的处理速度更快了。

2、结构设计

SPP是一种自适应的max-pooling方法

思路：根据输入特征图的大小和期望输出特征图的大小来确定池化框的size和stride，如假设输入为C×M×M的特征图，期望SPP输出C×N×N的特征图，则SPP的池化框大小为 $ceil(\frac{M}{N})$ ，其中ceil为向上取整操作；滑动stride为 $floor(\frac{M}{N})$ ，其中floor为向下取整操作。

池化框数量的确定：SPP输出C×N×N的特征图，则bin数量为N×N。如下图最左边的SPP欲输出4×4大小的特征图，则bin数量为16（可以理解为将原来的特征图分为16份，在每一份上做最大池化操作）。
维度数确定：等于最后一层卷积层的卷积核个数。例如下图为256维。
L-level SPP：L个输出尺寸不同的SPP形成的金字塔网络。一般将每个SPP的输出进行flatten，然后再concatenate，最后输入到FC或softmax。例如下图为3-level SPP。

上图操作可以可视化为下面的图：

注意：最右边有一个覆盖全图的池化框，这其实是全局池化操作。

全局池化：可以做全局平均池化和全局最大池化

优点：①减少模型尺寸、参数量；②防止过拟合现象

3、论文总结及改进点

总结：此篇论文对R-CNN最大的改进点在于特征提取阶段：将整张待检测的图片输入CNN中，进行一次性特征提取，得到feature maps，然后在feature maps中找到各个候选框的区域，再对各个候选框采用金字塔空间池化，提取出固定长度的特征向量。R-CNN的做法是：将每个候选框逐个输入到CNN中提取出4096维向量。因为SPP-Net只需要对整张图片进行一次特征提取，速度会大大提升。

SPPnet缺点：①训练过程仍是个多阶段的流水线；
②微调算法不能更新SPP层之前的卷积层，因此（固定的卷积层）限制了非常深的网络的准确性。

改进点：①改为单阶段训练；
②使得算法可以更新网络所有层。

4、SPPnet代码（Pytorch）

整个训练和测试流程见这篇博客的部分三：https://blog.csdn.net/weixin_45422462/article/details/108412656

对SPP层的定义：

import math
def spatial_pyramid_pool(self, previous_conv, num_sample, previous_conv_size, out_pool_size):
    '''
    previous_conv: a tensor vector of previous convolution layer
    num_sample: an int number of image in the batch(这里等于1)
    previous_conv_size: size of featrue map in previous convolution layer
    out_pool_size: expected output size of max pooling layer
    
    returns: a tensor vector with shape [1 x n] is the concentration of multi-level pooling
    '''    
    for i in range(len(out_pool_size)):
        h_siz = int(math.ceil(previous_conv_size[0] / out_pool_size[i]))
        w_siz = int(math.ceil(previous_conv_size[1] / out_pool_size[i]))
        
        h_str = int(math.floor(previous_conv_size[0] / out_pool_size[i]))
        w_str = int(math.floor(previous_conv_size[1] / out_pool_size[i]))
        
        h_pad = (h_siz*out_pool_size[i] - previous_conv_size[0] + 1)/2
        w_pad = (w_siz*out_pool_size[i] - previous_conv_size[1] + 1)/2
        
        maxpool = nn.MaxPool2d((h_wid, w_wid), stride=(h_wid, w_wid), padding=(h_pad, w_pad))
        x = maxpool(previous_conv)
        if(i == 0):
            spp = x.view(num_sample,-1)
            # print("spp size:",spp.size())
        else:
            # print("size:",spp.size())
            spp = torch.cat((spp,x.view(num_sample,-1)), 1) #concat操作
    return spp

带有SPP层的CNN网络：

import torch
import torch.nn as nn
from torch.nn import init
import functools
from torch.autograd import Variable
import numpy as np
import torch.nn.functional as F
from spp_layer import spatial_pyramid_pool
class SPP_NET(nn.Module):
    '''
    A CNN model which adds spp layer so that we can input multi-size tensor
    '''
    def __init__(self, opt, input_nc, ndf=64,  gpu_ids=[]):
        super(SPP_NET, self).__init__()
        self.gpu_ids = gpu_ids
        self.output_num = [4,2,1]
        
        self.conv1 = nn.Conv2d(input_nc, ndf, 4, 2, 1, bias=False)
        
        self.conv2 = nn.Conv2d(ndf, ndf * 2, 4, 1, 1, bias=False)
        self.BN1 = nn.BatchNorm2d(ndf * 2)

        self.conv3 = nn.Conv2d(ndf * 2, ndf * 4, 4, 1, 1, bias=False)
        self.BN2 = nn.BatchNorm2d(ndf * 4)

        self.conv4 = nn.Conv2d(ndf * 4, ndf * 8, 4, 1, 1, bias=False)
        self.BN3 = nn.BatchNorm2d(ndf * 8)

        self.conv5 = nn.Conv2d(ndf * 8, 64, 4, 1, 0, bias=False)
        self.fc1 = nn.Linear(10752,4096)
        self.fc2 = nn.Linear(4096,1000)

    def forward(self,x):
        x = self.conv1(x)
        x = self.LReLU1(x)

        x = self.conv2(x)
        x = F.leaky_relu(self.BN1(x))

        x = self.conv3(x)
        x = F.leaky_relu(self.BN2(x))
        
        x = self.conv4(x)
        x = F.leaky_relu(self.BN3(x))
        
        x = self.conv5(x)
        spp = spatial_pyramid_pool(x,1,[int(x.size(2)),int(x.size(3))],self.output_num)

        fc1 = self.fc1(spp)
        fc2 = self.fc2(fc1)
        s = nn.Sigmoid()
        output = s(fc2)
        
        return output

三、Fast R-CNN

1、论文简介

论文名称：《fast R-CNN 》

论文链接：Fast R-CNN

源码(fast-RCNN实践)：Fast R-CNN实现

摘要：本文提出了一种基于区域卷积网络的快速目标检测方法（Fast R-CNN）。Fast R-CNN基于之前的工作，使用深度卷积网络对目标proposal进行有效分类。与之前的工作相比，Fast R-CNN采用了多项创新技术来提高训练和测试速度，同时也提高了检测精度。Fast R-CNN比R-CNN快9倍，在测试时快213倍，在PASCAL VOC 2012上得到了更高的mAP。与SPPnet相比，Fast R-CNN训练VGG16的速度快3倍，测试速度快10倍也更准确。

问题：解决目标检测定位的复杂性的时候牺牲了速度、准确性和简化度。

解决措施：提出单阶段训练算法，使之可以联合学习对目标proposal分类和优化空间位置这两个动作。最终结果可以训练非常深的检测网络，如VGG。

Fast R-CNN算法的优点：

①较R-CNN和SPPnet更高的mAP；
②单阶段训练，用多任务损失；
③训练可以更新网络所有层；
④特征计算不需要耗费磁盘空间存储。

2、结构设计

过程分解：
①输入整张图像经过两个分支，一个分支将图像送入到卷积网络中得到特征图，另一个分支通过selective search方法提取region proposal；两路分支都是整个Fast RCNN的输入；
②将region proposal映射到CNN的最后一层卷积特征图上；
③对于每个region proposal，ROI池化层使每个RoI生成固定尺寸的特征图；
④每个特征向量输入到一系列FC层中，这些层最终分支为两个同级输出层：一个层对K个目标类加上一个“背景”类生成softmax概率估计，另一层为K个对象类中的每一类输出四个实数，即边框回归偏移量。每组4个值代表了K类中的其中一类的精确边框位置的编码。

ROI池化层

ROI池化层：用最大池化将内含感兴趣区域的特征图转换为小的固定尺寸为H×W大小的特征图（H，W是相互独立的）。本文中ROI池化层是个卷积特征图中的矩形窗，每个ROI都由四元组 $(r, c, h, w)$ 定义，其中 $(r, c)$ 代表左顶部， $(h, w)$ 代表高和宽。这些坐标都是对应原图像的，而不是输出的特征图的，因此还需要把原图像的坐标系映射到特征图上！

ROI池化层过程：将h×w的region proposal用尺寸为h/H，w/W的子窗分割为H×W大小的网格然后将region proposal映射到最后一个卷积层输出的特征图，最后计算每个网格里的最大值作为该网格的输出。其中池化操作在每个特征图通道中都是独立的。ROI层其实是one-level SPP层的一种特殊情况。

ROI池化过程：

①输入的固定大小的feature map

②region proposal 投影之后位置(左上角,右下角坐标)：(0,3),(7,8）

③将其划分成（2×2）个sections（因为输出大小为2*2）,我们可以得到：

④对每个section做max pooling，可以得到：

multi-task损失

Softmax Loss(检测分类概率)+Smooth L1 Loss(检测边框回归)对分类概率和边框回归联合训练。

总损失：

分类损失：

回归损失：

其中Smooth L2 loss:

截断SVD方法

整张图的分类上，FC层花费的时间少于卷积层；检测时要处理的ROI数量非常大，前向传播一半时间都用在FC层计算上。**用截断SVD方法压缩可以使得参数量巨大的FC层（也即ROI数量较大）加速更加容易。**被u×v大小的权重矩阵W参数化的FC层近似分解为：

这里U是由W的前t个左奇异向量组成的u×t矩阵， $\displaystyle \sum t$ 是一个包含W顶部的t个奇异值的t×t对角矩阵，V是W的前t个右奇异向量组成的v×t矩阵。SVD方法将参数计算量由uv减少到了t(u+v)。

为了压缩网络，将与W对应的单个FC层替换为两个FC层（FC层之间没有非线性关系）。第一层使用没有偏置的权重矩阵 $\displaystyle \sum t V^T$ ，第二层使用矩阵U(具有与W有关联的初始偏置)。

3、论文总结及改进点

相比RCNN本文不同点为：

最后一层卷积层后加入ROI池化层
使用softmax分类损失+Smooth L1回归损失的多任务损失函数，将边框回归直接加入到CNN中训练，同时用sotfmax代替SVM。
在检测中使用截断SVD方法加速FC层计算

对RCNN的改进点：

fast RCNN将整张图归一化后送入CNN，在最后一层卷积层输出的特征图上加入region proposal，使得在此之前的CNN运算可以共享。
fast RCNN在训练时只需要将一张图像送入到CNN，每张图像一次性提取所有特征和region proposal，训练数据在GPU内存里直接进Loss层，减少了重复计算以及硬盘存储需要。
使用ROI池化层，不需要再对input进行Corp和wrap操作，避免像素的损失，巧妙解决了尺度缩放的问题。

对RCNN和SPPnet的共同改进点：

Fine-tuning使用单阶段流水线的方式，联合优化了softmax分类器和边框回归器。
Fast RCNN训练过程中的SGDmini batch是分层采样的，使得训练过程可以更新网络所有层的权重。这利用了训练中的特征共享。

fast RCNN缺点：

仍使用selective search方法得到region proposal，整个检测流程时间大多消耗在这上面（生成region proposal大约2~3s，而特征提取+分类只需要0.32s）。

4、ROI池化层代码（Pytorch）

import torch.nn.functional as F

def ROI_Pooling(feature_map, rois, size):
	Pooled_ROI = []
    rois_num = len(rois)
    for i in range(rois_num):
        roi = rois[i]
        Right, Left, Top, Bottom = roi # ROI映射到特征图之后的坐标
        Cut_Feature_Map = feature_map[:, :, Top:Bottoom, Left:Right]
        Fixed_Feature_Map = F.adaptive_max_pool2d(Cut_Feature_Map, size)
        Pooled_ROI.append(Fixed_Feature_Map)
        
    return torch.cat(Pooled_ROI)


if __name__ == '__main__':
      feature_map = torch.randn(1, 512, 15, 13)           # 输入为batch_size=1的数据：torch.Size([1, 512, 15, 13])     
      rois = [(7, 4, 4, 1), (10, 2, 12, 9), (5, 2, 12, 10)]   
      size = (7, 7)   
      print(RoI_Pooling(feature_map, rois, size).size())  # 输出为batch_size=3的数据：torch.Size([3, 512, 7, 7])

5、selective search方法提取region proposal代码

import sys
import cv2

def get_selective_search():
    ss = cv2.ximgproc.segmentation.createSelectiveSearchSegmentation()
    return ss

def config(ss, img, strategy='q'):
    ss.setBaseImage(img)
    if strategy == 's':
        ss.switchToSingleStrategy()
    if strategy == 'f':
        ss.switchToSelectiveSearchFast()
    if strategy == 'q':
        ss.switchToSelectiveSearchQuality()
    else:
        print(__doc__)
        sys.exit(1)

def get_rects(ss):
    rects = ss.process()
    rects[:, 2] += rects[:, 0]
    rects[:, 3] += rects[:, 1]  # 使用process方法取候选框
    return rects


def selective_search(img):
    ss = get_selective_search()                                         # 获取selective search方法
    config(ss, img, strategy='q')                                       # 设置selective search方法获取模式
    rects = get_rects(ss)                                               # 定义候选框
    rectsd = []
    for i in rects:
        rectsd.append({"rect": i})                                      # 格式为字典，每个字典为一个rect
        if len(rectsd) > 2000:
            break
    return rectsd

6、输出分类概率及Bbox回归网络代码

import torch.nn as nn
from collections import OrderedDict

class Fully_Conection_Model(nn.Module):
  def __init__(self):
    super(Fully_Conection_Model, self).__init__()
    self.First_Sibling_Layer = nn.Sequential(
        OrderedDict([('Dropout_1', nn.Dropout()),
                     ('Linear_1', nn.Linear(512 * 7 * 7, 4096)),
                     ('ReLU_1', nn.ReLU(inplace=True)),
    
                     ('Dropout_2', nn.Dropout()),
                     ('Linear_2', nn.Linear(4096, 4096)),
                     ('ReLU_2', nn.ReLU(inplace=True)),

                     ('Linear_3', nn.Linear(4096, 21))]))
    
    self.Second_Sibling_Layer = nn.Sequential(
        OrderedDict([('Dropout_1', nn.Dropout()),
                     ('Linear_1', nn.Linear(512 * 7 * 7, 4096)),
                     ('ReLU_1', nn.ReLU(inplace=True)),
    
                     ('Dropout_2', nn.Dropout()),
                     ('Linear_2', nn.Linear(4096, 4096)),
                     ('ReLU_2', nn.ReLU(inplace=True)),
    
                     ('Linear_3', nn.Linear(4096, 4))]))
    
  def forward(self, Model_INPUT):
    Flatten_INPUT = Model_INPUT.view(-1, 512 * 7 * 7)
    Classification_Output = self.First_Sibling_Layer(Flatten_INPUT)
    Bbox_Regression_Output = self.Second_Sibling_Layer(Flatten_INPUT)
    return Classification_Output, Bbox_Regression_Output

device = 'cuda' 
Fast_RCNN_Model = Fully_Conection_Model().to(device)

四、Faster R-CNN

1、论文简介

论文名称：《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》

论文地址：Faster R-CNN

论文源码1：Faster R-CNN实现1

论文源码2：Faster R-CNN实现2

摘要（部分）：最先进的目标检测网络依靠region proposal算法来假设目标位置。SPPnet和Fast R-CNN等技术进步缩短了这些检测网络的运行时间，但是region proposal的计算仍是瓶颈。在解决此瓶颈的工作中，我们引入了一个region proposal网络（RPN），它与检测网络共享全图像的卷积特征，从而可以实现几乎无计算损耗的region proposal。RPN是一个全卷积的网络，可以同时预测目标边界和每个位置的目标分数，可以经过端到端的训练，生成高质量的region proposal，在Fast R-CNN中用于检测。然后进一步将RPN和Fast R-CNN合并成一个单一的网络，通过使用注意力机制来共享它们的卷积特征，使得RPN组成成分告诉统一的网络在哪里寻找目标。

目前生成region proposal的方法：

selective search(一张图2s)
EdgeBoxes(一张图0.2s)

本文提出的问题1：怎么更快更高效地产生region proposal?

解决方案：用CNN特征图计算得到region proposal，提出了RPN共享卷积层。（一张图10ms）。

RPN特点：①在最后的卷积特征上额外的卷积层
②可以同时在网格的任意位置做区域边界和目标得分的回归
③全卷积网络的一种
④可以端到端训练
⑤可以生成具有广泛尺度和纵横比的region proposal

目前处理多尺度图像的方法：

图金字塔方法（在所有尺度上运作）
多尺度卷积核金字塔（在特征图上运作）

本文提出的问题2：怎么更高效地处理多尺度、多纵横比问题?

解决方案：提出锚框概念（作为多尺度和纵横比的参考）

方案优点：①可认为是回归参考的金字塔，避免了枚举多尺度的图像或卷积核。
②用在单尺度图像中训练和测试表现优益，利于提高速度。

2、结构设计

Faster RCNN包含的模块：①RPN模块 ②检测模块

过程分解：

①输入测试图像
②将整张图片输入CNN进行特征提取
③用RPN生成region proposal，每张图片生成300个RP
④把RP映射到CNN最后一层卷积特征图上
⑤对每个RP，通过ROI池化层使每个RoI生成固定尺寸的特征图
⑥利用Softmax Loss(探测分类概率) 和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练

RPN模块

输入为任意大小的图像，输出为一组矩形region proposal，每个都有目标分数。将此过程封装为FCN(全卷积网络)。目标是使得RPN网络和Fast RCNN的目标检测网络共享计算、共享一组卷积层。

生成RP过程：在最后一层共享卷积层输出的特征图上滑动一个小网络，此网络输入为特征图的n×n空间窗口，每个滑动窗口都映射到低维特征，此低维特征分别喂到两个同级FC层中，一层是Bbox回归层(reg)，另一层是box分类层(cls)，两个FC层共享所有的空间位置。

RPN模块结构实施：n×n卷积层后跟两个同级的1×1卷积层。

Anchor

在每个滑动窗口位置，同时预测多个region proposal，其中每个位置的最大可能region proposal的数量表示为 k。因此reg层有 4k 个输出用来编码 k 个框的坐标，cls 层输出 2k 个分数用于估计每个proposal的目标或非目标概率。将k 个proposal相对于 k 个参考框进行参数化，这些参考框称之为锚点anchor。

**每个anchor位于滑动窗口的中心，并与尺度和纵横比相关。**假设使用三个尺度和三个纵横比，则在每个滑动窗口的位置可以产生k=9个anchor。对于W×H大小的卷积特征图，总共会产生W×H×k个anchor。

特点：平移不变性，对anchor和计算相对于anchor的region proposal的函数来说都有此性质。即平移图像中的目标，proposal也应该平移，与之前相同的函数也能够预测任意位置的proposal。

anchor金字塔

参考多尺度和纵横比的锚框对BBox进行分类和回归，仅仅需要单一尺度的图和特征图，以及单一size的在特征图上滑动的核。多尺度anchor的设计对于cost-free的特征共享来说是一个关键的组成成分。

3、RPN和Fast RCNN共享特征的细节

RPN和Fast RCNN独立训练，用不同的方式修改它们各自的卷积层。有三种共享特征的训练网络方法。

交替训练：先训练RPN，再用proposal训练Fast RCNN，然后用 Fast R-CNN 调优的网络来初始化 RPN，这个过程是迭代的。
近似联合训练
非近似联合训练

本文采取4步交替训练法：通过交替优化来学习共享特征。

第一步：训练RPN网络，用ImageNet预训练模型初始化，对region proposal生成任务用端到端调优的方式；

第二步：将第一步RPN生成的region proposal用在Fast RCNN中训练一个与RPN分离的检测网络，同样用ImageNet预训练模型初始化，在这时两个网络还没有共享卷积层。

第三步：用检测网络初始化RPN训练，固定共享的卷积层，只微调RPN特有的层。这一步两个网络开始共享卷积层。

第四步：固定共享卷积层，微调Fast RCNN特有的层，这一步两个网络共享相同的卷积层并形成一个统一的网络。

4、论文总结及改进点

相对Fast RCNN有两处不同：

使用RPN代替原来的selective search方法生成region proposal
RPN网络和目标检测网络共享卷积层

相对Fast RCNN的优点：region proposal数量下降但质量有所提高且更快速、高效

缺点：

①检测阶段计算冗余。通过costly的RCNN子网（这里RCNN子网指的是：RPN后面的检测子网，ROI后面的检测子网之所以costly就是因为检测之前有两层FC）单独传递每个ROI，降低了网络速度，尤其当region proposal数量巨大时。

②RoI的分类性能较好，这是因为在第一层FC层之前有一个GAP层（用来减少FC层计算量），但是这样做会不利于RoI的空间定位性能。

五、RFCN

1、论文简介

论文名称：《R-FCN: Object Detection via Region-based Fully Convolutional Networks》

论文链接：RFCN

论文源码：RFCN实现

摘要(部分)：提出了基于区域的全卷积网络，以实现准确高效的目标检测。与以前的Fast/Faster RCNN相比，我们的基于区域的检测器是全卷积的，几乎所有计算都在整个图像上共享。为了实现这一目标，我们提出了位置敏感分数图来解决图像分类中的平移不变性和目标检测中的平移变性之间的矛盾。因此，我们的方法可以自然地采用全卷积的图像分类器的backbo- ne(如Resnet)用于目标检测。实现了高mAP的同时每幅图像的测试时间也缩短为170ms，比Faster R-CNN对应模块快2.5-20倍。

全卷积层定义：最后一层是FC层时，目标检测会在微调时移除并用卷积层替代该层

早期问题：目标检测中使用全卷积来构造共享的卷积子网络使得检测精度很低，与网络优越的分类精度不匹配。
解决方案：Faster RCNN中的ROI池化层插入到两组卷积层之间，构建了一个更深的ROI子网，提高了精度。

本文提出的问题1：在上述解决方案中每个ROI计算不共享，速度较慢。
分析问题的根源：图像分类中的平移不变性与目标检测中的平移变性之间有矛盾。
解决方案：将ROI池化层插入到卷积层中，引入了R-FCN。
该方案优点：这种区域特定操作打破了平移不变性，在ROI之后的卷积层通过不同的区域不再具有平移不变性。

本文提出的问题2：可以将全卷积图像分类器有效转换为全卷积目标检测器吗？
回答：可以实现

平移变性纳入FCN的具体做法(R-FCN)：用一些特定的卷积层构建一组位置敏感分数图作为FCN的输出，每个分数敏感图都根据相对的空间位置对位置信息进行编码。在FCN顶部添加一个对位置敏感的ROI层，该层引导这些分数图信息，后面不跟权重层（卷积\FC）。整个框架是端到端的，所有需要学习参数的层都是卷积层且共享整张图像。本文需要为目标检测编码空间信息。纳入平移变性关键思想如下：

2、结构设计

①共享卷积子网：去掉了最后的 average pooling 层和全连接层，并新增了一个卷积层进行降维，共101个卷积层。
②RPN子网：与Faster RCNN一致
③检测分类子网：1个 Score Maps层 + 1个 ROI Pooling层，与RPN并联。RPN和R-FCN共享特征

过程：①给定ROIs，R-FCN将ROI进行分类（目标种类+背景类）

②图像经过CNN到达最后一层特征图，最后一层卷积层针对每个类别产生 $k^2$ 个位置敏感图，假设有C个目表类别，因此会有 $k^2(C+1)$ 通道的输出层。 $k^2$ 个位置敏感图是对应于描述特定位置的（如{top-left, top-center, top-right, …, bottom-right}）。其中每个分数图的大小和最后一层特征图大小一致。

③ 设计一个位置敏感的ROI池化层，将Fast RCNN中的ROI划分为k×k个区域。**R-FCN以ROI池化层作为结尾，该层汇总最后一个卷积层的输出，并为每个ROI生成分数，与SPP和Fast RCNN不同的是本文的池化层是选择池化，每个k×k的ROI池化核从k×k个分数图中选出一个最后做聚合响应。（在ROI区域分类中详细解释）**通过端到端学习，该ROI池化层引导最后一个卷积层学习特定的位置敏感分数图。在ROI层之后没有可学习的层，实现了几乎free的区域计算，加快了训练和推理。

backbone

去掉GAP层和FC层的ResNet + 一个1×1的1024维卷积层（降维）+ 一个 $k^2(C+1)$ 通道的卷积层（产生分数图）

ROI区域的分类

解释过程中步骤③怎么从 $k^2(C+1)$ 个位置敏感分数图得到k×k大小且通道数为C+1的map。即位置敏感ROI池化操作(PSROIPooling)，本文所用池化是平均池化。

假设一个类别下的9个位置敏感分数图如下：

下面为划分为k×k，且k=3情况下的位置对应关系

①首先处理类别为1的部分，如下面表格所示：

②从下图所示的图中得到9个特征图，然后对每个特征图按照各自敏感的区域将其框出来（比如在这9个feature map中第一个表示左上位置，那么提取这个feature map的ROI区域，然后将其分成k∗k的网格，提取其表示的左上位置，即第一个网格）

③对抽取出来的ROI池化后的部分再做平均池化，然后按照位置组成一个k×k，即3×3大小的矩阵。

④对这个k×k大小的矩阵做投票(本文为求平均操作)得到一个值。

⑤对类别2至C+1分别进行步骤①至④的操作，从而最终得到一个1×(C+1)大小的向量如下图：

⑥对这个向量进行softmax操作，从而估计当前特征图对应的ROI区域是何类别。

ROI区域的回归

上面提到从基CNN的特征图中得到ROI池化知道softmax的分类，现在是如何微调ROI本身的区域，与ROI区域的分类较相似。

①位置敏感分数图是 $k^2(C+1)$ 通道的，现在依然从基CNN的特征图中连接出一个与位置敏感分数图并列的 $4k^2$ 通道的图，用来做候选框坐标微调，如下所示：

②像ROI区域分类部分一样做步骤①至④，最后得到一个1×4的向量，这个向量将Bbox参数化为 $t=(t_x,t_y,t_w,t_h)$ 。

③整个步骤执行的是与类无关的bbox回归，但背景类除外。

3、论文总结

本文提出一种平衡目标检测任务平移变性和分类任务平移不变性矛盾的解决方案。本文贡献在于：

①提出用特定卷积层构建一组位置敏感分数图，使用PSROI池化层，使得这种ROI池化层可以引导敏感分数图信息。
②提出PSROIPooling操作。
③实现了真正的计算共享

对Faster RCNN的改进点：①实现了全部子网的计算共享

RFCN缺点：

①用了cost-free的RCNN子网（这里的检测子网之所以cost-free是因为检测没有用到网络运算，直接用平均池化+投票+softmax），但是因为要生成一个巨大的分数图，因此整个网络仍非常耗时。

②直接在位置敏感池化操作之后池化预测结果，当没有ROI-wise的计算层时，整体效果还不如Faster RCNN。

六、Light-Head RCNN

1、论文简介

论文名称：Light-Head R-CNN: In Defense of Two-Stage Object Detector

论文链接：Light-Head RCNN

论文源码：Light-Head RCNN实现

摘要：在本文中首先研究了为什么典型的两阶段方法不如YOLO和SSD等单阶段快速检测器快。我们发现Faster RCNN和R-FCN在RoI扭曲之后或之前要执行密集计算。Faster R-CNN涉及RoI识别层的两个FC层，而RFCN生成一个大的分数图。因此由于该体系结构中的重型头部设计，这些网络的速度很慢。即使我们显著减少了基础模型，计算成本也无法相应地大幅降低。
我们提出了一种新的两阶段检测器——Light-Head RCNN，以解决现有方法的不足。在我们的设计中，我们通过使用一个轻薄的特征图和一个计算成本低昂的R-CNN子网（池化层和单个FC层），使网络的头部尽可能轻。我们基于ResNet-101的Light-Head RCNN在保持效率的同时，优于COCO上最先进的目标检测器。更重要的是，我们的LightHead R-CNN只需用一个小型网络（例如Exception）替换backbone，就可以在COCO上以每秒102帧的速度获得30.7 mmAP，在速度和精度上都显著优于yolo、SSD这种单阶段检测器。

本文提出问题：能否让两阶段检测器兼顾准确性和速度？

解决方案：提出light-head设计，特别是应用一个大核的可分离卷积去产生较薄的有着少量通道数的特征图。在ROI池化层后面再跟上一个FC层（用来获取分类和回归的特征表示）。

该方案优点：

①大大减少了ROI子网的计算。
②无论使用大型backbone还是小型都能够在速度和精度上达到满意的效果（这一点Faster R-CNN和R-FCN就做不到，如果backbone替换成小网络那么精度就跟不上）。
③对大型backbone网络具有灵活性。

2、结构设计

本文所指的“头”是指连接到backbone基CNN的结构，具体的“头”有两个部分：RCNN子网和ROI warping。

RCNN检测子网

为RCNN检测子网设计了一种简单、计算量小的FC层，实现了准确率和速度上的均衡。

问题：但是FC层的计算和内存损耗仍依赖于ROI池化操作之后的图的通道数量。

RoI warping

为解决上面检测子网中可能出现的问题，用到RoI warping使得特征图形状固定。提出产生较少通道数的特征图（轻薄特征图）之后跟上一个卷积RoI warping层这样的方法。不仅可以在轻薄特征图上提高精度，也可以减少内存损耗和计算量。

ROI warping原理：与ROI池化不一样，ROI池化过程中需要ROI区域的左上角和右下角的坐标，而ROI warping池化需要的是ROI区域的中心坐标和宽高。

解释：W、H代表输入的ROI区域的宽和高；u、v代表ROI区域在原始图像的坐标；W‘、H‘代表输入ROI区域进行crop和resize操作后输出的ROI区域的宽高；u‘、v‘代表输入ROI区域进行crop和resize操作后输出的ROI区域的坐标，G代表crop和resize操作。具体操作如下，分别对宽，高做插值。

最终将ROI区域从(x-w/2,y-h/2)×(x+w/2,y+h/2)变换为（-W‘/2,-H’/2）×（W‘/2,H’/2）。

light-head RCNN结构分解

基CNN(用作特征提取)：设定为‘L’时backbone为ResNet-101，设定为‘S’时backbone为如Xception这样的小网络。

轻薄特征图：在Xception的第五层卷积层上应用大型可分离卷积层，结构如下图。

让 $k = 1.5$ ，设定为’S’时 $C_{mid}=64$ ，设定为’L’时 $C_{mid}=256$ ，降低 $C_{out}$ 到10×p×p因此生成的图比RFCN生成的更加轻薄。因为卷积核大因此感受野也更大，这使得ROI warping之前的特征图更加powerful。

RCNN子网：仅用一个通道数为2048的FC层(无dropout)，后跟两个同级FC层预测ROI的分类和回归。

RPN网络：使用Xception的第四层卷积层上的特征。RPN预定义了一组锚点，由几个特定的尺寸和纵横比控制。

3、论文总结

本文贡献：

①提出light-head设计（RCNN检测子网+ROI warping）
②使用大核可分离卷积层产生轻薄特征图
③使用RoI warping方法在轻薄特征图上提升精度并减少内存损耗和计算。

对RFCN改进点：

①将heavy head替换为light-head设计，用可分离卷积产生轻薄特征图后大大减少了ROI池化层的计算量。
②backbone的设计更为灵活，改变为小型backbone也能达到较高精度。

Light-Head RCNN缺点：①仍然在网络顶层做预测，没有考虑到尽管CNN网络深层的特征对分类有益但对于目标的定位却无益的问题。

七、FPN

1、论文简介

论文名称：Feature Pyramid Networks for Object Detection

论文链接：FPN

论文源码：FPN实现

摘要：特征金字塔是用于检测不同尺度目标的识别系统的基本组成部分。但最近的深度学习目标检测器避免了金字塔表示，部分原因是金字塔是计算和存储密集型的。在本文利用深度CNN固有的多尺度、金字塔层次结构，用额外成本构建特征金字塔。我们开发了一种具有横向连接的自上而下的体系结构，用于在各种尺度上构建高级语义特征图，这一架构称之为FPN，它作为特征提取器在多个应用中显示了明显的改进。在一个基本的Faster R-CNN系统中使用FPN，在COCO检测基准上可实现SOTA，同时也超过了所有现有的单模型检测器，包括COCO 2016挑战赛获奖者中使用的检测器。此外我们的方法可以在GPU上以6 FPS的速度运行，因此是多尺度目标检测的一个实用而准确的方案。

特征金字塔的发展历程

特征化的图金字塔：每一层都在检测，不同比例的图像单独计算特征，每一层都会产生特征语义，(浅层的网络更关注于细节信息，高层的网络更关注于语义信息)，但速度很慢。此为手工设计的阶段。

单一特征图：只是适用于单一尺度的图片，显著特点就是速度快！卷积网络可表示高级语义特征，尺度变化的鲁棒性也很强，取代了手工设计特征。

金字塔特征分级：利用卷积神经网络来设计，卷积网络本身就是一个多层的金字塔型，直接利用卷积网络中间层的特征图，这样也就不会有多余的计算消耗，但是这样的设计不适用于目标识别，网络前几层的特征图只包含低级别特征。

本文所用结构FPN：利用卷积神经网络各层次特征，同时创建在所有尺度上都具有强大语义特征的金字塔。是一种依靠通过自上而下的途径和横向连接的方式将低分辨率、语义强的特征与高分辨率、语义弱的特征相结合的体系结构。

此结构优点：

①将不同层级的语义信息结合起来，因此在所有层级上都具有丰富的语义信息。
②可以由单一图像尺度快速构建得到金字塔结构
③可以在不牺牲性能、速度、内存的情况下构建网络内的特征金字塔，此金字塔可以代替之前的特征化图像金字塔。

自上而下结构和跳跃式连接结构

以前的结构是产生一个高分辨率单一高级特征图，并按照最好的特征层进行预测。

**本文所用结构：**与上面的结构相似，但是是将这种结构当做特征金字塔来使用，目标检测的预测在每层上是单独进行的。

本文所用方法优点：

①仅用FPN+基础Faster RCNN就可以超过任何单模型性能达SOTA
②能够衍生到掩膜region proposal，提高了实例分割的平均recall和速度
③此金字塔结构可以端到端地在所有尺度上训练，并在训练\测试中都能用（在图金字塔这么使用会出现内存问题）。

2、结构设计

目标：利用卷积网络金字塔特征层次（语义信息是从低到高的），用高层次语义信息建立特征金字塔。

方法：将一个单尺度任意尺寸图像作为输入，以全卷积形式输出多层次成比例尺寸的特征图，此过程独立于backbone卷积结构。

结构：使用backbone为ResNet，金字塔结构采用自下而上路径、自上而下路径以及横向连接。

自下而上路径（具高分辨率低语义）

原理：这指的是基础网络的前向传播，为每一个阶段定义一个金字塔级别，FPN利用每一次pooling前(特征图长宽缩小2倍)的特征图构造特征金字塔（通过卷积计算），因为每个阶段的最深层应该具有最强的特征。

做法：对于ResNets，作者使用了每个阶段的最后一个残差块的特征激活输出。将这些残差模块输出表示为{C2, C3, C4, C5}，对应于conv2，conv3，conv4和conv5的输出，并且注意它们相对于输入图像具有{4, 8, 16, 32}像素的步长。不将conv1纳入金字塔因为占用内存太大。

自上而下路径（具低分辨率高语义）和横向连接

原理：相当于将语义更强的高层特征图进行上采样得到高分辨率特征，然后把该特征横向连接到自下而上的路径来增强这些特征。注意：横向连接的两层特征空间尺寸要相同，横向连接的主要作用是结合自下而上（低层）的高分辨率特征以及更精确的定位信息。

做法：将自下而上路径中最上层的特征图通过1x1的卷积（压缩通道）后，产生的特征图作为自上而下路径的起点，然后逐步上采样，每次使长宽扩大两倍，上采样后的特征图与对应自下而上的特征图（进行一次1x1的卷积以压缩通道使得和后一层的通道数相同）相结合(对应元素相加)。在自上而下路径中的特征图都生成完后，然后我们在每个融合图上进行3×3卷积来生成最后的特征图，这是为了减少上采样的其他影响。最后的特征图为{P2、P3、P4、P5}为FPN的输出，与{C2、C3、C4、C5}相匹配。因金字塔所有层都用的共享分类器\回归器，因此自上而下的路径以及横向连接中产生的所有特征图的通道数固定为256，并且这些额外的卷积层也是256维度的输出且没有非线性的激活函数。

FPN用在RPN

用FPN代替RPN中单一尺度的特征图。特征金字塔的每一层依然用3×3卷积和两个同级1×1卷积，因网络的头是在所有金字塔层级中滑过所有区域，因此在特定的层中不需要用到多尺度anchor。我们设定每一层的anchor都是单一尺度的，分别在{P2、P3、P4、P5、P6}定义了anchor的所占区域为 ${32^2、64^2、128^2、256^2、512^2}$ 像素。在每一层应用Faster RCNN中的anchor多纵横比{1：2、1：1、2：1}，因此金字塔共有5×3=15种anchor。

优点：网络头的参数在所有金字塔层中都是共享的，共享参数的优异性能表明金字塔的所有层都在共享相同等级的语义信息。此优点可以类比到特征化图金字塔上，即头部分类器可以应用于在任何图像尺度下计算出的特征图上。

FPN与RPN设定上的区别：RPN在每一张特征图上设置不同尺度的anchor，FPN在每一层特征图上只设定单一尺度的anchor。

FPN用在Fast RCNN

需要为金字塔的不同层准备不同尺度的ROI。将宽高分别为w、h（相对于网络的输入图像）的ROI分配给特征金字塔的 $P_k$ 级，通过以下等式：

这里224代表ImageNet预训练尺寸， $k_0$ 是 $w×h=224^2$ 的ROI区域应该被映射到的目标层级。上面的方程可以这么理解：首先设定 $k_0=4$ ，如果ROI尺寸变小了，那么它应当被映射到一个更高分辨率的层，得到的 $k = 3$ （层级降低）。

让预测头（分类器和BBox回归器）放在所有层的所有ROI上，不论哪一层这些头都是共享参数的。ROI池化层简单提取得到7×7特征图后，后跟两个FC层（每个都有ReLU）,这种2-FC的MLP头要比标准ResNet的conv5头构建特征金字塔来得更快、更轻量化。

整个FPN用在Faster RCNN+RPN(没错就是Faster，没写错)结构图如下：

3、论文总结

本文贡献：

①利用之前学者提出的结构，但是是以特征金字塔的形式使用的。提出FPN结构。
②将特征金字塔高层的高语义特征和低层的高分辨率特征相结合，使得每层都有较丰富的语义信息以及较精确的定位信息
③可以由单一尺度图像快速构建金字塔结构，而不牺牲性能、速度、内存。
④FPN结构可以端到端地在所有尺度上训练，并在训练\测试中都能用到。

缺点：

①结合的层仍然比较多，会增加计算量，降低目标检测系统的运行速度。
②利用FPN的思想，改变特征提取部分，特征层变多，ROI pooling也增加了，网络变得较为臃肿。

FPN大致运算结构：

4、FPN代码（pytorch）

import torch 
import torch.nn as nn 
import torch.nn.functional as F


class SamePad2d(nn.Module):
    """Mimics tensorflow's 'SAME' padding.
    """

    def __init__(self, kernel_size, stride):
        super(SamePad2d, self).__init__()
        self.kernel_size = torch.nn.modules.utils._pair(kernel_size)
        self.stride = torch.nn.modules.utils._pair(stride)

    def forward(self, input):
        in_width = input.size()[2]
        in_height = input.size()[3]
        out_width = math.ceil(float(in_width) / float(self.stride[0]))
        out_height = math.ceil(float(in_height) / float(self.stride[1]))
        pad_along_width = ((out_width - 1) * self.stride[0] +
                           self.kernel_size[0] - in_width)
        pad_along_height = ((out_height - 1) * self.stride[1] +
                            self.kernel_size[1] - in_height)
        pad_left = math.floor(pad_along_width / 2)
        pad_top = math.floor(pad_along_height / 2)
        pad_right = pad_along_width - pad_left
        pad_bottom = pad_along_height - pad_top
        return F.pad(input, (pad_left, pad_right, pad_top, pad_bottom), 'constant', 0)

    def __repr__(self):
        return self.__class__.__name__


class FPN(nn.Module):
    def __init__(self, C1, C2, C3, C4, C5, out_channels=256):
        super().__init__()
        self.out_channels = out_channels
        self.C1 = C1
        self.C2 = C2
        self.C3 = C3
        self.C4 = C4
        self.C5 = C5
        
        self.P6 = nn.MaxPool2d(kernel_size=1, stride=2)
        
        
        self.C5_conv1 = nn.Conv2d(2048, self.out_channels, kernel_size=1, stride=1)
        self.P5_conv3 = nn.Sequential(
            SamePad2d(kernel_size=3, stride=1),
            nn.Conv2d(self.out_channels, self.out_channels, kernel_size=3, stride=1),
        )
        
        
        self.C4_conv1 =  nn.Conv2d(1024, self.out_channels, kernel_size=1, stride=1)
        self.P4_conv3 = nn.Sequential(
            SamePad2d(kernel_size=3, stride=1),
            nn.Conv2d(self.out_channels, self.out_channels, kernel_size=3, stride=1),
        )
        self.C3_conv1 = nn.Conv2d(512, self.out_channels, kernel_size=1, stride=1)
        self.P3_conv3 = nn.Sequential(
            SamePad2d(kernel_size=3, stride=1),
            nn.Conv2d(self.out_channels, self.out_channels, kernel_size=3, stride=1),
        )
        self.C2_conv1 = nn.Conv2d(256, self.out_channels, kernel_size=1, stride=1)
        self.P2_conv3 = nn.Sequential(
            SamePad2d(kernel_size=3, stride=1),
            nn.Conv2d(self.out_channels, self.out_channels, kernel_size=3, stride=1),
        )

    def forward(self, x):
        x = self.C1(x)
        x = self.C2(x)
        c2_out = x
        x = self.C3(x)
        c3_out = x
        x = self.C4(x)
        c4_out = x
        x = self.C5(x) # c5_outy
        
        m5 = self.C5_conv1(x)
        m4 = self.C4_conv1(c4_out) + F.upsample(m5, scale_factor=2)
        m3 = self.C3_conv1(c3_out) + F.upsample(m4, scale_factor=2)
        m2 = self.C2_conv1(c2_out) + F.upsample(m3, scale_factor=2)

        p5_out = self.P5_conv3(m5)
        p4_out = self.P4_conv3(m4)
        p3_out = self.P3_conv3(m3)
        p2_out = self.P2_conv3(m2)

        # P6 is used for the 5th anchor scale in RPN. Generated by
        # subsampling from P5 with stride of 2.
        p6_out = self.P6(p5_out)

        return [p2_out, p3_out, p4_out, p5_out, p6_out]

八、Mask R-CNN

1、论文简介

论文名称：Mask R-CNN

论文链接：Mask R-CNN

论文源码：Mask R-CNN实现1

Mask R-CNN实现2

detectron2

注：第三个链接中的detectron2可以实现目标检测中的Faster RCNN, RetinaNet, RPN, Fast RCNN, 实例分割中的Mask RCNN, 人类关键点检测中的Keypoint RCNN, 全景分割中的Panoptic FPN。(安装detectron2建议在linux环境下进行，且按照官方给出的第二中方法安装detectron依赖直接能跑通源码)

摘要：我们提出了一个概念简单、灵活且通用的目标实例分割框架。我们的方法可有效地检测图像中的目标，同时为每个实例生成高质量的分割掩膜，将该方法称为Mask R-CNN，通过添加一个用于预测对象掩码的分支，此分支与用于BBox识别的现有分支并行，扩展了Faster RCNN。Mask R-CNN训练起来很简单，而且在Faster R-CNN的基础上增加了一小部分开销。此外Mask R-CNN很容易推广到其他任务，例如允许我们在相同的框架内估计人体位姿。我们展示了COCO系列挑战三个方面的最佳结果，包括实例分割、BBox目标检测和人物关键点检测。Mask R-CNN在每项任务上都超过了所有现存的模型框架。我们希望这种简单有效的方法可以作为一个坚实的基础，帮助简化实例级识别的未来研究。

本文提出问题1：目标检测有Fast/Faster RCNN，语义分割有FCN，实例分割没有一个灵活、鲁棒且训练推理都较快的框架。
分析：实例分割需要图中所有目标都得到正确检测且每个实例都要得到准确分割。需要结合目标检测和语义分割
本文目标：开发一个对实例分割有利的框架。

提出模型：Mask RCNN，是对Faster RCNN的一个延伸，即在每个RoI区域添加一个预测分割的任务分支，此分支和之前Faster RCNN的分类任务分支和BBox回归任务分支并行。mask分支是一个应用在每个RoI区域的小FCN，以像素到像素的方式对每个region proposal进行预测分割mask，仅添加了少量计算，不影响整个Mask RCNN的速度。

本文提出问题2：Faster RCNN不是为网络输入和输出之间的像素与像素对齐而设计的，那Mask RCNN该如何解决像素与像素间对齐的问题呢？
解决方案：提出RoIAlign层代替Faster RCNN中的RoI池化层。该层无量化且保留了提取的空间位置信息。

RoIAlign层优点：

①使得mask任务准确率变高，能够在严格的定位指标下实现更好的性能。
②依赖于网络的RoI分类分支去预测类别。

2、结构设计

Mask R-CNN

第一阶段：RPN，第二阶段：并行预测分类概率+Bbox回归+每个ROI的mask(并行)

每个ROI的loss计算：L = Lcls + Lbox + Lmask，分类损失为softmax loss，回归损失为smoothl1 loss，Lmask为平均二值交叉熵损失。

Lmask的定义：

每个ROI的mask分支有 $Km^2$ 维度的输出，对分辨率为m×m的K个二进制掩膜进行编码，K个类别中的每一个都对应一个编码。为此采用每个像素的sigmoid，并且定义Lmask为平均二值交叉熵损失。对一个与GT类别k有关联的ROI，Lmask仅由第k个mask输出定义（其他mask输出不对Lmask产生影响）。这种对mask的定义使得产生的mask在每个类别与其他类别之间的竞争消失，这与FCN里的类别竞争全然不同。

Mask表示

不同于类别标签和边框回归通过FC层不可避免地折叠为短输出向量，本文提取掩膜的空间结构可以通过卷积提供的像素到像素的对应关系自然地得到处理。

像素到像素的动作需要ROI特征（小特征图）能很好地对齐，以保持每个像素之间的空间对应上，基于此动机，我们提出了RoIAlign层，该层在掩膜预测中起关键作用。

RoIAlign

ROI池化层缺点：考虑到ROI池化层需要进行两次量化取整操作，每进行一次都会有精度的损失。第一次是ROI pooling之前预测的边界框是个float数值，而不是整数，这样就涉及到一次取整的操作，取整后才可以输入ROI Pooling。第二次是ROI Pooling需要对提取的ROI做pooling操作，输出一个7×7大小的feature map，即7×7个bin。这样ROI的长度或者宽度除以7，得到的也是一个float数值，而非整数，这个时候又涉及到一次量化取整的操作。那么无法保证输入像素和输出像素是一一对应，首先他们包含的信息量不同（有的是1对1，有的是1对2），其次他们的坐标无法和输入对应起来。这对分类没什么影响，但是对分割却影响很大。

ROIAlign：为避免ROI边界框或bin引起的量化误差，用双线性插值法计算每个ROI框的bin中的4个随意采样位置的输入特征精确值并聚合起来（使用最大值或平均值）。

ROIAlign层原理：

首先在输入ROIAlign之前的边界框的点还是和ROI池化一样，采用同样的思想得到，同样是一个float数值，但是这个数值对应的位置的像素不需要进行双向性插值得到。ROIAlign操作同样是需要输出一个7×7的feature map，在经过ROIAlign之后，与ROI池化一样，也是得到7×7个float类型的框的位置(x1, y1)、(x2, y2)，也就是bin区域。如下图中的红色虚线框。对于每一个bin区域，构造其中间的N个点，N需要预先设置，图中N=4，这样对其平均分成3×3块，bin区域的中间就会生成4个需要的点，这4个红色的点(ai, bi)就是需要的坐标点，同样这4个红色点的坐标也是float类型，上、下、左、右4个整数值位置的像素使用双线性插值得到。最终对每一个bin区域的4个像素求平均，也就是average pooling操作，得到每个bin的输出，最终输出7×7的feature map。

网络结构

使用了不同的backbone：resnet-50，resnet-101，resnext-50，resnext-101；使用了不同的head Architecture：Faster RCNN使用resnet50时，从Block 4导出特征供RPN使用，这种叫做ResNet-50-C4；除了使用上述这些结构外，还使用了FPN，ResNet-FPN。

3、论文总结

本文贡献：

①扩展了Faster RCNN，在分类+回归输出头上加入了一个并行分支mask分支。增加计算量不大，也不影响整体速度。
②提出RoIAlign层，该层对实例分割任务的准确率提升较大。

ROIAlign层缺点：

①ROI区域中的每个bin区域中引入了新的参数，即需要插值的点的数目N。并且这个N是预先设定的，无法根据feature map做自适应调整。
②这N个点的梯度只与其上下左右4个整数位置的像素点有关，而不是整个区域的像素点都有梯度的传递。

引用

[1] R-CNN深度学习目标检测算法

[2] spp-net理解

[3] Fast RCNN理解

[4] faster-rcnn原理及相应概念解释

[5] object detection——rfcn

[6] 目标检测-selective search算法

[7] Selective Search原理及实现

[8] Roi Pooling，Roi Warping pooling，PSROIPooling，Roi Align，PrROI Pooling大总结

[9] FPN论文总结

[10] 【Mask RCNN】论文详解(真的很详细)

你可能感兴趣的:(目标检测,深度学习,计算机视觉,cnn,神经网络,python)

Python 处理图像并生成 JSONL 元数据文件 - 固定text版本
Python处理图像并生成JSONL元数据文件-固定text版本flyfishJSONL（JSONLines）简介JSONL（JSONLines，也称为newline-delimitedJSON）是一种轻量级的数据序列化格式，由一系列独立的JSON对象组成，每行一个有效的JSON对象，行与行之间通过换行符（\n）分隔。JSONL是传统JSON的“轻量化”变体，通过“每行一个JSON对象”的设计，解
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现神经网络15044 算法 python 分类矩阵人工智能数据挖掘深度学习
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言1.1研究背景实例分割是计算机视觉领域的重要任务，它要求模型不仅要检测图像中的对象，还要精确地分割出每个对象的像素级掩码。近年来，基于Transformer的模型在实例分割任务上取得
2023-08-03 yM_aad9
神经是一种社会资源！只要能和别的神经互动就行了！社会性的驯化离不开神经网络人与人之间的合作只能依赖感性理性心理生理事理物理跟蠢人谈情说爱免不了虚情假意它们最爱空头支票如果兑现不了那一定是别人欺骗了它！而不是自欺欺人的本能自欺欺人最容易受人欺骗最要命的是还持有了资料官有什么可怕？可怕的是贼呀！官可能互相约束贼只能互相伤害如果没有互相？那只有相护了！傻子坏人坏事见得少不知道什么叫坏处孬子好人好事见得少
OpenCV引擎：驱动实时应用开发的科技狂飙芯作者 DD：计算机科学领域 opencv 计算机视觉
在人工智能与计算机视觉技术迅猛发展的今天，实时图像处理已成为工业自动化、自动驾驶、医疗诊断、增强现实等领域的核心技术需求。而**OpenCV（OpenSourceComputerVisionLibrary）**作为全球最活跃的开源计算机视觉库，正以其强大的算法生态、跨平台兼容性以及持续进化的架构设计，成为驱动实时应用开发的“数字引擎”。本文将深入剖析OpenCV如何通过技术创新突破实时处理的性能极
jxORM--编程指南 jxandrew jxWebUI 数据库 python jxWebUI jxORM ORM
jxORM是jxWebUI配套的数据库操作库，可以简化python程序员操作数据库。声明数据类定义数据类之前，先导入ORM修饰符：fromjxORMimportORM,DBDataType,ColType然后就可以用ORM修饰符来修饰一个类，从而定义一个数据类：@ORMclassUser:ID:DBDataType.Long=ColType.PrimaryKeyCreateTime:DBDataT
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
Python中的enumerate()函数冉成未来 Service python 开发语言
文章目录基本用法参数说明特点实际应用与zip()的比较注意事项enumerate()是Python内置的一个非常有用的函数，它用于在遍历可迭代对象（如列表、元组、字符串等）时，同时获取元素的索引和值。基本用法fruits=['apple','banana','cherry']forindex,fruitinenumerate(fruits):print(index,fruit)输出：0apple1
空间曲线正交投影及其距离计算的理论与实践老歌老听老掉牙 python 正交投影
引言：正交投影的几何本质在三维空间中，正交投影是一种基础而重要的几何变换，它将空间中的点沿特定方向映射到一个平面上。当我们考虑将空间曲线投影到由给定法向量n\mathbf{n}n定义的平面时，这一问题在计算机图形学、CAD/CAM系统和科学计算中具有广泛应用。本文将从数学原理、Python实现到距离计算的等价性问题，全面探讨这一几何操作的深层内涵。设空间曲线由参数方程r(t)=(x(t),y(t)
pip是如何卸载你安装的第三方库的酷python python python
使用pipuninstall命令可以卸载掉你所安装的第三方库，所有与其相关的文件都将被pip整理出来展示并询问是否真的要删除，类似下面的提示pipuninstallnoxFoundexistinginstallation:nox2020.8.22Uninstallingnox-2020.8.22:Wouldremove:d:\python\lib\site-packages\nox-2020.8.
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
Nginx IP授权页面实现步骤
目标：一、创建白名单文件sudomkdir-p/usr/local/nginx/conf/whitelistsudotouch/usr/local/nginx/conf/whitelist/temporary.conf二、创建Python认证服务文件路径：/opt/script/auth_server.pyimportosimporttimefromflaskimportFlask,request
高阶知识库搭建实战五、（向量数据库Milvus安装）伯牙碎琴大模型数据库 milvus 大模型 AI
以下是关于在Windows环境下直接搭建Milvus向量数据库的教程：本教程分两部分，第一部分是基于docker安装，在Windows环境下直接安装Milvus向量数据库，目前官方推荐的方式是通过Docker进行部署，因为Milvus的运行环境依赖于Linux系统。如果你希望在Windows上直接运行Milvus，可以考虑使用MilvusLite版本，这是一个轻量级的Python库，适用于快速原型
python分布式事务_分布式事务系列（2.1）分布式事务的概念
#1系列目录#2X/OpenDTPDTP全称是DistributedTransactionProcess，即分布式事务模型。之前我们接触的事务都是针对单个数据库的操作，如果涉及多个数据库的操作，还想保证原子性，这就需要使用分布式事务了。而X/OpenDTP就是一种分布式事务处理模型。##2.1X/OpenDTP模型X/Open是一个组织，维基百科上这样说明：X/Open是1984年由多个公司联合创
LLM初识
从零到一：用Python和LLM构建你的专属本地知识库问答机器人摘要：随着大型语言模型（LLM）的兴起，构建智能问答系统变得前所未有的简单。本文将详细介绍如何使用Python，结合开源的LLM和向量数据库技术，一步步搭建一个基于你本地文档的知识库问答机器人。你将学习到从环境准备、文档加载、文本切分、向量化、索引构建到最终实现问答交互的完整流程。本文包含详细的流程图描述、代码片段思路和关键注意事项，
CCF-GESP 等级考试 2025年6月认证Python四级真题解析
1单选题（每题2分，共30分）第1题2025年4月19日在北京举行了一场颇为瞩目的人形机器人半程马拉松赛。比赛期间，跑动着的机器人会利用身上安装的多个传感器所反馈的数据来调整姿态、保持平衡等，那么这类传感器类似于计算机的()。A.处理器B.存储器C.输入设备D.输出设备解析：答案：C。所有传感器都用于采集数据，属于输入设备，故选C。第2题小杨购置的计算机使用一年后觉得内存不够用了，想购置一个容量更
推荐开源项目：Milvus Lite —— 轻量级向量数据库，助力AI应用快速起飞穆希静
推荐开源项目：MilvusLite——轻量级向量数据库，助力AI应用快速起飞项目介绍MilvusLite是知名开源向量数据库Milvus的轻量级版本，专为需要在小型环境中进行向量嵌入和相似性搜索的AI应用设计。通过将MilvusLite导入您的Python应用，您可以直接使用Milvus的核心向量搜索功能。MilvusLite已集成在PythonSDKofMilvus中，只需通过pipinstal
【华为419机考真题】服务器能耗统计，JAVA 题解梦想橡皮擦华为服务器 java 华为OD机试华为OD
最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为od机试，独家整理已参加机试人员的实战技巧本篇题解：服务器耗能题目描述服务器有三种运行状态：空载，单任务，多任务，每个时间片的能耗的分别为111、333、444，每个任务由起始时间片和结束时间片定义运行时
python2.x里面的input（）和raw_input（）函数以及3.x中的input（）函数的区别 scuter_yu python python input函数 raw_input函数 3.x中的input函数
在python3.0及以上的版本中，raw_input（）函数已经和我们说再见了，但是呢，input（）函数则很好地替代了消失了的raw_input（）函数。而且现在的input（）函数所返回的值都是字符串，所以对于要有int，float等类型的数值必须进行强制的类型转换。下面让我对3.0的input（）函数做个小总结：>>>str=input("abc:")abc:15>>>str'15'(虽然
代码相关（python）一个月只能修改一次次代码 python
python程序崩溃提示符用python的时候的各个tips矩阵python判断某个矩阵是否满足要求python生成二维随机数文件/档python检查某个文件存不存在python添加有特定字段的文件到列表python矩阵保存为txt文档python按行读文档python写文档python文档操作字符串python用split来拆分字符串python搜索字符串某个字符的位置给字符串前/后添加字符画图
python 密码学模块_Python加密与解密 No module named 'Crypto' weixin_39827304 python 密码学模块
DES加密全称为DataEncryptionStandard，即数据加密标准，是一种使用密钥加密的块算法入口参数有三个：Key、Data、ModeKey为7个字节共56位，是DES算法的工作密钥；Data为8个字节64位，是要被加密或被解密的数据；Mode为DES的工作方式,有两种:加密或解密3DES(即TripleDES)是DES向AES过渡的加密算法使用两个密钥，执行三次DES算法加密的过程是
No module named "Crypto"，如何安装Python三方模块Crypto weixin_30342827 python 操作系统
前两天公司公司老总让我研究怎么用企业微信第三方应用进行官网对接，完成URL回调验证问题。具体如何进行Python的Django网站与企业微信第三方应用进行回调验证的博客地址为：https://www.cnblogs.com/ws17345067708/p/10522472.html这里讲讲，如何在win10下，安装一个非常坑爹的加密算法库，名字叫"Crypto"看了好多博客，没有一个管用的，要么就
Python 报错：ModuleNotFoundError: No module named ‘Crypto‘
Crypto报错解决方案Python报错：ModuleNotFoundError:Nomodulenamed'Crypto'前言问题解决方案Python报错：ModuleNotFoundError:Nomodulenamed‘Crypto’前言Crypto是一个加密模块，它包含了多种加密算法，如AES、DES、RSA等。它不是Python标准库的一部分，需要使用pip安装。pycrypto和Cry
【甲烷数据集】Sentinel-5P 卫星获取的全球甲烷数据集-TROPOMI L2 CH₄ WW、forever 数据集 sentinel
目录数据概述传感器&卫星信息监测目标：甲烷（CH₄）数据产品内容空间与时间覆盖云筛选与协同观测技术文档资源数据下载Python代码绘制CH4数据参考数据概述Sentinel-5PrecursorLevel2Methane(TROPOMIL2CH₄)数据集是由欧洲哥白尼计划的Sentinel-5P卫星获取的，用于监测大气中的甲烷浓度。数据集名称：Sentinel-5PrecursorLevel2Me
非对称加密算法（RSA、ECC、SM2）——密码学基础
对称加密算法（AES、ChaCha20和SM4）Python实现——密码学基础(Python出现Nomodulenamed“Crypto”解决方案)这篇的续篇，因此实践部分少些；文章目录一、非对称加密算法基础二、RSA算法2.1RSA原理与数学基础2.2RSA密钥长度与安全性2.3RSA实现工具与库2.4RSA的局限性三、椭圆曲线密码学(ECC)3.1ECC原理与数学基础3.2常用椭圆曲线标准3.
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
JAVA 和Python对比 xiayu98020214 在深蓝的日子 python
JAVA和Python对比1.数据类型pythonInt，float，complexnumbers都没有定义到底占用多少个字节空间。都是没有取值范围，也没有无符号的情况。JAVAJAVA有基础数据类型，都有确定占多少个字节2.全局变量python类似c语言，可以定义全局变量，全局的函数。JAVAjava都要定义类才行。3.变量声明python无需声明类型，直接使用。会造成一个困扰，这个变量到底是新
牛客华为机试题解（python版更新中）
目录一、字符串（知识点）HJ1字符串最后一个单词的长度（简单）HJ2计算某字符出现次数（简单）HJ4字符串分隔（简单）HJ5进制转换（简单）HJ10字符个数统计（简单）HJ11数字颠倒（简单）HJ12字符串反转（简单）HJ14字符串排序（简单）HJ17坐标移动（中等）HJ18识别有效的IP地址和掩码并进行分类统计（较难）自己研究的题解，也有借鉴评论区牛人思路，答案不唯一，仅供学习参考，也欢迎大家指
python比java_对比java和python对比
对比java和python对比java和python2011年04月18日1.难易度而言。python远远简单于java。2.开发速度。Python远优于java3.运行速度。java远优于标准python，pypy和cython可以追赶java，但是两者都没有成熟到可以做项目的程度。4.可用资源。java一抓一大把，python很少很少，尤其是中文资源。5.稳定程度。python3和2不兼容，造
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D