反复与坚持

Faster RCNN原理详解

转自知乎：https://zhuanlan.zhihu.com/p/31426458 讲得非常好的一篇文章，侵删

图1 Faster RCNN基本结构

Faster RCNN分为4个主要内容：

Conv layers。作为一种CNN目标检测方法，Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该Feature maps被共享用于后续RPN层和全连接层。
Region Proposal Networks。RPN网络用于生成region proposals,通过softmax判断anchors属于foreground or background，再利用bounding box regression修正anchors获得精确的proposals。
Roi Pooling。该层收集输入的feature maps和proposals，综合这些信息后提取proposal feature maps，送入后续全连接层判定目标类别。
Classification。利用proposal feature maps计算proposals的类别，同时再次bbox regression获得检测框最终的精确位置。

图2 faster_rcnn_test.pt网络结构（pascal_voc/VGG16/faster_rcnn_alt_opt/faster_rcnn_test.pt）

图2为VGG16模型中的faster rcnn网络结构，可以看到：输入P*Q的图像，首先缩放至固定大小M*N，然后送入网络；Conv layers中包含了13个conv+13个relu+4个pooling（vgg16:13conv+3fc）；RPN网络首先经过3*3卷积，再分别生成foreground anchors和bounding box regressions偏移量，然后计算出proposals；而roi pooling层则利用proposals从feature maps中提取proposal feature送入后续全连接和softmax网络作classification。

1.Conv layers

Conv layers包含了conv,pooling,relu三种层。在Conv layers中：

所有的conv层都是：kernel_size=3 ,pad=1, stride=1
所有的pooling层都是：kernel_size=2, pad=0, stride=2

画重点：在Faster RCNN Conv layers中对所有的卷积都做了扩边处理（pad=1，即填充一圈0），导致原图变为（M+2）*（N+2）大小，再做3*3卷积后输出M*N。因此，conv layers中的conv层不改变输入和输出矩阵大小。如图3所示。

图3 卷积示意图

类似的是，pooling层kernel_size=2,stride=2。这样每个经过pooling层的M*N矩阵，都会变为（M/2）*（N/2）大小。综上所述，在整个Conv layers中，conv和relu层不改变输入输出大小，只有pooling层使长宽都变为输入的1/2。所以，一个M*N大小的矩阵经过Conv layers固定变为（M/16）*(N/16)，这样生成的feature map就可以和原图对应起来。

2. Region Proposal Networks(RPN)

经典的检测方法生成检测框都非常耗时，如opencv adaboost使用滑动窗口+图像金字塔生成检测框；如R-CNN使用selective search方法生成检测框。Faster RCNN直接使用RPN生成检测框，这也是Faster RCNN的巨大优势，能极大提升检测框的生成速度。

图4 RPN网络结构

图4展示了RPN网络的具体结构。可以看到RPN网络实际分为两条线，上面一条通过softmax分类anchors获得foreground和background，线面一条用于计算对于anchors的bbox regression偏移量，以获得精确的proposal。最后的proposals层则负责综合foreground anchors和bbox regression偏移量获取proposals，同时剔除太小和超出边界的proposals。整个网络到了Proposal layer这里，相当于完成了目标定位的功能。

2.1 多通道图像卷积基础知识介绍

对于单通道+单卷积核做卷积，图3已经展示了；
对于多通道+多卷积核做卷积，计算方式如下：

图5 多通道卷积计算方式

如图5所示，输入有3个通道，同时有2个卷积核。对于每个卷积核，先在3个输入通道分别做卷积，再将3个通道结果加起来得到卷积输出。所以对于某个卷积层，无论输入图像有多少个通道，输出图像通道数总是等于卷积核数量！

2.2 anchors

提到RPN，就不能不说anchors。anchors,实际上就是一组由rpn/generate_anchors.py生成的矩形。直接运行作者demo中的generate_anchors.py可以得到以下输出：

[[ -84.  -40.   99.   55.]
 [-176.  -88.  191.  103.]
 [-360. -184.  375.  199.]
 [ -56.  -56.   71.   71.]
 [-120. -120.  135.  135.]
 [-248. -248.  263.  263.]
 [ -36.  -80.   51.   95.]
 [ -80. -168.   95.  183.]
 [-168. -344.  183.  359.]]

其中每行的4个值(x1, y1, x2, y2) 表矩形左上和右下角点坐标。9个矩形共有3种形状，长宽比为大约为with:height∈{1:1, 1:2, 2:1}三种，（论文：3 scales with box areas of 128,256,512 and 3 aspect ratios of 1:1,1:2,2:1）如图6。实际上通过anchors就引入了检测中常用到的多尺度方法。

图6 anchors示意图

那么这9个anchors是做什么的呢？借用Faster RCNN论文中的原图，如图7，遍历Conv layers计算获得的feature maps，为每一个点都配备这9种anchors作为初始的检测框。这样做获得检测框很不准确，不用担心，后面还有2次bounding box regression可以修正检测框位置。

图7 论文中的anchors示意图

解释一下上面这张图的数字。

在原文中使用的是ZF model（ZF net）中，其Conv Layers中最后的conv5层num_output=256，对应生成256张特征图，所以相当于feature map每个点都是256-dimensions。
在conv5之后，做了rpn_conv/3x3卷积且num_output=256，相当于每个点又融合了周围3x3的空间信息（猜测这样做也许更鲁棒？反正我没测试），同时256-d不变（如图4和图7中的红框）。
假设在conv5 feature map中每个点上有k个anchor（默认k=9），而每个anhcor要分foreground和background，所以每个点由256d feature转化为cls=2k scores；而每个anchor都有[x, y, w, h]对应4个偏移量，所以reg=4k coordinates。
补充一点，全部anchors拿去训练太多了，训练程序会在合适的anchors中随机选取128个postive anchors+128个negative anchors进行训练（什么是合适的anchors下文5.1有解释）。
在本文讲解中使用的VGG conv5 num_output=512，所以是512d，其他类似。

其实RPN最终就是在原图尺度上，设置了密密麻麻的候选anchor,然后用cnn去判断哪些anchor是含有目标的foreground anchor，哪些是没目标的background。所以，仅仅是个二分类而已！

那么Anchor一共有多少个？原图800x600，VGG下采样16倍，feature map每个点设置9个Anchor，所以：

$ceil(800/16)\times ceil(600/16) \times 9 = 50 \times 38\times 9=17100$

其中ceil()表示向上取整，VGG输出的feature map size=50*38。

图8 Generate anchors

2.3 softmax判定foreground与background

一副MxN大小的矩阵送入Faster RCNN网络后，到RPN网络变为(M/16)x(N/16)，不妨设 W=M/16，H=N/16。在进入reshape与softmax之前，先做了1x1卷积，如图9：

图9 RPN中判定fg/bg网络结构

该1x1卷积的caffe prototxt定义如下：

layer {
  name: "rpn_cls_score"
  type: "Convolution"
  bottom: "rpn/output"
  top: "rpn_cls_score"
  convolution_param {
    num_output: 18   # 2(bg/fg) * 9(anchors)
    kernel_size: 1 pad: 0 stride: 1
  }
}

可以看到其num_output=18，也就是经过该卷积的输出图像为WxHx18大小（注意第二章开头提到的卷积计算方式）。这也就刚好对应了feature maps每一个点都有9个anchors，同时每个anchors又有可能是foreground和background，所有这些信息都保存WxHx(9*2)大小的矩阵。为何这样做？后面接softmax分类获得foreground anchors，也就相当于初步提取了检测目标候选区域box（一般认为目标在foreground anchors中）。
那么为何要在softmax前后都接一个reshape layer？其实只是为了便于softmax分类，至于具体原因这就要从caffe的实现形式说起了。在caffe基本数据结构blob中以如下形式保存数据：

blob=[batch_size, channel，height，width]

对应至上面的保存bg/fg anchors的矩阵，其在caffe blob中的存储形式为[1, 2x9, H, W]。而在softmax分类时需要进行fg/bg二分类，所以reshape layer会将其变为[1, 2, 9xH, W]大小，即单独“腾空”出来一个维度以便softmax分类，之后再reshape回复原状。贴一段caffe softmax_loss_layer.cpp的reshape函数的解释，非常精辟：

"Number of labels must match number of predictions; "
"e.g., if softmax axis == 1 and prediction shape is (N, C, H, W), "
"label count (number of labels) must be N*H*W, "
"with integer values in {0, 1, ..., C-1}.";

综上所述，RPN网络中利用anchors和softmax初步提取出foreground anchors作为候选区域。

2.4 bounding box regression原理

如图10所示绿色框为飞机的Ground Truth(GT)，红色为提取的foreground anchors，即便红色的框被分类器识别为飞机，但是由于红色的框定位不准，这张图相当于没有正确的检测出飞机。所以我们希望采用一种方法对红色的框进行微调，使得foreground anchors和GT更加接近。

图10 anchor与ground truth

对于窗口一般使用四维向量 (x, y, w, h)表示，分别表示窗口的中心点坐标和宽高。对于图 11，红色的框A代表原始的Foreground Anchors，绿色的框G代表目标的GT，我们的目标是寻找一种关系，使得输入原始的anchor A经过映射得到一个跟真实窗口G更接近的回归窗口G'，即：

给定：anchor 和
寻找一种变换F，使得：，其中

图11

那么经过何种变换F才能从图10中的anchor A变为G'呢？比较简单的思路就是:

先做平移

再做缩放

观察上面4个公式发现，需要学习的是这四个变换。当输入的anchor A与GT相差较小时，可以认为这种变换是一种线性变换，那么就可以用线性回归来建模对窗口进行微调（注意，只有当anchors A和GT比较接近时，才能使用线性回归模型，否则就是复杂的非线性问题了）。
接下来的问题就是如何通过线性回归获得了。线性回归就是给定输入的特征向量X, 学习一组参数W, 使得经过线性回归后的值跟真实值Y非常接近，即。对于该问题，输入X是cnn feature map，定义为Φ；同时还有训练传入A与GT之间的变换量，即。输出是四个变换。那么目标函数可以表示为：

其中Φ(A)是对应anchor的feature map组成的特征向量，w是需要学习的参数，d(A)是得到的预测值（*表示 x，y，w，h，也就是每一个变换对应一个上述目标函数）。为了让预测值与真实值差距最小，设计损失函数：

函数优化目标为：

需要说明，只有在GT与需要回归框位置比较接近时，才可近似认为上述线性变换成立。
说完原理，对应于Faster RCNN原文，foreground anchor与ground truth之间的平移量与尺度因子如下：

$t_{x}^{*}=(x*-x_{a})/w_{a}, t_{y}^{*}=(y*-y_{a})/h_{a} , t_{w}^{*}=log(w*/w_{a}), t_{h}^{*}=log(h*/h_{a}),$

其中，x,y,w,h denotes the box's center coordinates and its width and height.x,xa and x* are for the predicted box,anchor box and ground-truth box respectively(likewise for y,w,h).对于训练bouding box regression网络回归分支，输入是cnn feature Φ，监督信号是Anchor与GT的差距，即训练目标是：输入 Φ的情况下使网络输出与监督信号尽可能接近。
那么当bouding box regression工作时，再输入Φ时，回归网络分支的输出就是每个Anchor的平移量和变换尺度，显然即可用来修正Anchor位置了。

2.5 对proposals进行bounding box regression

在了解bounding box regression后，再回头来看RPN网络第二条线路，如图12。

图12 RPN中的bbox reg

先来看一看上图11中1x1卷积的caffe prototxt定义：

layer {
  name: "rpn_bbox_pred"
  type: "Convolution"
  bottom: "rpn/output"
  top: "rpn_bbox_pred"
  convolution_param {
    num_output: 36   # 4 * 9(anchors)
    kernel_size: 1 pad: 0 stride: 1
  }
}

可以看到其 num_output=36，即经过该卷积输出图像为WxHx36，在caffe blob存储为[1, 4x9, H, W]，这里相当于feature maps每个点都有9个anchors，每个anchors又都有4个用于回归的变换量。

2.6 Proposal Layer

Proposal Layer负责综合所有变换量和foreground anchors，计算出精准的proposal，送入后续RoI Pooling Layer。还是先来看看Proposal Layer的caffe prototxt定义：

layer {
  name: 'proposal'
  type: 'Python'
  bottom: 'rpn_cls_prob_reshape'
  bottom: 'rpn_bbox_pred'
  bottom: 'im_info'
  top: 'rois'
  python_param {
    module: 'rpn.proposal_layer'
    layer: 'ProposalLayer'
    param_str: "'feat_stride': 16"
  }
}

Proposal Layer有3个输入：fg/bg anchors分类器结果rpn_cls_prob_reshape，对应的bbox reg的变换量rpn_bbox_pred，以及im_info；另外还有参数feat_stride=16，这和图4是对应的。
首先解释im_info。对于一副任意大小PxQ图像，传入Faster RCNN前首先reshape到固定MxN，im_info=[M, N, scale_factor]则保存了此次缩放的所有信息。然后经过Conv Layers，经过4次pooling变为WxH=(M/16)x(N/16)大小，其中feature_stride=16则保存了该信息，用于计算anchor偏移量。

图13

Proposal Layer forward（caffe layer的前传函数）按照以下顺序依次处理：

生成anchors，利用对所有的anchors做bbox regression回归（这里的anchors生成和训练时完全一致）
按照输入的foreground softmax scores由大到小排序anchors，提取前pre_nms_topN(e.g. 6000)个anchors，即提取修正位置后的foreground anchors。
限定超出图像边界的foreground anchors为图像边界（防止后续roi pooling时proposal超出图像边界）
剔除非常小（width
进行nonmaximum suppression
再次按照nms后的foreground softmax scores由大到小排序fg anchors，提取前post_nms_topN(e.g. 300)结果作为proposal输出。

之后输出proposal=[x1, y1, x2, y2]，注意，由于在第三步中将anchors映射回原图判断是否超出边界，所以这里输出的proposal是对应MxN输入图像尺度的，这点在后续网络中有用。另外我认为，严格意义上的检测应该到此就结束了，后续部分应该属于识别了~
RPN网络结构就介绍到这里，总结起来就是：
生成anchors -> softmax分类器提取fg anchors -> bbox reg回归fg anchors -> Proposal Layer生成proposals

3. ROI Pooling

而RoI Pooling层则负责收集proposal，并计算出proposal feature maps，送入后续网络。从图2中可以看到Rol pooling层有2个输入：

3.1 为何需要ROI Pooling

原始的feature maps
RPN输出的proposal boxes（大小各不相同

先来看一个问题：对于传统的CNN（如AlexNet，VGG），当网络训练好后输入的图像尺寸必须是固定值，同时网络输出也是固定大小的vector or matrix。如果输入图像大小不定，这个问题就变得比较麻烦。有2种解决办法：

从图像中crop一部分传入网络
将图像warp成需要的大小后传入网络

图14 图像crop与wrap破坏结构信息

两种办法的示意图如图14，可以看到无论采取那种办法都不好，要么crop后破坏了图像的完整结构，要么warp破坏了图像原始形状信息。
回忆RPN网络生成的proposals的方法：对foreground anchors进行bounding box regression，那么这样获得的proposals也是大小形状各不相同，即也存在上述问题。所以Faster R-CNN中提出了RoI Pooling解决这个问题。不过RoI Pooling确实是从Spatial Pyramid Pooling发展而来，但是限于篇幅这里略去不讲，有兴趣的读者可以自行查阅相关论文。

3.2 ROI Pooling原理

分析之前先来看看RoI Pooling Layer的caffe prototxt的定义：

layer {
  name: "roi_pool5"
  type: "ROIPooling"
  bottom: "conv5_3"
  bottom: "rois"
  top: "pool5"
  roi_pooling_param {
    pooled_w: 7
    pooled_h: 7
    spatial_scale: 0.0625 # 1/16
  }
}

其中有新参数，另外一个参数认真阅读的读者肯定已经知道知道用途。
RoI Pooling layer forward过程：在之前有明确提到：是对应MxN尺度的，所以首先使用spatial_scale参数将其映射回(M/16)x(N/16)大小的feature maps尺度；之后将每个proposal水平和竖直分为pooled_w和pooled_h份，对每一份都进行max pooling处理。这样处理后，即使大小不同的proposal，输出结果都是大小，实现了fixed-length output（固定长度输出）。

图15 proposal示意图

4 Classification

Classification部分利用已经获得的proposal feature maps，通过full connect层与softmax计算每个proposal具体属于那个类别（如人，车，电视等），输出cls_prob概率向量；同时再次利用bounding box regression获得每个proposal的位置偏移量bbox_pred，用于回归更加精确的目标检测框。Classification部分网络结构如图16。

图16 Classification 部分网络结构图

从PoI Pooling获取到7x7=49大小的proposal feature maps后，送入后续网络，可以看到做了如下2件事：

通过全连接和softmax对proposals进行分类，这实际上已经是识别的范畴了
再次对proposals进行bounding box regression，获取更高精度的rect box

这里来看看全连接层InnerProduct layers，简单的示意图如图17，

图17 全连接层示意图

其计算公式如下：

其中W和bias B都是预先训练好的，即大小是固定的，当然输入X和输出Y也就是固定大小。所以，这也就印证了之前Roi Pooling的必要性。

5 Faster rcnn训练

Faster R-CNN的训练，是在已经训练好的model（如VGG_CNN_M_1024，VGG，ZF）的基础上继续进行训练。实际中训练过程分为6个步骤：

在已经训练好的model上，训练RPN网络，对应stage1_rpn_train.pt
利用步骤1中训练好的RPN网络，收集proposals，对应rpn_test.pt
第一次训练Fast RCNN网络，对应stage1_fast_rcnn_train.pt
第二训练RPN网络，对应stage2_rpn_train.pt
再次利用步骤4中训练好的RPN网络，收集proposals，对应rpn_test.pt
第二次训练Fast RCNN网络，对应stage2_fast_rcnn_train.pt

可以看到训练过程类似于一种“迭代”的过程，不过只循环了2次。至于只循环了2次的原因是应为作者提到："A similar alternating training can be run for more iterations, but we have observed negligible improvements"，即循环更多次没有提升了。接下来本章以上述6个步骤讲解训练过程。

下面是一张训练过程流程图，应该更加清晰。

图18 Faster RCNN训练步骤

5.1 训练RPN网络

图19 stage1_rpn_train.pt（考虑图片大小，Conv Layers中所有的层都画在一起了，如红圈所示，后续图都如此处理）

在该步骤中，首先读取RBG提供的预训练好的model（本文使用VGG），开始迭代训练。来看看stage1_rpn_train.pt网络结构，如图19。

与检测网络类似的是，依然使用Conv Layers提取feature maps。整个网络使用的Loss如下：

上述公式中，表示anchors index，表示foreground softmax probability，代表对应的GT predict概率（即当第i个anchor与GT间，认为是该anchor是foreground，；反之时，认为是该anchor是background，；至于那些的anchor则不参与训练）；代表predict bounding box，代表对应foreground anchor对应的GT box。可以看到，整个Loss分为2部分：

cls loss，即rpn_cls_loss层计算的softmax loss，用于分类anchors为forground与background的网络训练
reg loss，即rpn_loss_bbox层计算的soomth L1 loss，用于bounding box regression网络训练。注意在该loss中乘了，相当于只关心foreground anchors的回归（其实在回归中也完全没必要去关心background）。

由于在实际过程中，和差距过大，用参数λ平衡二者（如，时设置），使总的网络Loss计算过程中能够均匀考虑2种Loss。这里比较重要是使用的soomth L1 loss，计算公式如下：

了解数学原理后，反过来看图18：

在RPN训练阶段，rpn-data（python AnchorTargetLayer）层会按照和test阶段Proposal层完全一样的方式生成Anchors用于训练
对于rpn_loss_cls，输入的rpn_cls_scors_reshape和rpn_labels分别对应与，参数隐含在与的caffe blob的大小中
对于rpn_loss_bbox，输入的rpn_bbox_pred和rpn_bbox_targets分别对应于，rpn_bbox_inside_weigths对应，rpn_bbox_outside_weigths未用到（从soomth_L1_Loss layer代码中可以看到），而同样隐含在caffe blob大小中

这样，公式与代码就完全对应了。特别需要注意的是，在训练和检测阶段生成和存储anchors的顺序完全一样，这样训练结果才能被用于检测！

5.2 通过训练好的RPN网络收集proposals

在该步骤中，利用之前的RPN网络，获取proposal rois，同时获取foreground softmax probability，如图20，然后将获取的信息保存在python pickle文件中。该网络本质上和检测中的RPN网络一样，没有什么区别。

图20 rpn_test.pt

5.3 训练Faster RCNN网络

读取之前保存的pickle文件，获取proposals与foreground probability。从data层输入网络。然后：

将提取的proposals作为rois传入网络，如图19蓝框
计算bbox_inside_weights+bbox_outside_weights，作用与RPN一样，传入soomth_L1_loss layer，如图20绿框

这样就可以训练最后的识别softmax与最终的bounding box regression了，如图21。

图21 stage1_fast_rcnn_train.pt

之后的stage2训练都是大同小异，不再赘述了。Faster R-CNN还有一种end-to-end的训练方式，可以一次完成train，有兴趣请自己看作者GitHub吧。

你可能感兴趣的:(源码解读)

K8S源码及定制化系列-源码解读第一步Kubectl(三) 申专 Golang 云原生 kubernetes 容器云原生
本节重点介绍:kubectl的职责和kubectl的代码原理cobra库的使用简介kubectl的职责主要的工作是处理用户提交的东西（包括，命令行参数，yaml文件等）然后其会把用户提交的这些东西组织成一个数据结构体然后把其发送给APIServerKubectl系统架构图kubectl的代码原理从命令行和yaml文件中获取信息通过Builder模式并把其转成一系列的资源最后用Visitor模式模式
netty源码解读三（NioEventLoop） orcharddd_real netty java netty
NioEventLoop初始化EventExecutor类型的数组数组大小默认为cpu数量的两倍，遍历数组，通过newNioEventLoop(xxx)往数组中添加元素，NioEventLoop继承了EventExecutor；每次需要线程时，执行chooser的next方法从数组中取出一个线程；关键代码打开netty源码，找到example包下的EchoService类，追溯创建boss线程组和
Java源码解读-数据容器都是如何实现同步的问道飞鱼 Java开发 Java源码解读数据容器同步机制
用Java的同学可能在自己使用或者面试的时候经常遇到这么一个问题，哪些数据结构或者容器是同步的，是怎么实现的同步？其实很多的数据同步原理都比较简单，我把目前知道的数据容器的同步方式稍微梳理了一下1.线程安全容器StringBuffer(太明显，synchronized关键字）@OverridepublicsynchronizedStringBufferappend(Stringstr){toStr
Vue 源码解读（10）—— 编译器之生成渲染函数 xuhss_com 计算机 udp linux c语言计算机
Python微信订餐小程序课程视频https://edu.csdn.net/course/detail/36074Python实战量化交易理财系统https://edu.csdn.net/course/detail/35475前言这篇文章是Vue编译器的最后一部分，前两部分分别是：Vue源码解读（8）——编译器之解析、Vue源码解读（9）——编译器之优化。从HTML模版字符串开始，解析所有标签以及
Spring 源码解读：实现单例与原型的Bean作用域捕风捉你 spring源码解读 spring java 后端
引言在Spring框架中，Bean的作用域（Scope）定义了Bean的生命周期和访问范围。Spring提供了多种作用域，包括常用的单例（Singleton）和原型（Prototype）。了解并正确使用这些作用域对于管理应用的资源和性能至关重要。本篇文章将通过手动实现单例和原型作用域的Bean管理机制，并对比Spring中的@Scope注解，帮助你理解不同Bean作用域的使用场景和实现细节。Bea
MyBatis 源码解读：专栏导读与学习路线捕风捉你 MyBatis 源码解读 mybatis 学习 java
前言MyBatis是Java开发中广泛使用的持久层框架，其简洁的配置和强大的功能使得它在开发人员中备受欢迎。然而，MyBatis的背后隐藏着许多设计巧妙的架构和复杂的实现逻辑。通过源码解读，我们可以更深入地理解MyBatis的设计思想和工作原理，从而更好地应用它。本专栏将以源码分析为主线，结合实际应用场景，带你一步步深入了解MyBatis的内部实现。无论你是MyBatis的新手还是有经验的开发者，
PostgreSQL 源码解读（89）- 查询语句#74（SeqNext函数#2） EthanHe
本节是SeqNext函数介绍的第二部分，主要介绍了SeqNext->heap_getnext函数的实现逻辑。一、数据结构TupleTableSlotTupleTableSlot,用于存储元组相关信息/*basetupletableslottype*/typedefstructTupleTableSlot{NodeTagtype;//Node标记#defineFIELDNO_TUPLETABLESL
Spring 源码解读专栏：从零到一深度掌握 Spring 框架捕风捉你 spring源码解读 spring java 后端
前言Spring是Java世界中无可争议的王者框架，它以其灵活、轻量、强大而著称，成为企业级开发的首选工具。然而，很多开发者在使用Spring时，往往只停留在会用的层面，对于其内部实现和设计原理知之甚少。本专栏旨在通过系统化的Spring源码解读，从实践到源码分析，再到设计模式的探讨，带你逐步揭开Spring的神秘面纱，真正掌握这款框架的精髓。专栏目标在这个专栏中，我们将通过以下几个步骤，帮助你深
【深度学习】COCO API源码解读 CS_Zero 深度学习人工智能
COCOAPI从C、cython，到PythonAPI：实现语义分割标注mask的解析，从具体实现cocoapi/common/maskApi.hcocoapi/common/maskApi.c到Cython封装实现pycocotools._maskcocoapi/PythonAPI/pycocotools/_mask.pyx#distutils:language=c#distutils:sour
opencv源码---imread、cvLoadImage、waitKey、imshow函数源码解读 hairuiJY Opencv学习计算机视觉 opencv 计算机视觉图像处理
参考：https://blog.csdn.net/hujingshuang/article/details/47184717https://blog.csdn.net/kuweicai/article/details/73395018
SpringBoot源码解读与原理分析(五)SpringBoot的装配机制灰色孤星A spring boot java 后端 spring 开发语言
文章目录2.5SpringBoot的装配机制[email protected]@ComponentScan的基本使用方法2.5.1.2TypeExcludeFilter(类型排除过滤器)2.5.1.3AutoConfigurationExcludeFilter(自动配置类排除过滤器)[email protected]@EnableAutoConf
Flink 细粒度滑动窗口性能优化 hyunbar Flink 大数据 flink java 数据库
大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料118篇原创内容公众号1、概述1.1细粒度滑动的影响当使用细粒度的滑动窗口（窗口长度远远大于滑动步长）时，重叠的窗口过多，一个数据会属于多个窗口，性能会急剧下降。以1分钟的频率实时计算App内各个子模块近24小时的PV和UV。我们需要用粒度为1440/1=1440的滑动窗口来实现它，但是细粒度的滑动窗口
Transformer实战-系列教程19：DETR 源码解读6（编码器：TransformerEncoder类/TransformerEncoderLayer类）机器学习杨卓越 Transformer实战 transformer 深度学习 pytorch DETR 人工智能计算机视觉
Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection类/ConvertCocoPolysToMask类）DETR源码解读2（DETR类）DETR源码解读3（位置编码：Joiner类/PositionEmbeddingSine类
Transformer实战-系列教程20：DETR 源码解读7（解码器：TransformerDecoder类/TransformerDecoderLayer类）机器学习杨卓越 Transformer实战 transformer 深度学习计算机视觉 DETR 人工智能物体检测
Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection类/ConvertCocoPolysToMask类）DETR源码解读2（DETR类）DETR源码解读3（位置编码：Joiner类/PositionEmbeddingSine类
Transformer实战-系列教程18：DETR 源码解读5（Transformer类）机器学习杨卓越 Transformer实战 transformer 深度学习人工智能 pytorch DETR 物体检测
Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection类/ConvertCocoPolysToMask类）DETR源码解读2（DETR类）DETR源码解读3（位置编码：Joiner类/PositionEmbeddingSine类
Transformer实战-系列教程21：DETR 源码解读8 损失计算:（SetCriterion类）机器学习杨卓越 Transformer实战 transformer 深度学习人工智能计算机视觉 DETR 物体检测
Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection类/ConvertCocoPolysToMask类）DETR源码解读2（DETR类）DETR源码解读3（位置编码：Joiner类/PositionEmbeddingSine类
Apache Doris 聚合函数源码阅读与解析｜源码解读系列
笔者最近由于工作需要开始调研ApacheDoris，通过阅读聚合函数代码切入ApacheDoris内核，同时也秉承着开源的精神，开发了array_agg函数并贡献给社区。笔者通过这篇文章记录下对源码的一些理解，同时也方便后面的新人更快速地上手源码开发。聚合函数，顾名思义，即对一组数据执行聚合计算并返回结果的函数，在统计分析过程中属于最常见的函数之一，最典型的聚合函数包括count、min、max、
「Redis源码解读」—持久化（一）RDB wh4763
知识点RDB文件用于保存和还原Redis服务器所有数据库中的所有键值对数据SAVE命令由服务器服务器进程直接执行保存操作，所以该命令会阻塞服务器BGSAVE命令由子进程执行保存操作，所以该命令不会阻塞服务器服务器状态中会保存所有用save选项设置的保存条件，当任意一个保存条件被满足时，服务器会自动执行BGSAVE命令RDB文件是一个经过压缩的二进制文件，由多个部分组成对不同类型的键值对，RDB文件
Vue源码解读之Dep,Observer和Watcher 小豆soybean
原文转：https://segmentfault.com/a/1190000016208088在解读Dep,Observer和Watcher之前，首先我去了解了一下Vue的数据双向绑定，即MVVM，学习于:https://blog.csdn.net/u013321...以及关于Observer和watcher的学习来自于：https://www.jb51.net/article/...整体过程Vu
java面试题/认证答辩 ---主流框架(springboot) Fuly1024 面试刷题 spring
springboot源码解读:springboot2.4.4#https://blog.csdn.net/qq_32828253/article/details/109496848#https://zhuanlan.zhihu.com/p/95217578以下所有知识均来自于网络从main方法开始publicstaticvoidmain(String[]args){//SpringApplicat
Transformer实战-系列教程17：DETR 源码解读4（Joiner类/PositionEmbeddingSine类/位置编码/backbone）机器学习杨卓越 Transformer实战 transformer 深度学习人工智能计算机视觉 pytorch DETR
Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection类）DETR源码解读2（ConvertCocoPolysToMask类）DETR源码解读3（DETR类）DETR源码解读4（Joiner类/PositionEmbedding
Transformer实战-系列教程16：DETR 源码解读3（DETR类）机器学习杨卓越 Transformer实战 transformer 深度学习人工智能计算机视觉 DETR pytorch
Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection类）DETR源码解读2（ConvertCocoPolysToMask类）DETR源码解读3（DETR类）DETR源码解读4（Joiner类/PositionEmbedding
Transformer实战-系列教程15：DETR 源码解读2（ConvertCocoPolysToMask类）机器学习杨卓越 Transformer实战 transformer 深度学习计算机视觉 DETR 物体检测 pytorch
Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection类）DETR源码解读2（ConvertCocoPolysToMask类）DETR源码解读3（DETR类）DETR源码解读4（Joiner类/PositionEmbedding
vue3源码解读--effect 习惯水文的前端苏
目录vue2源码vue3源码示例源码其实，在不看源码之前，就已经能想到其大概实现逻辑了：每一个effect在执行过程中如果遇到设置了响应式的值那么就会执行依赖收集，那么此时如果打一个标记，并根据此标记将存在依赖的effect放到某个队列中。当依赖改变后从队列中挑选判断并执行即可接下来就来验证下是不是这样将代码定位到effect函数可以看到这里获取了ReactiveEffect实例，紧接着又调用了.
Android AsyncTask源码解读糖葫芦_倩倩
屡思路1.初始AsyncTaskAsyncTask这个类的声明如下：publicabstractclassAsyncTask{.....}是一个抽象类Params表示输入参数的类型Progress表示后台任务的执行进度Result表示返回结果的类型2.使用在AsyncTask这个类的顶部有一些代码注释，里面讲述了如何使用一个AsyncTask,如下：*Hereisanexampleofsubcla
Pytorch底层源码解读（一）概览 firework_97df
前言作为最受欢迎的深度学习框架，Pytorch如今已拥有极大的用户群体以及开发者。但对于开发者而言，针对日益臃肿的pytorch框架进一步更新迭代已经成为了较大的问题，特别是对刚想要上手对pytorch底层框架进行理解的初学者而言。因此本系列主要针对于pytorch底层框架中的核心部分进行解读，为读者展现其背后工作机理的同时也能使得读者在阅读完本系列的文章后，能够对pytorch框架有个基本的了解
RabbitMQ详解以及spring对RabbitMQ的集成(附带部分源码解读) HAKUNA·MATATA RabbitMQ
一·简介1丶为什么要使用消息队列https://wenku.baidu.com/view/e297236f83c4bb4cf7ecd193.html①异步处理(高并发)②系统解耦③流量削锋2丶为什么使用RabbitMQ①给予AMQP协议②高并发③高可用④强大的社区支持，以及很多公司都在使用⑤高性能⑥支持插件(监控管理界面的插件，安装插件支持jms)⑦支持多语言(PHP,Python,.net)3丶
vue3源码解读--组件更新习惯水文的前端苏
目录vue2源码vue3源码示例源码组件更新的前提是依赖能被正确收集到，经过上一节分析，我们知道trackEffects正是来做这件事情的，故将代码定位于此。核心看其收集的对象是谁。该方法的入参如下其中的activeEffect是在setupRenderEffect中使用newReactiveEffect后执行run创建的，核心是向其挂载了更新函数即componentUpdateFn接着将dep的
SpringBoot源码解读与原理分析(六)WebMvc场景的自动装配灰色孤星A spring boot hive 后端 spring 开发语言 java
文章目录2.6WebMvc场景下的自动装配原理2.6.1WebMvcAutoConfiguration2.6.2Servlet容器的装配2.6.2.1EmbeddedTomcat、EmbeddedJetty、EmbeddedUndertow2.6.2.2BeanPostProcessorsRegistrar(后置处理器的注册器)2.6.2.3两个定制器的注册2.6.3DispatcherServl
Transformer实战-系列教程14：DETR 源码解读1 机器学习杨卓越 Transformer实战 transformer pytorch 深度学习计算机视觉 DETR 物体检测
Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读1、项目配置主要环境installPyTorch1.5+pipinstallpycocotoolspipinstallcythonpipinstallscipy需要下载coco数据集，这个数据集比较大，训练集8w图像，验证集4w图
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {