weixin_30457465

faster-rcnn

转载链接：http://blog.csdn.net/zy1034092330/article/details/62044941

参考博客：http://blog.csdn.net/WoPawn/article/details/52223282?locationNum=7

进经过RCNN和Fast RCNN的积淀，Ross B. Girshick在2016年提出了新的Faster RCNN，在结构上，Faster RCN已经将特征抽取(feature extraction)，proposal提取，bounding box regression(rect refine)，classification都整合在了一个网络中，使得综合性能有较大提高，在检测速度方面尤为明显。

图1 Faster CNN基本结构（来自原论文）

缩进依作者看来，如图1，Faster RCNN其实可以分为4个主要内容：

Conv layers。作为一种CNN网络目标检测方法，Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。
Region Proposal Networks。RPN网络用于生成region proposals。该层通过softmax判断anchors属于foreground或者background，再利用bounding box regression修正anchors获得精确的proposals。
Roi Pooling。该层收集输入的feature maps和proposals，综合这些信息后提取proposal feature maps，送入后续全连接层判定目标类别。
Classification。利用proposal feature maps计算proposal的类别，同时再次bounding box regression获得检测框最终的精确位置。

所以本文以上述4个内容作为切入点介绍Faster RCNN网络。

缩进图2展示了Python版本中的VGG16模型中的faster_rcnn_test.pt的网络结构，可以清晰的看到该网络对于一副任意大小PxQ的图像，首先缩放至固定大小MxN，然后将MxN图像送入网络；而Conv layers中包含了13个conv层+13个relu层+4个pooling层；RPN网络首先经过3x3卷积，再分别生成foreground anchors与bounding box regression偏移量，然后计算出proposals；而Roi Pooling层则利用proposals从feature maps中提取proposal feature送入后续全连接和softmax网络作classification（即分类proposal到底是什么object）。

path:${py-faster-rcnn-root}/models/pascal_voc/VGG16/faster_rcnn_alt_opt/faster_rcnn_test.pt

图2 faster_rcnn_test.pt网络结构（放大网页看大图）

1 Conv layers

缩进Conv layers包含了conv，pooling，relu三种层。以python版本中的VGG16模型中的faster_rcnn_test.pt的网络结构为例，如图2，Conv layers部分共有13个conv层，13个relu层，4个pooling层。这里有一个非常容易被忽略但是又无比重要的信息，在Conv layers中：

所有的conv层都是：kernel_size=3，pad=1
所有的pooling层都是：kernel_size=2，stride=2

为何重要？在Faster RCNN Conv layers中对所有的卷积都做了扩边处理（pad=1，即填充一圈0），导致原图变为(M+2)x(N+2)大小，再做3x3卷积后输出MxN。正是这种设置，导致Conv layers中的conv层不改变输入和输出矩阵大小。如图3：

图3

类似的是，Conv layers中的pooling层kernel_size=2，stride=2。这样每个经过pooling层的MxN矩阵，都会变为(M/2)*(N/2)大小。综上所述，在整个Conv layers中，conv和relu层不改变输入输出大小，只有pooling层使输出长宽都变为输入的1/2。

缩进那么，一个MxN大小的矩阵经过Conv layers固定变为(M/16)x(N/16)！这样Conv layers生成的featuure map中都可以和原图对应起来。

2 Region Proposal Networks(RPN)

缩进经典的检测方法生成检测框都非常耗时，如OpenCV adaboost使用滑动窗口+图像金字塔生成检测框；或如RCNN使用SS(Selective Search)方法生成检测框。而Faster RCNN则抛弃了传统的滑动窗口和SS方法，直接使用RPN生成检测框，这也是Faster RCNN的巨大优势，能极大提升检测框的生成速度。

图4 RPN网络结构

上图4展示了RPN网络的具体结构。可以看到RPN网络实际分为2条线，上面一条通过softmax分类anchors获得foreground和background（检测目标是foreground），下面一条用于计算对于anchors的bounding box regression偏移量，以获得精确的proposal。而最后的Proposal层则负责综合foreground anchors和bounding box regression偏移量获取proposals，同时剔除太小和超出边界的proposals。其实整个网络到了Proposal Layer这里，就完成了相当于目标定位的功能。

2.1 多通道图像卷积基础知识介绍

缩进在介绍RPN前，还要多解释几句基础知识，已经懂的看官老爷跳过就好。

对于单通道图像+单卷积核做卷积，第一章中的图3已经展示了；
对于多通道图像+多卷积核做卷积，计算方式如下：

图5 多通道+多卷积核做卷积示意图（摘自Theano教程）

缩进如图5，输入图像layer m-1有4个通道，同时有2个卷积核w1和w2。对于卷积核w1，先在输入图像4个通道分别作卷积，再将4个通道结果加起来得到w1的卷积输出；卷积核w2类似。所以对于某个卷积层，无论输入图像有多少个通道，输出图像通道数总是等于卷积核数量！

缩进对多通道图像做1x1卷积，其实就是将输入图像于每个通道乘以卷积系数后加在一起，即相当于把原图像中本来各个独立的通道“联通”在了一起。

2.2 anchors

缩进提到RPN网络，就不能不说anchors。所谓anchors，实际上就是一组由rpn/generate_anchors.py生成的矩形。直接运行作者demo中的generate_anchors.py可以得到以下输出：

[python] view plain copy

[[ -84. -40. 99. 55.]
[-176. -88. 191. 103.]
[-360. -184. 375. 199.]
[ -56. -56. 71. 71.]
[-120. -120. 135. 135.]
[-248. -248. 263. 263.]
[ -36. -80. 51. 95.]
[ -80. -168. 95. 183.]
[-168. -344. 183. 359.]]

其中每行的4个值[x1,y1,x2,y2]代表矩形左上和右下角点坐标。9个矩形共有3种形状，长宽比为大约为：width:height = [1:1, 1:2, 2:1]三种，如图6。实际上通过anchors就引入了检测中常用到的多尺度方法。

图6 anchors示意图

注：关于上面的anchors size，其实是根据检测图像设置的。在python demo中，会把任意大小的输入图像reshape成800x600（即图2中的M=800，N=600）。再回头来看anchors的大小，anchors中长宽1:2中最大为352x704，长宽2:1中最大736x384，基本是cover了800x600的各个尺度和形状。

那么这9个anchors是做什么的呢？借用Faster RCNN论文中的原图，如图7，遍历Conv layers计算获得的feature maps，为每一个点都配备这9种anchors作为初始的检测框。这样做获得检测框很不准确，不用担心，后面还有2次bounding box regression可以修正检测框位置。

图7

解释一下上面这张图的数字。

在原文中使用的是ZF model中，其Conv Layers中最后的conv5层num_output=256，对应生成256张特征图，所以相当于feature map每个点都是256-d
在conv5之后，做了rpn_conv/3x3卷积且num_output=256，相当于每个点又融合了周围3x3的空间信息（猜测这样做也许更鲁棒？反正我没测试），同时256-d不变（如图4和图7中的红框）
假设在conv5 feature map中每个点上有k个anchor（默认k=9），而每个anhcor要分foreground和background，所以每个点由256d feature转化为cls=2k scores；而每个anchor都有[x, y, w, h]对应4个偏移量，所以reg=4k coordinates
补充一点，全部anchors拿去训练太多了，训练程序会选取256个合适的anchors进行训练（什么是合适的anchors下文5.1有解释）

注意，在本文讲解中使用的VGG conv5 num_output=512，所以是512d，其他类似.....

2.3 softmax判定foreground与background

缩进一副MxN大小的矩阵送入Faster RCNN网络后，到RPN网络变为(M/16)x(N/16)，不妨设W=M/16，H=N/16。在进入reshape与softmax之前，先做了1x1卷积，如图8：

图8 RPN中判定fg/bg网络结构

该1x1卷积的caffe prototxt定义如下：

[cpp] view plain copy

layer {
name: "rpn_cls_score"
type: "Convolution"
bottom: "rpn/output"
top: "rpn_cls_score"
convolution_param {
num_output: 18 # 2(bg/fg) * 9(anchors)
kernel_size: 1 pad: 0 stride: 1
}
}

可以看到其num_output=18，也就是经过该卷积的输出图像为WxHx18大小（注意第二章开头提到的卷积计算方式）。这也就刚好对应了feature maps每一个点都有9个anchors，同时每个anchors又有可能是foreground和background，所有这些信息都保存WxHx(9x2)大小的矩阵。为何这样做？后面接softmax分类获得foreground anchors，也就相当于初步提取了检测目标候选区域box（一般认为目标在foreground anchors中）。

缩进那么为何要在softmax前后都接一个reshape layer？其实只是为了便于softmax分类，至于具体原因这就要从caffe的实现形式说起了。在caffe基本数据结构blob中以如下形式保存数据：

blob=[batch_size, channel，height，width]

对应至上面的保存bg/fg anchors的矩阵，其在caffe blob中的存储形式为[1, 2*9, H, W]。而在softmax分类时需要进行fg/bg二分类，所以reshape layer会将其变为[1, 2, 9*H, W]大小，即单独“腾空”出来一个维度以便softmax分类，之后再reshape回复原状。贴一段caffe softmax_loss_layer.cpp的reshape函数的解释，非常精辟：

[cpp] view plain copy

"Number of labels must match number of predictions; "
"e.g., if softmax axis == 1 and prediction shape is (N, C, H, W), "
"label count (number of labels) must be N*H*W, "
"with integer values in {0, 1, ..., C-1}.";

综上所述，RPN网络中利用anchors和softmax初步提取出foreground anchors作为候选区域。

2.4 bounding box regression原理

2.5 对proposals进行bounding box regression

缩进在了解bounding box regression后，再回头来看RPN网络第二条线路，如图11。

图11 RPN中的bbox reg

先来看一看上图11中1x1卷积的caffe prototxt定义：

[cpp] view plain copy

layer {
name: "rpn_bbox_pred"
type: "Convolution"
bottom: "rpn/output"
top: "rpn_bbox_pred"
convolution_param {
num_output: 36 # 4 * 9(anchors)
kernel_size: 1 pad: 0 stride: 1
}
}

可以看到其num_output=36，即经过该卷积输出图像为WxHx36，在caffe blob存储为[1, 36, H, W]。与上文中fg/bg anchors存储为[1, 18, H, W]类似，这里相当于feature maps每个点都有9个anchors，每个anchors又都有4个用于回归的[dx(A)，dy(A)，dw(A)，dh(A)]变换量。利用上面的的计算公式即可从foreground anchors回归出proposals。

2.6 Proposal Layer

缩进Proposal Layer负责综合所有[dx(A)，dy(A)，dw(A)，dh(A)]变换量和foreground anchors，计算出精准的proposal，送入后续RoI Pooling Layer。还是先来看看Proposal Layer的caffe prototxt定义：

[cpp] view plain copy

layer {
name: 'proposal'
type: 'Python'
bottom: 'rpn_cls_prob_reshape'
bottom: 'rpn_bbox_pred'
bottom: 'im_info'
top: 'rois'
python_param {
module: 'rpn.proposal_layer'
layer: 'ProposalLayer'
param_str: "'feat_stride': 16"
}
}

Proposal Layer有3个输入：fg/bg anchors分类器结果rpn_cls_prob_reshape，对应的bbox reg的[dx(A)，dy(A)，dw(A)，dh(A)]变换量rpn_bbox_pred，以及im_info；另外还有参数feat_stride=16，这和图4是对应的。

缩进首先解释im_info。对于一副任意大小PxQ图像，传入Faster RCNN前首先reshape到固定MxN，im_info=[M, N, scale_factor]则保存了此次缩放的所有信息。然后经过Conv Layers，经过4次pooling变为WxH=(M/16)x(N/16)大小，其中feature_stride=16则保存了该信息。所有这些数值都是为了将proposal映射回原图而设置的，如图12，毕竟检测就是为了在原图上画一个框而已~

图12

缩进Proposal Layer forward（caffe layer的前传函数）按照以下顺序依次处理：

再次生成anchors，并对所有的anchors做bbox reg位置回归（注意这里的anchors生成顺序和之前是即完全一致的）
按照输入的foreground softmax scores由大到小排序anchors，提取前pre_nms_topN(e.g. 6000)个anchors。即提取修正位置后的foreground anchors
利用feat_stride和im_info将anchors映射回原图，判断fg anchors是否大范围超过边界，剔除严重超出边界fg anchors。
进行nms（nonmaximum suppression，非极大值抑制）
再次按照nms后的foreground softmax scores由大到小排序fg anchors，提取前post_nms_topN(e.g. 300)结果作为proposal输出。

之后输出proposal=[x1, y1, x2, y2]，注意，由于在第三步中将anchors映射回原图判断是否超出边界，所以这里输出的proposal是对应MxN输入图像尺度的，这点在后续网络中有用。另外我认为，严格意义上的检测应该到此就结束了，后续部分应该属于识别了~

RPN网络结构就介绍到这里，总结起来就是：

生成anchors -> softmax分类器提取fg anchors -> bbox reg回归fg anchors -> Proposal Layer生成proposals

3 RoI pooling

缩进而RoI Pooling层则负责收集proposal，并计算出proposal feature maps，送入后续网络。从图3中可以看到Rol pooling层有2个输入：

原始的feature maps
RPN输出的proposal boxes（大小各不相同）

3.1 为何需要RoI Pooling

缩进先来看一个问题：对于传统的CNN（如AlexNet，VGG），当网络训练好后输入的图像尺寸必须是固定值，同时网络输出也是固定大小的vector or matrix。如果输入图像大小不定，这个问题就变得比较麻烦。有2种解决办法：

从图像中crop一部分传入网络
将图像warp成需要的大小后传入网络

图13 crop与warp破坏图像原有结构信息

两种办法的示意图如图13，可以看到无论采取那种办法都不好，要么crop后破坏了图像的完整结构，要么warp破坏了图像原始形状信息。回忆RPN网络生成的proposals的方法：对foreground anchors进行bound box regression，那么这样获得的proposals也是大小形状各不相同，即也存在上述问题。所以Faster RCNN中提出了RoI Pooling解决这个问题（需要说明，RoI Pooling确实是从SPP发展而来，但是限于篇幅这里略去不讲，有兴趣的读者可以自行查阅相关论文）。

3.2 RoI Pooling原理

缩进分析之前先来看看RoI Pooling Layer的caffe prototxt的定义：

[cpp] view plain copy

layer {
name: "roi_pool5"
type: "ROIPooling"
bottom: "conv5_3"
bottom: "rois"
top: "pool5"
roi_pooling_param {
pooled_w: 7
pooled_h: 7
spatial_scale: 0.0625 # 1/16
}
}

其中有新参数pooled_w=pooled_h=7，另外一个参数spatial_scale=1/16应该能够猜出大概吧。

缩进RoI Pooling layer forward过程：在之前有明确提到：proposal=[x1, y1, x2, y2]是对应MxN尺度的，所以首先使用spatial_scale参数将其映射回MxN大小的feature maps尺度（这里来回多次映射，是有点绕）；之后将每个proposal水平和竖直都分为7份，对每一份都进行max pooling处理。这样处理后，即使大小不同的proposal，输出结果都是7x7大小，实现了fixed-length output。

图14 proposal示意图

4 Classification

缩进Classification部分利用已经获得的proposal feature maps，通过full connect层与softmax计算每个proposal具体属于那个类别（如人，车，电视等），输出cls_prob概率向量；同时再次利用bounding box regression获得每个proposal的位置偏移量bbox_pred，用于回归更加精确的目标检测框。Classification部分网络结构如图15。

图15 Classification部分网络结构图

从PoI Pooling获取到7x7=49大小的proposal feature maps后，送入后续网络，可以看到做了如下2件事：

通过全连接和softmax对proposals进行分类，这实际上已经是识别的范畴了
再次对proposals进行bounding box regression，获取更高精度的rect box

这里来看看全连接层InnerProduct layer，如图16，

图16 全连接层示意图

其计算公式如下：

其中W和bias B都是预先训练好的，即大小是固定的，当然输入X和输出Y也就是固定大小。所以，这也就印证了之前Poi Pooling的必要性。到这里，我想其他内容已经很容易理解，不在赘述了。

5 Faster RCNN训练

缩进Faster CNN的训练，是在已经训练好的model（如VGG_CNN_M_1024，VGG，ZF）的基础上继续进行训练。实际中训练过程分为6个步骤：

在已经训练好的model上，训练RPN网络，对应stage1_rpn_train.pt
利用步骤1中训练好的RPN网络，收集proposals，对应rpn_test.pt
第一次训练Fast RCNN网络，对应stage1_fast_rcnn_train.pt
第二训练RPN网络，对应stage2_rpn_train.pt
再次利用步骤4中训练好的RPN网络，收集proposals，对应rpn_test.pt
第二次训练Fast RCNN网络，对应stage2_fast_rcnn_train.pt

可以看到训练过程类似于一种“迭代”的过程，不过只循环了2次。至于只循环了2次的原因是应为作者提到："A similar alternating training can be run for more iterations, but we have observed negligible improvements"，即循环更多次没有提升了。接下来本章以上述6个步骤讲解训练过程。

5.1 训练RPN网络

缩进在该步骤中，首先读取RBG提供的预训练好的model（本文使用VGG），开始迭代训练。来看看stage1_rpn_train.pt网络结构，如图17。

图17 stage1_rpn_train.pt

（考虑图片大小，Conv Layers中所有的层都画在一起了，如红圈所示，后续图都如此处理）

与检测网络类似的是，依然使用Conv Layers提取feature maps。整个网络使用的Loss如下：

上述公式中，i表示anchors index，pi表示foreground softmax predict概率，pi*代表对应的GT predict概率（即当第i个anchor与GT间IoU>0.7，认为是该anchor是foreground，pi*=1；反之IoU<0.3时，认为是该anchor是background，pi*=0；至于那些0.3

cls loss，即rpn_cls_loss层计算的softmax loss，用于分类anchors为forground与background的网络训练
reg loss，即rpn_loss_bbox层计算的soomth L1 loss，用于bounding box regression网络训练。注意在该loss中乘了pi*，相当于只关心foreground anchors的回归（其实在回归中也完全没必要去关心background）。

缩进由于在实际过程中，Ncls和Nreg差距过大，用参数λ平衡二者（如Ncls=256，Nreg=2400时设置λ=10），使总的网络Loss计算过程中能够均匀考虑2种Loss。这里比较重要是Lreg使用的soomth L1 loss，计算公式如下：

缩进了解数学原理后，反过来看图17：

对于rpn_loss_cls，输入的rpn_cls_scors_reshape和rpn_labels分别对应p与p*，Ncls参数隐含在p与p*的blob的大小中
对于rpn_loss_bbox，输入的rpn_bbox_pred和rpn_bbox_targets分别对应t于t*，rpn_bbox_inside_weigths对应p*，rpn_bbox_outside_weights对应λ，Nreg同样隐含在blob大小中

这样，公式与代码就完全对应了。

5.2 通过训练好的RPN网络收集proposals

缩进在该步骤中，利用之前的RPN网络，获取proposal rois，同时获取foreground softmax probability，如图18，然后将获取的信息保存在python pickle文件中。该网络本质上和检测中的RPN网络一样，没有什么区别。

图18 rpn_test.pt

5.3 训练Fast RCNN网络

缩进读取之前保存的pickle文件，获取proposals与foreground probability。从data层输入网络。然后：

将提取的proposals作为rois传入网络，如图19蓝框
将foreground probability作为bbox_inside_weights传入网络，如图19绿框
通过caffe blob大小对比，计算出bbox_outside_weights(即λ)，如图19绿框

这样就可以训练最后的识别softmax与最终的bounding regression了，如图19。

图19 stage1_fast_rcnn_train.pt

之后的训练都是大同小异，不再赘述了。

总结一下，以路径：path:${py-faster-rcnn-root}/models/pascal_voc/VGG16/faster_rcnn_alt_opt/faster_rcnn_test.pt为结构图：

（1）rpn_conv/3*3层后接两个分别为36-d和18-d的1*1卷积层，分别用于cls和reg;

（2）conv层均是kernel size=3*3，pad=1，stride=1，所以卷积前后不改变大小，只有pool层起作用，原输入为M*N，经过conv5前面这些层后变为（M/16）*（N/16），从而实现了feature map 和原始图像的一一映射（16是固定缩放比例）；

（3）proposal层负责总和foreground anchors和BB偏移量来获取proposals，同时剔除太小和超出边界的proposals；

（4）对于ZF，conv5的feature map上的每一个点经过两个并行的1*1卷积，分别由256-d的feature变为cls=2k(2*9)个scores，reg=4k(4*9)个box；

（5）上文中的画图工具为：

http://ethereon.github.io/netscope/#/editor

非常好用~

转载于:https://www.cnblogs.com/zf-blog/p/7142463.html

c++读取图片_四、faster-rcnn源码阅读：数据流读取 weixin_39719078 c++读取图片 img标签读取本地图片 os如何读取图片 torch dataloader 数据并行
数据读取在faster-rcnn源码里是比较简单的部分，但也是非常重要的部分，不了解数据，就不可能了解算法。另一方面，由于python环境碎片话化，源码调用的库在你的电脑上如果碰巧（其实概率还蛮大，特别是windows下）不能用，完全可以用另外一种等价的方式取代。一、图片读取就是把图片转化成矩阵，等待下一个流程进一步处理。图片读取要注意不是所有都是RGB顺序读取1.cv2（OpenCV-Pytho
Transformer实战-系列教程13：DETR 算法解读机器学习杨卓越 Transformer实战 transformer 深度学习 DETR 物体检测
Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码1、物体检测说到目标检测你能想到什么faster-rcnn系列，开山之作，各种proposal方法YOLO肯定也少不了，都是基于anchor这路子玩的NMS那也一定得用上，输出结果肯定要过滤一下的如果一个目标检测算法，上面这三点都木有，你说神不神
目标检测SSD：训练自己的数据集 BigCowPeking 目标检测算法安装 SSD
最近一直在搞objectdetection玩，之前用的是faster-rcnn，准确率方面73.2%，效果还不错，但是识别速度有点欠缺，我用的GPU是GTX980ti,识别速度大概是15fps.最近发现SSD(singleshotmultiboxdetector)这篇论文效果和速度都不错，我自己实验了一下，速度确实比faster-rcnn快不少。下面分两部分来介绍。第一部分介绍SSD的安装，第二部
YOLO系列 Array902 YOLO python 深度学习
深度学习经典检测方法two-stage（两阶段）：Faster-rcnn\Mask-Rcnn系列（两阶段即多了一步预选操作）one-stage（单阶段）：YOLO系列（直接处理，不需要对数据进行预选）one-stage:最核心的优势：速度非常快，适合做实时监测任务！但是缺点也是有的，效果通常情况下不会太好！（速度越快效果越差，二者相互有些矛盾）mAP：效果好坏FPS：速度快慢two-stage:速
目标检测 Faster-RCNN 石中璇深度学习
文章目录标题目标检测算法：Faster-RCNNR-CNNRegionProposals候选区域RCNN结构原理RCNN存在的问题用SPP-Net改进（spatialpyramidpoolinglayer空间金字塔池化）FastR-CNNFastR-CNN结构图FastR-CNN的缺陷FasterR-CNN标题目标检测算法：Faster-RCNNR-CNNRegionProposals候选区域原先
caffe版本Faster-RCNN：py-faster-rcnn-master/lib/datasets/factory.py ->用于集成程序默认提供的数据集 a1103688841
分析：这个代码分两个部分：1）首先往__sets()字典的key中注入名字，往对应的val中注入对应的初始化函数。下次只要在__sets()字典中输入key的名字就可以执行对应的初始化函数。__sets（）的具体情况如下：2）get_imdb(name)用于配套__sets()的初始化，输入__sets（）中存在key，调用他对应的val进行初始化list_imdbs()用于配套__sets()，
Multi-adversarial Faster-RCNN with Paradigm Teacher for Unrestricted Object Detection 宇来风满楼目标检测目标检测人工智能计算机视觉算法深度学习机器学习神经网络
GRLmeans‘gradientreversedlayer’，SRMmeans‘ScaleReduceModule’.DiscriminatorsubmoduleatthemmmthblockisdenotedasDm^mm作者未提供代码
R-C3D论文详解 ce0b74704937
论文链接：R-C3D:RegionConvolutional3DNetworkforTemporalActivityDetection代码地址（论文提供地址）：http://ai.bu.edu/r-c3d/该论文借鉴图像物体检测中的Faster-RCNN的思想，文章采用3D卷积来获取视频的时序信息，然后通过类似Faster-RCNN的rpn层和roi层输出时间维度的boundingbox，也就是视
【Digest】YOLO系列：YOLOv1,YOLOv2,YOLOv3,YOLOv4,YOLOv5简介 gikod YOLO
1.前言论文下载：http://arxiv.org/abs/1506.02640代码下载：https://github.com/pjreddie/darknet核心思想：将整张图片作为网络的输入（类似于Faster-RCNN），直接在输出层对BBox的位置和类别进行回归。目标检测之YOLO算法：YOLOv1,YOLOv2,YOLOv3,TinyYOLO,YOLOv4,YOLOv5,YOLObile
学习笔记：Pytorch 搭建自己的Faster-RCNN目标检测平台 hongyuyahei vqa 学习笔记 pytorch
B站学习视频up主的csdn博客1、什么是FasterR-CNN2、pytorch-gpu环境配置（跳过）3、FasterR-CNN整体结构介绍Faster-RCNN可以采用多种的主干特征提取网络，常用的有VGG，Resnet，Xception等等。Faster-RCNN对输入进来的图片尺寸没有固定，但一般会把输入进来的图片短边固定成600.4、Resnet50-主干特征提取网络介绍具体学习见：R
MMdetection3.0 报错data[‘category_id‘] = self.cat_ids[label] IndexError: list index out of range MZYYZT MMdetection python 深度学习 MMdetection3.0
MMdetection3.0问题报错data[‘category_id’]=self.cat_ids[label]IndexError:listindexoutofrange痛苦，希望各位大佬看到后可以指教一下：问题：在使用MMdetection3.0训练NWPU-VHR-10数据时，使用Yolov3模型可以正常训练测试，但是当使用Faster-rcnn模型训练的时候，一直如下图所示错误。1、按照
MMdetection3.0 问题 MZYYZT MMdetection python 目标检测 MMdetection3.0 python 深度学习目标检测
MMdetection3.0问题希望各位路过的大佬指教一下：问题：1、NWPU-VHR-10有标注的数据一共650张，我将其分为了455张训练集，195张验证集。2、然后使用MMdetection3.0框架中的Faster-rcnn网络进行训练，设置训练参数batch-size=2,num_worker=2。3、那么问题来了：为什么下图中的画圈的地方不是【**/228or227】，也就是datal
YOLO系列/20230903 lucharaar YOLO
深度学习经典检测方法1.two-stage（分两阶段）：Faster-Rcnn和Mask-Rcnn系列-------检测过程中加了预选框步骤速度通常较慢（5FPS），但是效果通常不错非常实用的通用框架Mask-Rcnn，需要了解2.one-stage（单阶段）：YOLO系列------当我们想做检测任务，一个cnn网络直接做一个回归任务就可以，中间不需要加额外的补充最核心的优势：速度非常快，适合做
目标检测｜实战总结 voice_an
1.实现ssd-keras实时目标检测算法，并制作十张图片的测试集。效果一般。ssd算法是继faster-rcnn与yolo之后的又一力作。来自UNC团队2016年发表在ECCV上。SSD最大的特点就是在较高的准确率下实现较好的检测准确度。并非为两种模型：SSD300（300*300输入图片），SSD500（512*512输入图片）。当然输入图片的尺寸越大，往往会得到更好的检测准确率，但同时也带来
第五章目标检测中K-means聚类生成Anchor box(工具) 小酒馆燃着灯目标检测深度学习工具目标检测 kmeans 聚类
基础理论在基于anchor的目标检测算法中，anchor一般都是通过人工设计的。例如，在SSD、Faster-RCNN中，设计了9个不同大小和宽高比的anchor。然而，通过人工设计的anchor存在一个弊端，就是并不能保证它们一定能很好的适合数据集，如果anchor的尺寸和目标的尺寸差异较大，则会影响模型的检测效果。在论文YOLOv2中提到了这个问题，作者建议使用K-means聚类来代替人工设计
YOLO系列详解（YOLO1-YOLO5）陈子迩深度学习学习笔记 python pandas 机器学习
目录前言二、YOLOv1举例说明：三、YOLOv2四、YOLOv3五、YOLOv4框架原理5.4.5余弦模拟退火5.5.2DIoU-NMS六YOLOv5七、YOLOv6前言一、前言YOLO系列是one-stage且是基于深度学习的回归方法，而R-CNN、Fast-RCNN、Faster-RCNN等是two-stage且是基于深度学习的分类方法。YOLO官网：GitHub-pjreddie/dark
pkl文件的简介（Python中的Pickle）北岛寒沫 Python python 开发语言
文章目录Pickle模块简介Pickle模块的使用最近从Github上下载了一个预训练好的Faster-RCNN模型用于科研任务，突然对该文件的格式，.pkl文件产生了一丝疑惑，便去特意了解了一下该格式的文件的含义，下面与大家共享。Pickle模块简介.pkl是Python中pickle模块的默认文件扩展名。pickle是Python中的一个模块，它允许您序列化和反序列化Python对象结构。“序
SSD安装及训练自己的数据集 zhang_shuai12 深度学习 ssd caffe
最近一直在搞objectdetection玩，之前用的是faster-rcnn，准确率方面73.2%，效果还不错，但是识别速度有点欠缺，我用的GPU是GTX980ti,识别速度大概是15fps.最近发现SSD(singleshotmultiboxdetector)这篇论文效果和速度都不错，我自己实验了一下，速度确实比faster-rcnn快不少。下面分两部分来介绍。第一部分介绍SSD的安装，第二部
在AI Studio中配置faster-rcnn pytorch环境 ForesterZz cuda
在AIStudio中配置faster-rcnnpytorch环境AIStudio自带cuda版本faster-rcnn的pytorch版本支持AIStudio自带cuda版本AIStudio目前有两个版本的cuda（cuda9.2和cuda10），不过我从没分配到过cuda10，大部分都是cuda9.2。使用以下语句查看cuda版本。cat/usr/local/cuda/version.txtfa
使用mmdetection训练模型--记faster-rcnn不同backbone性能比较 hedgehogbb 工作总结深度学习目标检测 pytorch
使用mmdetection训练模型一、安装采用的是直接安装，并未使用在conda中建虚拟环境。主要安装的有mmcv和mmdet，其中mmcv的安装与下载的mmdetction版本有关，参考https://mmdetection.readthedocs.io/zh_CN/v2.18.1/get_started.html#id官网安装依赖教程中的mmdetection版本和mmcv版本的对应关系安装。
基于Pytorch的从零开始的目标检测金戈鐡馬深度学习 pytorch 目标检测人工智能深度学习 python
引言目标检测是计算机视觉中一个非常流行的任务，在这个任务中，给定一个图像，你预测图像中物体的包围盒(通常是矩形的)，并且识别物体的类型。在这个图像中可能有多个对象，而且现在有各种先进的技术和框架来解决这个问题，例如Faster-RCNN和YOLOv3。本文讨论将讨论图像中只有一个感兴趣的对象的情况。这里的重点更多是关于如何读取图像及其边界框、调整大小和正确执行增强，而不是模型本身。目标是很好地掌握
YOLOv8/YOLOv7/YOLOv5/YOLOv4/Faster-rcnn系列算法改进【NO.78】引入2023年华为诺亚提出Gold-YOLO模型中Gatherand-Distribute 人工智能算法研究院 YOLO算法改进系列 YOLO 算法
前言作为当前先进的深度学习目标检测算法YOLOv8，已经集合了大量的trick，但是还是有提高和改进的空间，针对具体应用场景下的检测难点，可以不同的改进方法。此后的系列文章，将重点对YOLOv8的如何改进进行详细的介绍，目的是为了给那些搞科研的同学需要创新点或者搞工程项目的朋友需要达到更好的效果提供自己的微薄帮助和参考。由于出到YOLOv8，YOLOv7、YOLOv5算法2020年至今已经涌现出大
YOLOv8/YOLOv7/YOLOv5/YOLOv4/Faster-rcnn系列算法改进【NO.79】改进损失函数为VariFocal Loss 人工智能算法研究院 YOLO算法改进系列 YOLO 算法目标跟踪
前言作为当前先进的深度学习目标检测算法YOLOv8，已经集合了大量的trick，但是还是有提高和改进的空间，针对具体应用场景下的检测难点，可以不同的改进方法。此后的系列文章，将重点对YOLOv8的如何改进进行详细的介绍，目的是为了给那些搞科研的同学需要创新点或者搞工程项目的朋友需要达到更好的效果提供自己的微薄帮助和参考。由于出到YOLOv8，YOLOv7、YOLOv5算法2020年至今已经涌现出大
CV综述OCR任务---目录慕一Chambers 图像分类 CNN 深度学习机器学习
CV综述OCR任务---目录图像任务OCR任务图像分类目标检测图像分割图像增强视频任务正文：OCR学习OCR参考资料:参考博客:典型应用常见挑战比赛经典OCR方法单字符识别方法序列识别方法tessernet文字检测模型Part(thinkaboutCV中的目标检测)faster-RCNN/YOLO/SSDCTPN(2016):ConnectionistTextProposalNetworkEAST
第五章目标检测中K-means聚类生成Anchor box(工具) 小酒馆燃着灯机器学习工具深度学习目标检测 kmeans 聚类
第一种做法在基于anchor的目标检测算法中，anchor一般都是通过人工设计的。例如，在SSD、Faster-RCNN中，设计了9个不同大小和宽高比的anchor。然而，通过人工设计的anchor存在一个弊端，就是并不能保证它们一定能很好的适合数据集，如果anchor的尺寸和目标的尺寸差异较大，则会影响模型的检测效果。在论文YOLOv2中提到了这个问题，作者建议使用K-means聚类来代替人工设
YOLOv8/YOLOv7/YOLOv5/YOLOv4/Faster-rcnn系列算法改进【NO.77】引入百度最新提出RT-DETR模型中AIFI模块人工智能算法研究院 YOLO算法改进系列 YOLO 算法目标跟踪
前言作为当前先进的深度学习目标检测算法YOLOv8，已经集合了大量的trick，但是还是有提高和改进的空间，针对具体应用场景下的检测难点，可以不同的改进方法。此后的系列文章，将重点对YOLOv8的如何改进进行详细的介绍，目的是为了给那些搞科研的同学需要创新点或者搞工程项目的朋友需要达到更好的效果提供自己的微薄帮助和参考。由于出到YOLOv8，YOLOv7、YOLOv5算法2020年至今已经涌现出大
mmdetection安装与训练不减到100斤不吃锅包肉深度学习 pytorch 深度学习
一、什么是mmdetection商汤科技（2018COCO目标检测挑战赛冠军）和香港中文大学最近开源了一个基于Pytorch实现的深度学习目标检测工具箱mmdetection，支持Faster-RCNN，Mask-RCNN，Fast-RCNN等主流的目标检测框架，后续会加入Cascade-RCNN以及其他一系列目标检测框架。二、mmdetection安装本人安装环境：系统环境：Ubuntu20.0
安装yolo,mmlab，等工具时pycocotools报错 zRezin YOLO 深度学习人工智能计算机视觉
安装yolo的时候，因为是白板机，很多依赖都没有安装。安装yolo的依赖时候会报错。其实如果安装其他的视觉框架，例如yolov系列，mmlab，faster-rcnn等只要是用到了coco数据集的预置框架，都需要安装pycocotools。conda环境下依赖安装可能报错，可能是因为环境版本不匹配。需要手动安装报错语句如下ERROR:Couldnotbuildwheelsforpycocotool
Faster-RCNN and Mask-RCNN框架解析 nice-wyh pytorch目标检测深度学习机器学习
由于本人记忆力实在太差，每次学完一个框架没过多久就会忘，而且码文能力不行，人又懒，所以看到了其他人写的不错的两篇框架解析的博文，先来记录一下，就当是我写的喽Faster-rcnn详解_fasterr-cnn-CSDN博客MaskR-CNN详解_maskrcnn-CSDN博客
Pytorch实现Faster-RCNN *Major*
Pytorch实现Faster−RCNNPytorch实现Faster-RCNNPytorch实现Faster−RCNN基本结构![在这里插入图片描述](https://img-blog.csdnimg.cn/20200614150822116.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

faster-rcnn

1 Conv layers

2 Region Proposal Networks(RPN)

2.1 多通道图像卷积基础知识介绍

2.2 anchors

2.3 softmax判定foreground与background

2.4 bounding box regression原理

2.5 对proposals进行bounding box regression

2.6 Proposal Layer

3 RoI pooling

3.1 为何需要RoI Pooling

3.2 RoI Pooling原理

4 Classification

5 Faster RCNN训练

5.1 训练RPN网络

5.2 通过训练好的RPN网络收集proposals

5.3 训练Fast RCNN网络

你可能感兴趣的:(faster-rcnn)