Pre_Con

Faster RCNN算法详解

本文仅供个人学习使用，如有侵权立刻删除；

原文链接传送：http://blog.csdn.net/u014696921/article/details/53767153

自2015以来,人工智能在计算机视觉领域(人脸识别\物体分类\图片描述)已经超越人类的识别正确率和速度,而关于速度的提升,不得不提RGB的开山之作(Faster-RCNN) .

先来个概述:Faster-RCNN通过交叉训练方式,共享卷积特征,从而大幅缩减了训练参数(原文描述为RPN cost-free)------ 除了CNN网络架构本身具有的权值共享,在RGB的论文里我们再次感受到共享思想的伟大:通过交替训练两个类型的网络达到(cost-free)!

当然,从实验数据来看:也取得了近乎real-time的性能,真是“Deep learning 搞定一切vision task”.另外, 我也基于该技术做了一个实时场景分析和描述的人工智能系统:先进行场景中各类物体的识别(Faster-RCNN),再使用自然语言描述(LSTM),(即具备感知(识别物体)和认知能力(学习如何去表达)). 点击打开链接   效果如论文所述"waives nearly all computational burdens of Selective Search at test-time—the effective running time for proposals is just 10 milliseconds."


INTRODUCTION

  首先，论文回顾Fast-RCNN:与典型的RCNN不同的是，典型的RCNN使用Selective Search;而Fast-RCNN使用EdgeBoxes。直接取得性能上的优势,论文给出的数据是,Selective Search:2 seconds per image,而使用EdgeBoxes是0.2 seconds per image,也就是Fast-RCNN提高了十倍的速度.

然后, 论文指出Faster-RCNN( 可以看做是对 Fast-RCNN 的再次改进版):主要解决的是如何在RPN网络中快速获得 proposal, 作者在他的论文中提出，卷积后的特征图其实是可以用来生成 region proposals ! 所以,作者通过增加两个独立\平行的全连接层来实现 Region Proposal Networks (RPN) , 一个用来以回归方式生成推荐区域(region bounds)，另一个则是objectness score。

   接着,作者強調:为了面对平移(缩放)不变性,经典做法有:对输入图片或者卷积网络里的滤波器进行整体尺度\矩形长宽比例的采样;而作者的做法是:对推荐区域(novel “anchor” boxes)进行尺度\矩形比例的采样.结果是,对推荐区域采样的模型,不管是速度还是准确率都取得很好的性能.

最后,为了将fully-convolutional network (FCN)的RPN  与 Fast-RCNN 相结合，作者给出了一种简单的训练方法：固定 proposals数目，为训练RPN和Fast-RCNN, 这两个训练的task交替微调网络 ,交替过程实现卷积特征共享----注意这里就是大招!!!因此不需要重复的卷积计算, 共享卷积特征也让两个网络快速地收敛,所以,大幅地提高了网络的训练和测试(应用)速度------这就是Faster-RCNN的优势所在, 一种优雅并且高效的方案.

Region Proposal Networks

RPN的目的是实现"attention"机制,告诉后续的扮演检测\识别\分类角色的Fast-RCNN应该注意哪些区域,它从任意尺寸的图片中得到一系列的带有 objectness score 的 object proposals。具体流程是：使用一个小的网络在已经进行通过卷积计算得到的feature map上进行滑动扫描，这个小的网络每次在一个feature map上的一个窗口进行滑动(这个窗口大小为n*n----在这里,再次看到神经网络中用于缩减网络训练参数的局部感知策略receptive field,通常n=228在VGG-16,而作者论文使用n=3)，滑动操作后映射到一个低维向量(例如256D或512D,这里说256或512是低维,有些同学发邮件问我:n=3,n*n=9,为什么256是低维呢?那么解释一下:低维相对不是指窗口大小,窗口是用来滑动的!256相对的是a convolutional feature map of a size W × H (typically ∼2,400),而2400这个特征数很大,所以说256是低维.另外需要明白的是:这里的256维里的每一个数都是一个Anchor(由2400的特征数滑动后操作后,再进行压缩))最后将这个低维向量送入到两个独立\平行的全连接层:box回归层（a box-regression layer (reg)）和box分类层（a box-classification layer (cls)）。如下图所示:

Translation-Invariant Anchors

在计算机视觉中的一个挑战就是平移不变性:比如人脸识别任务中,小的人脸(24*24的分辨率)和大的人脸(1080*720)如何在同一个训练好权值的网络中都能正确识别. 传统有两种主流的解决方式,第一:对图像或feature map层进行尺度\宽高的采样;第二,对滤波器进行尺度\宽高的采样(或可以认为是滑动窗口). 但作者的解决该问题的具体实现是:通过卷积核中心(用来生成推荐窗口的Anchor)进行尺度、宽高比的采样。如上图右边，文中使用了3 scales and 3 aspect ratios （1:1,1:2,2:1）, 就产生了 k = 9 anchors at each sliding position.

A Loss Function for Learning Region Proposals

anchors(卷积核的中心)分为两类：与ground-truth box 有较高的 IoU 或与任意一个 ground-truth box 的 IoU 大于0.7 的 anchor 都标为 positive label；与所有 ground-truth box 的IoU 都小于0.3的 anchor 都标为 negative label。其余非正非负的都被丢掉。
对于每一个 anchor box i, 其 loss function 定义为：
L(pi,ti)=Lcls(pi,p?i)+λp?iLreg(ti,t?i)
其中，pi 是预测其是一个 object 的 probability ，当其label 为 positive 时，p?i 为1，否则为0。 ti={tx,ty,tw,th} 是预测的 bounding box，t?i 是与这个 anchor 相对应的 ground-truth box 。 classification loss Lcls 是一个二分类（是或者不是object）的 softmax loss 。regression loss Lreg(ti,t?i)=R(ti?t?i), R 是 Fast R-CNN 中定义的 robust loss function (smooth-L1) ，p?iLreg 表示只针对 positive anchors (p?i = 1). 这里还有一个平衡因子 λ , 文中设为10，表示更倾向于box location。

Optimization

使用 back-propagation(反向传播) and stochastic gradient descent (随机梯度) 对这个RPN进行训练，每张图片随机采样了256个 anchors , 这里作者认为如果使用所有的anchors来训练的话，this will bias towards negative samples as they are dominate。所以这里作者将采样的正负positive and negative anchors have a ratio of 1:1. 新增的两层使用高斯来初始化，其余使用 ImageNet 的 model 初始化。

Sharing Convolutional Features for Region Proposal and Object Detection

通过交替优化来学习共享的特征，共四个步骤：

1. 用 ImageNet 的 model 初始化一个RPN，然后针对 region proposal task 进行微调。

2. 利用第一步得到的 proposals 作为Fast-RCNN 的输入,来训练这个承担detection任务的network.注意: 到这里两个网络还是分开的，没有 share conv layers 。

3. 利用第二部训练好的Fast-RCNN来初始化 RPN ，继续训练RPN，这里训练的时候固定 conv layers ，只微调仅属于RPN 那一部分的网络层。

4. 再固定 conv layers ，只微调仅属于 Fast-RCNN 的fc 层。

第4步结束后,我们已经共享了卷积层,接下来我们就可以进行交替训练(1-4).很好理解吧.

Implementation Details

每个 anchor , 使用 3 scales with box areas of 1282, 2562, and 5122 pixels, and 3 aspect ratios of 1:1, 1:2, and 2:1. 忽略了所有的 cross-boundary anchors 。在 proposal regions 上根据 cls scores 进行了 nonmaximum suppression (NMS) 。

Experiments

作者文中讨论的各种策略和参数进行各个数据集的实验和对应的数据结果.

Conclusion

纵观全文,详述了如何使用 Region Proposal Networks (RPN) 来生成 region proposals(通过卷积核中心(用来生成推荐窗口的Anchor)尺度和比例采样实现平移不变性) ，然后使用Fast-RCNN进行物体检测, 接着使用交替训练从而共享特征(也就是减少了网络参有数)----再次強調大招在这里!!!，最终region proposal step is nearly cost-free,也就是近乎实时的性能.



总结: 另CNN在人工智能领域脱颖而出的是许多精妙的思想,受生物视觉所启发的局部感知策略，基于统计特性的权值共享，利用特征聚合的池化……这些tricks优化performance的同时，也以指数级递减了计算的复杂度，再者为架构并行和数据切分训练提供了可能。而作者通过交替训练方式进一步把参数共享的思想, 推到当前学术水平的极致.

本文是继RCNN[1]，fast RCNN[2]之后，目标检测界的领军人物Ross Girshick团队在2015年的又一力作。简单网络目标检测速度达到17fps，在PASCAL VOC上准确率为59.9%；复杂网络达到5fps，准确率78.8%。

作者在github上给出了基于matlab和python的源码。对Region CNN算法不了解的同学，请先参看这两篇文章：《RCNN算法详解》，《fast RCNN算法详解》。

思想

从RCNN到fast RCNN，再到本文的faster RCNN，目标检测的四个基本步骤（候选区域生成，特征提取，分类，位置精修）终于被统一到一个深度网络框架之内。所有计算没有重复，完全在GPU中完成，大大提高了运行速度。

faster RCNN可以简单地看做“区域生成网络+fast RCNN“的系统，用区域生成网络代替fast RCNN中的Selective Search方法。本篇论文着重解决了这个系统中的三个问题：
1. 如何设计区域生成网络
2. 如何训练区域生成网络
3. 如何让区域生成网络和fast RCNN网络共享特征提取网络

区域生成网络：结构

基本设想是：在提取好的特征图上，对所有可能的候选框进行判别。由于后续还有位置精修步骤，所以候选框实际比较稀疏。

特征提取

原始特征提取（上图灰色方框）包含若干层conv+relu，直接套用ImageNet上常见的分类网络即可。本文试验了两种网络：5层的ZF[3]，16层的VGG-16[4]，具体结构不再赘述。
额外添加一个conv+relu层，输出51*39*256维特征（feature）。

候选区域（anchor）

特征可以看做一个尺度51*39的256通道图像，对于该图像的每一个位置，考虑9个可能的候选窗口：三种面积{1282,2562,5122}×三种比例{1:1,1:2,2:1}。这些候选窗口称为anchors。下图示出51*39个anchor中心，以及9种anchor示例。

在整个faster RCNN算法中，有三种尺度。
原图尺度：原始输入的大小。不受任何限制，不影响性能。
归一化尺度：输入特征提取网络的大小，在测试时设置，源码中opts.test_scale=600。anchor在这个尺度上设定。这个参数和anchor的相对大小决定了想要检测的目标范围。
网络输入尺度：输入特征检测网络的大小，在训练时设置，源码中为224*224。

窗口分类和位置精修

分类层（cls_score）输出每一个位置上，9个anchor属于前景和背景的概率；窗口回归层（bbox_pred）输出每一个位置上，9个anchor对应窗口应该平移缩放的参数。
对于每一个位置来说，分类层从256维特征中输出属于前景和背景的概率；窗口回归层从256维特征中输出4个平移缩放参数。

就局部来说，这两层是全连接网络；就全局来说，由于网络在所有位置（共51*39个）的参数相同，所以实际用尺寸为1×1的卷积网络实现。

需要注意的是：并没有显式地提取任何候选窗口，完全使用网络自身完成判断和修正。

区域生成网络：训练

样本

考察训练集中的每张图像：
a. 对每个标定的真值候选区域，与其重叠比例最大的anchor记为前景样本
b. 对a)剩余的anchor，如果其与某个标定重叠比例大于0.7，记为前景样本；如果其与任意一个标定的重叠比例都小于0.3，记为背景样本
c. 对a),b)剩余的anchor，弃去不用。
d. 跨越图像边界的anchor弃去不用

代价函数

同时最小化两种代价：
a. 分类误差
b. 前景样本的窗口位置偏差
具体参看fast RCNN中的“分类与位置调整”段落。

超参数

原始特征提取网络使用ImageNet的分类样本初始化，其余新增层随机初始化。
每个mini-batch包含从一张图像中提取的256个anchor，前景背景样本1:1.
前60K迭代，学习率0.001，后20K迭代，学习率0.0001。
momentum设置为0.9，weight decay设置为0.0005。[5]

共享特征

区域生成网络（RPN）和fast RCNN都需要一个原始特征提取网络（下图灰色方框）。这个网络使用ImageNet的分类库得到初始参数W0，但要如何精调参数，使其同时满足两方的需求呢？本文讲解了三种方法。

轮流训练

a. 从W0开始，训练RPN。用RPN提取训练集上的候选区域
b. 从W0开始，用候选区域训练Fast RCNN，参数记为W1
c. 从W1开始，训练RPN…
具体操作时，仅执行两次迭代，并在训练时冻结了部分层。论文中的实验使用此方法。
如Ross Girshick在ICCV 15年的讲座Training R-CNNs of various velocities中所述，采用此方法没有什么根本原因，主要是因为”实现问题，以及截稿日期“。

近似联合训练

直接在上图结构上训练。在backward计算梯度时，把提取的ROI区域当做固定值看待；在backward更新参数时，来自RPN和来自Fast RCNN的增量合并输入原始特征提取层。
此方法和前方法效果类似，但能将训练时间减少20%-25%。公布的python代码中包含此方法。

联合训练

直接在上图结构上训练。但在backward计算梯度时，要考虑ROI区域的变化的影响。推导超出本文范畴，请参看15年NIP论文[6]。

实验

除了开篇提到的基本性能外，还有一些值得注意的结论

与Selective Search方法（黑）相比，当每张图生成的候选区域从2000减少到300时，本文RPN方法（红蓝）的召回率下降不大。说明RPN方法的目的性更明确。
使用更大的Microsoft COCO库[7]训练，直接在PASCAL VOC上测试，准确率提升6%。说明faster RCNN迁移性良好，没有over fitting。

Girshick, Ross, et al. “Rich feature hierarchies for accurate object detection and semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2014. ↩
Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE International Conference on Computer Vision. 2015. ↩
M. D. Zeiler and R. Fergus, “Visualizing and understanding convolutional neural networks,” in European Conference on Computer Vision (ECCV), 2014. ↩
K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in International Conference on Learning Representations (ICLR), 2015. ↩
learning rate-控制增量和梯度之间的关系；momentum-保持前次迭代的增量；weight decay-每次迭代缩小参数，相当于正则化。 ↩
Jaderberg et al. “Spatial Transformer Networks”
NIPS 2015 ↩
30万+图像，80类检测库。参看http://mscoco.org/。 ↩

c++读取图片_四、faster-rcnn源码阅读：数据流读取 weixin_39719078 c++读取图片 img标签读取本地图片 os如何读取图片 torch dataloader 数据并行
数据读取在faster-rcnn源码里是比较简单的部分，但也是非常重要的部分，不了解数据，就不可能了解算法。另一方面，由于python环境碎片话化，源码调用的库在你的电脑上如果碰巧（其实概率还蛮大，特别是windows下）不能用，完全可以用另外一种等价的方式取代。一、图片读取就是把图片转化成矩阵，等待下一个流程进一步处理。图片读取要注意不是所有都是RGB顺序读取1.cv2（OpenCV-Pytho
Transformer实战-系列教程13：DETR 算法解读机器学习杨卓越 Transformer实战 transformer 深度学习 DETR 物体检测
Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码1、物体检测说到目标检测你能想到什么faster-rcnn系列，开山之作，各种proposal方法YOLO肯定也少不了，都是基于anchor这路子玩的NMS那也一定得用上，输出结果肯定要过滤一下的如果一个目标检测算法，上面这三点都木有，你说神不神
目标检测SSD：训练自己的数据集 BigCowPeking 目标检测算法安装 SSD
最近一直在搞objectdetection玩，之前用的是faster-rcnn，准确率方面73.2%，效果还不错，但是识别速度有点欠缺，我用的GPU是GTX980ti,识别速度大概是15fps.最近发现SSD(singleshotmultiboxdetector)这篇论文效果和速度都不错，我自己实验了一下，速度确实比faster-rcnn快不少。下面分两部分来介绍。第一部分介绍SSD的安装，第二部
YOLO系列 Array902 YOLO python 深度学习
深度学习经典检测方法two-stage（两阶段）：Faster-rcnn\Mask-Rcnn系列（两阶段即多了一步预选操作）one-stage（单阶段）：YOLO系列（直接处理，不需要对数据进行预选）one-stage:最核心的优势：速度非常快，适合做实时监测任务！但是缺点也是有的，效果通常情况下不会太好！（速度越快效果越差，二者相互有些矛盾）mAP：效果好坏FPS：速度快慢two-stage:速
目标检测 Faster-RCNN 石中璇深度学习
文章目录标题目标检测算法：Faster-RCNNR-CNNRegionProposals候选区域RCNN结构原理RCNN存在的问题用SPP-Net改进（spatialpyramidpoolinglayer空间金字塔池化）FastR-CNNFastR-CNN结构图FastR-CNN的缺陷FasterR-CNN标题目标检测算法：Faster-RCNNR-CNNRegionProposals候选区域原先
caffe版本Faster-RCNN：py-faster-rcnn-master/lib/datasets/factory.py ->用于集成程序默认提供的数据集 a1103688841
分析：这个代码分两个部分：1）首先往__sets()字典的key中注入名字，往对应的val中注入对应的初始化函数。下次只要在__sets()字典中输入key的名字就可以执行对应的初始化函数。__sets（）的具体情况如下：2）get_imdb(name)用于配套__sets()的初始化，输入__sets（）中存在key，调用他对应的val进行初始化list_imdbs()用于配套__sets()，
Multi-adversarial Faster-RCNN with Paradigm Teacher for Unrestricted Object Detection 宇来风满楼目标检测目标检测人工智能计算机视觉算法深度学习机器学习神经网络
GRLmeans‘gradientreversedlayer’，SRMmeans‘ScaleReduceModule’.DiscriminatorsubmoduleatthemmmthblockisdenotedasDm^mm作者未提供代码
R-C3D论文详解 ce0b74704937
论文链接：R-C3D:RegionConvolutional3DNetworkforTemporalActivityDetection代码地址（论文提供地址）：http://ai.bu.edu/r-c3d/该论文借鉴图像物体检测中的Faster-RCNN的思想，文章采用3D卷积来获取视频的时序信息，然后通过类似Faster-RCNN的rpn层和roi层输出时间维度的boundingbox，也就是视
【Digest】YOLO系列：YOLOv1,YOLOv2,YOLOv3,YOLOv4,YOLOv5简介 gikod YOLO
1.前言论文下载：http://arxiv.org/abs/1506.02640代码下载：https://github.com/pjreddie/darknet核心思想：将整张图片作为网络的输入（类似于Faster-RCNN），直接在输出层对BBox的位置和类别进行回归。目标检测之YOLO算法：YOLOv1,YOLOv2,YOLOv3,TinyYOLO,YOLOv4,YOLOv5,YOLObile
学习笔记：Pytorch 搭建自己的Faster-RCNN目标检测平台 hongyuyahei vqa 学习笔记 pytorch
B站学习视频up主的csdn博客1、什么是FasterR-CNN2、pytorch-gpu环境配置（跳过）3、FasterR-CNN整体结构介绍Faster-RCNN可以采用多种的主干特征提取网络，常用的有VGG，Resnet，Xception等等。Faster-RCNN对输入进来的图片尺寸没有固定，但一般会把输入进来的图片短边固定成600.4、Resnet50-主干特征提取网络介绍具体学习见：R
MMdetection3.0 报错data[‘category_id‘] = self.cat_ids[label] IndexError: list index out of range MZYYZT MMdetection python 深度学习 MMdetection3.0
MMdetection3.0问题报错data[‘category_id’]=self.cat_ids[label]IndexError:listindexoutofrange痛苦，希望各位大佬看到后可以指教一下：问题：在使用MMdetection3.0训练NWPU-VHR-10数据时，使用Yolov3模型可以正常训练测试，但是当使用Faster-rcnn模型训练的时候，一直如下图所示错误。1、按照
MMdetection3.0 问题 MZYYZT MMdetection python 目标检测 MMdetection3.0 python 深度学习目标检测
MMdetection3.0问题希望各位路过的大佬指教一下：问题：1、NWPU-VHR-10有标注的数据一共650张，我将其分为了455张训练集，195张验证集。2、然后使用MMdetection3.0框架中的Faster-rcnn网络进行训练，设置训练参数batch-size=2,num_worker=2。3、那么问题来了：为什么下图中的画圈的地方不是【**/228or227】，也就是datal
YOLO系列/20230903 lucharaar YOLO
深度学习经典检测方法1.two-stage（分两阶段）：Faster-Rcnn和Mask-Rcnn系列-------检测过程中加了预选框步骤速度通常较慢（5FPS），但是效果通常不错非常实用的通用框架Mask-Rcnn，需要了解2.one-stage（单阶段）：YOLO系列------当我们想做检测任务，一个cnn网络直接做一个回归任务就可以，中间不需要加额外的补充最核心的优势：速度非常快，适合做
目标检测｜实战总结 voice_an
1.实现ssd-keras实时目标检测算法，并制作十张图片的测试集。效果一般。ssd算法是继faster-rcnn与yolo之后的又一力作。来自UNC团队2016年发表在ECCV上。SSD最大的特点就是在较高的准确率下实现较好的检测准确度。并非为两种模型：SSD300（300*300输入图片），SSD500（512*512输入图片）。当然输入图片的尺寸越大，往往会得到更好的检测准确率，但同时也带来
第五章目标检测中K-means聚类生成Anchor box(工具) 小酒馆燃着灯目标检测深度学习工具目标检测 kmeans 聚类
基础理论在基于anchor的目标检测算法中，anchor一般都是通过人工设计的。例如，在SSD、Faster-RCNN中，设计了9个不同大小和宽高比的anchor。然而，通过人工设计的anchor存在一个弊端，就是并不能保证它们一定能很好的适合数据集，如果anchor的尺寸和目标的尺寸差异较大，则会影响模型的检测效果。在论文YOLOv2中提到了这个问题，作者建议使用K-means聚类来代替人工设计
YOLO系列详解（YOLO1-YOLO5）陈子迩深度学习学习笔记 python pandas 机器学习
目录前言二、YOLOv1举例说明：三、YOLOv2四、YOLOv3五、YOLOv4框架原理5.4.5余弦模拟退火5.5.2DIoU-NMS六YOLOv5七、YOLOv6前言一、前言YOLO系列是one-stage且是基于深度学习的回归方法，而R-CNN、Fast-RCNN、Faster-RCNN等是two-stage且是基于深度学习的分类方法。YOLO官网：GitHub-pjreddie/dark
pkl文件的简介（Python中的Pickle）北岛寒沫 Python python 开发语言
文章目录Pickle模块简介Pickle模块的使用最近从Github上下载了一个预训练好的Faster-RCNN模型用于科研任务，突然对该文件的格式，.pkl文件产生了一丝疑惑，便去特意了解了一下该格式的文件的含义，下面与大家共享。Pickle模块简介.pkl是Python中pickle模块的默认文件扩展名。pickle是Python中的一个模块，它允许您序列化和反序列化Python对象结构。“序
SSD安装及训练自己的数据集 zhang_shuai12 深度学习 ssd caffe
最近一直在搞objectdetection玩，之前用的是faster-rcnn，准确率方面73.2%，效果还不错，但是识别速度有点欠缺，我用的GPU是GTX980ti,识别速度大概是15fps.最近发现SSD(singleshotmultiboxdetector)这篇论文效果和速度都不错，我自己实验了一下，速度确实比faster-rcnn快不少。下面分两部分来介绍。第一部分介绍SSD的安装，第二部
在AI Studio中配置faster-rcnn pytorch环境 ForesterZz cuda
在AIStudio中配置faster-rcnnpytorch环境AIStudio自带cuda版本faster-rcnn的pytorch版本支持AIStudio自带cuda版本AIStudio目前有两个版本的cuda（cuda9.2和cuda10），不过我从没分配到过cuda10，大部分都是cuda9.2。使用以下语句查看cuda版本。cat/usr/local/cuda/version.txtfa
使用mmdetection训练模型--记faster-rcnn不同backbone性能比较 hedgehogbb 工作总结深度学习目标检测 pytorch
使用mmdetection训练模型一、安装采用的是直接安装，并未使用在conda中建虚拟环境。主要安装的有mmcv和mmdet，其中mmcv的安装与下载的mmdetction版本有关，参考https://mmdetection.readthedocs.io/zh_CN/v2.18.1/get_started.html#id官网安装依赖教程中的mmdetection版本和mmcv版本的对应关系安装。
基于Pytorch的从零开始的目标检测金戈鐡馬深度学习 pytorch 目标检测人工智能深度学习 python
引言目标检测是计算机视觉中一个非常流行的任务，在这个任务中，给定一个图像，你预测图像中物体的包围盒(通常是矩形的)，并且识别物体的类型。在这个图像中可能有多个对象，而且现在有各种先进的技术和框架来解决这个问题，例如Faster-RCNN和YOLOv3。本文讨论将讨论图像中只有一个感兴趣的对象的情况。这里的重点更多是关于如何读取图像及其边界框、调整大小和正确执行增强，而不是模型本身。目标是很好地掌握
YOLOv8/YOLOv7/YOLOv5/YOLOv4/Faster-rcnn系列算法改进【NO.78】引入2023年华为诺亚提出Gold-YOLO模型中Gatherand-Distribute 人工智能算法研究院 YOLO算法改进系列 YOLO 算法
前言作为当前先进的深度学习目标检测算法YOLOv8，已经集合了大量的trick，但是还是有提高和改进的空间，针对具体应用场景下的检测难点，可以不同的改进方法。此后的系列文章，将重点对YOLOv8的如何改进进行详细的介绍，目的是为了给那些搞科研的同学需要创新点或者搞工程项目的朋友需要达到更好的效果提供自己的微薄帮助和参考。由于出到YOLOv8，YOLOv7、YOLOv5算法2020年至今已经涌现出大
YOLOv8/YOLOv7/YOLOv5/YOLOv4/Faster-rcnn系列算法改进【NO.79】改进损失函数为VariFocal Loss 人工智能算法研究院 YOLO算法改进系列 YOLO 算法目标跟踪
前言作为当前先进的深度学习目标检测算法YOLOv8，已经集合了大量的trick，但是还是有提高和改进的空间，针对具体应用场景下的检测难点，可以不同的改进方法。此后的系列文章，将重点对YOLOv8的如何改进进行详细的介绍，目的是为了给那些搞科研的同学需要创新点或者搞工程项目的朋友需要达到更好的效果提供自己的微薄帮助和参考。由于出到YOLOv8，YOLOv7、YOLOv5算法2020年至今已经涌现出大
CV综述OCR任务---目录慕一Chambers 图像分类 CNN 深度学习机器学习
CV综述OCR任务---目录图像任务OCR任务图像分类目标检测图像分割图像增强视频任务正文：OCR学习OCR参考资料:参考博客:典型应用常见挑战比赛经典OCR方法单字符识别方法序列识别方法tessernet文字检测模型Part(thinkaboutCV中的目标检测)faster-RCNN/YOLO/SSDCTPN(2016):ConnectionistTextProposalNetworkEAST
第五章目标检测中K-means聚类生成Anchor box(工具) 小酒馆燃着灯机器学习工具深度学习目标检测 kmeans 聚类
第一种做法在基于anchor的目标检测算法中，anchor一般都是通过人工设计的。例如，在SSD、Faster-RCNN中，设计了9个不同大小和宽高比的anchor。然而，通过人工设计的anchor存在一个弊端，就是并不能保证它们一定能很好的适合数据集，如果anchor的尺寸和目标的尺寸差异较大，则会影响模型的检测效果。在论文YOLOv2中提到了这个问题，作者建议使用K-means聚类来代替人工设
YOLOv8/YOLOv7/YOLOv5/YOLOv4/Faster-rcnn系列算法改进【NO.77】引入百度最新提出RT-DETR模型中AIFI模块人工智能算法研究院 YOLO算法改进系列 YOLO 算法目标跟踪
前言作为当前先进的深度学习目标检测算法YOLOv8，已经集合了大量的trick，但是还是有提高和改进的空间，针对具体应用场景下的检测难点，可以不同的改进方法。此后的系列文章，将重点对YOLOv8的如何改进进行详细的介绍，目的是为了给那些搞科研的同学需要创新点或者搞工程项目的朋友需要达到更好的效果提供自己的微薄帮助和参考。由于出到YOLOv8，YOLOv7、YOLOv5算法2020年至今已经涌现出大
mmdetection安装与训练不减到100斤不吃锅包肉深度学习 pytorch 深度学习
一、什么是mmdetection商汤科技（2018COCO目标检测挑战赛冠军）和香港中文大学最近开源了一个基于Pytorch实现的深度学习目标检测工具箱mmdetection，支持Faster-RCNN，Mask-RCNN，Fast-RCNN等主流的目标检测框架，后续会加入Cascade-RCNN以及其他一系列目标检测框架。二、mmdetection安装本人安装环境：系统环境：Ubuntu20.0
安装yolo,mmlab，等工具时pycocotools报错 zRezin YOLO 深度学习人工智能计算机视觉
安装yolo的时候，因为是白板机，很多依赖都没有安装。安装yolo的依赖时候会报错。其实如果安装其他的视觉框架，例如yolov系列，mmlab，faster-rcnn等只要是用到了coco数据集的预置框架，都需要安装pycocotools。conda环境下依赖安装可能报错，可能是因为环境版本不匹配。需要手动安装报错语句如下ERROR:Couldnotbuildwheelsforpycocotool
Faster-RCNN and Mask-RCNN框架解析 nice-wyh pytorch目标检测深度学习机器学习
由于本人记忆力实在太差，每次学完一个框架没过多久就会忘，而且码文能力不行，人又懒，所以看到了其他人写的不错的两篇框架解析的博文，先来记录一下，就当是我写的喽Faster-rcnn详解_fasterr-cnn-CSDN博客MaskR-CNN详解_maskrcnn-CSDN博客
Pytorch实现Faster-RCNN *Major*
Pytorch实现Faster−RCNNPytorch实现Faster-RCNNPytorch实现Faster−RCNN基本结构![在这里插入图片描述](https://img-blog.csdnimg.cn/20200614150822116.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

Faster RCNN算法详解

Region Proposal Networks

Translation-Invariant Anchors

A Loss Function for Learning Region Proposals

Optimization

Sharing Convolutional Features for Region Proposal and Object Detection

Implementation Details

Experiments

作者文中讨论的各种策略和参数进行各个数据集的实验和对应的数据结果.

Conclusion

思想