baidu_huihui

目标检测中region proposal的作用？

ssd,yolo训练网络的时候为什么要用anchor box，图片不是有标ground truth box 吗？为什么不能直接用这个训练呢？

先更正下提问者的描述，yolo本身不含有anchor机制。

以下回答适合对目标检测中anchor的作用和机制比较了解的读者阅读。

首先我们明确一个定义，当前主流的Object Detection框架分为1 stage和2 stage，而2 stage多出来的这个stage就是Regional Proposal过程，明确这一点后，我们继续讲。

Regional Proposal的输出到底是什么？

我们首先看一下以Faster R-CNN为代表的2 stage目标检测方法

图1

可以看到，图中有两个Classification loss和两个Bounding-box regression loss，有什么区别呢？

1、Input Image经过CNN特征提取，首先来到Region Proposal网络。由Regio Proposal Network输出的Classification，这并不是判定物体在COCO数据集上对应的80类中哪一类，而是输出一个Binary的值p，可以理解为，人工设定一个threshold=0.5。

RPN网络做的事情就是，如果一个Region的，则认为这个Region中可能是80个类别中的某一类，具体是哪一类现在还不清楚。到此为止，Network只需要把这些可能含有物体的区域选取出来就可以了，这些被选取出来的Region又叫做ROI （Region of Interests），即感兴趣的区域。当然了，RPN同时也会在feature map上框定这些ROI感兴趣区域的大致位置，即输出Bounding-box。

----打个比方----

我上午第四节课饿得不行，我就想着中午要吃什么？附近好多西餐厅和中餐厅，餐厅里菜品有很多。但是我生活费不够了。。gg。。不太想吃（吃不起）西餐，所以无论西餐厅里有什么菜品，我都不会考虑；只有路过中餐厅时，我才会进去看看具体吃什么菜。

----------真是尴尬的栗子----------

So, RPN网络做的事情就是，把一张图片中，我不感兴趣的区域——花花草草、大马路、天空之类的区域忽视掉，只留下一些我可能感兴趣的区域——车辆、行人、水杯、闹钟等等，然后我之后只需要关注这些感兴趣的区域，进一步确定它到底是车辆、还是行人、还是水杯（分类问题）。。。。

你可能会看到另一对通俗易懂的词语，前景（车、人、杯）和背景（大马路、天空）。

图2.天空和草地都属于背景

图3.天空和马路也都是背景

啊好的，到此为止，RPN网络的工作就完成了，即我们现在得到的有：在输入RPN网络的feature map上，所有可能包含80类物体的Region区域的信息，其他Region（非常多）我们可以直接不考虑了（不用输入后续网络）。

接下来的工作就很简单了，假设输入RPN网络的feature map大小为，那么我们提取的ROI的尺寸一定小于 ，因为原始图像某一块的物体在feature map上也以同样的比例存在。我们只需要把这些Region从feature map上抠出来，由于每个Region的尺寸可能不一样，因为原始图像上物体大小不一样，所以我们需要将这些抠出来的Region想办法resize到相同的尺寸，这一步方法很多（Pooling或者Interpolation，一般采用Pooling，因为反向传播时求导方便）。

假设这些抠出来的ROI Region被我们resize到了或者，那我们接下来将这些Region输入普通的分类网络，即第一张Faster R-CNN的结构图中最上面的部分，即可得到整个网络最终的输出classification，这里的class（车、人、狗。。）才真正对应了COCO数据集80类中的具体类别。

同时，由于我们之前RPN确定的box\region坐标比较粗略，即大概框出了感兴趣的区域，所以这里我们再来一次精确的微调，根据每个box中的具体内容微微调整一下这个box的坐标，即输出第一张图中右上方的Bounding-box regression。

整个Faster R-CNN网络就到此结束了，下面总结一下，同时也回答你的问题：

Region Proposal有什么作用？

1、COCO数据集上总共只有80类物体，如果不进行Region Proposal，即网络最后的classification是对所有anchor框定的Region进行识别分类，会严重拖累网络的分类性能，难以收敛。原因在于，存在过多的不包含任何有用的类别（80类之外的，例如各种各样的天空、草地、水泥墙、玻璃反射等等）的Region输入分类网络，而这些无用的Region占了所有Region的很大比例。换句话说，这些Region数量庞大，却并不能为softmax分类器带来有用的性能提升（因为无论怎么预测，其类别都是背景，对于主体的80类没有贡献）。

2、大量无用的Region都需要单独进入分类网络，而分类网络由几层卷积层和最后一层全连接层组成，参数众多，十分耗费计算时间，Faster R-CNN本来就不能做到实时，这下更慢了。

最后有个小小的说明，针对不了解Anchor的同学们，我在文中始终在说对于感兴趣的区域“框定一个坐标”，这是为了便于理解，其实这样说是不准确的。

具体就是：我们整张图像上，所有的框，一开始就由Anchor和网络结构确定了，这些框都有各自初始的坐标（锚点）。所有后续的工作，RPN提取前景和背景，其实就是保留包含前景的框，丢掉包含背景的；包括后续的NMS，也都是丢掉多余的，并非重新新建一个框。

我们网络输出的两个Bounding-box regression，都是输出的坐标偏移量，也就是在初始锚点的基础上做的偏移修正和缩放，并非输出一个原图上的绝对坐标。

yolo有类似rpn的机制，那就是最后输出时的confidence值，这个值决定了前景和背景。

ssd是将anchor机制融合在了1 stage模型中，原理与本文所述基本一致。

图4.这张更能体现object detection的state-of-the-art

引用：

图1.https://arxiv.org/abs/1506.01497

图2、3、4均为在Google Image中找到原始图像，我自己做的Object Detection并标注。

◔"L_◔不懂为什么后天考试，现在我还有时间在这码字。。。

########虽然不是大V，但是也花了一点时间写，转载请注明出处！########

编辑于 2019-11-04

赞同 33017 条评论

收藏喜欢收起

Justin ho

图像算法工程师

42 人赞同了该回答

谢邀。这里以faster rcnn举例。在faster rcnn里面，anchor（或者说RPN网络）的作用是代替以往rcnn使用的selective search的方法寻找图片里面可能存在物体的区域。当一张图片输入resnet或者vgg，在最后一层的feature map上面，寻找可能出现物体的位置，这时候分别以这张feature map的每一个点为中心，在原图上画出9个尺寸不一anchor。然后计算anchor与GT（ground truth） box的iou（重叠率），满足一定iou条件的anchor，便认为是这个anchor包含了某个物体。

目标检测的思想是，首先在图片中寻找“可能存在物体的位置（regions）”，然后再判断“这个位置里面的物体是什么东西”，所以region proposal就参与了判断物体可能存在位置的过程。

region proposal是让模型学会去看哪里有物体，GT box就是给它进行参考，告诉它是不是看错了，该往哪些地方看才对。

建议详细阅读这个领域一系列的论文，从rcnn、sppnet、frcnn、faster rcnn到ssd、yolo，整条线看下来就能大概明白目标检测的“套路”。

编辑于 2018-01-10

赞同 4213 条评论

收藏喜欢

Alex婧

apt-get install perfect

2 人赞同了该回答

首先，说一下test阶段，给一张image，需要得到物体位置和置信概率。

因此需要在train阶段有个画框的model。

其次，回答提问者的问题，anchor box是用来产生一系列矩形框，然后和ground truth比较Iou>0.5是正例，<0.5是负例，用这些数据训练模型。

如果只用ground truth训练，数据毕竟很少，训练VGG16会严重过拟合。

编辑于 2019-04-08

赞同 2添加评论

收藏喜欢

尚德机构

不感兴趣知乎广告介绍

在北京，工作之余读个研究生吧，在职可读，还是名校硕士！

职场竞争这么激烈，学历和能力缺一不可！考个在职研究生，拓展人脉、提升自己，备考名校学历，工作学习两不误！点击了解详情查看详情

知乎用户

楼主弄明白了吗？我也有楼主的困惑，我的理解是K个anchor 是作为初值给RPN回归，输出K个proposals，不知道对不对，望指教

发布于 2019-01-14

赞同1 条评论

收藏喜欢

clks-wzz

CV & Deep learning

1 人赞同了该回答

答主说的方法理论上可行。

但是这是一个label规范化和人工先验的问题。

在我看来，anchor box一方面规范了输出和label。

另一个方面给了输出一个先验（即先给出几个物体可能的位置，同时用到了feature map空间位置的对应关系），方便网络学习收敛。

如果直接学ground truth，那么问题就来了：你怎么设置label？而且直接学不容易收敛啊~

编辑于 2018-01-10

赞同 1添加评论

收藏喜欢

卢毅

合格的听众

感觉可以从Data-mining角度理解，one-stage的方法直接从特征图每一点构造候选区特征预测，首先，太多的“垃圾”样本；其次，轮廓没有代表性；经过region proposal之后相当于精炼了一部分候选框，同事对于最终用于训练的候选框，也有回归模型按照是否有待测物体先一步计算了轮廓。对召回率和准确率有提升，但是two-stage的方法引入了额外的计算。

发布于 2018-01-11

赞同添加评论

收藏喜欢

ShengCiun Liang

反对任何形式的平权

或许我觉得题主的问题是网络的输出是什么？为什么要输出这个？

以我个人的理解，首先使用anchor box的含义就是我不知道这个点是否存在一个物体，其次是这个物体有多大，那么使用anchor box就很好理解了，通过iou计算这个点存在物体的概率，而不同大小的box就是存在不同大小box的物体的概率分别为多少，之后定义一个观点，即一个点只属于一个物体，于网络而言就是对于几个anchor的输出取最大值。

当然这样框到的物体非常粗糙，因为只有几个固定大小的框，于是就有了bbox regression，个人认为也正是bbox这个方法不佳，于是被segmentation取代了，也就是mask rcnn

发布于 2018-01-10

赞同添加评论

收藏喜欢

赵路加

网站销售

Anchor box，顾名思义锚点产生的框。注意，是”产生”，也就意味着自然存在的，不需要通过人为或者神经网络而得到。在faster rcnn中，也就是经过骨干网络输出的高阶特征或者说下采样特征，基于尺寸映射回原图的锚点所产生的框，是一组函数映射值。锚点框的存在，主要意义在于通过与gt框计算iou得到rpn网络的标签，然后经过rpn修正得到faster rcnn的roi区域。不过，从另一方面来说，anchor box也可以说是rpn的输入，你可以把rpn理解成一个AE网络，anchor box就是先验知识，你需要rpn根据anchor box，产生更与gt相匹配的box。

发布于 2020-03-13

赞同添加评论

收藏喜欢

万能布偶先生

前阿里达摩院程序员，现卖酒up主，tb搜“猫脱酒馆”

感觉本质就是神经网络对回归搞不定呀搞不定～～～和人去处理也是类似的，你看个局部信息也只能对大小有一定概念，但是没有准确的位置，然后你要依赖这个对物体检测做分割，当然会有问题。所以现在用region proposal来做个预测再refine。靠谱的当然是先出检测再出分割，只是大术未出

目标检测基础-RCNN系列模型 Hzt_dreamer 深度学习机器学习计算机视觉图像处理目标检测
开头先感谢可爱的小姐姐的细心讲解，视频网址如下：目标检测基础——RCNN系列模型（理论和代码复现）_哔哩哔哩_bilibili目录RCNN过程非极大值抑制（NMS）Bounding-boxregressionRCNN对语义分割的尝试：语义分割的简史：SPPnet简介Fast-RCNNFast-RCNN训练过程Fast-RCNN的优缺点：Faster-RCNNFasterRCNN网络结构RPN部分A
深度学习之目标检测Fast-RCNN模型算法流程详解说明（超详细理论篇） Studying 开龙wu 图像分类目标检测语义分割理论深度学习目标检测算法
1.Fast-RCNN论文背景2.Fast-RCNN算法流程3.FastR-CNN问题和缺点这篇以对比RCNN来说明，如果你对RCNN网络没太熟悉，可访问这链接，快速了解，点下面链接深度学习之目标检测R-CNN模型算法流程详解说明（超详细理论篇）一、Fast-RCNN论文背景论文地址https://arxiv.org/abs/1504.08083 FastR-CNN是一篇由RossGirshic
Faster R-CNN 笔记 yanghedada
概述：一些基本概念（IOU，NMS）等请看这里。摘要：算法主要解决两个问题：1、提出区域建议网络RPN，快速生成候选区域；2、通过交替训练，使RPN和Fast-RCNN网络共享参数。RPN是FasterR-CNN提出来的，是为了进行最后的box预测的预先粗选框架。在虚线之上是基础网络类似VGG16，ZF网络。这里的target是背景。首先是3x3的卷积（图中有256个输出），然后通过1x1卷积输出
目标检测——Fast R-CNN算法解读 lishanlu136 目标检测目标检测 R-CNN 人工智能算法
论文：FastR-CNN作者：RossGirshick链接：https://arxiv.org/abs/1504.08083代码：https://github.com/rbgirshick/fast-rcnn目录1、算法概述2、FastR-CNN细节2.1TheRoIpoolinglayer2.2Fine-tuningfordetection2.3FastR-CNNdetection3、实验结果4
YOLO系列详解（YOLO1-YOLO5）陈子迩深度学习学习笔记 python pandas 机器学习
目录前言二、YOLOv1举例说明：三、YOLOv2四、YOLOv3五、YOLOv4框架原理5.4.5余弦模拟退火5.5.2DIoU-NMS六YOLOv5七、YOLOv6前言一、前言YOLO系列是one-stage且是基于深度学习的回归方法，而R-CNN、Fast-RCNN、Faster-RCNN等是two-stage且是基于深度学习的分类方法。YOLO官网：GitHub-pjreddie/dark
mmdetection安装与训练不减到100斤不吃锅包肉深度学习 pytorch 深度学习
一、什么是mmdetection商汤科技（2018COCO目标检测挑战赛冠军）和香港中文大学最近开源了一个基于Pytorch实现的深度学习目标检测工具箱mmdetection，支持Faster-RCNN，Mask-RCNN，Fast-RCNN等主流的目标检测框架，后续会加入Cascade-RCNN以及其他一系列目标检测框架。二、mmdetection安装本人安装环境：系统环境：Ubuntu20.0
人工智能学习之路－目标检测(r-cnn) taylor_tiger
目标检测分两大技术体系two-stage和one-stage.我们首先从two-stage说起two-stage代表主要是：R－CNN，Fast－RCNN，Faster-Rcnn这一章节，我们先从这三个说起r-cnn属于卷积神经网络在目标检测的初探，他是首次将cnn网络运用在目标检测方面我们首先介绍使用过程，然而说明其中的注意事项首先原始图像通过selectedsearch(ss)获得预选框（re
YOLO V1学习笔记朽月初二 YOLO 目标检测笔记学习
为什么要学YOLOV1_哔哩哔哩_bilibili这个视频讲解的很好，建议在看这个之前看看卷积神经网络，会对卷积后的结果理解更加深刻一点。一背景目标检测分为单阶段和两阶段模型。之前的目标检测DPM、R-CNN、Fast-RCNN、Faster-RCNN都是双阶段模型，也就是说需要先提取候选框，然后对各个候选框进行分类、甄别。双阶段模型没有全图信息，容易丢失很多信息。识别精度高，但是识别速度始终是技
计算机视觉面试之物体检测梦无音
一、RCNNRCNN去掉窗口扫描，用聚类方式，对图像进行分割分组，得到多个候选框的层次组。1.原始图片通过SelectiveSearch提取候选框，约2k个。2.候选框缩放成固定大小。3.经过CNN提取特征。4.利用SVM进行特征向量分类。二、Fast-RCNNRCNN中有CNN重复计算，Fast-RCNN则去掉重复计算，并微调候选框位置。1.整幅图经过CNN，得到特征图。2.提取候选框（Sele
Fast-Rcnn和YOLO的区别及mAP值的计算爱吃小巴掌 YOLO 目标检测深度学习计算机视觉 YOLO
Fast-Rcnn和YOLO的区别及mAP值的计算算法分类：YOLO所属类别为one-stage，Fast-Rcnn所属类别为two-stagetwostage：先进行区域生成，该区域称为regionproposal（RP，一个有可能包含物体的预选框）；再通过卷积神经网络进行样本分类，精度高，适合做高检测精度的任务任务流程：特征提取—生成RP—分类/定位回归常见twostage：R-CNN、SPP
R-CNN、Fast-RCNN、Faster-RCNN思想总结罗泽坤
本文对运用深度学习卷积神经网络来进行目标检测(objectdetection)的tow-stage两阶段法的思想用自己的理解做一个总结，本人新手一个理解可能有错误或者不完备。在运用卷积神经网络处理目标检测之前还有很多的传统算法这里不做介绍。一、传统的滑窗算法VGG16所谓目标检测就是要在图片中用一个框框出物体并且进行分类。而用深度学习去解决这样的问题还得从滑窗算法说起。滑窗算法就是用一个特定尺寸大
人工智能－Faster-RCNN taylor_tiger
Faster-rcnn继承了Fast-rcnn所有优点，并提出利用RPN的方式替换SS获得预选框他继承了前者的损失函数将分类和边框回归合二为一的定义，最终实现了从端到端的神经网络的学习。这是两步法最为成熟有效的方式之一。其基本内容如下：1）图像首先经过一个经典的深度神经网络13(conv+relu)+4pooling最终生成特征图2）生成的特征图首先通过3*3的矩阵后，而后分别对anchor进行二
详解yolov1理论 & 代码 computer_vision_chen 目标检测 YOLO 深度学习人工智能
目标检测要解决的3大问题：1、有没有？图片中是否有要检测的物体？（检测物体，判定前景背景）2、是什么？这些物体分别是什么？（检测到的物体是什么）3、在哪里？这些物体在哪里？（画框，描边，变色都行）yolov1模型图预测结果当物体中心落到某个网格中，该网格就负责预测这个物体。每个网络会生成两个预测框，所以yolov1共有7x7x2=98个预测框，相对于fast-rcnn成百上千个预测框，yolov1
目标检测网络之Fast-RCNN 新兴AI民工图像深度网络经典论文详解 fast rcnn proposal spp rcnn
文章目录FastRCNN解决的问题FastRCNN网络结构RoIpoolinglayer合并损失函数及其传播统一的损失函数损失函数的反向传播过程FastRCNN的训练方法样本选择方法SGD参数设置多尺度图像训练SVD压缩全连接层对比实验对比实验使用到的网络结构VOC2010和VOC2012数据集结果VOC2007数据集结果训练和推理时间比对哪些层需要进行微调fine-tuning设计评估多任务训练
SPPNet网络模型 bingJiaJia 深度学习 SPPNet 目标检测
上篇文章详细阐述了R-CNN网络模型，本篇本章本来准备阐述Fast-RCNN模型的，介于SPP-Net模型有许多技巧性的技术可以在不同模型上使用，所以本篇详细分析下SPP-NetSPPNet论文：https://arxiv.org/abs/1406.4729SPPNet论文翻译:https://blog.csdn.net/mengduanhonglou/article/details/784706
详解L1、L2、smooth L1三类损失函数千音qy 深度学习深度学习机器学习自动驾驶
前言深度学习里面有很多的损失函数，对于MSE、MAE损失函数可能已经耳熟能详了了，对于L1、L2正则化也很熟悉，那你知道什么是L1_loss和L2_loss吗，以及在目标检测的系列论文比如fast-RCNN、faster-RCNN中经常出现的smoothL1损失又是什么呢？一、常见的MSE、MAE损失函数1.1均方误差、平方损失均方误差（MSE）是回归损失函数中最常用的误差，它是预测值与目标值之间
opencv如何调用YOLOv5（无pytorch）陈子迩 opencv实战工业缺陷检测学习与实战 opencv YOLO pytorch c++深度学习
目录一、前言二.正文2.1定义颜色2.2目标检测主代码详解2.3读取视频or图片进行检测注意：opencv-python本文使用的版本为4.5.2.52一、前言YOLO系列是one-stage且是基于深度学习的回归方法，而R-CNN、Fast-RCNN、Faster-RCNN等是two-stage且是基于深度学习的分类方法。YOLOv5是一种单阶段目标检测算法，该算法在YOLOv4的基础上添加了一
从零开始学习YOLOv5 保姆级教程陈子迩工业缺陷检测学习与实战深度学习学习笔记学习 YOLO 深度学习算法视觉检测
一、前言YOLO系列是one-stage且是基于深度学习的回归方法，而R-CNN、Fast-RCNN、Faster-RCNN等是two-stage且是基于深度学习的分类方法。YOLOv5是一种单阶段目标检测算法，该算法在YOLOv4的基础上添加了一些新的改进思路，使其速度与精度都得到了极大的性能提升Input:输入部分是YOLOv5的起点，接收输入图像并将其进行预处理，将图像大小调整为模型所需的输
FAST-RCNN论文解读 enginelong 论文学习计算机视觉
关于R-CNN请见enginelong的博客文章目录SPPnet与R-CNNR-CNN缺点SPPnet改进SPPnet缺点FAST-RCNNFAST-RCNN模型架构ROI池化层FAST-RCNN训练过程预训练模型初始化FAST-RCNN主干网微调网络FAST-RCNN几个细节多任务损失函数Mini-batch采样RoI池化层的反向传播SGD超参数尺度不变性FAST-RCNN检测使用SVD加速全连
SSD检测几个小细节影醉阏轩窗
之前感觉SSD很简单，这两天从头到尾把论文和源码都看了一下，发现之前很多细节都没掌握。这篇文章只说一些之前遗漏的点，读者阅读有一定基础[TOC]一.抛砖引玉的Faster-RCNN1.1候选框的作用之前看Fast-RCNN代码对SelectiveSearch的操作一直有很大的疑惑？图1-1image为什么一张图会分割成这样大大小小的区域？分割后有啥意义呢？第一个问题很简单，使用了贪心算法和图论方面
【目标检测系列】YOLOV1解读怀逸% 目标检测 YOLO 人工智能
前言从R-CNN到Fast-RCNN，之前的目标检测工作都是分成两阶段，先提供位置信息在进行目标分类，精度很高但无法满足实时检测的要求。而YoLo将目标检测看作回归问题，输入为一张图片，输出为S*S*(5*B+C)的三维向量。该向量结果既包含位置信息，又包含类别信息。可通过损失函数，将目标检测与分类同时进行，能够满足实时性要求。接下来给出YOLOV1的网络结构图核心思想YOLO将目标检测问题作为回
检测论文综述（一） : 从RCNN到Mask-RCNN Junr_0926
对于目标检测方向并不是特别熟悉，本文记录一下RCNN,fast-RCNN,faster-RCNN,mask-RCNN这4篇有关目标检测的论文笔记和学习心得。RCNN-RichfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentationR-CNN的意思就是Regionbased，主要思路就是根据一张图像，提取多个region，
Fast R-CNN 魏云舒
2015年4月提交论文链接：https://arxiv.org/pdf/1504.08083.pdf论文翻译：FastR-CNN论文翻译(比较完整的论文翻译)开源代码：https://github.com/rbgirshick/fast-rcnn
maskrcnn用于目标检测_基于CNN目标检测方法（RCNN，Fast-RCNN，Faster-RCNN，Mask-RCNN，YOLO，SSD）行人检测... Belleve maskrcnn用于目标检测
原标题：基于CNN目标检测方法(RCNN，Fast-RCNN，Faster-RCNN，Mask-RCNN，YOLO，SSD)行人检测原创作者在AI图谱平台上每成功发布一篇文章，通过审核后可奖励人民币30-50元不等，欢迎参与！一、研究意义卷积神经网络(CNN)由于其强大的特征提取能力，近年来被广泛用于计算机视觉领域。1998年YannLeCun等提出的LeNet-5网络结构，该结构使得卷积神经网络
【转】基于CNN目标检测方法（RCNN，Fast-RCNN，Faster-RCNN，Mask-RCNN，YOLO，SSD）行人检测，目标追踪，卷积神经网络... weixin_30861797 人工智能数据结构与算法
原文链接：https://blog.csdn.net/qq_32998593/article/details/80558449一、研究意义卷积神经网络（CNN）由于其强大的特征提取能力，近年来被广泛用于计算机视觉领域。1998年YannLeCun等提出的LeNet-5网络结构，该结构使得卷积神经网络可以端到端的训练，并应用于文档识别。LeNet-5结构是CNN最经典的网络结构，而后发展的卷积神经网
从0开始的CNN学习之路(一) beluga(阿通努力版) CNN-CV cnn 机器学习深度学习目标检测人工智能
目录前言一、传统机器视觉二、RCNN整体流程三、selectivesearch四、NMS(非极大值抑制)总结前言本系列文章主要内容从RCNN开始引入,重点介绍RCNN其中的思想,主要包括regionproposals,NMS,以及soft-NMS,后续文章会逐渐涉及到Fast-RCNN,Faster-RCNN以及yolo系列等经典目标检测算法一、传统机器视觉传统机器视觉中,都是通过复杂的数学方法来
mmdetection从配置到训练小小小~ yolo 深度学习目标检测 pytorch
一、什么是mmdetection商汤科技（2018COCO目标检测挑战赛冠军）和香港中文大学最近开源了一个基于Pytorch实现的深度学习目标检测工具箱mmdetection，支持Faster-RCNN，Mask-RCNN，Fast-RCNN等主流的目标检测框架，后续会加入Cascade-RCNN以及其他一系列目标检测框架。二、mmdetection安装本人安装环境：系统环境：Ubuntu20.0
【目标检测】Fast RCNN基本思想和网络结构以及论文补充 Jul7_LYY 目标检测深度学习计算机视觉
文章目录fast-RCNN一、fast-RCNN简介二、fast-RCNN算法的3个步骤1.概念：训练数据的采样（正负样本）2.分类器3.边界框回归器4.多任务损失函数三、论文解析补充1.R-CNN的缺点2.FastR-CNN方法的几个优点3.FastR-CNN引入Rol层4.尺度不变性5.最长时间的花费地方6.SVD压缩参数7.重要结论fast-RCNN一、fast-RCNN简介FastR-CN
一文读懂目标检测中的各种IoU损失函数 DeepDriving 自动驾驶与深度学习目标检测计算机视觉深度学习
一文读懂目标检测中的各种IoU损失函数本文首发于微信公众号【DeepDriving】，欢迎关注。导读随着深度学习技术的发展，在视觉目标检测领域出现了越来越多优秀的算法模型，比较典型的有以Fast-RCNN系列为代表的二阶段目标检测算法和以YOLO系列为代表的一阶段目标检测算法。通常，一个目标检测任务需要完成两个子任务：目标定位和目标分类。目标定位是要在图像中确定目标的位置，输出其在图像中的坐标信息
图像分割与目标检测与区别必修居士 #机器人视觉 python 计算机视觉 opencv 深度学习图像分割
检测与分割的区别：https://www.leiphone.com/category/yanxishe/Fah5xOL3Qb96k1NL.html1.目标检测：预测包围盒YOLO，Fast-RCNN，似乎还有个SSD输入：一个矩阵(输入图像)，每个像素有3个值(红、绿、蓝)，如果是黑色和白色，则每个像素有1个值输出：由左上角和大小定义的边框列表2.图像分割：预测掩模记得最早是FCN？MaskRCN
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep

目标检测中region proposal的作用？

目标检测中region proposal的作用？

如果只用ground truth训练，数据毕竟很少，训练VGG16会严重过拟合。

在北京，工作之余读个研究生吧，在职可读，还是名校硕士！

你可能感兴趣的:(fast-rcnn)