AiChinaTech

RCNN极其细致初学者阅读笔记

版权声明：本文由 Kathy 投稿

1、 Introduction

1.1 R-CNN and SPPnet

R-CNN的弊端：

多阶段（3）的训练过程

训练的时间和空间开销大

速度过慢

R-CNN的问题症结在于其不能共享计算，而SPPnet改进了这个问题，通过对整张图卷积得到特征图，从这张特征图上进行region proposal而能够共享卷积的计算结果，加速了 R-CNN；后通过空间金字塔池化实现了任意尺度图像的输入。

SPPnet的问题在于：训练仍是多阶段的；特征提取后仍需存放到磁盘造成大的开销；不像R-CNN，其微调算法不能更新金字塔池化之前的卷积层，从而限制了网络的深度。

1.2 contribution

提出Fast R-CNN，其优点为：

更高的检测精度mAP

训练时单阶段的

训练过程可以更新所有层网络参数

无需为特征图缓存消耗内存

2、 Fast R-CNN architecture and training

网络结构为：

输入整张图片，通过卷积池化提取特征图

在特征图上提取RoI (region of interest)，相当于region proposal 阶段。

RoI Pooling输出固定尺寸的RoI特征图（尺度降为1的简易版SPP）

FCs映射得到固定维度的特征向量

对特征向量分别进行分类（获得K+1维结果，类别+背景）和回归（获得K4维结果，每类的box定位）

注意这个观点：为什么说Fast R-CNN的训练将多阶段压缩为单阶段？之前的R-CNN是先region proposal，在SVM分类，再回归box三部分，这里第一阶段不变，但是训练部分的后两个阶段被合并了。理解：R-CNN训练了SVM和FC分别用于分类和回归，而Fast R-CNN只训练了一个网络，既能分类也能回归，两者相互促进。虽然看上去网络的最后分类和回归分流并列了，但是两者的学习是共同反馈，指导网络参数的调整的，优化的是一个网络，所以时间和内存开销都小了。（Faster R-CNN甚至把非训练的 region proposal也放到网络上去了，三位一体）

2.1 The RoI pooling layer

RoI pooling就是level=1的SPP，在每个bin内作最大值池化。略有不同的是，SPP计算了pooling的步长，池化利用了图像每个像素；而RoI pooling则计算bin的尺寸后，直接在bin内取最大值池化，相当于stride=size(bin)，这样势必会舍掉很多边缘像素（于是有了Rolalign）

一个认识：有没有量化误差、够不够精确，看的不单是简单的像素级丢失，而是输出对于输入的响应。比如RoIpooling和RoIAlign相比，将输入进行像素或者尺寸的变化，后者的变化很及时和明显，而前者就显得迟钝和不灵敏（因为像素丢失和maxpooling，相比之下卷积计算就比maxpooling好一些）。再比如SPP用到了每个像素，会比RoIpooling灵敏，但是如果特征图尺寸20.520.5，显然也不如RoIAlign。

2.2 Initializing from pre-trained networks

从预训练模型的基础上开始实验，需要做三个改动：

最后一个池化层（后面就是FC了）替换为RoI pooling层，尺寸设置根据后面FC的匹配来确定

将最后一个FC层替换为两个并行的子层，分别用于分类和回归

网络设置两个输入：图片及其RoI。（注意，在Fast R-CNN，region proposal还不属于网络，它是SS算法预处理的结果）

2.3 Fine-tuning for detection

通过反向传播可以更新网络的所有权重参数，这一点是SPPnet做不到的（没看懂为什么）；提出有效利用共享参数训练，也无非是借鉴SPP，先提取特征图，再提取RoI，每张图的卷积特征是一样的，所以这些RoI共享计算；三阶段的合并单模型学习。

Multi-task loss

由于将分类和回归任务统一训练，损失函数必然是多任务的，具体形式如下：

先看损失函数的输入，p是RoI特征向量的分类结果，由softmax输出得到的 K+1维的类概率向量，通过下标索引p0,...pk；u，v分别是RoI的ground truth label的类别和坐标； tu是真实类别u的实际回归（预测）结果；(坐标归一化过)

右边分为两个函数：第一个是类别损失，

，表征真实类别概率的负对数损失；第二项是定位损失，其中[u>=1]函数值在u>=1时取1，否则为0，背景类的u索引为0,第0类，这样做可以在输入RoI为背景时不计算定位损失（本来就没有物体），对于回归的定位损失函数：

输入是真实坐标v和预测的坐标tu，可以看出只计算正确类的定位损失，这样一来将分类和定位的误差严格区分开了。送过来的RoI不止一个，所以用i表示，计算方式是平滑的鲁棒L1损失：-

该损失对异常值相比L2损失（均方差）更加不敏感，当回归目标无界限限制时，L2训练需要精细地调整学习率防止梯度爆炸，而此处采用的方法则不那么敏感。（对比：YOLO采用的就是L2，因为他的回归是有界的，不会超出一个grid cell范围）

还有一个参数lambda，用于调整分类和回归损失的比重。

针对这个分离分类和回归的损失函数，作者还补充了一个CVPR的论文，其使用的是相关损失训练，而且还是双网络进行分类和回归，这个思想和这里的不一样，Fast R-CNN只是loss分离了分类和回归，但是指导的是同一个网络。

Mini-batch sampling

采用的batch为128，在R-CNN中有1:3的正负样本构成，这里类似，128来自两张图，每张提取64个RoI。其中正样本占25%，从iou大于0.5的RoI中采样，这些RoI中包含物体，标记为u>1，会参与计算定位误差；剩下75%RoI从iou在[0.1,0.5)之间的负样本采样，仍是1:3（正样本比例保持较小，适应实际情况，降低假阳性误检），它们标记u=0不参与定位损失计算。iou小于0.1的可以考虑进行难分样本挖掘。除了0.5的概率进行水平翻转外，未采取其他的数据增强。

Back-propogation through RoI pooling layers

关于RoI Max pooling的反向求导没看太明白，这里有讲，用得到的时候看一下：https://blog.csdn.net/yzf0011/article/details/76758337

SGD hyper-parameters

2.4 Scale invariance

提供了两种尺度不变性学习方法：

强制学习。训练和检测阶段，将图片变换到固定尺寸，ground truth在同一标准（size）下有了多尺度的特点，直接从图像中学习物体的尺度变化特性。

图像金字塔。通过下采样或差值的方法，改变原图的尺寸，为网络提供变化尺度的输入。这在数据量不大的小样本情况下也是一种数据增强方式。

3、4 Fast R-CNN detection & Main result

3.1 Truncated SVD for faster detection(截断SVD)

这里描述的是，在检测任务中由于大量的RoI提出，导致FC层的计算非常大（大于卷积层的运算）几乎占到forward的一半，因此作者借鉴了其他论文采用截断SVD进行模型的压缩和加速，取代了连接权W，减少了参数。（数学性比较强，暂时不分析）

后面就作者展示的效果来看还是很喜人的，mAP掉了0.3%,但提速了30%左右，大大加速了fc层。（在有FC层的网络中可以借鉴截断SVD）

fine-tune的位置：fine-tine当然有效果，但是并非所有层都应该进行学习。作者经过实验发现，conv1学习与否对网络的精度提升并无影响，因此需要选择合适的fie-tune层。

5、Design evaluation

5.1 Does multi-task training help?

实验和数据说话：

SML是三个不同深度的基础模型，第1,2列，3,4列分别作对比。第一列的loss只有分类损失，第二列是多任务损失，但是不输出bbox，进行分类实验对比，发现加了回归定位损失指导的模型对分类任务完成更好；第三列是拆分loss分阶段训练，第四列是多任务损失联合训练，进行回归对比实验，发现联合loss的效果比分阶段的效果好。

结论：分类和回归的损失同时用于训练，共同指导参数优化时，可以起到相互补充、改善模型精度的效果；多任务共同训练的效果，要比单任务分阶段训练的效果好。

5.2 Scale invariance : to brute force or finesse?

关于选择单尺度还是多尺度训练，先给出结论：多尺度训练的效果当然比单尺度好，但是越是对于深层网络而言，单尺度训练反而可以获得更好的时间和速度的折衷。

实验数据如下：

左边的SPPnet是一个类似于S模型的小模型。纵向对比可以看出，多尺度训练的效果总是强于单尺度的；横向对比计算耗时依次为：2.7倍、3.9倍、4.6倍，而精度提升为：1.2倍、1.3倍、1.5倍，相比于时间的增长，作者认为深度网络的单尺度训练折中比较好（这里的数据看不出来吧....），解释是：深度网络更加擅长学习尺度的不变性，喂给单尺度输入就能学习较好了，多尺度的锦上添花相比其速度变慢来说退居次位。

5.3 Do we need more training data?

5.4 Do SVMs outperform softmax?

数据就不用贴了，肯定是比svm好。作者认为原因是，softmax由其表达式知输出和为1，因此每个标量（RoI打分）之间引入竞争机制， winner-take-all，进一步拉大了准确回归和较差回归的差距，使得结果更好。

5.5 Are more proposal always better?

更多的region未必有效，mAP反而下降。

你可能感兴趣的:(AiChinaTech)

java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$