RanceGru

神经网络学习笔记7——目标检测，语义分割和实例分割中的FCN

系列文章目录

RCNN系列参考视频
FCN参考视频

文章目录

系列文章目录
目标检测（Object Detection）
语义分割（Semantic segmentation）
实例分割（Instance division）
RCNN系列算法前言
- 一、开山之作：RCNN
- - 1、候选区域生成
  - 2、 CNN特征提取
  - 3、 SVM分类器
  - 4、位置精修
  - 5、总体
- 二、端到端：Fast RCNN
- - 1、候选区域与特征提取
  - 2、RoI全连接、分类器与边界框回归器
  - 3、总体
- 三、走向实时：Faster RCNN
- - 1、RPN与anchor
  - 2、RPN 与 Fast_RCNN的loss损失
  - 3、总体
FCN前言
- 一、FCN整体结构
- 二、FCN细分结构
- - 1、FCN-32s
  - 2、FCN-16s
  - 3、FCN-8s
Mask R-CNN

目标检测（Object Detection）

计算机视觉中关于图像识别有四大类任务：

（1）分类-Classification：解决“是什么？”的问题，即给定一张图片或一段视频判断里面包含什么类别的目标。

（2）定位-Location：解决“在哪里？”的问题，即定位出这个目标的的位置。

（3）检测-Detection：解决“在哪里？是什么？”的问题，即定位出这个目标的位置并且知道目标物是什么。

（4）分割-Segmentation：分为实例的分割（Instance-level）和场景分割（Scene-level），解决“每一个像素属于哪个目标物或场景”的问题。

什么是目标检测
目标检测的任务是找出图像中所有感兴趣的目标（物体），确定它们的类别和位置，是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态，加上成像时光照、遮挡等因素的干扰，目标检测一直是计算机视觉领域最具有挑战性的问题。目标检测分为两大系列——RCNN系列和YOLO系列，RCNN系列是基于区域检测的代表性算法，YOLO是基于区域提取的代表性算法
目标检测的核心问题
（1）分类问题：即图片（或某个区域）中的图像属于哪个类别。
（2）定位问题：目标可能出现在图像的任何位置。
（3）大小问题：目标有各种不同的大小。
（4）形状问题：目标可能有各种不同的形状。
目标检测算法分类
基于深度学习的目标检测算法主要分为两类：Two stage和One stage。

1）Tow Stage
先进行区域生成，该区域称之为region proposal（简称RP，一个有可能包含待检物体的预选框），再通过卷积神经网络进行样本分类。
任务流程：特征提取 --> 生成RP --> 分类/定位回归。
常见tow stage目标检测算法的代表就是RCNN系列算法。

2）One Stage
不用RP，直接在网络中提取特征来预测物体分类和位置。
任务流程：特征提取–> 分类/定位回归。
常见的one stage目标检测算法的代表就是YOLO系列算法。

语义分割（Semantic segmentation）

通俗且具体到实际图像上来说，语义分割其实就是对于细化版的分类，就是对于一张图像上说，传统的图像分类是把图像中出现的物体进行检测并识别是属于什么类别的，也就是对于一整张图片进行分类。那么现在就有人想对于图中每一个像素点都进行分类。与分类不同的是，深度网络的最终结果是唯一重要的，语义分割不仅需要在像素级别上进行区分，而且还需要一种机制将编码器不同阶段学习到的区分特征投影到像素空间上。

当我们把一张图上某一个像素点都进行分类后，每一个像素点都会有被赋予一个类别。当每一个像素都被标记上不同的类别之后，将每一个对应不同类别的像素点赋予新的颜色之后再次重新组合成一张图片。这个时候对于这张图片来说，从像素级别上就把所有所有进行了区分，赋予颜色重新再次连起来之后在图像上就表现出图中的某个物体从这整张图片上分割了下来且具备这物体的所有的语义信息。可以说图像分割就是图像分类的细推理，从粗推理到细推理的过程。

语义分割只能划分类别，而同类无法划分，因此在语义分割之后还需要用实例分割来划分同类别的不同实例。

实例分割（Instance division）

实例分割同时利用目标检测和语义分割的结果，通过目标检测提供的目标最高置信度类别的索引，将语义分割中目标对应的Mask抽取出来。实例分割顾名思义，就是把一个类别里具体的一个个对象（具体的一个个例子）分割出来。举例来说，如果一张照片中有多个人，对于语义分割来说，只要将所由人的像素都归为一类，但是实例分割还要将不同人的像素归为不同的类。也就是说实例分割比语义分割更进一步。

RCNN系列算法前言

工程应用中，检测算法以one-stage算法yolo系列等为主，因为one-stage通常来说速度快，可以完成良好的实时检测，而two-stage算法代表RCNN系列略有不及，但一些深度学习框架如百度PaddlePaddle开源了用于目标检测的RCNN模型，从而可以快速构建满足各种场景的应用，包括但不仅限于安防监控、医学图像识别、交通车辆检测、信号灯识别、食品检测等等。

作为经典的目标检测框架Faster R-CNN，虽然是2015年的论文，但是它至今仍然是许多目标检测算法的基础，这在飞速发展的深度学习领域十分难得。而在Faster R-CNN的基础上改进的Mask R-CNN在2018年被提出，并斩获了ICCV2017年的最佳论文。Mask R-CNN可以应用到人体姿势识别，并且在实例分割、目标检测、人体关键点检测三个任务都取得了很好的效果。

Mask R-CNN是承继于Faster R-CNN，Mask R-CNN只是在Faster R-CNN上面增加了一个Mask Prediction Branch（Mask预测分支），并且在ROI Pooling的基础之上提出了ROI Align。所以要想理解Mask R-CNN，就要先熟悉Faster R-CNN。同样的，Faster R-CNN是承继于Fast R-CNN，而Fast R-CNN又承继于R-CNN，因此，为了能让大家更好的理解基于CNN的目标检测方法，我们从R-CNN开始切入，一直简单介绍到Mask R-CNN。

一、开山之作：RCNN

RCNN算法由Ross Girshick等人发表在CVPR 2014，将卷积神经网络应用于特征提取，并借助于CNN良好的特征提取性能，一举将PASCAL VOC数据集的检测率从35.1%提升到了53.7%。
RCNN仍然延续传统物体检测思想，将物体检测当做分类任务处理，即先提取一系列的候选区域，然后对候选区域进行分类，具体过程主要包含四步：

1、候选区域生成

采用Region Proposal提取候选区域，例如SS(Selective Search)算法，先将图像分割成小矩形区域，然后合并包含同一物体可能性最高的区域并输出，在这一步提取约2000个候选区域。在提取完需要将每一个区域进行归一化处理，把候选区域缩放到227×227，得到固定大小的图像。

SS算法首先通过简单的区域划分算法，将图片划分成很多小区域，再通过相似度和区域大小（小的区域先聚合，这样是防止大的区域不断的聚合小区域，导致层次关系不完全）不断的聚合相邻小区域，类似于聚类的思路。这样就能解决object层次问题。

2、 CNN特征提取

将上述固定大小的图像，利用CNN深度网络得到固定维度的特征输出。比如输入Alexnet CNN网络，在Alexnet中并没有直接执行全连接层直接分类，而是截停在展平处理，获得一个2000×4096特征矩阵

3、 SVM分类器

使用线性二分类器SVM对输出的特征进行分类，得到是否属于此类的结果，并采用难样本挖掘来平衡正负样本的不平衡。以PASCAL VOC数据集为例，该数据集中有20个类别，因此设置20个SVM分类器。将2000×4096的特征与20个SVM组成的权值矩阵4096×20相乘，获得2000×20维矩阵，表示2000个候选区域分别属于20个分类的概率，因此矩阵的每一行之和为1。
意思是一共有2000个候选框，每个候选框都存在4096维特征，而每一个候选框的每一维都需要执行20个SVM二分类判断，这里的20个SVM代表的是20个类别。那么2000×4096维矩阵中每一行代表其中一个候选框，4096×20维矩阵中每一列代表其中一种类别分类器，第一行与每一列相乘得到的是第一个候选框20类中属于每一类的概率得到的就是2000×20维矩阵中第一行，以此类推得到2000个候选框在20类中属于每一类的概率。

分别对2000×20维矩阵中每一类进行非极大值抑制剔除重叠建议框，得到该列即该类中概率最大的一些候选框。非极大值抑制剔除重叠建议框的具体实现方法是：
第一步：定义 IoU 指数(Intersection over Union)，即 (A∩B) / (AUB)交并比，即AB的重合区域面积与AB总面积的比。直观上来讲 IoU 就是表示候选框AB重合的比率， IoU越大说明AB的重合部分占比越大，即A和B越相似。

第二步：找到每一类中2000个候选框中类别概率最高的候选框，计算其他候选框与该候选框的相似度IoU值，删除所有IoU值大于阈值的候选框。这样可以只保留少数重合率较低的候选框，去掉重复区域，因为对于同一个目标可能有很多个不同大小的候选框，那么通过这个方法去除其他保留最高分类概率的高质量候选框。

比如下面的例子，A是向日葵类对应的所有候选框中概率最大的区域，B是另一个区域，计算AB的IoU，其结果大于阈值，那么就认为AB属于同一朵向日葵，所以应该保留A，删除B，因为同一个目标只需要一个锚框，这就是非极大值抑制。

4、位置精修

通过回归器，对特征进行边界回归以得到更为精确的目标区域。通过 SS算法得到的候选区域位置不一定准确，因此用20个回归器对20个类别中剩余的候选框进行回归操作，最终得到每个类别的修正后的目标区域。具体实现如下：

如图，黄色框表示候选框 Region Proposal,绿色窗口表示实际区域Ground Truth（人工标注的），红色窗口表示 Region Proposal 进行回归后的预测区域，可以用最小二乘法解决线性回归问题。

通过回归器可以得到候选区域的四个参数，分别为：候选区域的x和y的偏移量，高度和宽度的缩放因子。可以通过这四个参数对候选区域的位置进行精修调整，就得到了红色的预测区域。

5、总体

优点：
R-CNN 对之前物体识别算法的主要改进是使用了预先训练好的卷积神经网络来抽取特征，有效的提升了识别精度。

RCNN虽然显著提升了物体检测效果，但仍然存在3个角度问题：

训练和测试速度慢，RCNN需要多步训练，步骤繁琐且训练速度较慢，对一张图像我们可能选出上千个兴趣区域，这样导致每张图像需要对卷积网络做上千次的前向计算。
由于实际分类中的全连接网络，因此输入尺寸是固定的，造成了精度的降低。
候选区域是需要提前提取并保存，占用空间较大。

二、端到端：Fast RCNN

在RCNN之后，SPPNet算法解决了重复卷积计算与固定输出尺度两个问题，但仍然存在RCNN的其他弊端。在2015年，Ross Girshick独自提出了更快、更强的Fast RCNN算法，不仅训练的步骤可以实现端到端，而且算法基于VGG16网络，在训练速度上比RCNN快了近9倍多，在测试速度上快了213倍，并在VOC 2012数据集上达到了68.4%的检测率。

1、候选区域与特征提取

同样使用SS(Selective Search)算法，不同于RCNN直接将图像分割成小矩形区域，Fast-RCNN先确定候选框位置，然后将整张图像送入卷积网络，一次性计算整张图像特征，最后根据先前确定RoI候选框的坐标映射RoI获得想要的RoI候选特征图，不需要重复计算就提取约2000个候选框的特征图。

将整幅图送到卷积网络中进行区域生成，而不是像RCNN那样一个个的候选区域，虽然仍采用Selective Search方法，但共享卷积的优点使得计算量大大减少。

2、RoI全连接、分类器与边界框回归器

对每个样本候选框矩阵使用特征池化(RoI Pooling)的方法来进行特征尺度变换，这种方法可以有任意大小图片的输入，使得训练过程更加灵活、准确，而不需要限制图像尺寸。

将候选特征图划分为固定数量（7×7），然后进行最大池化下采样maxpool来得到一个7×7特征矩阵，然后展平为一维向量（vector）。再经过两个全连接层（fully connected layers,FC），得到ROI特征向量（ROI feature vector）。

通过展平为一维向量（vector）。再经过两个全连接层（fully connected layers,FCs），得到ROI特征向量（ROI feature vector）。之后 ROI feature vector 并联两个FCs，其中一个用于目标概率预测softmax分类器，另一个用于边界框参数的回归bbox regressor回归器（bbox 表示 bounding box）。

这里使用的是不同于RCNN的SVM，将分类与回归网络放到一起训练，并且为了避免SVM分类器带来的单独训练与速度慢的缺点，使用了softmax函数进行分类。softmax分类器的输出为N+1个，N是指你的类别，1是指除了指定类别之外的东西都归属于背景类。以PASCAL VOC数据集为例，该数据集中有20个类别，因此设置21个softmax分类器。

因为有N+1个分类的候选框，每个候选框都有 $d_x、d_y、d_w、d_h)$ 四个参数，所以 bbox regressor 的全连接层FCs输出了 4×(N+1) 个节点。

Fast RCNN提供了计算回归公式，通过候选框提供的 $P_x、P_y、P_w、P_h)$ 数据以及全连接层输出的 $d_x、d_y、d_w、d_h)$ 参数进行计算。

因为在Fast RCNN 中需要预测N+1个类别的概率以及边界框的回归参数，所以定义了两个损失函数：分类损失和边界框回归损失，两个损失之和就是总损失。
$v_x、v_y、v_w、v_h)$ 的计算就需要逆反计算上面的回归公式。

3、总体

RCNN由四部分组成，因此需要多步训练，非常繁琐。而Fast RCNN将CNN特征提取，边界框分类器，bbox regression边界框回归三部分结合到了一起，都融合到同一个CNN中。那么Fast RCNN就只有两部分了：先通过SS算法获取候选框，再通过CNN完成特征提取、分类和边界框回归。

Fast RCNN算法虽然取得了显著的成果，但在该算法中，Selective Search需要消耗2~3秒，而特征提取仅需要0.2秒，因此这种区域生成发方限制了Fast RCNN算法的发挥空间，这也为后来的Faster RCNN算法提供了改进方向。

优点：
对整个图像进行特征抽取，然后再选取提议区域，从而减少重复计算；

缺点：
1、尽管用到了GPU，但Region proposal还是在CPU上实现的。在CPU中，用SS算法提取一张图片的候选框区域大约需要2s，而完成整个CNN则只需要0.32s，因此Fast RCNN 计算速度的瓶颈是Region proposal。

2、无法满足实时应用，没有真正实现端到端训练测试；

三、走向实时：Faster RCNN

Faster RCNN 是作者 Ross Girshick 继 RCNN 和 Fast RCNN后的又一力作。同样使用 VGG16作为网络的backbone，推理速度在GPU上达到5fps(包括候选区域的生成)，准确率也有进一步的提升。在2015年的ILSVRC以及cOco竞赛中获得多个项目的第一名。该算法最大的创新点在于提出了RPN(Region Proposal Network)网络来替代SS算法，利用Anchor机制将区域生成与卷积网络联系到一起，将检测速度一举提升到了14 FPS(Frames Per Second)，并在VOC 2012测试集上实现了70.4%的检测结果。

1、RPN与anchor

Faster RCNN 其实就是RPN+Fast RCNN的组合，RPN取代了SS的位置，用于特征图生成之后的候选框提取。

将图像输入卷积网络得到相应的特征图feature maps，使用RPN网络在特征图上生成候选框，将RPN生成的候选框投影到特征图上获得ROI区域的特征矩阵。

图中的 conv feature map 是原图像输入卷积网络得到的特征图，通过3×3的sliding window滑动窗口处理，每滑动到一个位置上就会产生一个256-d的一维向量。这里的256是ZF网络的该向量再通过两个全连接层，最后分别输出分类概率2k scores和边界框回归参数4k coordinates，其中k是指 k个 anchor boxes，2k个scores是每个 anchor box 分别为前景和背景的概率（注意这里只区分前景和背景，所有的类别都归为前景），4k个coordinates是因为每个anchor box 有四个参数。

那么什么是 anchor呢？首先要明确，anchor不是候选框（Proposal），在特征图中通过确定一个滑动窗口，再通过滑动窗口的中心点寻找对于原图的点，将原图的高宽除以特征图的高宽取整得到两者比例，通过比例就可以在原图中找到对应的一个像素点，以该像素点为中心，画出n个不同大小和长宽比的框，称为anchor ，这些anchor里面可能包含目标，也可能没有目标。因为我们在一张图中想找的的目标的大小和长宽比并不是固定的，所以这里同一个点可以设置n个不同大小和长宽比的anchor来进行预测。

怎么确定这个n的个数呢？论文中设计每个anchor的面积和长宽比：
面积 $128^2,256^2,512^2）$
长宽比 $（ 1 : 1, 1 : 2, 2 : 1 ）$
计算可得n为3×3=9，如下图所示，蓝色的三个anchor是面积为128×128的，红色是面积为256×256的，绿色是512×512的。

2k个scores是每个 anchor box 分别为前景和背景的概率（注意这里只区分前景和背景，所有的类别都算前景）,cls两两为一组判断分别为前景后景的概率。

reg和Fast RCNN的一样，由全连接层输出每个 anchor box 都有 $d_x、d_y、d_w、d_h)$ 四个参数。

anchor与候选框的关系是什么？假设有一张 1000x600x3 的图像，用3x3的卷积核进行特征提取得到60x40的特征图，则共有 60x40x9 （约2w个）个anchor。舍弃一些超过图片边界的 anchor 后，剩下约 6000 个anchor。对于这6000 个 anchor，通过RPN生成的边界框回归参数将每个 anchor 调整为候选框（前面提到了每个anchor经过RPN都输出2个概率和4个边界框回归参数），这里就能看到proposal是在anchor中提取出来的，这个过程也就是 RPN 生成候选框的过程。RPN 生成的候选框之间存在大量重叠，基于候选框的cls得分，采用非极大值抑制，IoU设为0.7，这样每张图片只剩下 2000 个候选框。

2、RPN 与 Fast_RCNN的loss损失

RPN对cls和reg执行预测判断，对RPN进行损失计算，和Fast RCNN的损失计算相似需要计算分类与边界框的损失和，但是这里的cls分类是前景背景分类，reg边界框是anchor边界回归。

对于cls的计算有两种说法，一种是使用多分类2k个anchor，另一种是二值交叉熵分类k个anchor。

多分类损失：

两两一组anchor，分别对应背景与前景（所需检测目标统称归属为前景）， $p^*_i$ 的值是最上面的1、0等真实样本值， $p_i$ 则是矩形框中的0.1、0.9等预测值。
根据 $p^*_i$ 来输入 $p_i$ 的值，计算-log的值。

二值分类损失：

一个矩形代表一个anchor， $p^*_i$ 的值是最上面的1、0等真实样本值， $p_i$ 则是矩形框中的0.1、0.9等预测值。 $p^*_i$ 使得公式前后哪部分为0。

边界框回归损失：

Fast RCNN损失：

之前讲过Faster RCNN 其实就是RPN+Fast RCNN的组合，RPN取代了SS的位置，用于特征图生成之后的候选框提取。所以在具体分类时一样使用到Fast RCNN损失。

结合RPN预测的候选框映射到原特征图中得到一个个特征矩阵，再通过 ROI pooling 层缩放到7x7大小的特征图，接着将特征图展平为vector，之后通过一系列全连接层得到预测结果。

3、总体

Anchor可以看做是图像上很多固定大小与宽高的方框，由于需要检测的物体本身也是一个个大小宽高不同的方框，因此Faster RCNN将Anchor当做强先验的知识，接下来只需要将Anchor与真实物体进行匹配，进行分类与位置的微调即可。相比起没有Anchor的物体检测算法，这样的先验无疑降低了网络的收敛速度，再加上一系列的工程优化，使得Faster RCNN达到了物体检测侧中的一个高峰。

FCN前言

全卷积网络FCN全称是 Fully Convolutional Networks for Semantic Segmentation, 用于语义分割的首个端对端的针对像素级预测的全卷积网络，对图像进行像素级的分类，从而解决了语义级别的图像分割问题。

与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类（全连接层＋softmax输出）不同，FCN可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。FCN虽然在现在看来存在一些问题，准确度也不够了，但是FCN开创了语义分割的新时代。语义分割后续的发展基本上都是在FCN上提出的理念上进行的。

FCN的卷积网络部分可以采用VGG、GoogleNet、AlexNet等作为前置基础网络，在这些的预训练基础上进行迁移学习与finetuning，对反卷积的结果跟对应的正向feature map进行叠加输出(这样做的目的是得到更加准确的像素级别分割)，根据上采样的倍数不一样分为FCN-8S、FCN-16S、FCN-32S。

核心思想：

不含全连接层的全卷积网络，可适应任意尺寸输入，全卷积的含义是将分类网络的全连接层全部替换成了卷积层；
反卷积层增大图像尺寸，输出精细结果；
结合不同深度层结果的跳级结构，确保鲁棒性和精确性。

不足：

得到的结果还不够精细，对细节不够敏感；
未考虑像素与像素之间的关系，缺乏空间一致性等。

一、FCN整体结构

在传统的CNN网络中，在最后的卷积层之后会连接上若干个全连接层和softmax，将卷积层产生的特征图（feature map）映射成为一个固定长度的特征向量。一般的CNN结构适用于图像级别的分类和回归任务，因为它们最后都期望得到输入图像的分类的概率，如VGG16网络最后输出一个1000维的向量表示输入图像属于每一类的概率。

但是FCN网络与经典CNN在卷积层结束之后使用全连接层进行分类不同，FCN将全连接层全部转化为卷积层可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的特征图（feature map）进行上采样，使它恢复到输入图像相同的尺寸，从而可以对每一个像素都产生一个预测，同时保留了原始输入图像中的空间信息，最后奇偶在上采样的特征图进行像素的分类。

下图是VGG16的模型架构，在7 × 7 × 512后连接上的是3个全连接层分别是1 × 1 × 4096,1 × 1 × 4096,1 × 1 × 1000和softmax。

在VGG分类网络当中，将7 × 7 × 512 矩阵首先进行Flatten展平处理，得到一个长度为25088个节点的向量，通过全连接层输出后得到长度4096维的向量。每一维输出向量都要和输入进行全连接，则总共有25088 × 4096个权重参数。

上面提到FCN不使用全连接层，而是直接使用卷积核大小7 × 7 ，步距为1，卷积核个数为4096的卷积操作代替全连接层，其中一个卷积核对应7 × 7 × 512个参数，刚好与全连接层的输入节点个数相同，所以实际上全连接层输出中一个节点所对应的参数个数与一个卷积核的参数是一样的都是102760448。故直接将全连接层每一个节点所对应的权重参数进行reshape处理，就能直接赋值给卷积层进行使用了，并且保留了高度和宽度信息。

剩下的全连接层也是如此转换。

二、FCN细分结构

对照VGG16的conv和pool的结构，conv6代表第一个全连接层对应的卷积层，conv7代表第二个全连接层对应的卷积层，以此类推。
FCN-32s是指将pool5的预测结果上采样了32倍还原回了原图大小，同理pool4下采样16倍，pool3下采样8倍，pool2下采样4倍，pool1下采样2倍。

1、FCN-32s

从VGG16 Backbone中的pool5开始，保存其输出 $\frac{w}{32}×\frac{h}{32}×512$ 并继续执行后面操作。
FC6和FC7代替的是VGG16 Backbone最后两个FC-4096（1×1×4096与1×1×4096），FC6代表第一个全连接层对应的卷积层，FC7代表第二个全连接层对应的卷积层。
输入图片宽高为w×h，经过VGG16 Backbone多次下采样，使得Conv5后输出的宽高为 $\frac{w}{32}×\frac{h}{32}$ 。
pool5下采样输出 $\frac{w}{32}×\frac{h}{32}×512$ ，并作为输入传入FC6。
FC6的卷积层步长为1，padding为3，不对高宽进行改变下得到输出 $\frac{w}{32}×\frac{h}{32}×4096$ ，输出大小不会发生变化。
FC7由于卷积核大小为1 × 1 ，所以输出大小也不会发生变化。
FC7之后在执行一个Conv2d操作，通过1 × 1的卷积层，高宽仍不发生变化，输出通道数变为类别个数（包含背景类）。
通过一个卷积核为64，步长为32的ConvTranspose2d转置卷积上采样32倍，得到 $h \times w \times N u m C l s$ 输出，恢复原图大小，再进行softmax处理就能得到每一个像素的预测类别。

直接进行的上采样倍率太大

2、FCN-16s

从VGG16 Backbone中的pool4开始，保存pool4和pool5输出 $\frac{w}{16}×\frac{h}{16}×512$ 和 $\frac{w}{32}×\frac{h}{32}×512$ 并继续执行后面操作。
FC6和FC7代替的是VGG16 Backbone最后两个FC-4096（1×1×4096与1×1×4096），FC6代表第一个全连接层对应的卷积层，FC7代表第二个全连接层对应的卷积层。
输入图片宽高为w×h，经过VGG16 Backbone多次下采样，使得Conv5后输出的宽高为 $\frac{w}{32}×\frac{h}{32}$ 。
pool5下采样输出 $\frac{w}{32}×\frac{h}{32}×512$ ，并作为输入传入FC6。
FC6的卷积层步长为1，padding为3，不对高宽进行改变下得到输出 $\frac{w}{32}×\frac{h}{32}×4096$ ，输出大小不会发生变化。
FC7由于卷积核大小为1 × 1 ，所以输出大小也不会发生变化。
FC7之后在执行一个Conv2d操作，通过1 × 1的卷积层，高宽仍不发生变化，输出通道数变为类别个数（包含背景类）。
通过一个卷积核为4×4，步长为2的ConvTranspose2d转置卷积上采样2倍，得到 $\frac{w}{16}×\frac{h}{16}×NumCls$ 输出。
对pool4保存的输出 $\frac{w}{16}×\frac{h}{16}×512$ 进行一个卷积核大小为1 × 1，步长为1的卷积操作，得到输出 $\frac{w}{16}×\frac{h}{16}×NumCls$ 。
将第八步与第九步的输出相加，再进行一次卷积核为32×32，步长为16的ConvTranspose2d转置卷积上采样16倍，恢复原图大小。再进行softmax处理就能得到每一个像素的预测类别。

与FCN-32s第一个不同之处在于第一个转置卷积。FCN-32s是直接上采样32倍，而FCN-16s则是先上采样2倍，再与来自Max-pooling4输出的特征图相加，最后上采样16倍，得到了原图尺寸。

3、FCN-8s

从VGG16 Backbone中的pool3开始，保存pool3、pool4和pool5的输出 $\frac{w}{8}×\frac{h}{8}×256$ 、 $\frac{w}{16}×\frac{h}{16}×512$ 和 $\frac{w}{32}×\frac{h}{32}×512$ 并继续执行后面操作。
FC6和FC7代替的是VGG16 Backbone最后两个FC-4096（1×1×4096与1×1×4096），FC6代表第一个全连接层对应的卷积层，FC7代表第二个全连接层对应的卷积层。
输入图片宽高为w×h，经过VGG16 Backbone多次下采样，使得Conv5后输出的宽高为 $\frac{w}{32}×\frac{h}{32}$ 。
pool5下采样输出 $\frac{w}{32}×\frac{h}{32}×512$ ，并作为输入传入FC6。
FC6的卷积层步长为1，padding为3，不对高宽进行改变下得到输出 $\frac{w}{32}×\frac{h}{32}×4096$ ，输出大小不会发生变化。
FC7由于卷积核大小为1 × 1 ，所以输出大小也不会发生变化。
FC7之后在执行一个Conv2d操作，通过1 × 1的卷积层，高宽仍不发生变化，输出通道数变为类别个数（包含背景类）。
通过一个卷积核为4×4，步长为2的ConvTranspose2d转置卷积上采样2倍，得到 $\frac{w}{16}×\frac{h}{16}×NumCls$ 输出。
对pool4保存的输出 $\frac{w}{16}×\frac{h}{16}×512$ 进行一个卷积核大小为1 × 1，步长为1的卷积操作，得到输出 $\frac{w}{16}×\frac{h}{16}×NumCls$ 。
将第八步与第九步的输出相加，再进行一次卷积核为4×4，步长为2的ConvTranspose2d转置卷积上采样2倍，得到 $\frac{w}{8}×\frac{h}{8}×NumCls$ 输出。
对pool3保存的输出 $\frac{w}{8}×\frac{h}{8}×512$ 进行一个卷积核大小为1 × 1，步长为1的卷积操作，得到输出 $\frac{w}{8}×\frac{h}{8}×NumCls$ 。
将第十步与第十一步的输出相加，再进行一次卷积核为16×16，步长为8的ConvTranspose2d转置卷积上采样8倍，恢复原图大小。再进行softmax处理就能得到每一个像素的预测类别。

FCN-8s中不仅利用到了来自Maxpooling4的输出，还利用到了来自Maxpooling3的输出，最终上采样8倍，得到最终的原图尺寸。

Mask R-CNN

未完待续。。。

你可能感兴趣的:(深度学习,目标检测,神经网络,计算机视觉,图像处理)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
服务器状态监控php源码,服务器状态监控_监控Linux服务器网站状态的SHELL脚本温糯米服务器状态监控php源码
摘要腾兴网为您分享:监控Linux服务器网站状态的SHELL脚本，蜗牛集市，同花顺，探客宝，手柄助手等软件知识，以及日期倒计时插件，云南省教育资源公共，rui手机桌面，小屁孩桌面便签，合金装备崛起复仇，朝夕日历，photoshop图像处理软件,一年级学生每日计划表，悟空找房，饿了吗外卖商家版，逃生，中国民宿网，realpolitiks，交通安全知识竞赛，雅思流利说等软件it资讯，欢迎关注腾兴网。1
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

神经网络学习笔记7——目标检测，语义分割和实例分割中的FCN

系列文章目录

文章目录

目标检测（Object Detection）

语义分割（Semantic segmentation）

实例分割（Instance division）

RCNN系列算法前言

一、开山之作：RCNN

1、 候选区域生成

2、 CNN特征提取

3、 SVM分类器

4、位置精修

5、总体

二、端到端：Fast RCNN

1、 候选区域与特征提取

2、RoI全连接、分类器与边界框回归器

3、总体

三、走向实时：Faster RCNN

1、RPN与anchor

2、RPN 与 Fast_RCNN的loss损失

3、总体

FCN前言

一、FCN整体结构

二、FCN细分结构

1、FCN-32s

2、FCN-16s

3、FCN-8s

Mask R-CNN

你可能感兴趣的:(深度学习,目标检测,神经网络,计算机视觉,图像处理)

1、候选区域生成

1、候选区域与特征提取