AndyLiu1997

（FPN）Feature Pyramid Networks for Object Detection论文阅读笔记

文章目录

（FPN）Feature Pyramid Networks for Object Detection论文阅读笔记2016
- Abstract
- 1. Introduction
- 2. Related Work
- 3. Feature Pyramid Networks
- 4. Applications
- - 4.1 Feature Pyramid Networks for RPN
  - 4.2 Feature Pyramid Networks for Fast R-CNN
- 5. Experiments on Object Detection
- - 5.1 Region Proposal with RPN
  - - 5.1.1 Ablation Experiments
  - 5.2 Object Detection with Fast/Faster R-CNN
  - - 5.2.1 Fast R-CNN (on fixed proposals)
    - 5.2.2 Faster R-CNN (on consistent proposals)
    - 5.2.3 Comparing with COCO Competition Winners
- 6. Extensions: Segmentation Proposals

（FPN）Feature Pyramid Networks for Object Detection论文阅读笔记2016

Abstract

特征金字塔是用在不同尺度上的目标检测任务中的一个基础成分。但是最近深度学习的目标检测都避免使用金字塔的表示，部分原因是它们计算量和内存占用很大。==本文中，我们利用了深度卷积网络固有的多尺度金字塔等级来构建特征金字塔，并且使用较少的额外花费。==开发了具有横向连接的自上而下的网络结构，来构建多个尺度下的高等级语义特征图。这个网络结构，特征金字塔网络（FPN），与一些标准的特征提取结合进行应用之后，展现出了很好的效果提升。在基础的Faster R-CNN系统中加入FPN，我们的方法在COCO数据集上，没有加bells and whistles情况下，取得了单模型的SOTA，超过了所有的现存的单模型，包括COCO2016竞赛的胜者。另外，我们的网络在一个GPU上，可以达到5FPS。

1. Introduction

多尺度上的目标识别是计算机视觉的一个基础任务，特征图像金字塔是一种基础的标准解决方法（图1a）。**这些金字塔是尺度不变的，因为目标的尺度改变可以通过在尺度维度上的改变来抵消。**模型通过在不同位置和金字塔不同层上进行检测，就可以检测到不同尺度的目标。

在人工设计特征的时代，特征图像金字塔被广泛使用。**之后人工设计的特征逐渐被有深度卷积网络（convnets）计算得到的特征所取代。**除了可以表示更高层的语义，卷积网络同样对于尺度的变化更鲁棒，因此可以在单一的输入尺度来进行训练（图1b）。但是即使有鲁棒性，金字塔仍然可以继续应用其中，以得到最好的效果。近期ImageNet和COCO上的一些效果好的网络都在特征图像金字塔上进行多尺度测试，这样可以生成多尺度的特征表示，所有层都是语义上很强的，包括高分辨率的那些层。

然而，将图像金字塔的每一层都当做特征图有着明显的限制，测试时间增长了4倍，使得方法对于实时应用来说不现实；且端对端训练图像金字塔耗费大量内存，也不现实；所以如果使用，也只是在测试阶段使用图像金字塔，Fast和Faster R-CNN都没有使用特征图像金字塔。

然而，图像金字塔并不是唯一一种计算多尺度特征表示的方法。深度卷积网络一层一层的逐层计算特征图，通过下采样，这样这些特征图就有着金字塔的形状。这种网络内的特征hierarchy产生了不同分辨率的特征图，但是由于通道数的不同，引入了很大的语义gaps。高分辨率的特征图只有低层次的特征，这损害了网络的表示能力（representational capacity）。

SSD是首先尝试使用卷积网络中的金字塔形式的特征图进行多尺度检测的网络之一。SSD类的金字塔就是网络前向传播过程计算出的不同层的结果，因此几乎不额外消耗计算。但是为了避免使用低等级的特征，SSD放弃了前面已经计算的层，而是从很后面的层开始（VGG的conv4_3），并增加了几个新的层来计算，因此它没有重新利用高分辨率的特征图，我们认为这对于检测小目标非常重要。

本文的目标就是，利用卷积网络的这些金字塔形的特征图，同时还可以在所有尺度上都保持很强的语义性（semantics）。为了达成这个目的，我们依赖于一种结构，这种结构通过一个自上而下的pathway和横向connections可以将低分辨率、语义信息强的特征与高分辨率、语义信息弱的特征相组合（如图1d）。结果得到一个在所有尺度都有强语义信息的特征金字塔，并且可以从一个单尺度输入图像快速求出，与之前的结构相比不牺牲表达能力、速度和内存。

一些使用top-down和跳跃连接的相似结构在最近研究中比较流行。他们的目标是生成一个单个的、有着好分辨率的高等级特征图，在这个图上进行预测（图2上）。相反，我们方法在金字塔的每一层独立进行预测（图2下）。

我们在不同的检测和分割系统中评测了我们的方法（FPN），没有添加其他部件，我们使用Faster R-CNN和FPN，达到了COCO上的SOTA。我们实验中发现，对于bbox的proposal，FPN提升了8.0%的召回率，以及COCO的2.3%和PSACAL的3.8%准确率。我们的方法同样可以轻易移植到mask proposals中，提升了分割的AR以及运行速度。

另外，我们的金字塔结构可以在任意尺度端到端训练，可以同时在训练和测试时使用，内存消耗也是可以接受的。FPN方法可以取得超过所有现存的SOTA的最高准确率，并且没有增加测试时间。

2. Related Work

Hand-engineered features and early neural networks.

SIFT特征最开始在尺度空间提出，用来进行特征点匹配。HOG特征和later SIFT特征在整张图像上densely计算，它们被广泛用在图像分类目标检测等视觉任务中。**Dollar等人尝试了一种快速金字塔计算的方法，先再尺度上计算一个sparsely采样金字塔，然后对缺失的level进行插值。**早期的用于人脸识别的卷积网络中，在图像金字塔上计算浅层网络来进行检测。

Deep ConvNet object detectors.

随着深度卷积网络的发展，OverFeat和R-CNN等网络在检测任务的准确率上有了极大提升。OverFeat与早期神经网络类似，在图像金字塔上使用ConvNet当作滑窗检测器。R-CNN使用基于区域建议的策略，每个proposal进行尺度归一化，然后进行分类。SPPnet证明上面的方法应用在单一尺度的特征图上，效果更好效率也更高。最近的方法，比如Fast R-CNN和Faster R-CNN，都使用单尺度特征图进行计算，这是速度和准确率之间取平衡。多尺度的检测效果更好，但是速度较慢。

Methods using multiple layers.

最近的一些方法提升了检测和分割的效果，它们使用了ConvNet中的不同层。FCN在多尺度上将每一类的部分分数相加，来计算语义分割。 Hypercolumns使用相似的方法进行分割。一些其他的方法（HyperNet、ParseNet、ION）在预测之前，将多个层的特征级联，相当于组合了这些特征。SSD和MS-CNN没有组合特征或分数，直接在多个特征层进行预测。

最近有一些方法使用了横向/skip连接，来将分辨率和语义等级的低等级特征图相连，包括U-Net、SharpMask、Recombinator networks、 Stacked Hourglass networks等。Ghiasi为FCN提出了一个拉普拉斯金字塔表示来修正分割。尽管上面的方法都是用了金字塔形的结构，但是它们不像我们的特征图像金字塔，在所有的层独立进行预测。实际上，对于图2上的金字塔结构，图像金字塔仍需要跨尺度识别目标。

3. Feature Pyramid Networks

我们的目标是利用convnet的金字塔形的特征层次，包含了从低到高等级的语义信息，建立一个特征金字塔，可以利用高等级的语义。我们的FPN网络是通用的，本文中，我们关注滑窗类的区域建议方法，RPN和Fast R-CNN。

**我们的方法输入为任意单一尺寸的图像，以全卷积的fashion，输出多个等级的按比例的特征图。**这个过程与backbone的种类不管，本文我们使用ResNet。我们金字塔的构建包含自下向上的pathway、自上向下的pathway、和横向连接，下面逐一介绍。

Bottom-up pathway.

这个pathway就是backbone的前向计算过程，计算出一系列不同尺度的特征图，尺度上的尺寸step为2。**通常有许多层会生成相同尺寸的输出图，我们将这些层称为相同的stage。对于我们的特征金字塔，我们每个stage定义为一个金字塔等级。选择每个stage的最后一层作为特征图的参考，然后对其不断丰富来创建金字塔。**这个选择很自然，因为每个stage的最后一层应该有着最强的特征。

特别地，**对于ResNet，我们使用每个stage最后一个残差块的激活输出作为参考，记为{C2、C3、C4、C5}，**对应conv2-5的输出，它们相对于输入图像分别有着{4,8,16,32}像素的步长。因为内存占用大，没使用conv1的输出。

Top-down pathway and lateral connections.

**top-down的pathway通过对空间上粗糙，但是语义上更强，来自高等级的金字塔进行上采样来得到更高分辨率的特征。**这些特征然后又通过横向连接，使用bottom-up pathway得到的特征进行增强。每个横向连接（lateral connection）都将bottom-up pathway和top-down pathway对应的相同空间尺寸的特征图相连。bottom-up的特征图有更低等级的语义，但是它的激活定位更加准确因为它被子采样的次数更少。

图3展示了构成我们top-down特征图的building block。对于较粗糙分辨率的特征图，我们使用参数=2来对空间分辨率进行上采样（为了简化，使用最近邻域上采样），经过上采样的图然后与相关联的bottom-up图逐元素相加进行融合（使用1 * 1卷积来减少通道数）。这个过程迭代进行，直到生成最好分辨率的图。为了开始迭代过程，我们在C5之后接1 * 1的卷积来生成最粗糙的图，最后我们在每个融合图上进行3 * 3的卷积，来生成最后的特征图，这是为了减少上采样的其他影响。最后的特征图为{P2、P3、P4、P5}，与{C2、C3、C4、C5}相关联，分别有相同的空间尺寸。

因为金字塔的所有等级都共享分类器/回归器，**因此我们固定所有特征图中特征的维度（通道数，记为d）。本文中我们设置d=256，因此所有的额外的卷积层都是256-channel输出，**在这些额外卷积层中，我们没有增加非线性，因为我们发现效果影响很小。

我们的设计中，简单很重要，我们发现我们的模型对许多设计选择都是鲁棒的。我们实验使用了更复杂的blocks（比如使用多层残差块作为连接），观察到略微更好的效果。设计更好的connections不是本文的重点，所以我们选择了上面描述的简单设计。

4. Applications

我们的方法是在深度卷积网络中构建特征金字塔的一种通用解决方法。接下来，我们将我们的方法用在RPN中用来bbox proposal生成，用在Fast R-CNN中用来目标检测。为了验证我们方法的简单性和有效，我们对原来的系统做最少的修改。

4.1 Feature Pyramid Networks for RPN

RPN网络是一种滑窗的，类无关的目标检测器。在原来的RPN设计中，子网络使用3 * 3的卷积在特征图上densely滑窗，来预测object/background的二分类以及bbox回归。3 * 3之后使用两个1 * 1卷积分支，用来分类和回归，我们称为network head。使用一些anchor来进行预测。

我们修改RPN，将它作用的单尺度特征图更改为我们的FPN，我们使用了相同的head设计（3 * 3conv以及两个1 * 1conv分支），对于特征金字塔的每一层进行滑窗。由于head在所有金字塔等级都densely滑窗，在每一层的每个位置就没有必要设置多尺度的anchors了。所以，我们对金字塔每个等级设置单尺度的anchor。我们对{P2、P3、P4、P5、P6}上的anchor，每个anchor包含的像素区域分别为{32 * 32、64 * 64、128 * 128、256 * 256、512 * 512}。同样使用三种长宽比，{1:2、2:1、1:1}。因此整个金字塔共15种anchors。

我们依照与ground truth的IoU来设置样本，大于0.7或有最高IoU的为正样本，小于0.3设为负样本。注意到ground truth的尺度没有分配到金字塔等级上，二是直接与anchor相比较，因为anchor已经包含了金字塔等级了。

我们注意到heads的参数在所有的特征金字塔等级上是共享的，我们同样评估了一个不共享的模型，取得了相似的准确率。共享参数的模型取得的好的效果表明了我们金字塔的所有等级有着相似的语义等级。

修改之后就可以像Faster R-CNN中一样训练了。

4.2 Feature Pyramid Networks for Fast R-CNN

Fast R-CNN使用RoI池化层来提取特征，它主要是作用在单尺度的特征图上。为了使用FPN，我们需要将不同尺度的RoI与金字塔等级进行对齐。

我们将我们的特征金字塔看作是从图像金字塔生成的。我们将一个宽为w，高为h（在输入图像上的尺寸）的RoI与特征金字塔的Pk层对齐：

这里224为ImageNet的预训练尺寸，k0是224 * 224所对应的金字塔level。使用基于ResNet的Faster R-CNN，我们将k0设为4，式子1表明，如果RoI尺寸变小，它会被映射到更低等级（即更高分辨率的金字塔等级）。

我们将predictor head（Fast R-CNN中的class-specific分类器和bbox回归器）应用到RoI的所有等级上。这个head也是共享参数的，无论等级。我们直接使用RoI池化来提取7 * 7特征，然后接两个隐藏fc层（1024-d+ReLU），之后是最后的分类和回归。

基于上面的改造，我们可以在特征金字塔上训练测试Fast R-CNN。

5. Experiments on Object Detection

我们在80类目标的COCO上进行实验。使用80k训练集、35k验证集。

所有网络的backbone在ImageNet分类集上预训练过，使用ResNet-50和ResNet-101模型。

5.1 Region Proposal with RPN

使用COCO的平均召回率AR来评估，ARs、ARm、ARl表示小、中等、大目标的AR。对每张图像使用100和1000proposal，记为AR100和AR1000。

Implementation details.

表1中所有结构都是端到端训练的，输入图像resize到短边800像素，在8个GPU上使用同步SGD训练。mini-batch为每个GPU2图像，每个图像256anchors。使用0.0001的权值衰减和0.9的动量。前30k mini-batch学习率为0.02、之后10k为0.002。**对于所有的RPN实验，训练中都考虑了超出边界的anchor box（Faster R-CNN中忽略了）。**其他的设置与Faster R-CNN中一样，训练RPN花费了8小时。

5.1.1 Ablation Experiments

Comparisons with baselines.

我们使用了两个baseline作对比，其中anchor的尺度为5种，与FPN的一致。b相对于a没有提升这表示单个高等级的特征图是不够的。

使用FPN，将AR1000提升了8点，达到了56.3%。另外，针对小目标，AR提升了12.9%，这表明我们的FPN提升了RPN对目标尺寸的鲁棒性。

How important is top-down enrichment?

表1(d)展示了没有top-down pathway的结果，这种情况下与图1b差不多，效果与baseline类似。我们推测这是因为bottom-up金字塔中不同等级有着巨大的语义gaps。我们同样使用不共享参数的head进行实验，结果类似，这表明这个问题不能通过使用level-specific的head修复。

How important are lateral connections?

表1(e)展示了不使用横向连接的效果。这种top-down的金字塔有更强的语义特征和分辨率，但是这些特征的定位不够准确，因为map被降采样、上采样了几次。使用横向连接可以将其与定位准确的bottom-up结合，提升了10点召回率。

How important are pyramid representations?

下面我们只是用最高分辨率、最强语义特征的特征图P2进行实验，如表1(f)，效果比baseline好，但是比FPN差。

另外，只使用P2导致更多的anchor，这是因为它大的空间分辨率导致的。这个结果表明更多的anchor无法提升准确率。

5.2 Object Detection with Fast/Faster R-CNN

下面我们将FPN应用到基于区域的检测方法中，使用COCO的AP和PSACAL的AP评价，同样使用COCO对小、中、大目标的AP评价。

Implementation details.

输入尺寸resize到短边800像素，8GPU同时SGD训练，每个mini-batch两张图，每张图512RoI。0.0001权值衰减，0.9动量。前60k学习率0.02，后20k0.002学习率。训练时每张图2000RoI，测试时1000。

5.2.1 Fast R-CNN (on fixed proposals)

为了探究FPN对检测器的作用，我们冻结上面使用FPN的RPN提出的RoI，使用这些固定的RoI。我们直接在Fast R-CNN和RPN之间不共享卷积。

backbone使用ResNet，我们RoI池化的输出为14 * 14，将conv5层作为head的隐藏层。取得了31.9AP，使用两层fc，取得28.8AP，这表明使用fc对baseline没有正交的提升。

表2(d)和(e)展示了移除top-down和横向连接的效果，稍微低于baseline‘。值得注意的是，移除了top-down，AP下降严重，这表明Fast R-CNN对于在高分辨率图使用低等级特征效果很差。

5.2.2 Faster R-CNN (on consistent proposals)

Faster R-CNN中RPN和Fast R-CNN共享卷积层，它们的结构是一样的。表3展示了我们方法与其他baseline的对比。

我们的方法比baseline高出2.3%AP和3.8%[email protected]。

注意到(a)(b)比He论文中的baselin效果好，我们发现这个差距是由于下面造成的：

我们使用800像素宽，而不是600.
训练时，每个minibatch，我们每张图512RoI，而不是64
我们使用了4种尺度的anchor，而不是4
测试时我们每张图1000proposals，而不是300

所以我们的baseline要比原论文中的效果好。

相比原论文，我们提升了7.3%和9.6%。

Sharing features.

上面，为了简化，我们没有在RPN和Fast R-CNN之间共享特征。在表5中，我们按照四步训练法来共享特征，我们发现共享之后提升了准确率，同时减少了测试时间消耗。

Running time.

共享特征的情况下，**我们的ResNet-50模型在单块NVIDIA M40 GPU上每张图训练时间0.165s，ResNet-101为0.19s。作为对比，表3(a)的baseline用时0.32s。**总体上是比原来的Faster R-CNN要快。

5.2.3 Comparing with COCO Competition Winners

表4中比较了我们的方法，和其他COCO比赛单模型优胜者的效果。没有加其他东西，我们的单模型就超过了这些competitors。

在test-val集上，我们的方法比现存最好结果提升了0.5点AP，3.4点[email protected]。值得注意的是我们的方法不依赖于图像金字塔，只需要使用单尺度的输入图像，但是对小尺度的目标有着卓越的AP。在之前的方法中，这只能通过高分辨率的图像来取得。

而且，我们方法不需要使用许多流行的改进，比如hard negative mining、context regression、更强的数据增强等。这些方法可能会进一步提升FPN的效果。

最近，FPN在COCO比赛的所有项目中取得了top结果，包括检测、instance分割、关键点估计等。

6. Extensions: Segmentation Proposals

我们的方法是生成金字塔表示的通用方法，不仅可以用在目标检测的应用上。这部分我们使用FPN来生成分割的proposals，遵循DeepMask/SharpMask框架。

下面部分主要是语义分割的内容，就省略啦。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
ubuntu安装opencv最快的方法 Derek重名了
最快方法，当然不能太多文字$sudoapt-getinstallpython-opencv借助python就可以把ubuntu的opencv环境搞起来，非常快非常容易参考：https://docs.opencv.org/trunk/d2/de6/tutorial_py_setup_in_ubuntu.html
代码的执行效果高天
packagecom20210409;publicclassdemo04{publicstaticvoidmain(String[]args){//////&&当前的条件不满足,则最后结果一定不满足,后面的条件不再执行////&不管条件是否满足所有条件均作判断//intx=1,y=1;//if(++y==2&&x++==2){//x=7;//}//System.out.println("x="+x
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
使用Python和Playwright破解滑动验证码 asfdsgdf python 开发语言
滑动验证码是一种常见的验证码形式，通过拖动滑块将缺失的拼图块对准原图中的空缺位置来验证用户操作。本文将介绍如何使用Python中的OpenCV进行模板匹配，并结合Playwright实现自动化破解滑动验证码的过程。所需技术OpenCV模板匹配：用于识别滑块在背景图中的正确位置。Python：主要编程语言。Playwright：用于浏览器自动化，模拟用户操作。破解过程概述获取验证码图像：下载背景图和
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb