风度78

【深度学习】详解Faster-R-CNN

作者简介

CW，广东深圳人，毕业于中山大学（SYSU）数据科学与计算机学院，毕业后就业于腾讯计算机系统有限公司技术工程与事业群（TEG）从事Devops工作，期间在AI LAB实习过，实操过道路交通元素与医疗病例图像分割、视频实时人脸检测与表情识别、OCR等项目。

目前也有在一些自媒体平台上参与外包项目的研发工作，项目专注于CV领域（传统图像处理与深度学习方向均有）。

前言

CW每次回顾Faster R-CNN的相关知识（包括源码），都会发现之前没有注意到的一些细节，从而有新的收获，既惊恐又惊喜，可谓“细思极恐”！

Faster R-CNN可以算是深度学习目标检测领域的祖师爷了，至今许多算法都是在其基础上进行延伸和改进的，它的出现，可谓是开启了目标检测的新篇章，其最为突出的贡献之一是提出了 "anchor" 这个东东，并且使用 CNN 来生成region proposal（目标候选区域），从而真正意义上完全使用CNN 来实现目标检测任务（以往的架构会使用一些传统视觉算法如Selective Search来生成目标候选框，而 CNN仅用来提取特征或最后进行分类和回归）。

Faster R-CNN 由 R-CNN 和 Fast R-CNN发展而来，R-CNN是第一次将CNN应用于目标检测任务的家伙，它使用selective search算法获取目标候选区域（region proposal），然后将每个候选区域缩放到同样尺寸，接着将它们都输入CNN提取特征后再用SVM进行分类，最后再对分类结果进行回归，整个训练过程十分繁琐，需要微调CNN+训练SVM+边框回归，无法实现端到端。

Fast R-CNN则受到 SPP-Net 的启发，将全图（而非各个候选区域）输入CNN进行特征提取得到 feature map，然后用RoI Pooling将不同尺寸的候选区域（依然由selective search算法得到）映射到统一尺寸。另外，它用Softmax替代SVM用于分类任务，除最后一层全连接层外，分类和回归任务共享了网络权重。

而Faster R-CNN相对于其前辈Fast R-CNN的最大改进就是使用RPN来生成候选区域，摒弃了selective search算法，即完全使用CNN解决目标检测任务，同时整个过程都能跑在GPU上，之前selective search仅在CPU上跑，是耗时的一大瓶颈。

本文从编码实现的角度来解析 Faster R-CNN，先对网络的前向（forward）过程进行阐述，再回过头来看训练的细节，这样便于更好地理解。

源码是一位大佬写的，基于Pytorch框架，是Faster R-CNN的精炼版，作为学习和参考来说相当不错，我自己也撸了一遍，这里也附上大佬源码的链接：Faster R-CNN 精炼版。

Faster R-CNN Network

一. Overview

除去复杂的理论知识不谈，从编程的角度来看，Faster R-CNN做的事情其实就是，“穷举”一张图片可能出现物体的位置，生成矩形框（计算位置和大小），计算这些框中出现物体的概率，选择概率高的，然后调整这些矩形框的位置与大小，并去除重叠度高的，最终得到一个个包含物体的矩形框。

如下为整体框架结构，结合上述过程来看，主要是三部分，Extrator进行特征提取、RPN 生成候选框、RoIHead对候选框进行分类并调整目标预测框的位置与大小。

Faster R-CNN 框架

二. 特征提取

最初的Faster R-CNN使用了预训练的VGG16作为backbone进行特征提取，实现方法是加载预训练模型，抽取并分离前面的卷积层和后面的全连接层，固定卷积层中部分层的权重，用作特征提取，而全连接层则给 RoIHead 用作分类和回归。

Feature Extractor 实现

三. RPN(Region Proposal Network）

RPN 能够获得包含物体的区域，网络的后续部分便可基于这些区域做进一步的检测。

1. 使用anchor“穷举”目标物体所在区域

这里先介绍下anchor，这东东有点抽象，中文翻译是“锚”，让人容易觉得这是一个点，实际它是可能包含目标物体的矩形框。在目标检测任务中，通常会为每个像素点预设一个或多个面积大小和宽高比例不同的anchor，以此使得图像上密集铺满了许许多多anchor，从而覆盖到包含物体的所有位置区域。

backbone提取的特征图（记作 fm）相对于网络的输入图像尺寸缩小了16倍。因此，fm 中的1个像素点就相当于输入图像的16个像素点，或者说，fm中的1x1区域覆盖了输入图像的16x16区域。这样，fm中的每个像素点都对应地覆盖了输入图像的区域。

不难想象，如果一个像素点仅对应一个anchor，难免会覆盖不到或者覆盖不全目标物体。因此，Faster R-CNN 对每个点对应的anchor进行了尺寸缩放和形变，前者对应矩形面积，后者对应矩形长宽比例，每种尺寸对应3种长宽比，共设置3种尺寸，3种尺寸分别是128x128、256x256、512x512，3种长宽比分别是 1:1、1:2、2:1，这样一来，一个点就对应9个anchor，其中每个 anchor 的形状和大小都不完全相同。

9个形状和大小不同的anchor

具体的实现方法是，先计算fm中的一个点（通常是左上角）对应的9个anchor的中心点坐标和长宽，其它点对应的anchor则通过平移计算得出。

特征图左上角的像素点对应的9个anchor位置

不知道诸位客观发现了没，在上图计算anchor_base坐标时，有可能出现负数！比如对于特征图左上角的那个点(0,0)，其作为anchor中心点，由于下采样了16倍，那么就对应于输入图像16x16的区域，于是映射到输入图像上anchor中心点就是(8,8)。

考虑anchor尺寸倍数为8且长宽比为1：1的情况，此时anchor面积为(16x8) x (16x8)=128x128，长宽各为128，但中心点却是(8,8)，按此计算，左上角点坐标就是 (8 - 128/2, 8-128/2) = (-56, -56)。莫方，在以下第3小节讲解生成RoI的部分会涉及这部分的处理。

根据位移计算特征图所有像素点对应的anchor位置

2. 在每个特征点上计算分类与回归结果

这里的分类是二分类，仅仅区分前景和背景，具体做法是，先将 fm 进行3x3卷积，进一步提取特征，然后使用1x1卷积将通道数映射到18=9x2，对应9个anchor的两个类别，然后再将通道这个维度分割多一个维度，使得最后一维是2，代表前景和背景，最后使用softmax计算概率。

对候选区域分类

回归的做法是使用1x1卷积将通道数映射到36=9x4，对应9个anchor的位置与大小。注意，这里回归的4个量分别是矩形框中心点与anchor中心点横、纵坐标的位移以及矩形框长宽与 anchor 长宽的比例。

对候选区域回归

3.对分类与回归结果进行后处理，生成 RoI（Region of Interest）

这部分是One-Stage的最后阶段，也称作 Proposal Creator（Proposal Layer），会对RPN输出的分类和回归结果进行后处理（如NMS等），得到网络认为包含物体的区域，称为感兴趣的候选区域——RoI。

至此，其实已经完成了检测任务，因为已经得到了包含物体的区域（bbox），只不过没有对物体类别进行细分，仅区分了前、背景。另外，由于anchor的位置和大小是人工预设的，且用于训练的样本有限，因此此处得到的检测结果可能并不够精准。

具体做法是，先将回归得到的候选区域的宽、高限制在输入图像尺寸范围内以及剔除尺寸过小（小于16x16，因为特征图中一个像素点就已经代表了输入图像16x16的区域。

下图中的scale是输入网络中的图像与原图之间的缩放系数）的，然后将它们按前景概率排序，保留前面的一批（训练时是12000，预测时是6000），接着使用非极大值抑制进一步剔除掉可能重复的，最后从剔除后的结果中保留剩下的一批（训练时是2000，预测时是300）。

生成RoI(i)

生成RoI(ii)

四. RolHead

RPN 生成的 RoI 仅仅区分了前景和背景，并没有区分出物体的具体类别。因此，RoIHead 就是对 RoI 进一步分类，并且调整矩形框的位置和大小，使得预测结果更精细。

1. RoI Pooling

顾名思义，就是对 RoI 进行池化操作，具体做法是将每个RoI缩放到特征图尺寸范围内对应的区域，然后将RoI平均划分为同样数量的子区域(bin)，对每个bin实施（最大/平均）池化操作，这样就使得每个bin都映射为一个像素值，由于不同尺寸的RoI都划分了同样数量的bin，因此最终使得所有RoI都变为同样大小，这里是7x7（也就是对每个RoI都划分了7x7个bin）。

RPN 生成的 RoI 尺寸是对应于输入图像的，为了后面接全连接层生成预测结果，因此需要使用RoI Pooling将不同尺寸的各个RoI都映射至相同大小。

7x7大小的RoI经过RoI Pooling变成2x2大小

这里提出 RoI Pooling 会产生的问题：

1.1 两次量化损失

在将RoI映射至特征图尺寸范围的过程中，下采样取整操作（比如200x200的区域经16倍下采样后映射为12 x 12）会产生一次量化损失；接着，假设最终需要生成的尺寸大小为nxn，则需将RoI划分nxn个bin，在这个划分过程中又会产生一次量化损失（比如对12x12大小的RoI划分成7x7个bin，每个bin的平均尺寸是，那么就会造成有些bin的大小是，而另一些bin的大小则是），于是后来就有人提出如RoI Align和Precise RoI Pooling等方法进行改进，这里就不展开叙述了。

RoI Pooling的两次量化损失

1.2 只有少数点的loss在反向传播中贡献了梯度

由于每个bin都由其中像素值最大的一点代表，因此在这部分的反向传播中，每个bin只有一个点的loss贡献了梯度，忽略了大部分点。

RoI Pooling的反向传播

2. RoI 分类与回归

将RoI Pooling后的结果展开（flatten）成 vector，输入全连接层进行分类和回归，对应输出的神经元个数分别为物体类别数（记为n_classes）以及每个类别物体对应的bbox（n_classes x 4）。

注意，这里回归的结果是预测框中心点相对于正样本RoIs（在后文训练部分会讲解如何筛选正样本）中心点坐标的位移以及两者长宽的比例，并且是归一化（减去均值除以标准差）后的结果。

RoI分类与回归

五. 后处理生成预测结果

RoIHead的输出还不是预测结果的最终形态，为了产生最终的预测结果，还需要做一些后处理。

具体做法是，将网络输出缩放至原图尺寸，注意是原图，不是输入网络的图像，在原图与输入图像之间是有缩放操作的。

接着对回归的结果去归一化（乘标准差加均值），结合RoIs的位置和大小计算出bbox的位置（左上角坐标和右下角坐标），并且裁剪到原图尺寸范围内。

然后，选择置信度大于阀值的矩形框，最后再使用非极大值抑制（NMS）剔除重叠度高的bbox得到最终的结果。

生成预测结果(i)

注意，这里在进行置信度筛选以及NMS时是分别对每个物体单独类别实施的，不包括背景类（下图range()从1开始）。

那么就可能会发生这样的情况：一个RoI对应不同类别的预测结果都被保留下来（要知道RoIHead的输出是每个RoI在不同类别上的分类和回归结果），这里可以说是Faster R-CNN优于YOLOv1的地方，因为YOLOv1的一个格子仅能预测一个物体，但同时Faster R-CNN单独在各个类别进行NMS势必会影响推断速度，所以说从这方面看这里也是弱于YOLOv1的地方。

速度与质量，鱼与熊掌皆不可得~

生成预测结果(ii)

六. 训练

通过以上部分，相信朋友们已经清楚了Faster R-CNN是如何进行预测的了，但是，我们还没有开始将它是如何训练的，只有进行了有效的训练，模型才能产生可靠的预测结果，重头戏来咯！

训练的部分主要包含三个：Backbone、RPN 以及 RoIHead。Backbone 通常会采用在ImageNet上预训练的权重然后进行微调，因此这里主要解析RPN和RoIHead的训练过程，最初的实现将这两部分开训练，后来的大多数实现已使用联合训练的方式。

1. 筛选anchor样本，指导RPN训练

由于anchor数量太多，因此需要筛选部分anchor样本用于指导RPN训练。anchor总样本是Backbone输出特征图上每点对应的9个anchor，从中进行筛选目标样本，具体做法是：

1). 将坐标值不在输入图像尺寸范围内的anchor的标签记为-1；

2). 将与ground truth（gt）的IoU小于0.3的anchor作为负样本，标签记为0；

3). 将与每个gt的IoU最大的anchor作为正样本，标签记为1；

4). 将与gt的IoU不小于0.7的anchor作为正样本，标签记为1；

5). 限制正样本与负样本总数为256个，正负样本比为1:1，若其中某一类样本超过128个，则随机从中选择多出的样本将其标签记为-1；

6). 仅将标签为0和1的样本用于训练，忽略标签为-1的anchor

生成目标anchor用于指导训练

对anchor样本进行筛选得到目标anchor

正样本和负样本用作计算分类损失，而回归的损失仅对正样本计算。注意，这里回归的目标是gt相对于正样本anchor中心点坐标的位移以及两者长宽的比例，正因如此，前面部分谈到过RPN回归的结果是候选区域相对于anchor中心点坐标的位移以及两者长宽的比例。

这种方式是将预测结果和gt都与anchor做比较，训练目标是让预测结果与anchor的差别和gt与anchor的差别一致。

Anchor Target Creator

最后总结下，RPN会在特征图每点都输出9x2个分类结果和9x4个回归结果，分别与每点的9个anchor的分类标签和回归标签对应（RPN是二分类，仅区分前、背景），但并不是会对每个点都计算损失，最多仅有256个点会参与损失计算。

因为通过上述可知，仅有256个anchor样本供训练使用，而其中还可能有多个anchor对应到一个特征像素点上。注意下，这部分的训练是与ProposalCreator并行的分支，并不是拿ProposalCreator的输出进行训练！

另外，这里有个问题引发了我的思考：在前文讲RPN部分的第1节中，我们提到计算anchor坐标时可能出现负数，那么在筛选训练样本时它们就势必会被剔除掉。

如果我们将计算时anchor的坐标clip到输入图像尺寸范围内，那么就有可能引入更多有效的训练样本，甚至是优质样本，提高召回率是肯定的，精确率的话是不是也有可能提高？

2. 筛选RoI样本，指导检测器训练

Proposal Target Creator

这部分是从Proposal Creator （RPN中的Proposal Layer）产生的RoIs中筛选出128个目标样本，其中正负样本比为1:3，用于指导检测器（RoIHead）的训练。

具体方法是，计算每个RoI与每个gt的IoU，若某个RoI与所有gt计算所得的最大IoU不小于0.5，则为正样本，并记录下与此对应的gt，打上相应的类别标签，同时限制正样本数量不超过32个。

相对地，若某个RoI与所有gt的最大IoU小于0.5，则标记为负样本，类别标签为0，同时限制负样本数量不超过96个，正负样本的类别标签用作指导分类训练。最后，计算gt相对于RoI样本的中心点坐标位移和两者长宽比，并且归一化（减均值除标准差），用于指导回归训练。

筛选目标RoI

生成分类与回归的目标

在实际的代码实现中，将GT也一并加入了RoIs样本中：

将GT加入RoIs样本中

仔细想想，感觉挺有道理，因为RoIs来源于RPN的输出，而RPN的结果并不一定可靠，特别是在训练初期，几乎就是随机输出，可能连一个正样本都没有，加入GT一方面弥补了正样本数量的不足，另一方面还提供了更优质的正样本，怎么说它也是GT啊，还有比它更正的么！？

另外，虽然RoIs众多，但仅有128个样本进行了训练，训练时仅将这128个训练样本（Proposal Target Creator的输出）输入到RoIHead，而测试时则是将RPN（Proposal Creator）的输出直接输入到RoIHead。

最后注意下，RPN的回归目标是没有归一化的，而RoIHead的有。

3. Loss函数的设计

这里使用了两种loss函数，CrossEntropy Loss（交叉熵损失）用于分类，Smooth L1 Loss 用于回归，注意在RPN和RoIHead中，回归损失均只针对正样本计算。

这里，Smooth L1 Loss 的实现有个技巧，通过给正负样本设置不同的损失权重，其中负样本权重为0，正样本权重为1，这样就可以忽略负样本的回归损失。

Smooth L1 Loss with anchor

Smooth L1 Loss

通过上图可看到，在计算回归损失的均值时，分母将负样本（标签为0）数量也算上了，为何呢？明明只计算了正样本的回归损失啊.. 现在，“明明”就来告诉你！

可以拿RPN中loss的计算举例，其实，loss的原公式是这样的：

loss

其中，表示mini-batch中采集的样本数量(RPN中默认为256个)，表示anchor位置的数量，即feature map中特征点的数量（约2400个），λ是平衡参数，相当于加权(大于一时给回归loss加权，小于1时给分类加权)，论文中默认为10。

这么一来，，于是就用代替了。

所以，在计算回归损失的时候，系数的分母就使用正负样本的总数了。

七. KeyPoints

1. Anchor 与 RoI 傻傻分不清楚？

它们都是矩形框，通常以（左上角坐标、右下角坐标）或者（中心点坐标、长、宽）表示。不同的是，anchor是预设的可能覆盖目标物体的区域，而RoI是网络产生的更为可靠的目标候选区域。

可以这么看，anchor 是“死”的，是人为设置的(当然，后来的一些算法框架能够通过聚类得出anchor，如YOLO)，通过穷举它来尽可能覆盖目标物体。因此需要网络通过训练来进一步筛选和调整，产生RoI。在RoIHead部分，可认为RoIs充当了anchor的作用。

另外，在Faster R-CNN的实现中，anchor和RoI的尺寸对应的是网络的输入图像，而原图像和输入图像之间做了尺寸缩放，如以下代码部分可看到一个'scale'变量，在预测的时候注意需要把结果根据缩放系数转换对应到原图上。

输入图像与原图之间进行了缩放

2. 回归结果为何不是bbox的坐标？

本文一直强调，无论是在RPN还是RoIHead中，回归结果都不是bounding box的坐标，而是相对（正样本anchor、RoI）中心点坐标的位移和长宽比。为方便叙述，这里把两者分别称之为offset和scale。

直观地看，直接回归bounding box的坐标更方便，免去了传参（RPN中需要传入anchor，RoIHead中需要传入RoI）与坐标计算。

但是，如果回归的是坐标，那么在计算损失时，大尺寸bbox的坐标误差占的比重可能就会比小尺寸bbox之间的坐标误差大得多，从而使得模型更偏向于学习大bbox，从而导致小目标的检测效果不佳。

Regress

那么如何计算offset和scale呢？拿上图RPN的例子来说，对于预测框（蓝色框），offset等于其中心点与anchor（红色框）中心点坐标差除以anchor边长，scale等于两者的长宽比，并且使用log函数，log函数的作用也是一定程度上抑制了大bbox之间的误差占比盖过小bbox（拉近了大、小bbox之间的误差水平），gt（绿色框）的计算方法类似。

在训练过程中，如果我们希望预测框接近于gt，那么它们与anchor之间的offset和scale都应该尽可能接近，于是将gt与anchor的offset与scale作为回归的目标。

转换成坐标的时候，基于上述公式逆向计算即可。

RPN预测框的计算

3.3 个 Creator 分别做了什么？

Anchor Target Creator：对特征图上每点对应的anchor样本进行筛选（尺寸、IoU、样本数量），为 RPN提供256个训练样本，正负样本比为1:1，此处是二分类；

Proposal Creator：对RPN产生的RoI进行筛选（尺寸、置信度、数量、NMS），产生大约2000个RoIs；

Proposal Target Creator：从Proposal Creator产生的RoIs中筛选（数量和IoU）128个目标样本以指导检测头部（RoIHead）训练，正负样本比为1:3，此处是多分类。

Anchor Target Creator 和 Proposal Target Creator 仅在训练过程中使用，而 Proposal Creator 在训练和测试过程中都会用到，但它们都不涉及反向传播，因此这部分在不同深度学习框架上可以方便地通过numpy迁移实现。

4.4 个损失的作用是什么？

• RPN分类损失：区分anchor是前景还是背景，从而让模型能够学会区分前景和背景；

• RPN回归损失：调整anchor的位置和形状，使其更接近于gt；

• RoI分类损失：区分RoI属于哪个物体类别（这里是21类，包括背景）；

• RoI回归损失：调整RoI的位置和形状，使其更接近于gt、预测结果更精细。

由上述可知，其实在RPN输出的时候，就已经完成了“检测”任务，即能够把目标物体框出来，只不过没有对这些物体类别进行细分而已，并且框出来的位置可能不够精准。而RoIHead可看作是对RPN结果的调优。

结语

从整体框架上来看，Faster R-CNN主要包含Feature Extractor（特征提取）、RPN（产生候选区域）、RoIHead（检测器）三部分，理论看似简单，但是代码实现起来真不容易。

自己在学习Faster R-CNN的时候，看了不少资料，也做了相关笔记，但觉得没有真正学懂，有些点总是记不牢，不能够在脑海里很好地复现。于是就决定撸一遍源码，这样之后总算是踏实下来了。

作为深度学习目标检测领域中具有重大意义的算法，手撸一遍源码还是很有必要的，如果只是知道它的原理，那么并不真正代表会了，一个知识点你听懂了和你能够把它复现甚至改进是完全两码事，实践才是检验成果的硬道理！


往期精彩回顾



适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑
本站qq群704220115，加入微信群请扫码：

你可能感兴趣的:(计算机视觉,机器学习,人工智能,深度学习,神经网络)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一