深蓝学院

令我“细思极恐”的Faster-R-CNN

作者简介

CW，广东深圳人，毕业于中山大学（SYSU）数据科学与计算机学院，毕业后就业于腾讯计算机系统有限公司技术工程与事业群（TEG）从事Devops工作，期间在AI LAB实习过，实操过道路交通元素与医疗病例图像分割、视频实时人脸检测与表情识别、OCR等项目。

目前也有在一些自媒体平台上参与外包项目的研发工作，项目专注于CV领域（传统图像处理与深度学习方向均有）。

前言

CW每次回顾Faster R-CNN的相关知识（包括源码），都会发现之前没有注意到的一些细节，从而有新的收获，既惊恐又惊喜，可谓“细思极恐”！

Faster R-CNN可以算是深度学习目标检测领域的祖师爷了，至今许多算法都是在其基础上进行延伸和改进的，它的出现，可谓是开启了目标检测的新篇章，其最为突出的贡献之一是提出了 "anchor" 这个东东，并且使用 CNN 来生成region proposal（目标候选区域），从而真正意义上完全使用CNN 来实现目标检测任务（以往的架构会使用一些传统视觉算法如Selective Search来生成目标候选框，而 CNN仅用来提取特征或最后进行分类和回归）。

Faster R-CNN 由 R-CNN 和 Fast R-CNN发展而来，R-CNN是第一次将CNN应用于目标检测任务的家伙，它使用selective search算法获取目标候选区域（region proposal），然后将每个候选区域缩放到同样尺寸，接着将它们都输入CNN提取特征后再用SVM进行分类，最后再对分类结果进行回归，整个训练过程十分繁琐，需要微调CNN+训练SVM+边框回归，无法实现端到端。

Fast R-CNN则受到 SPP-Net 的启发，将全图（而非各个候选区域）输入CNN进行特征提取得到 feature map，然后用RoI Pooling将不同尺寸的候选区域（依然由selective search算法得到）映射到统一尺寸。另外，它用Softmax替代SVM用于分类任务，除最后一层全连接层外，分类和回归任务共享了网络权重。

而Faster R-CNN相对于其前辈Fast R-CNN的最大改进就是使用RPN来生成候选区域，摒弃了selective search算法，即完全使用CNN解决目标检测任务，同时整个过程都能跑在GPU上，之前selective search仅在CPU上跑，是耗时的一大瓶颈。

本文从编码实现的角度来解析 Faster R-CNN，先对网络的前向（forward）过程进行阐述，再回过头来看训练的细节，这样便于更好地理解。

源码是一位大佬写的，基于Pytorch框架，是Faster R-CNN的精炼版，作为学习和参考来说相当不错，我自己也撸了一遍，这里也附上大佬源码的链接：Faster R-CNN 精炼版。

Faster R-CNN Network

一. Overview

除去复杂的理论知识不谈，从编程的角度来看，Faster R-CNN做的事情其实就是，“穷举”一张图片可能出现物体的位置，生成矩形框（计算位置和大小），计算这些框中出现物体的概率，选择概率高的，然后调整这些矩形框的位置与大小，并去除重叠度高的，最终得到一个个包含物体的矩形框。

如下为整体框架结构，结合上述过程来看，主要是三部分，Extrator进行特征提取、RPN 生成候选框、RoIHead对候选框进行分类并调整目标预测框的位置与大小。

Faster R-CNN 框架

二. 特征提取

最初的Faster R-CNN使用了预训练的VGG16作为backbone进行特征提取，实现方法是加载预训练模型，抽取并分离前面的卷积层和后面的全连接层，固定卷积层中部分层的权重，用作特征提取，而全连接层则给 RoIHead 用作分类和回归。

Feature Extractor 实现

三. RPN(Region Proposal Network）

RPN 能够获得包含物体的区域，网络的后续部分便可基于这些区域做进一步的检测。

1. 使用anchor“穷举”目标物体所在区域

这里先介绍下anchor，这东东有点抽象，中文翻译是“锚”，让人容易觉得这是一个点，实际它是可能包含目标物体的矩形框。在目标检测任务中，通常会为每个像素点预设一个或多个面积大小和宽高比例不同的anchor，以此使得图像上密集铺满了许许多多anchor，从而覆盖到包含物体的所有位置区域。

backbone提取的特征图（记作 fm）相对于网络的输入图像尺寸缩小了16倍。因此，fm 中的1个像素点就相当于输入图像的16个像素点，或者说，fm中的1x1区域覆盖了输入图像的16x16区域。这样，fm中的每个像素点都对应地覆盖了输入图像的区域。

不难想象，如果一个像素点仅对应一个anchor，难免会覆盖不到或者覆盖不全目标物体。因此，Faster R-CNN 对每个点对应的anchor进行了尺寸缩放和形变，前者对应矩形面积，后者对应矩形长宽比例，每种尺寸对应3种长宽比，共设置3种尺寸，3种尺寸分别是128x128、256x256、512x512，3种长宽比分别是 1:1、1:2、2:1，这样一来，一个点就对应9个anchor，其中每个 anchor 的形状和大小都不完全相同。

9个形状和大小不同的anchor

具体的实现方法是，先计算fm中的一个点（通常是左上角）对应的9个anchor的中心点坐标和长宽，其它点对应的anchor则通过平移计算得出。

特征图左上角的像素点对应的9个anchor位置

不知道诸位客观发现了没，在上图计算anchor_base坐标时，有可能出现负数！比如对于特征图左上角的那个点(0,0)，其作为anchor中心点，由于下采样了16倍，那么就对应于输入图像16x16的区域，于是映射到输入图像上anchor中心点就是(8,8)。

考虑anchor尺寸倍数为8且长宽比为1：1的情况，此时anchor面积为(16x8) x (16x8)=128x128，长宽各为128，但中心点却是(8,8)，按此计算，左上角点坐标就是 (8 - 128/2, 8-128/2) = (-56, -56)。莫方，在以下第3小节讲解生成RoI的部分会涉及这部分的处理。

根据位移计算特征图所有像素点对应的anchor位置

2. 在每个特征点上计算分类与回归结果

这里的分类是二分类，仅仅区分前景和背景，具体做法是，先将 fm 进行3x3卷积，进一步提取特征，然后使用1x1卷积将通道数映射到18=9x2，对应9个anchor的两个类别，然后再将通道这个维度分割多一个维度，使得最后一维是2，代表前景和背景，最后使用softmax计算概率。

对候选区域分类

回归的做法是使用1x1卷积将通道数映射到36=9x4，对应9个anchor的位置与大小。注意，这里回归的4个量分别是矩形框中心点与anchor中心点横、纵坐标的位移以及矩形框长宽与 anchor 长宽的比例。

对候选区域回归

3.对分类与回归结果进行后处理，生成 RoI（Region of Interest）

这部分是One-Stage的最后阶段，也称作 Proposal Creator（Proposal Layer），会对RPN输出的分类和回归结果进行后处理（如NMS等），得到网络认为包含物体的区域，称为感兴趣的候选区域——RoI。

至此，其实已经完成了检测任务，因为已经得到了包含物体的区域（bbox），只不过没有对物体类别进行细分，仅区分了前、背景。另外，由于anchor的位置和大小是人工预设的，且用于训练的样本有限，因此此处得到的检测结果可能并不够精准。

具体做法是，先将回归得到的候选区域的宽、高限制在输入图像尺寸范围内以及剔除尺寸过小（小于16x16，因为特征图中一个像素点就已经代表了输入图像16x16的区域。

下图中的scale是输入网络中的图像与原图之间的缩放系数）的，然后将它们按前景概率排序，保留前面的一批（训练时是12000，预测时是6000），接着使用非极大值抑制进一步剔除掉可能重复的，最后从剔除后的结果中保留剩下的一批（训练时是2000，预测时是300）。

生成RoI(i)

生成RoI(ii)

四. RolHead

RPN 生成的 RoI 仅仅区分了前景和背景，并没有区分出物体的具体类别。因此，RoIHead 就是对 RoI 进一步分类，并且调整矩形框的位置和大小，使得预测结果更精细。

1. RoI Pooling

顾名思义，就是对 RoI 进行池化操作，具体做法是将每个RoI缩放到特征图尺寸范围内对应的区域，然后将RoI平均划分为同样数量的子区域(bin)，对每个bin实施（最大/平均）池化操作，这样就使得每个bin都映射为一个像素值，由于不同尺寸的RoI都划分了同样数量的bin，因此最终使得所有RoI都变为同样大小，这里是7x7（也就是对每个RoI都划分了7x7个bin）。

RPN 生成的 RoI 尺寸是对应于输入图像的，为了后面接全连接层生成预测结果，因此需要使用RoI Pooling将不同尺寸的各个RoI都映射至相同大小。

7x7大小的RoI经过RoI Pooling变成2x2大小

这里提出 RoI Pooling 会产生的问题：

1.1 两次量化损失

在将RoI映射至特征图尺寸范围的过程中，下采样取整操作（比如200x200的区域经16倍下采样后映射为12 x 12）会产生一次量化损失；接着，假设最终需要生成的尺寸大小为nxn，则需将RoI划分nxn个bin，在这个划分过程中又会产生一次量化损失（比如对12x12大小的RoI划分成7x7个bin，每个bin的平均尺寸是，那么就会造成有些bin的大小是，而另一些bin的大小则是），于是后来就有人提出如RoI Align和Precise RoI Pooling等方法进行改进，这里就不展开叙述了。

RoI Pooling的两次量化损失

1.2 只有少数点的loss在反向传播中贡献了梯度

由于每个bin都由其中像素值最大的一点代表，因此在这部分的反向传播中，每个bin只有一个点的loss贡献了梯度，忽略了大部分点。

RoI Pooling的反向传播

2. RoI 分类与回归

将RoI Pooling后的结果展开（flatten）成 vector，输入全连接层进行分类和回归，对应输出的神经元个数分别为物体类别数（记为n_classes）以及每个类别物体对应的bbox（n_classes x 4）。

注意，这里回归的结果是预测框中心点相对于正样本RoIs（在后文训练部分会讲解如何筛选正样本）中心点坐标的位移以及两者长宽的比例，并且是归一化（减去均值除以标准差）后的结果。

RoI分类与回归

五. 后处理生成预测结果

RoIHead的输出还不是预测结果的最终形态，为了产生最终的预测结果，还需要做一些后处理。

具体做法是，将网络输出缩放至原图尺寸，注意是原图，不是输入网络的图像，在原图与输入图像之间是有缩放操作的。

接着对回归的结果去归一化（乘标准差加均值），结合RoIs的位置和大小计算出bbox的位置（左上角坐标和右下角坐标），并且裁剪到原图尺寸范围内。

然后，选择置信度大于阀值的矩形框，最后再使用非极大值抑制（NMS）剔除重叠度高的bbox得到最终的结果。

生成预测结果(i)

注意，这里在进行置信度筛选以及NMS时是分别对每个物体单独类别实施的，不包括背景类（下图range()从1开始）。

那么就可能会发生这样的情况：一个RoI对应不同类别的预测结果都被保留下来（要知道RoIHead的输出是每个RoI在不同类别上的分类和回归结果），这里可以说是Faster R-CNN优于YOLOv1的地方，因为YOLOv1的一个格子仅能预测一个物体，但同时Faster R-CNN单独在各个类别进行NMS势必会影响推断速度，所以说从这方面看这里也是弱于YOLOv1的地方。

速度与质量，鱼与熊掌皆不可得~

生成预测结果(ii)

六. 训练

通过以上部分，相信朋友们已经清楚了Faster R-CNN是如何进行预测的了，但是，我们还没有开始将它是如何训练的，只有进行了有效的训练，模型才能产生可靠的预测结果，重头戏来咯！

训练的部分主要包含三个：Backbone、RPN 以及 RoIHead。Backbone 通常会采用在ImageNet上预训练的权重然后进行微调，因此这里主要解析RPN和RoIHead的训练过程，最初的实现将这两部分开训练，后来的大多数实现已使用联合训练的方式。

1. 筛选anchor样本，指导RPN训练

由于anchor数量太多，因此需要筛选部分anchor样本用于指导RPN训练。anchor总样本是Backbone输出特征图上每点对应的9个anchor，从中进行筛选目标样本，具体做法是：

1). 将坐标值不在输入图像尺寸范围内的anchor的标签记为-1；

2). 将与ground truth（gt）的IoU小于0.3的anchor作为负样本，标签记为0；

3). 将与每个gt的IoU最大的anchor作为正样本，标签记为1；

4). 将与gt的IoU不小于0.7的anchor作为正样本，标签记为1；

5). 限制正样本与负样本总数为256个，正负样本比为1:1，若其中某一类样本超过128个，则随机从中选择多出的样本将其标签记为-1；

6). 仅将标签为0和1的样本用于训练，忽略标签为-1的anchor

生成目标anchor用于指导训练

对anchor样本进行筛选得到目标anchor

正样本和负样本用作计算分类损失，而回归的损失仅对正样本计算。注意，这里回归的目标是gt相对于正样本anchor中心点坐标的位移以及两者长宽的比例，正因如此，前面部分谈到过RPN回归的结果是候选区域相对于anchor中心点坐标的位移以及两者长宽的比例。

这种方式是将预测结果和gt都与anchor做比较，训练目标是让预测结果与anchor的差别和gt与anchor的差别一致。

Anchor Target Creator

最后总结下，RPN会在特征图每点都输出9x2个分类结果和9x4个回归结果，分别与每点的9个anchor的分类标签和回归标签对应（RPN是二分类，仅区分前、背景），但并不是会对每个点都计算损失，最多仅有256个点会参与损失计算。

因为通过上述可知，仅有256个anchor样本供训练使用，而其中还可能有多个anchor对应到一个特征像素点上。注意下，这部分的训练是与ProposalCreator并行的分支，并不是拿ProposalCreator的输出进行训练！

另外，这里有个问题引发了我的思考：在前文讲RPN部分的第1节中，我们提到计算anchor坐标时可能出现负数，那么在筛选训练样本时它们就势必会被剔除掉。

如果我们将计算时anchor的坐标clip到输入图像尺寸范围内，那么就有可能引入更多有效的训练样本，甚至是优质样本，提高召回率是肯定的，精确率的话是不是也有可能提高？

2. 筛选RoI样本，指导检测器训练

Proposal Target Creator

这部分是从Proposal Creator （RPN中的Proposal Layer）产生的RoIs中筛选出128个目标样本，其中正负样本比为1:3，用于指导检测器（RoIHead）的训练。

具体方法是，计算每个RoI与每个gt的IoU，若某个RoI与所有gt计算所得的最大IoU不小于0.5，则为正样本，并记录下与此对应的gt，打上相应的类别标签，同时限制正样本数量不超过32个。

相对地，若某个RoI与所有gt的最大IoU小于0.5，则标记为负样本，类别标签为0，同时限制负样本数量不超过96个，正负样本的类别标签用作指导分类训练。最后，计算gt相对于RoI样本的中心点坐标位移和两者长宽比，并且归一化（减均值除标准差），用于指导回归训练。

筛选目标RoI

生成分类与回归的目标

在实际的代码实现中，将GT也一并加入了RoIs样本中：

将GT加入RoIs样本中

仔细想想，感觉挺有道理，因为RoIs来源于RPN的输出，而RPN的结果并不一定可靠，特别是在训练初期，几乎就是随机输出，可能连一个正样本都没有，加入GT一方面弥补了正样本数量的不足，另一方面还提供了更优质的正样本，怎么说它也是GT啊，还有比它更正的么！？

另外，虽然RoIs众多，但仅有128个样本进行了训练，训练时仅将这128个训练样本（Proposal Target Creator的输出）输入到RoIHead，而测试时则是将RPN（Proposal Creator）的输出直接输入到RoIHead。

最后注意下，RPN的回归目标是没有归一化的，而RoIHead的有。

3. Loss函数的设计

这里使用了两种loss函数，CrossEntropy Loss（交叉熵损失）用于分类，Smooth L1 Loss 用于回归，注意在RPN和RoIHead中，回归损失均只针对正样本计算。

这里，Smooth L1 Loss 的实现有个技巧，通过给正负样本设置不同的损失权重，其中负样本权重为0，正样本权重为1，这样就可以忽略负样本的回归损失。

Smooth L1 Loss with anchor

Smooth L1 Loss

通过上图可看到，在计算回归损失的均值时，分母将负样本（标签为0）数量也算上了，为何呢？明明只计算了正样本的回归损失啊.. 现在，“明明”就来告诉你！

可以拿RPN中loss的计算举例，其实，loss的原公式是这样的：

loss

其中，表示mini-batch中采集的样本数量(RPN中默认为256个)，表示anchor位置的数量，即feature map中特征点的数量（约2400个），λ是平衡参数，相当于加权(大于一时给回归loss加权，小于1时给分类加权)，论文中默认为10。

这么一来，，于是就用代替了。

所以，在计算回归损失的时候，系数的分母就使用正负样本的总数了。

七. KeyPoints

1. Anchor 与 RoI 傻傻分不清楚？

它们都是矩形框，通常以（左上角坐标、右下角坐标）或者（中心点坐标、长、宽）表示。不同的是，anchor是预设的可能覆盖目标物体的区域，而RoI是网络产生的更为可靠的目标候选区域。

可以这么看，anchor 是“死”的，是人为设置的(当然，后来的一些算法框架能够通过聚类得出anchor，如YOLO)，通过穷举它来尽可能覆盖目标物体。因此需要网络通过训练来进一步筛选和调整，产生RoI。在RoIHead部分，可认为RoIs充当了anchor的作用。

另外，在Faster R-CNN的实现中，anchor和RoI的尺寸对应的是网络的输入图像，而原图像和输入图像之间做了尺寸缩放，如以下代码部分可看到一个'scale'变量，在预测的时候注意需要把结果根据缩放系数转换对应到原图上。

输入图像与原图之间进行了缩放

2. 回归结果为何不是bbox的坐标？

本文一直强调，无论是在RPN还是RoIHead中，回归结果都不是bounding box的坐标，而是相对（正样本anchor、RoI）中心点坐标的位移和长宽比。为方便叙述，这里把两者分别称之为offset和scale。

直观地看，直接回归bounding box的坐标更方便，免去了传参（RPN中需要传入anchor，RoIHead中需要传入RoI）与坐标计算。

但是，如果回归的是坐标，那么在计算损失时，大尺寸bbox的坐标误差占的比重可能就会比小尺寸bbox之间的坐标误差大得多，从而使得模型更偏向于学习大bbox，从而导致小目标的检测效果不佳。

Regress

那么如何计算offset和scale呢？拿上图RPN的例子来说，对于预测框（蓝色框），offset等于其中心点与anchor（红色框）中心点坐标差除以anchor边长，scale等于两者的长宽比，并且使用log函数，log函数的作用也是一定程度上抑制了大bbox之间的误差占比盖过小bbox（拉近了大、小bbox之间的误差水平），gt（绿色框）的计算方法类似。

在训练过程中，如果我们希望预测框接近于gt，那么它们与anchor之间的offset和scale都应该尽可能接近，于是将gt与anchor的offset与scale作为回归的目标。

转换成坐标的时候，基于上述公式逆向计算即可。

RPN预测框的计算

3.3 个 Creator 分别做了什么？

Anchor Target Creator：对特征图上每点对应的anchor样本进行筛选（尺寸、IoU、样本数量），为 RPN提供256个训练样本，正负样本比为1:1，此处是二分类；

Proposal Creator：对RPN产生的RoI进行筛选（尺寸、置信度、数量、NMS），产生大约2000个RoIs；

Proposal Target Creator：从Proposal Creator产生的RoIs中筛选（数量和IoU）128个目标样本以指导检测头部（RoIHead）训练，正负样本比为1:3，此处是多分类。

Anchor Target Creator 和 Proposal Target Creator 仅在训练过程中使用，而 Proposal Creator 在训练和测试过程中都会用到，但它们都不涉及反向传播，因此这部分在不同深度学习框架上可以方便地通过numpy迁移实现。

4.4 个损失的作用是什么？

• RPN分类损失：区分anchor是前景还是背景，从而让模型能够学会区分前景和背景；

• RPN回归损失：调整anchor的位置和形状，使其更接近于gt；

• RoI分类损失：区分RoI属于哪个物体类别（这里是21类，包括背景）；

• RoI回归损失：调整RoI的位置和形状，使其更接近于gt、预测结果更精细。

由上述可知，其实在RPN输出的时候，就已经完成了“检测”任务，即能够把目标物体框出来，只不过没有对这些物体类别进行细分而已，并且框出来的位置可能不够精准。而RoIHead可看作是对RPN结果的调优。

结语

从整体框架上来看，Faster R-CNN主要包含Feature Extractor（特征提取）、RPN（产生候选区域）、RoIHead（检测器）三部分，理论看似简单，但是代码实现起来真不容易。

自己在学习Faster R-CNN的时候，看了不少资料，也做了相关笔记，但觉得没有真正学懂，有些点总是记不牢，不能够在脑海里很好地复现。于是就决定撸一遍源码，这样之后总算是踏实下来了。

作为深度学习目标检测领域中具有重大意义的算法，手撸一遍源码还是很有必要的，如果只是知道它的原理，那么并不真正代表会了，一个知识点你听懂了和你能够把它复现甚至改进是完全两码事，实践才是检验成果的硬道理！

你可能感兴趣的:(深度学习,人工智能,深度学习)

技术文档的精髓：规划布局、语言表达与更新维护重庆钢铁侠经验分享
本文将从技术文档的规划布局、语言表达以及更新与维护三个方面入手，探讨如何打造一份出色的技术文档，确保信息的系统性、连贯性以及时效性。一：技术文档的规划布局1.1确定文档的整体架构技术文档的规划布局是确保信息呈现系统性和连贯性的关键。首先，需要确定文档的整体架构，这包括章节设置和逻辑顺序。一个好的架构应该能够清晰地指导读者从入门到精通。章节设置：根据文档的目的和受众，合理设置章节。例如，对于深度学习
“AI 自动化效能评估系统：开启企业高效发展新征程上海拔俗网络 java 团队开发
在当今数字化飞速发展的时代，企业面临着日益激烈的市场竞争，如何提升效率、降低成本成为了企业生存与发展的关键。AI自动化效能评估系统应运而生，它如同一把智能钥匙，为企业开启了高效发展的新征程。AI自动化效能评估系统，简单来说，就是利用人工智能技术对企业的各项业务流程、生产环节以及员工工作表现等进行全方位、自动化的评估。它能够快速收集海量的数据，并通过先进的算法模型对这些数据进行深度分析，从而精准地判
基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
智能体（AI Agent）：概念、原理与应用，全面解析AI技术前沿! 和老莫一起学AI 人工智能学习数据库产品经理机器学习 ai 大模型
一、智能体概念的深度剖析1.1智能体（Agent）的本质智能体，作为人工智能领域的一颗璀璨明珠，是那些能够主动感知周遭环境、自主决策并付诸实践的系统实体。它们不仅拥有自主性、交互性、反应灵敏及高度适应性等鲜明特征，更在复杂多变的情境中展现出卓越的自我管理与任务执行能力。智能体的诞生，标志着人工智能技术从机械式的规则遵循迈向了更为灵活、智能的自主决策新时代。智能体的核心精髓在于其内置的学习与决策引擎
基于人工智能的Python面试题请一直在路上 python 开发语言
基于人工智能的Python面试题1.Python中的元组与列表区别是什么？列表是可变类型，元组不是。列表是引用类型，元组不是。列表使用场景更宽泛，元组更多用于一些数据不可变的场景，例如参数、或者返回值。2.Python中的字典是否有序？python3.6之前字典是无序的，之后是有序的。原因可以参考下这个帖子https://blog.csdn.net/weixin_48629601/article/
海外抖音技术深度解析：算法、AI与全球化的挑战神探阿航计算机产业科普与思考算法人工智能机器学习数据挖掘深度学习
引言2025年1月19日，在美国宣布暂停服务，这一事件引发了全球用户的广泛关注。作为全球最受欢迎的短视频平台之一，其成功离不开其强大的技术支撑，尤其是其个性化推荐算法和AI驱动的创作工具。然而，随着全球市场环境的变化，它面临的技术与运营挑战也日益凸显。本文将深入分析其技术核心、全球化运营中的挑战及其未来发展方向。核心：个性化推荐引擎其算法是其成功的关键，其核心在于个性化推荐引擎。该引擎采用深度学习
如何使用Java爬虫获取阿里巴巴热卖商品推荐：代码示例与实践指南小爬虫程序猿 Java java 爬虫 python
在电商领域，获取热卖商品推荐对于商家和开发者来说至关重要。阿里巴巴提供了热卖商品推荐API接口，能够根据消费者的购买历史、浏览行为、搜索习惯等数据，自动推荐符合其需求的商品。以下将详细介绍如何使用Java爬虫获取阿里巴巴热卖商品推荐，并提供相关的代码示例。一、阿里巴巴热卖商品推荐API接口简介阿里巴巴热卖商品推荐API接口是一种基于人工智能算法的推荐系统，能够根据消费者的购买历史、浏览行为、搜索习
AI与API的融合：构建智能互联技术世界的基石 IT数据V+I7809804594 人工智能数据分析 python 爬虫大数据
在当今科技飞速发展的时代，人工智能（AI）与应用程序接口（API）的融合正在开启智能应用的新纪元。AI以其强大的数据处理和分析能力，正在改变各行各业的工作方式，而API则作为连接技术与应用的桥梁，为AI技术的普及和应用提供了无限可能。本文将深入探讨AI与API的融合如何推动智能应用的创新和发展，以及其在各个领域的应用和前景。一、AI与API融合的背景随着大数据、云计算、物联网等技术的快速发展，人工
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
基于Spring Boot和Vue的人脸识别项目（源码） AI人H哥会Java JAVA大作业项目实战 spring boot vue.js java 人工智能计算机视觉后端 sql
背景随着人工智能技术的迅猛发展，生物识别技术的迅猛发展，人脸识别已经成为最具潜力的人工智能应用之一。它不仅在安全监控、金融支付、智能家居等多个领域得到了广泛应用，也逐渐进入日常生活场景。人脸识别作为一种生物特征识别技术，能够通过分析人脸图像中的特征点，实现对个体的身份识别。利用计算机视觉技术，系统能够快速从大量图片中定位并识别特定人脸，实现身份验证和信息检索。这一技术的应用，不仅提高了安全性，还提
图像生成大模型：Imagen 详解转角再相遇 imagen python 深度学习计算机视觉
近年来，图像生成技术取得了显著进展，推动了计算机视觉和生成对抗网络（GAN）等领域的发展。Imagen是一个新兴的图像生成大模型，其在生成高质量、逼真图像方面表现出色。本文将详细讲解Imagen的基本原理、架构、训练流程及应用场景。1.Imagen的基本原理1.1什么是Imagen？Imagen是一种基于深度学习的图像生成模型，结合了自注意力机制（Self-attentionMechanism）和
人工智能伦理：技术发展背后的思考 m0_72547478 人工智能
近年来，人工智能技术呈爆发式发展，在医疗、交通、金融等诸多领域取得惊人成果，但与此同时，人工智能伦理问题日益凸显，引发广泛关注。数据隐私与安全首当其冲。AI系统依赖海量数据训练，这些数据包含个人信息、医疗记录等敏感内容。若数据保护不当，极易引发数据泄露风险，侵犯个人隐私。例如，某些智能健康APP，若未能加密传输用户健康数据，一旦遭受黑客攻击，用户的隐私将暴露无遗。算法偏见也是一大痛点。AI算法基于
Imagen架构详解：理解其背后的技术与创新范范0825 Imagen 架构
Imagen架构详解：理解其背后的技术与创新引言近年来，生成式人工智能技术取得了飞速发展，特别是在图像生成领域。作为这一领域的重要创新之一，Imagen是由谷歌开发的一种基于文本生成图像的模型。它在生成高质量、逼真的图像方面表现出色，并通过其先进的架构和技术手段推动了图像生成的技术进步。Imagen不仅在图像生成质量上具有显著优势，还能够通过自然语言描述生成细致复杂的图像。本文将详细剖析Image
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）学术菜鸟小晨千问多模型 qwen2 vl
一、简介VLLM是一种高效的深度学习推理库，通过PagedAttention算法有效管理大语言模型的注意力内存，其特点包括24倍的吞吐提升和3.5倍的TGI性能，无需修改模型结构，专门设计用于加速大规模语言模型（LLM）的推理过程。它通过优化显存管理、支持大模型的批处理推理以及减少不必要的内存占用，来提高多GPU环境下的推理速度和效率。VLLM的核心特点包括：显存高效性：VLLM能够动态管理显存，
qwenvl 代码中的attention pool 注意力池如何理解，attention pool注意力池是什么？ OpenSani AI 大模型计算机视觉语言模型 qwenvl LLM
qwenvl中的attentionpool如何理解，其实这就是一个概念的问题看qwenvl的huggingface的代码的时候，发现代码里有一个Resampler以及attn_pool，这和之前理解的连接池线程池表示资源复用的意思不太一样，查了一下：注意这里的pool和线程池连接池里面的pool不一样:深度学习中的池化：池化在深度学习中主要指通过滑动窗口对特征图进行下采样，提取最重要的特征，减少计
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
GAN在图像增强中的应用实战指南码字仙子
本文还有配套的精品资源，点击获取简介：图像增强技术通过算法改善图像质量，GAN作为一种生成对抗网络，在此领域具有重要应用。通过生成器和判别器的对抗性训练，GAN可以生成逼真图像、修复低质量图像、扩增数据集并进行风格迁移。本项目将介绍如何使用Python及其相关库实现GAN图像增强，包括模型的构建、训练和评估。通过项目案例学习，你可以掌握GAN在图像增强中的实际应用，提高图像处理和深度学习的技能。1
利用双分支CycleGAN进行图像数据的高效增强 jizhi-dataset 人工智能
随着人工智能技术的快速发展，图像数据处理变得越来越重要。为了提高图像数据的质量和可用性，我们需要采用高效的数据增强方法。双分支CycleGAN网络作为一种先进的图像处理技术，为我们提供了一种全新的解决方案。本文将详细介绍双分支CycleGAN的工作原理，并展示其在图像数据增强方面的实际效果。同时，我们也将讨论在实际应用过程中可能遇到的挑战以及如何解决这些问题。，，CycleGAN是一种用于图像到图
揭秘AIP智能体平台：构建未来AI基础设施的新引擎大东（AIP内容运营专员）人工智能
在人工智能的浪潮中，科技正在改变我们生活的方方面面。从智能推荐到自动驾驶，从个性化广告到实时风险控制，AI的触角无处不在。但这些令人瞩目的成果背后，究竟是什么在支撑着AI的飞速发展？答案是——人工智能平台。人工智能平台是连接计算资源、开发工具和行业应用的重要桥梁，支撑着从模型开发到行业场景落地的每一个环节。它不仅为开发者提供高效便捷的工具，还为企业创造了无限的创新可能。本文将带你深入了解人工智能平
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习模型推理速度/吞吐量计算(附代码） Scabbards_ 1500深度学习笔记深度学习人工智能
参考博文：https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247546551&idx=2&sn=f198b6365e11f0a18832ff1203302632&chksm=ebb70e63dcc0877569d1838b2391744be628bf6cbb6e203a49f855e0769ecbbbf5a9929fe2db&scene
PyTorch使用教程- Tensor包 Loving_enjoy 论文 pytorch 人工智能
###PyTorch使用教程-Tensor包PyTorch是一个流行的深度学习框架，它提供了一个易于使用的API来创建和操作张量（Tensors）。张量是一个多维数组，类似于NumPy中的ndarray，但它是基于GPU的，支持自动求导。本文将详细介绍PyTorch中的Tensor包，包括张量的创建、运算、形状变换、索引与切片、以及重要的张量处理方式。####一、张量的创建在PyTorch中，可以
ChatGPT详解 Loving_enjoy 实用技巧人工智能自然语言处理
ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。以下是对ChatGPT的详细介绍：###一、技术架构与原理1.**技术架构**：ChatGPT建立在Transformer架构之上，这是一种深度学习模型，特别适用于处理自然语言。其核心是自注意力机制，允许模型在
《鸿蒙Next应用商店：人工智能开启智能推荐与运营新时代》人工智能深度学习
在科技飞速发展的当下，鸿蒙Next系统的出现为操作系统领域带来了新的变革与机遇，而人工智能技术的融入更是让其应用商店的智能化推荐和运营迈向了一个全新的高度。用户画像精准构建在鸿蒙Next系统中，应用商店可以借助系统强大的权限管理和数据收集能力，全方位收集用户的多维度数据。通过对用户在应用商店内的浏览历史、下载记录、搜索关键词，以及在其他鸿蒙应用中的使用行为等多源数据进行汇总和分析，利用人工智能算法
机器学习的介绍 2201_75874206 机器学习人工智能
目录1.机器学习的定义2.机器学习的原理3.机器学习的方法4.机器学习的分类5.机器学习的评估6.机器学习的应用场景7.机器学习与人工智能的关系结论机器学习在自然语言处理中的最新应用和技术是什么？如何评估机器学习模型的性能，除了交叉验证、MSE和RMSE外，还有哪些其他重要的指标？在金融风险管理中，机器学习如何帮助预测市场趋势和信用风险？市场趋势预测信用风险评估机器学习与人工智能之间的关系在未来发
迅为RK3562开发板专为3562编写10大分类2900+页文档 mucheni rk3562 3562
iTOP-3562开发板采用瑞芯微RK3562处理器，内部集成了四核A53+MaliG52架构，主频2GHZ，内置1TOPSNPU算力，RK809动态调频。支持OpenGLES1.1/2.0/3.2、0penCL2.0、Vulkan1.1内嵌高性能2D加速硬件。内置独立NPU,算力达1TOPS,可用于轻量级人工智能应用。支持几乎全格式的H.264解码，支持1080p@60fps的解码，支持4K@3
工业场景将成为AI大模型的重要战场！零基础入门AI大模型，看这篇就够了！大模型扬叔人工智能工业多模态大模型
前言2024年，各大公司推出强大理解能力的多模态大模型，将引领人工智能（AI）技术创新和应用，工业场景将成为多模态大模型的最佳实践场地。随着GPT-4o、Gemini1.5Pro、LLaVA1.6的发布，基于Transformer架构和海量数据训练的多模态大模型再次点燃通用人工智能（AGI），其对文本、图像等多模态输入的支持和强大的理解能力也象征着人工智能迈向通用人工智能（AGI）的新阶段。随着工
人工智能学习路线全链路解析 power-辰南大模型算法实战工程人工智能学习机器学习
一、基础准备阶段（预计2-3个月）（一）数学知识巩固与深化线性代数（约1个月）：矩阵基础：回顾矩阵的定义、表示方法、矩阵的基本运算（加法、减法、乘法），理解矩阵乘法不满足交换律等特性，通过练习题加深对运算规则的掌握，例如计算简单的矩阵乘法式子、求矩阵的转置等。向量空间与线性变换：学习向量空间的概念，包括向量的线性组合、线性相关与线性无关，掌握线性变换的定义、几何意义以及如何用矩阵表示线性变换，借助
透过生活小故事，轻松理解大模型开发的五种核心方法 java
大家好，我是大圣，今天聊一下大模型开发的几种方法。大模型开发常用方法前言人工智能的世界听起来复杂神秘，但其实它与我们的日常生活有着许多相似之处。即使你对大模型开发一无所知，也能通过生活中的简单故事，理解其中的奥秘。本文将以贴近生活的五个场景，通俗易懂地讲解大模型开发中的五种核心方法：提示词工程和外部函数、Agent设计、RAG设计（检索增强生成）、微调以及预训练。让我们一同走进这些故事，揭开大模型
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http