@会飞的毛毛虫

从原论文深度解析RCNN/FastR-CNN/Faster R-CNN理论

1.R-CNN(Region with CNN feature)

R-CNN可以说是利用深度学习进行目标检测的开山之作，作者Ross Girshick多次在PASCAL VOC的目标检测竞赛中折桂，曾在2010年带领团队获得终身成就奖。R-CNN这篇论文是在2014年提出的，在2014年之前，主流都是一些传统的目标检测算法，使用人为定义特征的方式进行检测，但那些年经典的目标检测算法已经进入了瓶颈期，其发展也非常的缓慢。在2014年，随着R-CNN的提出，将目标检测领域的准确度至少提高了30%，传统的的目标检测算法准确率大概是在30%左右，R-CNN一来直接跳到了50%，可以说是一个非常大的进步。

R-CNN的算法流程分为4个步骤：

在一张图像上生成1k - 2k个候选区域(使用Selective Search方法获得)
对每个候选区域，使用深度网络进行特征提取(这个深度网络就是图片分类网络，将候选区域送入特征提取网络，得到对应的特征向量)
将第二步得到的每一个特征向量送入SVM分类器，判断是否属于该类
使用回归器精细修正候选框位置(因为SS算法框的候选区域不是特别准)

候选区域的生成

利用Selective Search算法通过图像分割的方法得到一些原始区域，然后使用一些合并策略将这些区域合并，得到一个层次化的区域结构，而这些结构就包含着可能需要检测的目标。

对每个候选区域，使用深度网络提取特征

将Selective Search算法生成的约2000个候选区域缩放到227×227pixel，即无论候选框是什么形状，输入到CNN之前都需要对其进行resize处理，将缩放后的候选区域输入到网络就能得到对应的特征向量，其实这里的CNN就是图像分类网络，只不过将其后面的全连接层去掉，只进行了展平处理。原论文中一个候选框从AlexNet CNN输出得到一个4096维特征向量，2000个候选区域就得到了2000×4096维矩阵。(4096是AlexNet 规定的)

特征送入每一类的SVM分类器，判定类别

SVM分类器是一个二分类的分类器，所以针对每一个类别都有一个专门的分类器。这里是以PASCAL VOC数据集为例，在PASCAL VOC数据集中有20个类别，所以这里就有20个SVM分类器。将2000×4096维特征与20个SVM组成的权值矩阵4096×20相乘，获得2000×20维的评分矩阵，表示每个建议框是某个目标类别的得分。

为了方便理解请看下图：最左边是特征矩阵，每一行就是一个候选框通过CNN网络得到的特征向量，2000个候选框对应2000个特征向量，中间是SVM权值矩阵，每一列代表一个类别的权值向量，假设第一列代表猫，第二列代表狗，将候选框1所对应的特征向量与分类器1进行矩阵相乘，得到2000×20矩阵的第一行第一个元素，代表第一个候选框为猫的概率，以此类推，与第二个判断是否为狗的分类器相乘得到第一行第二个元素，代表第一个候选框为狗的概率，······就有20个概率。接下来分别对2000×20维矩阵中的每一列(对应同一个类别的概率)即每一类进行非极大值抑制剔除重叠建议框，得到该列即该类中得分最高的一些建议框，如下面2000×20概率矩阵的第一列代表所有候选框为猫的概率。

非极大值抑制剔除重叠建议框的具体步骤

引入概念IoU(Intersection over Union)：两个目标框的交并比，数学表达形式如下图所示，对每个类别寻找得分最高的目标，计算其他目标与该目标的IoU值，再对每一个边界框与最高得分边界框的IoU值进行判断，如果该IoU值大于所给定的阈值就删除它，将最高得分的目标存起来，再在剩下的边界框中继续寻找得分最高的目标，按照上述流程再次计算、删除，直到将所有的边界框遍历完。下图是便于理解的一个示例：向日葵图像中通过SS算法得到了一系列的边界框，这些边界框通过SVM后中评分最高的一个是0.98，仅次的一个是0.86，通过计算这两个边界框的交并比大于所给的阈值，认为这两个目标是同一个目标，就把概率低的删除掉，保留概率高的，最后所期望的是通过检测网络得到一个最完美的边界框，而不是其他残缺的边界框。

使用回归器精细修正候选框的位置

通过SS算法得到的目标候选框位置并不是特别的准确，所有需要通过一系列的回归器去修正候选框的位置，即对非极大值抑制后剩余的建议框进一步筛选。分别用20个回归器对上述20个类别中剩余的建议框进行回归操作，最终得到每个类别的修正后的得分最高的bounding box。这一步的实现依旧是和训练SVM分类器一样，针对每一个边界框通过CNN输出的特征向量进行预测。下图中橙黄色的边界框是通过SS算法所得到的目标建议框，绿色的是真实的目标边界框，使用回归分类器后会得到四个参数，分别对应着目标建议框中心点的x/y偏移量和边界框高度/宽度的缩放因子，通过这四个参数对目标建议框进行调整，得到红色的边界框。关于如何训练回归器在下面的Faster R-CNN中进行说明。

R-CNN的整体框架及存在问题

R-CNN存在的问题：

检测速度很慢。在原论文中说检测一张图片在多核CPU上大约需要53s，用Selective Search算法提取目标候选框的步骤需要2s，这一系列操作尽管在现在看来是非常的慢，但在当时还是相当快的。
一张图像内候选框之间存在大量重叠，导致提取特征操作冗余。
训练速度慢：不仅要训练图像分类网络，还要训练SVM分类器及回归器。
训练所需空间大：对于SVM和bounding box的回归训练，需要从每个图像中的每个目标候选框提取特征，并写入磁盘。对于非常深的网络如VGG16，从VOC07数据集上的5k图像的所有的目标候选框的特征保存起来需要数百GB的存储空间。

2.Fast R-CNN

Fast R-CNN是作者Ross Girshick继R-CNN后的又一力作，原论文是在2015年发表的，同样使用VGG16作为网络的backbone，与R-CNN相比训练时间快9倍，测试推理时间快213倍，准确率从62%提升至66%(PASCAL VOC数据集)。

Fast R-CNN算法总流程步骤：

一张图像生成1k-2k个候选区域(使用Selective Search方法)。
将图像输入网络得到相应的特征图，将SS算法生成的候选框投影到特征图上获得相应的特征矩阵。(与R-NN完全不同）之前是把每一个候选区域分别送入网络得到特征向量，这里是将整幅图像输入到CNN中得到相应的特征图，再将候选框进行投影得到特征矩阵。
将每个特征矩阵通过ROI pooling层缩放到7×7大小的特征图，ROI是Region of Interest(感兴趣区域)，接着将特征图展平通过一系列全连接层得到预测结果(目标所属类别和边界框的回归参数)–不需要再单独训练用于分类的分类器和用于调整候选区域边界框的回归器。

Fast R-CNN是如何生成候选框的特征

左边是R-CNN生成特征的方式：对每一个候选区域resize，输入进网络得到对应的特征，所以在R-CNN中，通过SS算法得到2000个候选框，就需要两千次正向传播。但这样的做法会存在大量的冗余，很多重叠的部分只需要计算一次就可以，但在R-CNN中不停的反复计算。
右图是Fast R-CNN生成特征的方式：将整幅图像输入到CNN网络之中得到了特征图，紧接着通过每个候选区域原图与特征图的映射关系，就可以直接在特征图中直接获取候选区域的特征矩阵，这样，这些候选区域的特征就不需要重新计算了。通过这种简单的操作，能够大幅提高Fast R-CNN的计算过程。

关于数据采样的问题

在训练过程中，并不是使用SS算法得到的所有候选区域，通过SS算法得到2000个候选框，但训练过程中只需要一小部分就足够了。而且对于采样的数据分为正样本和负样本，正样本就是候选框种确实存在所需检测目标的样本，负样本是背景，没有我们想要检测的目标。为什么要分正样本和负样本呢？比如要去训练一个猫狗分类器，如果猫的样本数量远大于狗的样本数量，也就是说如果数据不平衡的话，那么网络在预测的过程中就会更偏向于猫，这样明显是不对的（极端一点的情况，只有猫，则网络只认识猫，不认识狗）。同样，如果都是正样本的话，网络就会以很大的概率认为候选区域是我们所需要检测的目标，如果明明是个背景但也认成了目标。在原论文中，作者说明了对每张图从2000个候选框中采集64个，64个候选框中一部分是正样本，一部分是负样本。正样本定义在候选框与真实目标框的IoU大于0.5，负样本定义在IoU为0.1~0.5之间。

RoI Pooling Layer

有了训练样本之后，将训练样本通过RoI pooling层将其缩放到统一的尺寸，中间的过程是如下实现的：对之前几步所得到的训练样本(通过映射裁剪得到的feature map)化分为7×7即49等份，对每一个区域执行最大池化下采样，这样最终就得到了一个7×7的特征矩阵，其他的channel也是以此类推。因此无论特征区域是什么样的尺寸，都统一缩放到了7×7大小，这样就可以不限制输入图像的尺寸。在R-CNN中，必须要求输入图像的尺寸大小为227×227，但在Fast R-CNN中就不对输入图像尺寸进行限制了。接下来再对下采样后的特征展平处理，接着通过两个全连接层，得到RoI feature vector，在其上并联两个全连接层，其中一个全连接层用于目标概率的预测，另外一个全连接层用于边界框回归参数的预测。

目标概率预测的分类器

该分类器会输出N+1个类别的概率，N为检测目标的种类，1为背景。以PASCAL VOC数据集为例，其有20个类别，就应该输出21个类别概率，第一个概率为当前候选框为背景的概率，剩下20个对应着所需检测的每个目标的概率，这个概率是经过softmax处理之后的，所以其满足概率分布。既然需要输出N+1个类别概率，那么这里的全连接层就需要N+1个节点。

边界框回归器

边界框回归器会输出对于N+1个类别的候选边界框回归参数(dx,dy,dw,dh)，共(N+1)×4个参数，对应(N+1)×4个节点，如上图所示的一维向量，每四个分为一组，一组对应一个类别的边界框回归参数。

如何利用回归参数得到最终的预测边界框

下面这个公式是在R-CNN中给出的：dx和dy分别是用来调整候选边界框中心坐标的回归参数，

Fast R-CNN的损失计算

由于需要预测候选框的类别概率以及边界框的回归参数，因此就需要两个损失，一个是分类损失，一个是边界框回归损失，下图的公式是直接从Mask R-CNN中提取过来的：

假设有k个目标种类，p0就代表候选区域为背景的概率，u就代表目标真实的标签类别。在Fast R-CNN中作者是通过log损失计算分类损失的，其实这里的log损失就是交叉熵损失，计算公式如下，pu代表分类器预测当前候选区域为u的概率

顺带着回顾一下交叉熵损失， oi星代表真实标签值，其只有在正确的标签索引位置是等于1的，其他位置是等于0的，因为0乘任何数都等于0，索引就可以将0的部分全部省去，最后只剩下为真实标签索引的那一项，假设当i=u的时候对应正确的标签值，那么ou星=1，下面的公式1就对应上面的公式。

边界框回归损失：除了Llocation这个损失是由四部分组成的，另外还有两项：λ(平衡系数，用于平衡分类损失和交叉熵损失)和[u≥1]是艾弗森括号，u代表目标的真实标签，当u≥1时这一项就等于1，当u=1就是等于0的，u≥1就说明候选区域确实属于需要检测的某一个类别，对应着正样本，这个时候才有边界框损失，当u=0时对应负样本，即当前区域为背景，就不需要边界框回归损失这一项。将边界框损失和分类损失相加即得到Fast R-CNN的总损失，再对其进行反向传播就可以训练整个网络了。

Fast R-CNN整体框架及缺陷

第一部分是通过SS算法获取候选框，第二部分是特征提取、分类、边界框回归，这三个部分已经融合在一个CNN网络里，而R-CNN还要再单独训练SVM和边界框回归器，需要四个部分。接下来的Faster R-CNN网络需要把Fast R-CNN的两个部分融合在一起，形成一个端到端的训练过程。
Fast R-CNN网络的瓶颈在SS算法上，SS算法在CPU需要2s的时间，而第二部分总体才需要零点几秒就能完成，为了解决这个问题，Faster R-CNN引入了RPN。

3.Faster R-CNN

Faster R-CNN是作者Ross Girshick继Fast R-CNN后的又一力作，同样使用VGG-16作为网络的backbone，推理速度在GPU上达到5fps(包括候选区域的生成)，即每秒钟能检测五张图片，准确率也有进一步的提升，在2015年的ILSVRC以及COCO竞赛中获得多个项目的第一名。
Faster R-CNN的算法流程可分为3个部分：

将图像输入backbone(特征提取网络)得到相应的特征图
使用RPN结构生成候选框，将RPN生成的候选框投影到特征图上得到一个个特征矩阵
将每个特征矩阵通过ROI pooling层缩放到7×7统一大小的特征图，接着将特征图展平通过一系列全连接层得到预测概率及边界框回归参数。

其实Faster R-CNN = RPN + Fast R-CNN，RPN即Region Proposal Network，用RPN替代SS算法。

RPN网络结构

上图中右半部分是原论文给的RPN网络结构，首先是一个feature map，使用一个滑动窗口在其上进行滑动，每滑动到一个位置上，就生成一个一维的向量，在这个向量的基础上，再通过两个全连接层，分别去输出目标概率以及边界框回归参数，图中的2k个scores是针对k个anchor boxes，每一个anchor生成两个概率，一个是其为背景的概率，一个是其为前景的概率，同时每个anchor生成4个边界框回归参数。
这个256是怎么来的？：将ZF网络作为Faster R-CNN的backbone，其说生成的特征图的深度是256，如果使用VGG16的话，这里就应该是512了，所以这里生成的一维向量元素的个数是根据所使用的backbone输出特征矩阵的深度所确定的。
什么是anchor？：对于feature map上每一个3×3的滑动窗口，首先计算中心点在原图所对应的位置，如何去找这个位置呢？将原图除以特征图的宽度再取整就得到一个倍数，用feature map上的x，y坐标乘以倍数就得到了原图中的位置，接下来以得到的映射点为坐标生成一系列anchor box，这里的每个anchor box都是给定的大小及长宽比例，如上图中左边的三个不同颜色的框，anchor可能包含了需要检测的目标，也可能没有包含。
2k个scores和4k个coordinate是如何影响anchor的？：k个anchor会生成2k个scores，下图的黄色框是生成的2k个scores，红色框为coordinate，每两个scores，四个coordinate对应一个anchor。假设第一个anchor对应图中的黄框，第一组scores中0.1为背景的概率，0.9为目标的概率，这里只是预测前景和背景，并没有对其进行分类，同样第一组coordinate中dx，dy对应anchor的中心坐标偏移量，dw，dh是对宽度和高度的调整，通过边界框回归参数调整之后，尽可能准确的框选出目标。
**为什么要给出这么多不同比例的anchor？**因为所要检测的目标大小是不一样的，而且每个目标的长宽比也是不一样的，所以需要一系列的anchor去预测目标的位置。

在Faster R-CNN论文中给了哪些尺度及比例

原论文中给了三个尺度和三种比例：128²、256²、512²(这些对应着anchor的面积)，1：1、1：2、2：1，因此每个滑动窗口在原图上都对应有3×3=9个anchor，这些数据在论文中说都是根据经验所得，没什么值得深究的地方。如对于128²的三个比例，其分别对应右图最中心的三个小框。9个anchor一共会生成18个类别分数，36个边界框回归参数。

3×3滑动窗口在原图中感受野的问题

对于ZF网络，滑动窗口的感受野是171，对于VGG网络，其感受野是228。如果使用VGG网络，3×3的滑动窗口在原图上的感受野是228×228，但为什么还能预测比它大的如256，512的目标的边界框呢？原论文中作者是这样说的：通过一个小的感受野去预测一个比它大的目标边界框是有可能的，比如通过经验去看物体的一部分，就能大概的猜出这个目标完整的位置区域了。而且在实际使用过程中，这个方法也确实是有效的。下图给出了如何计算ZF网络的感受野：

RPN网络是如何实现的

滑动窗口其实就是3×3的卷积层来进行处理的，stride=1，padding=1，这样，其滑动窗口就能把feature map的每一个点都覆盖到，通过卷积之后生成的是一个高度‘宽度、深度都和feature map一样的特征矩阵，紧接着并联两个1×1的卷积层实现对于类别的预测和边界框回归参数的预测。
因为每个位置上都会有9个anchor，如果对于一个1000×600×3的图像，通过特征提取网络之后，大概是60×40的大小，生成的anchor大约有60×4×9=20k个，忽略跨越边界的anchor，剩下约6k个，对于剩下6k个anchor再使用RPN生成的边界框回归参数将这6k个anchor调整为6k个候选框（anchor经过RPN的回归参数调整后，生成的才叫候选框），但生成的候选框存在大量的重叠，就根据评分采取非极大值抑制的方法，IoU设为0.7，这样每张图片大概只剩下2k个候选框。

训练数据的采样

通过滑动窗口在特征图上进行滑动，在原图上大概会生成上万个anchor，但并不是每个都用来训练我们的RPN网络，原论文中这样说：从上万个anchor随机采样256个anchor，分别由正样本和负样本组成，比例大概为1：1，如果正样本的个数不足128，那就用负样本来进行填充。有两种定义正样本的方式：1.只要anchor于ground-truth box(标注的准确的边界框)IoU超过0.7，那么这个anchor就是正样本。2.anchor与某一个ground-truth box有最大的IoU，那么也将其指定成正样本。其实第二个条件是对第一个条件的补充，通常情况下使用第一个条件就能生成足够的正样本，但在极少数的情况下，使用第一个条件是找不到正样本的，即没有IoU大于0.7，那么这个时候就需要采用第二个条件。定义负样本的方式：与所有的ground-truth box的IoU都小于0.3。对于正样本和负样本之外的anchor就全部丢弃掉。

RPN的损失计算

包含两部分：分类损失和边界框回归损失。这个公式是原论文中给出的，原论文中指出，后面一项的系数可以替换为前面一项的系数，这里和Fast R-CNN的计算类似不再赘述。

Faster R-CNN的训练

直接采用RPN loss + Fast R-CNN Loss的联合训练方法。
原论文中采用分别训练RPN以及Fast R-CNN的方法

利用ImageNet预训练分类模型初始化前置卷积网络层参数，即backbone所对应的参数，并单独训练RPN网络。
固定RPN网络所有的权重参数，重新利用ImageNet初始化backbone，并利用RPN网络生成的目标建议框去训练Fast R-CNN网络参数。
固定利用Fast RCNN训练好的backbone参数，去微调RPN网络独有的卷积层及全连接层参数。
再次保持backbone权重不变，微调Fast RCNN网络的全连接层参数。最后RPN网络与Fast RCNN网络共享前置卷积网络层参数。

Faster R-CNN框架

四个部分全部融合在CNN网络，实现了端对端的训练过程。

Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
AtCoder备赛冲刺必刷题（C++） | 洛谷 AT_abc396_a Triple Four 热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：AT_abc396_a[ABC396A]
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
LabVIEW实现LoRa通信不脱发的程序猿 LabVIEW物联网开发实战 labview
目录1、LoRa通信原理2、硬件环境部署3、程序架构4、前面板设计5、程序框图设计6、测试验证本专栏以LabVIEW为开发平台，讲解物联网通信组网原理与开发方法，覆盖RS232、TCP、MQTT、蓝牙、Wi-Fi、NB-IoT等协议。结合实际案例，展示如何利用LabVIEW和常用模块实现物联网系统的快速开发与原型设计，助你从基础到实战，全面掌握物联网开发技能。开源免费LabVIEW学习专栏分享：L
基于roop/insightface将视频中包含指定人脸的视频片段提取并合并成新视频阆遤 python roop pytorch insightface
利用insightface.app.FaceAnalysis提最一个视频中包含指定人脸的视频片段，并将其合并成一个新视频，使用“buffalo_l”模型，模型需安装在代码当前目录下的.\models中。需要roop或其他支持pytorch、insightface、moviepy的环境。pytorch安装请见我其他文章。#cython:language_level=3str#-*-coding:ut
关于pytorch3d的安装诚威_lol_中大努力中人工智能 pytorch 人工智能 python
更新1：2025_2_04今天发现，原来的pytorch3d不见了，在我的aaa1环境中。重新安装，我发现最好用的还是去github下载最新的pytorch3d的zip，unzip之后，进去pipinstall-e.然后安装成功！1、参考文章1：windows安装PyTorch3D详细指南-哔哩哔哩(bilibili.com)这篇文章巨好2、参考文章2：pytorch3d/INSTALL.mdat
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
os.environ[‘CUDA_VISIBLE_DEVICES‘] = 的用法 @锦瑟五十弦深度学习人工智能
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录os.environ['CUDA_VISIBLE_DEVICES']=单值作用os.environ['CUDA_VISIBLE_DEVICES']=多值的作用os.environ[‘CUDA_VISIBLE_DEVICES’]=单值作用一定要在importtorch之前定义这句话importosos.environ['CUDA
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
【零基础入门】一篇弄懂nn.Sequential以及ModuleList的使用（呕心沥血版）十二月的猫 PyTorch深度学习 pytorch 零基础入门
个人主页：十二月的猫-CSDN博客系列专栏：《PyTorch科研加速指南：即插即用式模块开发》CSDN博客十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录1.前言2.Sequential类的使用2.1序列容器简单注入2.2序列容器字典注入2.3序列容器函数注入2.4序列容器修改2.5序列容器删除3.nn.ModuleList()的使用3.1定义模型3.2使用模型4.总结1.前言《
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
超详细Python教程——初识Python 月流霜 python 数据库服务器
初识Python温馨提示：2018年创建这个仓库的时候，关于Python语言基础这个部分的内容写得相对是比较粗糙，对粗学者可能不是那么友好。如果你正好是一名初学者，建议你移步到我的另一个仓库Python-for-Freshmen-2023，这个仓库对初学者更加友好，对应的内容，大家也可以在我的知乎专栏“从零开始学Python”中找到，点击进入传送门。Python简介Python的历史1989年圣诞
【QT入门】 Qt槽函数五种常用写法介绍不吃~香菜 QT入门 qt 开发语言槽函数信号槽
声明：该专栏为本人学习Qt知识点时候的笔记汇总，希望能给初学的朋友们一点帮助(加油！)往期回顾：【QT入门】实现一个简单的图片查看软件-CSDN博客【QT入门】图片查看软件(优化)-CSDN博客【QT入门】lambda表达式(函数)详解-CSDN博客【QT入门】Qt槽函数五种常用写法介绍一、信号槽基本概念Qt的信号槽是一种用于处理事件和通信的机制，是Qt框架中的一个重要特性。信号槽机制使得对象之间
【QT入门】qmake和cmake的简单区别不吃~香菜 QT入门 qt 开发语言学习 qmake cmake
声明：该专栏为本人学习Qt知识点时候的笔记汇总，希望能给初学的朋友们一点帮助(加油！)往期回顾：【QT入门】Windows平台下QT的编译过程-CSDN博客【QT入门】VS2019+QT的开发环境配置-CSDN博客【QT入门】VS2019和QTCreator如何添加第三方模块-CSDN博客【QT入门】qmake和cmake的简单区别qmake和cmake是两种常用的构建工具，用于自动化构建C++项
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
YOLOV11|YOLO12改进系列指南魔鬼面具 YOLO
基于Ultralytics的YOLO11|YOLO12改进目前自带的一些改进方案(持续更新)为了感谢各位对本项目的支持,本项目的赠品是yolov5-PAGCP通道剪枝算法.具体使用教程专栏改进汇总YOLO11系列二次创新系列ultralytics/cfg/models/11/yolo11-RevCol.yaml使用(ICLR2023)ReversibleColumnNetworks对yolo11主
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。