Lydia.na

【深度学习】卷积神经网络应用之双阶段目标检测｜R-CNN、SPP-Net、Fast-RCNN、Faster-RCNN

文章目录

基本概念
一、R-CNN
- - 1. 网络结构
  - 2. 训练流程
  - 3. 测试阶段
  - 4. RNN存在的问题
二、SPP-Net
- - 1. 网络结构
  - 2. 基础知识
  - - - 共享卷积计算
      - 金字塔池化 Spatial Pyramid Pooling
  - 3. 训练流程
  - 4. 测试流程
  - 5. 存在问题
三、 Fast R-CNN
- - 1. 网络结构
  - 2. 基础知识
  - - - 感兴趣区域池化层 (ROI pooling)
      - 多任务损失(Multi-task loss)
  - 3.训练&测试流程
四、Faster R-CNN
- - 1. 网络结构
  - 2. RNP
参考文章

基本概念

Selective Search： 主要思想是先按照像素将图像分割成小区域，再查看现有小区域，按照合并规则合并可能性最高的两个相邻区域，重复直到整张图像合并成一个区域位置。
IoU（重叠度Intersection of Uint）： 定义两个bounding box的定位精度——两个矩形框的重叠面积占两个矩形框并集的面积比例。

【深度学习】卷积神经网络应用之双阶段目标检测｜R-CNN、SPP-Net、Fast-RCNN、Faster-RCNN_第1张图片

非极大值抑制（NMS）： 抑制不是极大值的元素，搜索局部的极大值。
算法步骤：

在当前类别的候选边界框中寻找得分最高的边界框；
计算其他边界框与该边界框的IOU值；
删除所有IOU值大于给定阈值的目边界框；

mAP(mean Average Precision)： 给每一类计算AP，然后求平均。

一、R-CNN

1. 网络结构

各级层独立：

Regin proposal-Selective Search

Feature extraction-CNN

Classification-SVM

Bounding box regression

【深度学习】卷积神经网络应用之双阶段目标检测｜R-CNN、SPP-Net、Fast-RCNN、Faster-RCNN_第2张图片

算法主要分为4个步骤：

通过Selective Search方法获取约2000张候选区域；
Selective Search算法步骤如上所述。
对每个候选区域使用CNN提取特征；
通过区域预处理将区域图片的Bounding box向外膨胀16个像素，变换成 $227\times 227$ 的图片；之后进入预训练好的卷积神经网络得到特征图。
将fc7特征送入每一类SVM分类器，判断该区域是否属于该类；
将 $2000\times 4096$ 维特征与20个SVM分类器组成的 $4096\times 20$ 维的权重矩阵相乘，得到 $2000\times 20$ 维矩阵，该矩阵表示表示每个建议框是某类目标的得分。
将conv5特征进行Bounding box回归精调预测框结构
通过非极大值抑制（NMS）处理后的剩余边界框进行进一步筛选，接着使用20个回归器对20个类别的回归框进行回归操作，并且对候选框进行修正得到最终的边界框。

2. 训练流程

预训练：使用ImageNet数据集对CNN模型进行预训练初始化网络参数。
- 由于目标检测的训练数据较少，如果要直接采用随机初始化CNN参数的方法，那么目前的训练数据量是远远不够的，所以采用有监督的预训练——直接使用Alexnet,VGG的网络参数。
fine- tuning：使用SS算法生成的所有区域对预训练出的网络进行微调。
- Log loss
- 微调是将卷积层最后一层替换掉，替换为N+1个神经元的softmax层（N类+1类背景），然后这一层采用参数随机初始化的方法，其他网络层的参数不变，接着以SGD训练：开始的时候，SGD学习率选择0.001，在每次训练的时候，我们batch size大小选择128，其中32个正样本、96个负样本。
- 用SS算法挑选出的候选框与人工标注矩形框的重叠区域IoU>0.5，分为正样本，反之分为负样本（背景类别）
- 如果不针对特定的任务进行fine-tuning，而是仅仅把CNN当作特征提取器，卷积层学到的就是基础的共享特征提取层，可以用于提取各种图片的特征，而f6,f7所学习到的特征是用于针对特定任务的特征。 卷积层所学习到的为共性特征，全连接层所学习到的是特定任务的特征。
SVM分类：使用微调后的网络中的fc7训练SVM线性分类器。
- Hinge Loss
- 每个类别（N类）对应一个分类器
- IoU阈值定义为0.3，当重叠度大于0.3时定义为正样本，反之。
- 一旦CNN fc7层特征被提取出来，将每个物体类训练一个svm分类器，通过分类判断是需要的物体还是backgound。
Bounding Box回归：使用微调后的网络中的conv5训练Bounding Box回归模型。
- Square Loss
- 每个类别训练（N类）训练一个回归模型
- IoU阈值定义为0.3，当重叠度大于0.3时定义为正样本，反之。
- 由于目标检测问题的衡量标准是重叠面积：许多看似准确的检测结果，往往因为候选框不够准确，重叠面积很小。故需一个位置精修操作：对每一类目标使用一个线性回归模型进行精修。正则项 $\lambda=1000$ 。输入为 conv5的4096维特征，输出为xy方向的缩放和平移。

3. 测试阶段

【深度学习】卷积神经网络应用之双阶段目标检测｜R-CNN、SPP-Net、Fast-RCNN、Faster-RCNN_第6张图片

使用SS算法提取出2000个区域目标图；
将每个区域目标图通过预处理归一化到 $227\times 227$ ；
使用fine-tune过的CNN计算2套特征
fc7 -> SVM -> 类别分值
- NMS(IoU>=0.5)获取无冗余的区域子集
con5 -> Bounding box -> Box偏差
- 使用Bbox偏差修正区域子集

4. RNN存在的问题

测试速度慢，测试一张图片在CPU上需要53S，使用Selective Search算法提取候选框需要2S，一张图像内候选框之间存在大量重叠，提取特征操作存在大量冗余；
训练速度慢，过程极其繁琐，不仅需要训练图像分类网络，还需要训练SVM分类器、Bounding Box回归器，训练过程都是相互独立的；
训练所需空间大，对于SVM和Bounding Box回归训练，需要从每个图像中的每个目标候选框提取特征，并写入磁盘，对于非常深的网络，训练集上5K图像上提取的特征需要数百GB的存储空间。

Q： 为什么使用SVM分类不直接使用softmax多分类器？
A： svm训练和cnn训练过程的正负样本定义方式各有不同，导致最后采用CNN softmax输出比采用svm精度还低。训练过程中对于训练数据的标注很宽泛（bounding box只包含一部分）标记为正样本，容易过拟合；svm对于训练样本数据的iou要求严格（bounding box包含整个物体）。

二、SPP-Net

在R-CNN的基础上提出两个创新点：共享卷积计算和金字塔池化(spatial pyramid pooling)。

共享卷积计算： 在conv5层输出提取所有区域的特征。
金字塔池化： 为不同尺寸的区域，在Conv5输出提取特征；映射到尺寸固定的全连接层上。

1. 网络结构

Regin proposal-Selective Search

Feature extraction--CNN+SPP

Classification-SVM

Bounding box regression

【深度学习】卷积神经网络应用之双阶段目标检测｜R-CNN、SPP-Net、Fast-RCNN、Faster-RCNN_第7张图片

算法主要分为5步骤（大部分与RCNN类似）：

通过Selective Search方法获取约2000张候选区域；
对每个候选区域使用CNN提取特征；
对CNN提取后的特征图提取SPP特征
将fc7特征送入N类SVM分类器，判断该区域是否属于该类；
将conv5特征进行N类Bounding box回归精调预测框结构

2. 基础知识

共享卷积计算

直接输入整张图片，进行一次共享卷积计算，将conv5层输出所有区域的特征。

金字塔池化 Spatial Pyramid Pooling

【深度学习】卷积神经网络应用之双阶段目标检测｜R-CNN、SPP-Net、Fast-RCNN、Faster-RCNN_第8张图片

在R-CNN中，需要将每个候选框统一大小后分别作为CNN的输入，低效而费时。SPP提出只对原图进行一次卷积计算，得到整张图的卷积特征，然后找到每个候选框在特征图上的映射，将映射作为候选框的卷积特征输入到SPP层中，变换成相同尺度。
具体操作：
将spp替换conv5中的pooling层，spp的思路是对于任意大小的feature map首先分成3个不同level的切割图，切割尺寸分别为 $1\times 1$ 、 $2\times 2$ 、 $4\times 4$ ，每个切割图得到1，4，16个块，然后在每个块上最大池化，池化后的特征拼接得到一个固定维度的输出。以满足全连接层的需要。

3. 训练流程

预训练：使用ImageNet数据集对CNN模型进行预训练初始化网络参数。
SPP特征：计算所有SS区域的SPP特征。
fine-tuning：使用SPP特征对全连接层进行微调。
SVM分类：使用微调过后的fc7特征对每一类进行svm分类。
bounding box回归：使用spp特征进行bounding box回归。
- R-CNN是使用conv5进行bounding box回归
- 只对全连接层进行fine-tuning

4. 测试流程

【深度学习】卷积神经网络应用之双阶段目标检测｜R-CNN、SPP-Net、Fast-RCNN、Faster-RCNN_第9张图片

基础结构与R-CNN类似，将预处理过程去除，对图片进行共享卷积计算，将得到的conv5层特征图和SS算法提取的区域图进行映射得到原图区域作为SPP层的输入，SPP层将不同尺寸的映射到原图的区域进行金字塔池化将其变成尺寸相同的特征图，再进入全连接层，后续步骤和R- CNN类似。

与R-CNN不同的是SPP在图片级计算不做fine-tunning，只在区域级计算时计算时进行fine-tunning。

5. 存在问题

继承了RCNN剩余问题： 需要存储大量特征、复杂的多阶段训练、训练时间仍长
新问题：SPP是取代先前Max pooling层，将特征图转化为224*224的，由于 SPP的特殊性（分为3个尺寸的bin）SPP层之前的所有卷积层参数不能finetune，缺少迁移的可能性。

三、 Fast R-CNN

在SPP的基础上提出3个改进：

实现end-to-end单阶段训练，通过多任务损失函数实现end-to-end.
所有层的参数都可以finetune
不需要离线存储特征文件

Fast R-CNN在SPP Net的基础上提出两个优化点：感兴趣区域池化层（ROI pooling）和多任务损失函数（Multi- task loss）。

1. 网络结构

第二阶段

Classification-SVM

Feature extraction-CNN

Bounding box regression

Regin proposal-Selective Search

【深度学习】卷积神经网络应用之双阶段目标检测｜R-CNN、SPP-Net、Fast-RCNN、Faster-RCNN_第10张图片

算法步骤分为5步：

通过Selective Search方法获取约2000张候选区域；
对每个候选区域使用CNN提取特征；
对CNN提取后的特征图提取ROI特征
将fc7特征送入N+1类softmax分类，判断该区域是否属于哪类；
将conv5特征进行N类Bounding box回归精调预测框结构

与SPP网络结构异同点：

提取特征的backbone由AlexNet改换为VGG，提取特征能力更强
SPP Pooling替换为ROI Pooling
SVM分类和回归任务使用多任务损失函数替代，目标检测任务就不需要分阶段训练
提取到ROI特征向量后并联连接这两个分支。使用softmax替代SVM分类器（C+1类，包含background）。FC全连接边界框回归器替代了LR回归模型，新的边界框回归器输出对应(C + 1)个类别的候选框边界回归参数(dx, dy, dw, dh)，共输出(C + 1) * 4个节点，如下图每4个一组，这里回归参数的含义与RCNN保持一致。

2. 基础知识

感兴趣区域池化层 (ROI pooling)

【深度学习】卷积神经网络应用之双阶段目标检测｜R-CNN、SPP-Net、Fast-RCNN、Faster-RCNN_第11张图片

ROI pooling是SPP pooling的单层特例。ROI pooling是将ROI区域的卷积特征拆分为 $\times W$ 网格，然后对每个Bin内的所有特征进行Max pooling。

多任务损失(Multi-task loss)

损失函数为： $L(p,u,t^u,v)=L_{cls}(p,u)+\lambda [u\ge 1]L_{loc}(t^u,v)$

该损失函数分为两部分，第一部分分类器的损失： $L_{cls}(p,u)=-logp_u$ ，其中p为每个ROI的概率分布，u为Ground truth类别。

第二部分为回归器损失L1 loss:
$L_{loc}(t^u,v)=\sum_{i=\{x,y,w,h\}}smooth_{L1}(t_i^u-v_i)$
$smooth_{L1}(x)=\left\{\begin{matrix} 0.5x^2 & ,\left | x \right |< 1 \\ \left | x \right |-0.5 &,otherwise \end{matrix}\right.$
其中 $v=\{v_x,v_y,y_w,v_h\}$ 为偏差目标， $t^u=\{t_x^u,t_y^u,t_w^u,t_h^u\}$ 为预测偏差， $[u\ge1]$ 为指示函数，当该值为1的时候分类为物体类别，有回归loss；当值为0时，分类为背景类别，没有回归loss.
预测偏差的计算公式：
$\begin{matrix} t_x=(G_x-P_x)/P_w\\ t_y=(G_y-P_y)/P_h\\ t_w=log(G_w/P_w)\\ t_h=log(G_h/P_h) \end{matrix}$

3.训练&测试流程

【深度学习】卷积神经网络应用之双阶段目标检测｜R-CNN、SPP-Net、Fast-RCNN、Faster-RCNN_第12张图片

训练流程： 将整张图片输入到CNN网络中，同时进行ss算法提取候选框，在Conv5特征图中映射到候选框的特征矩阵，做ROI Pooling，规整到固定大小，然后经过全连接层，分别将全连接层后的特征输入到SoftMax分类器和Bounding box回归器中（根据输出维度需要再接一层FC），使用多任务组合损失函数进行计算和梯度回传，实现端到端的网络训练。

在pre-trained模型上做finetune。在Fast R-CNN训练时，随机梯度下降（SGD）的小批量（mini-batches）采用分层抽样，首先采样N个图像，然后对于每一张图像采样R/N个RoI区域。

batch_size=128

Batch尺寸（128）=每个batch的图片数量（2）*每个图片ROI数量（64）

一个batch来自两张图片，每张图片各自取64个候选区域，正负样本比为1:3，正样本判定条件为IOU值大于0.5，负例的判定条件是IOU要在0.1-0.5之间，是一种难例挖掘的策略。

测试流程： 与训练过程相同，为每一类加上后处理NMS算法即可。

四、Faster R-CNN

为解决Fast RCNN算法中SS选择耗时时间长的问题，Faster RCNN提出一个RPN(Region Proposal Network)网络，即其他部分与Fast RCNN相同，即Faster RCNN = RPN + Fast RCNN，RPN取代了离线Selective Search模块，解决了性能瓶颈。同时Faster RCNN进一步共享卷积层计算，并基于Attention机制，待改

1. 网络结构

【深度学习】卷积神经网络应用之双阶段目标检测｜R-CNN、SPP-Net、Fast-RCNN、Faster-RCNN_第13张图片

Faster RCNN = RPN + Fast RCNN，主要分为以下几个步骤：

将图像输入到CNN网络得到特征图
使用RPN网络结构生成候选框，然后将这些RPN生成的候选框投影到第一步得到相应的特征矩阵
然后将每个特征矩阵通过ROI Pooling层缩放到固定的 $7\times7$ 大小的特征图，最后将特征图flatten后经过一系列全连接层得到分类和回归的结果。

2. RNP

【深度学习】卷积神经网络应用之双阶段目标检测｜R-CNN、SPP-Net、Fast-RCNN、Faster-RCNN_第14张图片

1.网络结构
RNP网络具体结构如下：

向RNP网络输入图片Conv5的 $13\times13\times256$ 的特征图，依次经过 $3\times3\times256$ 的卷积核和 $1\times 1\times256$ 的卷积核和ReLu激活函数，得到 $3\times3\times256$ 的特征矩阵。
将得到的特征矩阵并联输入到两个分支中，第一个分支 $\ layer$ 用2k个 $1\times 1\times256$ 卷积核进行卷积，输出2k个数，表示某个区域有没有物体的分数。
第二个分支 $\ layer$ 用4k个 $1\times 1\times256$ 卷积核进行卷积，最后输出4k个数，表示x,y,w,h的偏移量。

2.Anchor
Anchor box为图像中的参考框，对应网络结构中的k，一般来说k=9，分别包括了3个尺度和3个长宽的ratio的组合。

3个尺度：[128,256,512]
3个ratio：1:1，1:2，2:1
RPN网络在输入特征图后进行 $\times 3$ 的卷积，特征图位置和原图像之间有对应关系，这里Anchor box参考框的中心就是卷积核的中心，在conv5层上每卷积一次就会自动对应9个Anchor box，这样拟合的边界框偏移量就是Anchor box的偏移量。

3.Loss Function
$L(\{p_i\},\{t_i\})=\frac{1}{N_{cls}\sum_{i}L_{cls}(p_i,p_i^*) }+\lambda \frac{1}{N_{reg}\sum_{i}p_i^*L_{reg}(t_i,t_i^*) }$

$p_i$ 为第i个anchor预测为真实标签的概率

$p_i^*$ 为正样本时为1，负样本为零（作用类似于Faster RCNN中艾佛森括号）

$t_i$ 表示预测第i个Anchor box的边界框回归参数

$t_i^*$ 表示第i个Anchor box对应的GT Box

$N_{cls}$ 表示一个mini-batch中所有样本的数量

$N_{reg}$ 表示Anchor box位置个数

第一部分为分类损失，若使用多类别的Softmax交叉熵损失，由于分类类别只有背景和前景，因此对于k个Anchor box就有2k个值。若使用的是二分类的交叉熵损失，对于每个Anchor box只计算一个概率，对于k个Anchor box就有k个值。

第二部分为边界框回归损失，形式和Faster RCNN类似。

4.RPN Loss和Fast RCNN Loss联合训练
具体步骤如下：

训练RPN网络
使用Image Net预训练分类模型初始化卷积层参数；
训练Fast RCNN网络
使用Image Net预训练分类模型初始化卷积层参数；Region proposals由步骤1的RPN生成
调优RPN
使用Fast RCNN卷积层参数对其进行初始化；
固定卷积层，finetune剩余层
调优Fast RCNN
固定卷积层，finetune剩余层；Region proposals由步骤3的RPN生成。

参考文章

RCNN- 将CNN引入目标检测的开山之作
在Rcnn中为什么使用IoU非极大值抑制?

目标检测（3）-SPPNet

fast rcnn 论文解读（附代码链接）
Fast R-CNN

RCNN系列（R-CNN、Fast-RCNN、Faster-RCNN、Mask-RCNN）
RCNN、Fast-RCNN、Faster-RCNN的算法步骤以及其中的难点
一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
快速的区域卷积网络方法（Fast R-CNN）

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
python——struct模块稚与 Python python 数据分析
文章目录structmodule简介常用函数常见format解析MINSTstructmodule最近在学CNN，想找一个合适的数据集，就想到了MINST。但是官网中挂出的文件是train-images-idx3-ubyte.gz等解压后为idx3-ubyte后缀文件。后缀名中idx3表示3维的数据。简介struct模块用于二进制和常用数据类型之间的互相转化，此模块中大部分函数接受一个实现了Buf
街道垃圾识别难？陌讯视觉算法实测准确率突破95% 2501_92487900 算法边缘计算目标检测视觉检测计算机视觉
开篇痛点：街道垃圾识别的技术挑战在智慧城市和环保监管场景中，街道垃圾的实时检测一直是个难题。传统视觉算法（如YOLOv5、FasterR-CNN）在复杂街道场景下表现不佳，主要面临以下问题：光照干扰：早晚光线变化导致误检（如阴影被识别为垃圾）小目标漏检：饮料瓶、烟头等小物体在640x640输入下仅占10x10像素遮挡问题：垃圾桶周边堆积物造成特征混淆某环保科技公司实测数据显示，开源模型在真实场景中
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

【深度学习】卷积神经网络应用之双阶段目标检测｜R-CNN、SPP-Net、Fast-RCNN、Faster-RCNN

文章目录

基本概念

一、R-CNN

1. 网络结构

2. 训练流程

3. 测试阶段

4. RNN存在的问题

二、SPP-Net

1. 网络结构

2. 基础知识

共享卷积计算

金字塔池化 Spatial Pyramid Pooling

3. 训练流程

4. 测试流程

5. 存在问题

三、 Fast R-CNN

1. 网络结构

2. 基础知识

感兴趣区域池化层 (ROI pooling)

多任务损失(Multi-task loss)

3.训练&测试流程

四、Faster R-CNN

1. 网络结构

2. RNP

参考文章

你可能感兴趣的:(深度学习,目标检测,深度学习,cnn)