天青如水

（三）目标检测之 R-CNN系列

目标检测之 R-CNN系列

- 前言
- R-CNN系列
- - 一、[R-CNN](https://arxiv.org/abs/1311.2524)
  - 二、 [Fast R-CNN](https://arxiv.org/abs/1504.08083)
  - 三、[Faster R-CNN](https://arxiv.org/abs/1506.01497)
  - 四、 [Mask R-CNN](https://arxiv.org/abs/1703.06870)
  - FPN
  - 参考资料

前言

目标检测：找出图像中所有感兴趣的物体，包含物体定位和物体分类两个子任务，即同时确定物体的类别和位置。

目标检测的三个著名的数据集是PASCAL VOC，ImageNet和微软COCO。 PASCAL VOC包含20个物体的类别，而ImageNet包含一千多种物体类别， COCO有80个物体类别和150万个物体实例。

算法基本流程：

候选框：这一步是为了对目标的位置进行定位。由于目标可能出现在图像的任何位置，而且目标的大小、长宽比例也不确定，所以最初采用滑动窗口的策略对整幅图像进行遍历，而且需要设置不同的尺度，不同的长宽比。这种穷举的策略虽然包含了目标所有可能出现的位置，但是缺点也是显而易见的：时间复杂度太高，产生冗余窗口太多，这也严重影响后续特征提取和分类的速度和性能。
$特征提取=\left\{ \begin{aligned} &底层特征：颜色、纹理、形状\\ &中层特征：PCA、LDA\\ &高层特征：对底层和中层特征进一步挖掘、表示 \end{aligned} \right.$
分类器：根据提取到的特征对目标进行分类，分类器主要有 SVM，AdaBoost 等
NMS：非极大值抑制，计算置信度，进行候选框的合并、过滤，寻找最佳物体检测位置

传统算法的缺点：一个是基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余；二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。

基于深度学习的目标检测算法主要分为两类：

1.Two stage目标检测算法

先进行区域生成（region proposal，一个有可能包含待检物体的预选框），再通过卷积神经网络进行样本分类。

任务：特征提取—>生成RP—>分类/定位回归。

常见的two stage目标检测算法有：R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN和R-FCN等。

2.One stage目标检测算法

不用RP，直接在网络中提取特征来预测物体分类和位置。

任务：特征提取—>分类/定位回归。

常见的one stage目标检测算法有：OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD和RetinaNet等。

R-CNN系列

RCNN 解决的是，“为什么不用CNN做detection呢？”
Fast-RCNN 解决的是，“为什么不一起输出bounding box和label呢？”
Faster-RCNN 解决的是，“为什么还要用selective search呢？”

一、R-CNN

创新点：
(1) 使用CNN对候选区域进行特征提取，从经验驱动特征（SIFT、HOG）到数据驱动特征（CNN feature map），提高特征对样本的表示能力。
(2) 采用大样本下（ILSVRC）有监督预训练和小样本（PASCAL）微调（fine-tuning）的方法解决小样本难以训练甚至过拟合等问题。

因为CNN在图像分类任务中的表现很好，可以自动学习特征，一个自然的想法就是让CNN对每个候选区域进行特征提取。于是R-CNN在Selective Search得到的候选区域的基础上，将每个候选区域缩放到一个固定的大小，并且作为AlexNet（ImageNet 2012图像分类竞赛的冠军）的输入，依次对这些区域进行特征提取，然后再使用SVM对各个区域的特征分别进行分类。

步骤解释：
(1) 输入图像
(2) 利用selective search算法在图像中提取2000个左右的region proposal（候选区）
(3) 将每个region proposal缩放（warp）成227×227的大小并输入到CNN，将CNN的fc7层的输出作为特征
(4) 将每个region proposal提取到的CNN特征输入到SVM，对对象和背景进行分类

训练流程：

预训练模型。选择一个预训练（pre-trained）神经网络（如AlexNet、VGG）
重新训练全连接层。使用需要检测的目标重新训练（re-train）最后的全连接层（connected layer）
提取 proposals并计算CNN 特征。利用选择性搜索（Selective Search）算法提取所有proposals，调整（resize/warp）它们成固定大小，以满足 CNN输入要求（因为全连接层的限制），然后将feature map 保存到本地磁盘
训练SVM。利用feature map 训练SVM来对目标和背景进行分类（每个类一个二分类SVM）
边界框回归（Bounding boxes Regression）。对于SVM分好类的region proposal做边框回归（bounding-box regression)。Slelective Search得到的候选区域并不一定与目标物体的真实边界相吻合，如果region proposal跟目标位置偏移较大，即便是分类正确了，但是由于IoU(region proposal与Ground Truth的窗口的交集比并集的比值)低于0.5，那么相当于目标还是没有检测到。因此R-CNN提出对物体的边界框做进一步的调整，使用线性回归来预测一个候选区域中物体的真实边界。该回归器的输入就是候选区域的特征，而输出是边界框的坐标。

总结
R-CNN的效果很不错，在PASCAL VOC2007上的检测结果从DPM HSC的34.3%直接提升到了66%(mAP)。如此大的提升使我们看到了region proposal+CNN的巨大优势。

R-CNN存在的问题：
(1) 候选区域的生成是一个耗时的过程
(2) 对候选区域特征提取需要在单张图像上使用AlexNet 2000多次
(3) 特征提取、图像分类、边框回归是三个独立的步骤，要分别进行训练，步骤繁琐。
(4) 训练占用磁盘空间大，5000张图像产生几百G的特征文件，处理图像速度慢，使用GPU, VGG16模型处理一张图像需要47s

二、 Fast R-CNN

创新点：

只对整幅图像进行一次特征提取，避免R-CNN中的冗余特征提取
用RoI pooling层替换最后一层的max pooling层
损失函数使用了多任务损失函数(multi-task loss)，将边框回归直接加入到CNN网络中训练，实现了end-to-end的多任务训练（候选框提取除外），也不需要额外的特征存储空间（R-CNN中的特征需要保持到本地，来供SVM和Bounding-box regression进行训练）
采用SVD对Fast R-CNN网络末尾并行的全连接层进行分解，减少计算复杂度，加快检测速度。在实现时，相当于把一个全连接层拆分为两个全连接层，第一个全连接层不含偏置，第二个全连接层含偏置

RoI Pooling层

RoI Pooling 是Pooling层的一种，而且是针对RoI的Pooling，其特点是输入特征图尺寸不固定，但是输出特征图尺寸固定（如7x7）。由于ROI Pooling可接受任意尺寸的输入，warp操作不再需要，这有效避免了物体的形变扭曲，保证了特征信息的真实性。

RoI

RoI是Region of Interest的简写，一般是指图像上的区域框，但这里指的是由Selective Search提取的候选框。

在R-CNN中，一张图像上要使用AlexNet 2000多次来分别得到各个区域的特征，但很多区域都是重合的。为了避免这些重复计算，只在一张图像上使用一次AlexNet，然后再得到不同区域的特征，Fast R-CNN提出了一个方法：
先对输入图像使用一次CNN前向计算，得到整个图像的特征图，再在这个特征图中分别提取各个候选区域的特征。由于候选区域的大小不一样，而对应的特征需要具有固定的大小，因此该方法对各个候选区域分别使用ROI Pooling, 其做法是：
假设第 $i$ 个候选区域ROI的大小为 $h_{i}\times {w_i}$ , 要使输出的大小为 $h\times w$ ,那么就将该区域分成 $h\times w$ 个格子，每一个格子的大小为 $(h_i/h)\times (w_i/w)$ , 然后对每一格子使用max-pooling得到大小为 $h\times w$ 的特征图像。

多任务损失函数
在 R-CNN中特征提取、图像分类、边框回归是三个独立的步骤，要分别进行训练，步骤繁琐。Fast R-CNN把之前独立的三个步骤放到一个统一的网络结构中。该网络结构同时预测一个候选区域的物体类别和该物体的边界框，将这两个任务进行同时训练,变成一个multi-task的模型，实现了特征的共享与速度的进一步提升。

总结
Fast R-CNN 采用了多项创新来提高训练和测试速度，同时提高检测精度。Fast R-CNN 训练VGG16 网络比 R-CNN 快 9 倍，在测试图像上的处理时间比R-CNN快 213 倍，并在 PASCAL VOC 2012 上实现更高的 MAP。与 SPPnet 相比，Fast R-CNN 训练 VGG16 的速度快 3 倍，测试速度快 10 倍，并且更准确。
如果不考虑生成候选区域的时间，可以达到实时检测。生成候选区域的Selective Search算法处理一张图像大概需要2s的时间，因此成为该方法的一个瓶颈。

三、Faster R-CNN

创新点

设计了RPN(Region Proposal Networks)，利用CNN卷积操作后的特征图生成region proposals，代替了Selective Search、EdgeBoxes等方法，速度上提升明显；
训练 RPN与检测网络(Fast R-CNN)共享卷积层，大幅提高网络的检测速度。

上面两种方法都依赖于Selective Search生成候选区域，十分耗时。考虑到CNN如此强大，Faster R-CNN提出使用CNN来得到候选区域（region proposal）。
假设有两个卷积神经网络，一个是区域生成网络，得到图像中的各个候选区域，另一个是候选区域的分类和边框回归网络。这两个网络的前几层都要计算卷积，如果让它们在这几层共享参数，只是在末尾的几层分别实现各自的特定的目标任务，那么对一幅图像只需用这几个共享的卷积层进行一次前向卷积计算，就能同时得到候选区域和各候选区域的类别及边框。

四个损失函数：
　　• RPN calssification(object yes or no)
　　• RPN regression(anchor—>propoasal)
　　• Fast R-CNN classification(over classes)
　　• Fast R-CNN regression(proposal —>box)

Faster RCNN步骤：
(1) 输入图像到卷积网络中，生成特征图像
(2) 在特征图像上应用Region Proposal Network，返回object proposals和相应socres,并采用NMS算法对scores进行筛选将得分高的前 $N$ 个候选框输入ROI pooling层；
(3) 使用Rol pooling，将所有proposals修正到同样尺寸
(4) 将proposals传递到全连接层，对目标进行分类并预测边界框

RPN
候选区域生成网络（Region Proposal Network, RPN）的核心思想是使用卷积神经网络直接产生region proposal，使用的方法本质上就是滑动窗口。RPN的设计比较巧妙，RPN只需在最后的卷积层上滑动一遍，通过anchor机制和边框回归可以得到多尺度、多长宽比的region proposal。滑动窗口的位置提供了物体的大体位置信息，框的回归提供了框更精确的位置。

RPN网络首先经过3x3卷积，然后分为2条线，上面一条通过softmax分类anchors获得positive和negative分类，下面一条用于计算对于anchors的bounding box regression偏移量，以获得精确的proposal。而最后的Proposal层则负责综合positive anchors和对应bounding box regression偏移量获取proposals，同时剔除太小和超出边界的proposals。其实整个网络到了Proposal Layer这里，就完成了相当于目标定位的功能。而Roi Pooling层则利用proposals从feature maps中提取proposal feature送入后续全连接层和softmax网络作classification（即分类proposal到底是什么object）

Anchor

一张图片里面有远近、大小、尺度的不同，对于目标检测任务的准确度至关重要，于是我们引入了一个 Anchor 的概念。

Anchor boxes是固定尺寸的边界框，它们有不同的形状和大小。对每个anchor，RPN都会预测两点：
（1）anchor就是目标物体的概率（不考虑类别）
（2）anchor经过调整能更合适目标物体的边界框回归量
RPN网络用于生成region proposals。该层通过softmax判断anchors属于positive或者negative，再利用bounding box regression修正anchors获得精确的proposals。

从上图可以知道现有的三种解决尺度不同的办法：缩放图片、多尺度卷积核以及 Anchor 方法。

生成多种尺寸的图片势必会增加大量的训练量，训练时间扩展到原来的三倍；多尺寸卷积核势必会增多参数量，从而减缓训练而预测速度。那么前两种方法不可取，只有最后一种 Anchor 方法——不增加额外的参数量，在每个滑窗里面采集不同尺寸 Anchor 视野的特征。

以 $3\times 3$ 卷积为例，我们在卷积神经网络最后一个卷积层输出的 feature maps 进行滑窗，每滑窗一次就在视野中获取 k 个尺寸的特征，在本文中使用了 3 种大小（128,256,512）和 3 种长宽比（1:1,1:2,2:1），共 9 种尺寸的 Anchor 。

对于一张卷积过后尺寸为 $W\times H$ 的 feature map 而言，约有 $W H k$ 个 anchors，我们将这些 anchors 的 256d 特征再分别通过两个 1x1 卷积层，最后分别塞入 softmax 和 Bbox Reg 层。

其中，每个 anchor 送入 softmax 层会得到两个分数（概率），分别是前景的概率和背景的概率；每个 anchor 还会生成 4 个数，代表着 anchor 的平移和缩放参数。

使用RPN得到候选区域后，对候选区域的分类和边框回归仍然使用Fast R-CNN。这两个网络使用共同的卷积层。由于Fast R-CNN的训练过程中需要使用固定的候选区域生成方法，不能同时对RPN和Fast R-CNN使用反向传播算法进行训练。论文中作者描述了交替训练、近似联合训练和联合训练三种方法。

交替训练
(1) 训练 RPN 网络，采用 ImageNet 预训练的模型进行初始化，并进行微调
(2) 利用 (1) 的RPN生成 proposal，由 Fast R-CNN 训练一个单独的检测网络，该网络同样由ImageNet预训练模型进行初始化。此时，两个网络还未共享卷积层
(3) 用检测网络初始化 RPN 训练，固定共享的卷积层，只微调 RPN 独有的层，现在两个网络实现了卷积层共享
(4) 保持共享的卷积层固定，微调 Fast R-CNN 的 fc 层。这样，两个网络共享相同的卷积层，构成一个统一的网络

总结
Faster R-CNN的精度和Fast R-CNN差不多，但是训练时间和测试时间都缩短了10倍。

上述讨论过的所有对象检测算法都使用区域来识别对象，且网络不会一次查看完整图像，而是按顺序关注图像的某些部分，这样会带来两个复杂性的问题：

该算法需要让单张图像经过多个步骤才能提取出所有目标
由于不是端到端的算法，多个步骤嵌套，整体系统的性能取决于前面步骤的表现水平

四、 Mask R-CNN

Mask R-CNN有哪些创新点？

RoI Align替换RoI Pooling，解决了mask的偏移问题。同时对检测性能也有提升
mask：每类单独产生一个mask，依靠class分支获取类别标签。将掩模预测和分类预测拆解，没有引入类间竞争，从而大幅提高了性能。

Mask R-CNN是一个实例分割（Instance segmentation）算法，通过在Faster R-CNN基础上添加了一个用于预测目标掩模的新分支(mask branch)，在没有增加太多计算量，且没有使用各种trick的前提下，在COCO的一系列挑战任务中都取得了领先的结果。

Mask R-CNN算法步骤

输入一幅图片，然后进行对应的预处理操作；
将其输入到一个预训练好的神经网络中（ResNeXt等）获得对应的feature map；
对这个feature map中的每一点设定预定个的RoI，从而获得多个候选RoI；
将这些候选的RoI送入RPN网络进行二值分类（前景或背景）和边框回归，过滤掉一部分候选的RoI；
对这些剩下的RoI进行RoI Align操作（即先将原图和feature map的pixel对应起来，然后将feature map和固定的feature对应起来）；
对这些RoI进行分类（N类别分类）、BB回归和MASK生成（在每一个RoI里面进行FCN操作）。

ROI Align
在 Mask R-CNN 中提出了ROI Align，实践发现ROI Align 比ROI Pooling 的效果要好。

ROI Pooling: $x = [x / S] + 1$
ROI Align: $x = x / S$

前者使用 [] 对结果进行了取整，损失了小数点，而后者保留了小数点。卷积后 feature map 的 1 个点代表着原图的 $S$ 个点。以 $S = 16$ 为例，假设目标框 $x = 600$ ，转换到卷积后就是 $600 / 16 = 37.5$ ，卷积后 feature map 差 0.5 意味着原图差 8。

从数字上理解，ROI Align 保留了更多的信息，减少了卷积前和卷积后的位置误差，允许了 pixel-to-piexl 的训练和预测。

操作
取消量化操作，使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值，从而将整个特征聚集过程转化为一个连续的操作。在具体的算法操作上，RoI Align并不是简单地补充出候选区域边界上的坐标点，然后将这些坐标点进行池化，而是重新设计了一套比较优雅的流程，如下图所示：

遍历每一个候选区域，保持浮点数边界不做量化。
将候选区域分割成 $k\times k$ 个单元，每个单元的边界也不做量化。
在每个单元中计算固定四个坐标位置，用双线性内插的方法计算出这四个位置的值，然后进行最大池化操作。

FPN

特征图金字塔网络FPN（Feature Pyramid Networks）是2017年提出的一种网络，FPN主要解决的是物体检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小物体（small object）检测的性能。

创新点

多层特征
特征融合

在物体检测里面，有限计算量情况下，网络的深度（对应到感受野）与 stride 通常是一对矛盾的东西，常用的网络结构对应的 stride 一般会比较大（如 32），而图像中的小物体甚至会小于 stride 的大小，造成的结果就是小物体的检测性能急剧下降。

传统解决这个问题的思路包括：

图像金字塔（image pyramid），即多尺度训练和测试。但该方法计算量大，耗时较久。
特征分层，即每层分别预测对应的scale分辨率的检测结果，如SSD算法。该方法强行让不同层学习同样的语义信息，但实际上不同深度对应于不同层次的语义特征，浅层网络分辨率高，学到更多是细节特征，深层网络分辨率低，学到更多是语义特征。

FPN算法主要由三个模块组成，分别是：

自底向上，骨干网络，以卷积和降采样的方式提取特征
自顶向下，上采样深层粗粒度特征，提高深层特征的分辨率
横向连接，采用1×1的卷积核进行连接（减少特征图数量），融合浅层特征和深层特征

Faster R-CNN with FPN

作者实验了将 FPN 应用在 Faster RCNN 上的性能，在 COCO 上达到了 state-of-the-art 的单模型精度。在RPN上，FPN增加了8.0个点的平均召回率（average recall，AR）；在后面目标检测上，对于COCO数据集，FPN增加了2.3个点的平均精确率（average precision，AP），对于VOC数据集，FPN增加了3.8个点的AP。

参考资料

一文读懂Faster RCNN
图像目标检测技术进展
目标检测
一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
目标检测：Mask R-CNN 论文阅读
Feature Pyramid Networks for Object Detection 总结
RPN 解析
高分辨率遥感图像目标检测和场景分类研究进展
常见特征金字塔网络FPN及变体

Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
AI 图像编辑提示词参考之：背景替换
在AI图像编辑中（以FluxKontext为例），“替换背景”（BackgroundReplacement）是提升图像表现力的关键手段之一。但背景更换不仅仅是简单的视觉置换，更重要的是：确保人物主体外观不变，并与新背景在色温、色调、光影等方面自然融合。只有这样，最终图像才会呈现出“原本拍摄于该背景环境”的真实感。建议使用以下结构组织提示词：Replacethebackgroundwith[新背景]
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
模型训练与部署注意事项篇---resize Atticus-Orion 图像处理篇深度学习篇模型训练与部署注意事项篇深度学习计算机视觉人工智能
图像大小的影响在YOLOv系列模型的训练和推理部署过程中，图像大小的选择是影响模型性能（精度、速度、泛化能力）的关键因素之一。两者的关系既相互关联，又存在一定的灵活性，具体可从以下几个方面详细分析：一、核心关系：训练与推理图像大小的“基准一致性”YOLOv模型（如YOLOv5、v7、v8等）的训练和推理图像大小通常以**“基准尺寸”**为核心关联，即训练时设定的图像尺寸会作为模型设计的基础，而推理
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
NVIDIA 系列之使用生成式 AI 增强 ROS2 机器人技术：使用 BLIP 和 Isaac Sim 进行实时图像字幕制作知识大胖 NVIDIA GPU和大语言模型开发教程人工智能机器人
简介在快速发展的机器人领域，集成先进的AI模型可以显著增强机器人系统的功能。在本博客中，我们将探讨如何在ROS2（机器人操作系统2）环境中利用BLIP（引导语言图像预训练）模型进行实时图像字幕制作，并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点，该节点订阅摄像头源、应用BLIP模型进行图像字幕制作，并实时显示结果。这种集成展示了生成式AI在增强人机交互方面的强大功能
卫星分析系列之使用卫星图像量化野火烧毁面积在 Google Colab 中使用 Python 使用 Sentinel-2 图像确定森林火灾烧毁面积知识大胖 NVIDIA GPU和大语言模型开发教程 python sentinel 开发语言
简介几年前，当大多数气候模型预测如果我们不采取必要措施，洪水、热浪和野火将会发生更多时，我没想到这些不寻常的灾难现象会成为常见事件。其中，野火每年摧毁大量森林面积。如果你搜索不同地方的重大野火表格，你会发现令人震惊的统计数据，显示由于野火，地球上有多少森林面积正在消失。在本教程中，我将结合我已经发表过的关于下载、处理卫星图像和可视化野火的故事，量化加州发生的其中一场重大野火的烧毁面积。与之前的帖子
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
Android 图像处理 - Bitmap 图像处理观察记录（基本图像复制、带目录创建的图像复制、字节流处理的图像复制、并发图像复制、单线程池顺序图像复制）
Bitmap图像处理观察记录1、基本图像复制从应用内部存储目录读取test.png使用BitmapFactory解码为Bitmap对象将Bitmap重新压缩保存为newTest.png操作成功，compress返回trueFilefile=newFile(getFilesDir(),"test.png");StringabsolutePath=file.getAbsolutePath();Bitm
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
OpenCV图像数据处理:convertTo,normalize和scaleAdd luofeiju OpenCV函数实战 opencv
在OpenCV图像处理的世界里，有几个函数进行一些基本数据变换：cv::convertTo()：类型转换与线性缩放；cv::normalize()：归一化处理；cv::scaleAdd()：加权叠加运算。cv::addWeighted():与scaleAdd相似，进行加权叠加运算；一、cv::convertTo()：线性变换+数据类型转换voidcv::Mat::convertTo(OutputA
Gradio全解系列7——Additional Features：补充特性（上）龙焰智能 Gradio全解教程人工智能 gradio 补充特性队列输入输出流提示及进度条批处理函数
Gradio全解7——AdditionalFeatures：补充特性（上）前言第7章AdditionalFeatures：补充特性7.1队列7.1.1使用方法7.1.2配置队列演示7.2输入输出流7.2.1输出流1.生成器yield2.流媒体7.2.2输入流1.流事件2.图像滤镜7.2.3统一的输入输出流7.2.4跟踪过去的输入或输出7.3提示及进度条7.3.1提示7.3.2进度条7.4批处理函数
【前端】异步任务风控验证与轮询机制技术方案（通用笔记版）
一、背景场景在某类生成任务中，例如用户点击“执行任务”按钮后触发一个较耗时的后端操作（如生成报告、渲染图像、转码视频等），由于其调用了模型、渲染服务或需要较长处理时间，为了防止接口被频繁恶意调用，系统需要加入风控验证机制。此外，因任务处理为异步，前端无法立即获得最终结果，因此需通过轮询方式定期查询任务状态，等待任务完成后展示结果。二、整体流程说明1.用户点击“执行任务”按钮：前端调用风控接口/ap
如何将 GIF 图片从 iPhone 传输到Mac ？ Coolmuster iOS 苹果手机 iPhone iphone macos ios
随着iOS系统的不断更新，现在我们已经迎来了iOS18，它为我们带来了更多的功能和改进。在iOS10中，保存的GIF图像会转换成静态图片，但自iOS11起，用户可以在iPhone和iPad上以原始格式保存GIF。若您希望备份这些生动有趣的GIF照片，将它们从iPhone传输到Mac是一个不错的选择。本文将向您展示几种将GIF图像备份到Mac计算机的有效方法。尽管Mac无法直接播放GIF，但本文还会
Matplotlib-图像处理与可视化
Matplotlib-图像处理与可视化一、图像数据的本质：从数组到像素二、基础操作：加载与显示图像1.加载图像数据2.显示单张图像3.显示灰度图像三、进阶可视化：通道分离与色彩调整1.分离RGB通道2.调整亮度与对比度四、实用技巧：色彩映射与像素值分析1.自定义色彩映射（Colormap）2.像素值分布直方图五、多图对比与标注：算法结果可视化1.边缘检测结果对比2.图像标注：突出感兴趣区域六、注意
（一）OpenCV——噪声去除（降噪）
高斯滤波器（针对高斯噪声）高斯噪声是指它的概率密度函数服从高斯分布（即正态分布）的一类噪声。常见的高斯噪声包括起伏噪声、宇宙噪声、热噪声和散粒噪声等等。高斯滤波(Gaussianfilter)包含许多种，包括低通、带通和高通等，我们通常图像上说的高斯滤波，指的是高斯模糊(GaussianBlur)，是一种高斯低通滤波，其过滤调图像高频成分（图像细节部分），保留图像低频成分（图像平滑区域），所以对图
MATLAB实现快速非局部均值图像去噪方法一只爪子
本文还有配套的精品资源，点击获取简介：非局部均值滤波是一种先进的图像去噪技术，与传统方法相比，它利用图像的全局信息来去除噪声，同时保持图像细节。该算法通过搜索和利用整个图像中相似的像素块，对每个像素点进行去噪处理。本文提供的MATLAB代码FAST_NLM_II.m实现此算法，并包含必要的参数设置、相似性计算、加权平均和图像更新步骤。了解并应用此代码是学习和进一步改进非局部均值滤波技术的基础。1.
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
前端开发常见问题
技术文章大纲性能优化问题页面加载速度慢的常见原因及解决方案渲染阻塞资源的处理方法图片与媒体文件优化策略懒加载与代码分割的实现方式浏览器兼容性问题不同浏览器对CSS特性的支持差异JavaScriptAPI的兼容性处理方案Polyfill的使用场景与实现方法自动化测试工具在兼容性测试中的应用响应式设计挑战移动端与桌面端布局适配问题媒体查询的最佳实践方案视口单位与相对单位的正确使用高DPI屏幕的图像处理
AI Agent 2025 大爆发：从 GPT-4o 到 Devin，下一代 Agent 架构与落地趋势深度解析
当大模型学会“看”“听”“点鼠标”，并且还能叫来一整个“Agent舰队”协同工作，软件开发、运营乃至个人生产力的游戏规则正在被重写。1|为什么Agent在2025重新引爆？模型升级带来实时多模态OpenAIGPT-4o把文本、语音、图像三路感知和毫秒级响应塞进同一模型，实时demo像“科幻电影走出屏幕”OpenAI。浏览器级自动操作新上线的OperatorAgent能在Web页面自主点击、滚动、填
虚拟视频器：为QQ等通讯软件添加创意功能 TEDDYYW
本文还有配套的精品资源，点击获取简介：虚拟视频技术提供了一种模拟摄像头的新方法，使得用户能创建虚拟的视频源，用于在线视频通话中展示预定内容而非真实画面。该软件支持QQ、MSN等主流通讯工具，使用户能控制和自定义视频通话的呈现方式。通过使用虚拟视频器，用户可以在各种场景下（如在线演示、隐私保护、教育培训和艺术创作）展示静态图像、预录制视频或实时视觉效果，增强视频通信的个性化和灵活性。1.虚拟视频技术
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多