Code_Mart

[论文笔记] R-CNN系列论文笔记

在R-CNN之前的传统方法都是利用滑动窗口提取大量可能存在 object 的 window，将 detection 变成了 classification。当然，这类方法的弊端也十分明显：由于需要提取大量 sub-window 且尽可能覆盖任意 object，需要提前设置大量不同 size 的 sliding window，接着在图像上不断的滑动，并输入到分类器中，所需时间太长；而且为了避免时间过长，往往分类器设置的较为简单，以减少计算时间，这也导致其 mAP 并不会很高。
R-CNN系列模型都属于two-stage，先用启发式算法提取Region Proposal，再用CNN提取特征进行分类与回归

R-CNN 的核心是利用启发式算法 Selective Search 提取 Region Proposal，避免提取大量无用的 sub-window

Fast R-CNN 的核心是先提取特征，在提取 Region Proposal

Faster R-CNN 的核心是不再使用启发式算法提取Region Proposal，而是利用神经网络（Region Proposal Network, RPN）进行提取，演变成 end-to-end model。

1. R-CNN

论文题目：Rich feature hierarchies for accurate object detection and semantic segmentation
论文作者：Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik
所属机构：UC Berkeley
论文链接：https://arxiv.org/pdf/1311.2524.pdf

(1) 摘要：

2013年，RBG 使用 Region Proposal + CNN + SVM （也就是 R-CNN 框架）代替传统目标检测使用的滑动窗口+手工设计特征，效果惊人：‘improves mean average precision (mAP) by more than 30% relative to the previous best result on VOC 2012—achieving a mAP of 53.3%’ 。

(2) 模型结构：

首先，模型利用 Selective Search 算法在输入图像上提取 2k 个左右的 Region Proposal。
接着，将每个Region Proposal 缩放（原文中为 warp）成统一大小（227 x 227），并将其输入到作者所构建的CNN 网络中，以此提取每个 Region Proposal 的特征。
最后，将所提取到的特征输入到 SVM 中，以此判断每个 Region Proposal 的类别。
此外，作者还应用了 Bouding-box regression，以此微调每个 Region Proposal 的位置参数，作者将加上这一部分后的总体框架称为 R-CNN BB。

以上是整篇文章的主要思路，现在我们来研究一下细节之处：

关于 Selective Search 算法：

作者在文章里说过了：SS 算法与 R-CNN 并无太大关系，这一部分是可以用其他候选区域搜索算法替代的(‘While R-CNN is agnostic to the particular region proposal method, we use selective search to enable a controlled comparison with prior detection work (e.g., [39, 41])’)。

关于 Warp Region Proposal :

虽然 Conv layer 和 Pooling layer 对输入图像的大小并无要求，但是论文中的网络框架包含 FC layer,所以该网络对输入图像的大小有所要求。作者在论文中指出：在直接对Region Proposal 进行 resize 之前，会将该候选区域的边界扩展 p 个像素（文中指出，p=16）(Prior to warping, we dilate the tight bounding box so that at the warped size there are exactly p pixels of warped image context around the original box (we use p = 16))。

关于 CNN ：

论文中所用到的 CNN 网络实现为 ‘using the Caffe [24] implementation of the CNN described by Krizhevsky et al.[25]’，该网络将从候选区域中提取 4096 维的特征向量。

为确定以 CNN 中的哪一层输出作为所提取特征，作者做了实验：

最后，作者以 CNN 的 fc7 层的输出作为所提取特征进行输出。

论文一共提及了两个 CNN 框架实现：‘Krizhevsky et al.’s architecture (T-Net). Rows three and four use the recently proposed 16-layer architecture from Simonyan and Zisserman (O-Net) [43]’，测试结果如下：

关于 SVM：

作者训练 N +1个（N为所要识别物体的类别总数，额外的1代表‘背景’这一类别）SVM分类器（二分类），每个类别对应一个SVM，判断是不是属于这个类别，如果是这个对应的类别，即认为 Positive，反之，认为 Negative。

看到这里大部分人应该会有个疑问，为什么要费这么大劲去训练这么多个 SVM 而不是直接在 CNN 后面接一个softmax layer呢？作者在附录B作出了相关的解释，并且还解释了为何 fine-tuning CNN和 train SVM 时，对 Positive 和 Negative 的定义不一样（fine-tuning CNN时，Region Proposal 与 ground-truth instance 的 IOU 大于等于0.5，才被认为是 Positive，其余的为 Negative；train SVM 时，只将 ground-truth instance 作为 Positive， ground-truth instance 的 IOU 小于0.3的 Region Proposal 被认为是 Negative，剩余的 Region Proposal 将被忽略）。

关于 NMS：

论文中有使用非极大值抑制（NMS， non-maximum suppression），即：若同类别的两个候选区域的交并比（IOU，intersection-over-union）超过某个阈值（作者指出经过验证集的验证后，阈值集合{0,0.1,…,0.5}中，该阈值最好取0.3；若该阈值取到0.5，则 mAP 下降5%；若该阈值取到0，则mAP下降4%），则只保留置信度大的候选区域。

关于 Bouding-box regression：

作者在文中指出：‘Inspired by the bounding-box regression employed in DPM [17], we train a linear regression model to predict a new detection window given the pool5 features for a selective search region proposal. Full details are given in Appendix C’，注意，此处的输入为pool5层的特征。

作者指出，这一结构使得 mAP 提高了3~4%。这样一来，该模型即包含 Classification，又包含 Regression。

(3) 实验结果：

(4) 总结：

R-CNN： 输入图像 $\to$ 通过 Selective Search 得到2000个左右的 Region Proposal $\to$ 每个 Region Proposal 都缩放至 227 x 227，输入进 CNN 中，提取 4096 维的特征向量 $\to$ 将特征向量输入到各个类别的 SVM 中，进行分类识别，同时采用 non-maximum suppression 减少候选区域个数，提高精度 $\to$ 提取 CNN pool5 层的特征，输入到 bounding-box regression 中，对 Region Proposal 的位置参数进行微调

优点：

准确率提高：
采用了 Region Proposal + CNN + SVM 的框架，与传统框架相比，准确率提高了很多
耗时减少：
相较于其他方法，所需要训练的参数较少；由于采用了 Selective Search，不需要像传统方法一那样去进行穷举，检测速度大幅提升。

有待改进之处：

冗余计算：
虽然采用了 Selective Search ，但是 Selective Search 算法所提取的 Region Proposal多达2000个，每个候选区域都要输入到CNN中，这无疑是非常耗时和重复的，论文中提到：‘13s/image on a GPU or 53s/image on a CPU’。
变形失真：
由于论文中对每个 Region Proposal 进行了 warp，这使得图像失真，自然影响模型的检测精度。
不支持端到端的训练：
候选区域的提取、CNN和分类器以及回归器的训练都是独立分开的，过
程十分复杂；这也导致训练机器的磁盘压力大，因为在训练的每个过程中都需要单独把中间量保存下来。

2. SPP-Net

论文题目：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
论文作者：Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun
所属机构：Microsoft Research
论文链接：https://arxiv.org/pdf/1406.4729.pdf

(1) 摘要：

2014年，Kaiming He 受到 SPM（Spatial Pyramid Matching）的启发，提出了 SPP layer（Spatial Pyramid Pooling Layer）这一结构，使得应用这一结构的网络（一般称为 SPP-Net）可以对任意大小的图片提取固定长度的特征。

作者指出，这一结构可以应用到 object detection 中基于 Region Proposal 的模型上，从而避免对每个候选区域提取一次特征这一重复的工作，以此大幅缩短所需时间。此外，作者提到， SPP-Net 的速度是 R-CNN 的24~102倍，且在 Pascal VOC 2007 的准确率也高于 R-CNN。

笔记：

SPM 的提出是受到了 BoW （Bag-of-Words）的启发，这两者应该算是传统模型框架了吧，都是在CNN 引起广泛关注前，大家所关注的热门模型。作者在文中也指出，这篇论文所提出的 SPP 可以看作是BoW model 的扩展：’ as an extension of the Bag-of-Words (BoW) model’。

(2) 模型结构：

对于任意大小的 feature map，SPP layer 分别将其划分为 $4 * 4, 2 * 2, 1 * 1$ 的 local spatial bins，然后在这些 local spatial bins 上进行 pooling 操作（论文采用的是 max pooling），分别得到 16 维，4 维，1 维的向量（图中的之所以为 $16 * 256, 4 * 256, 1 * 256$ 是因为所输入的 feature map 有 256 个channel ）。

(3) 实验结果：

(4) 总结：

这篇论文所提出的 SPP layer 解决了 CNN 因 FC layer 所引起的固定输入问题，至此，CNN 得以接受任意大小的输入，且输出固定 size 的输出。

3. Fast R-CNN

论文题目：Fast R-CNN
论文作者：Ross Girshick
所属机构：Microsoft Research
论文链接：https://arxiv.org/pdf/1504.08083.pdf

(1) 摘要：

2015年，在受到 SPP-Net 的启发下，rbg 对 R-CNN 做出了一系列的改进，提出了新的框架，称为：Fast R-CNN。作者指出，Fast R-CNN 训练速度是 R-CNN 的9倍，测试速度是 R-CNN 的213倍（CNN 结构为VGG16）；跟 SPP-Net 相比，fast R-CNN 的训练速度是其的3倍，测试速度是其的10倍（CNN 结构为 VGG16），且准确率更高。

其中，rbg 做出的改进如下：

提出 RoI pooling layer，所有候选区域共享图像所提取的特征
分类器与 Bouding-box regressor 嵌入到神经网络中一起训练，且分类器由SVM 改为 linear + softmax

(2) 模型结构：

首先，利用 Selective Search 提取固定数量的RoI，训练时的方式为：‘first by sampling N images and then by sampling R/N RoIs from each image’（作者指出，N=2，R=128的训练方式比从128张不同图片各提取一个RoI的训练方式快64倍）。
接着，将图像输入到CNN中得到 feature map，将 RoI 映射到 feature map 上，并对映射区域进行 RoI pooling，将得到的 RoI feature map 输入到 FC layer，以此得到固定大小的特征向量。
最后，将特征向量分别输入到 Classifier 和 Bounding box regressor，得到所判定的类别与精确的区域位置。

关于 RoI pooling layer：

作者采用 max pooling 去进行 RoI pooling ：先将 RoI 映射到 feature map 上（也就是将各个坐标按照RoI与feature map 的大小之比进行同比映射即可），此时 RoI feature map 表示为 $(r, c, h, w)$ （其中， $(r, c)$ 为 RoI 的左上角坐标， $h, w$ 为 RoI 的高度与宽度）。接着，将大小为 $h * w$ 的 RoI feature map划分为 $H * W$ 个sub-windows（论文指出， $H * W = 7 * 7$ ），每个 sub-windows 大小为 $h / H * w / W$ ，对每个 sub-window 进行 max pooling 就可以得到大小为 $H * W$ 的 RoI feature map（当然，按照 pooling layer 的定义，需要对原先的 feature map 的每个 channel 进行一次 RoI pooling，最后的 RoI feature map 大小应为 $num\_of\_channel * H * W$ ）。

关于 Multi-task loss：

在 Fast R-CNN 中，作者将 Classifier 和 Regressor 一起训练（‘We use a multi-task loss L on each labeled RoI to jointly train for classification and bounding-box regression’）:
$L(p,u,t^u,v)=L_{cls}(p,u)+\lambda[u\geq1]L_{loc}(t^u,v)$
其中， $L_{cls}(p,u)$ 用于计算分类的 loss， $L_{loc}(t^u,v)$ 用于计算回归的 loss； $L_{cls}(p,u)=-\log p_u$ ， $p_u$ 为正确类别的概率； $v=(v_x,v_y,v_w,v_h)$ ， $t^u=(t^u_x,t^u_y,t^u_w,t^u_h)$ ， $L_{loc}(t^u,v)=\sum_{i\in{x,y,w,h}}^{} {smooth_{L1}(t^u_i-v_i)}$ ； $\lambda$ 用于控制 two task loss 的平衡。
$[u\geq1]= \begin{cases} 1, & \text{if $u\geq1$} \\ 0, & \text{otherwise(即类别为背景时)} \end{cases}$
$smooth_{L1}= \begin{cases} 0.5x^2, & \text{if $|x|<1$} \\ |x|-0.5, & \text{otherwise} \end{cases}$

关于 Truncated SVD：

作者提到，FC层的计算可以使用 Truncated SVD 进行加速：‘In this technique, a layer parameterized by the $u * v$ weight matrix W is approximately factorized as $\approx UΣ_{t}V^{T}$ using SVD’。
其中， $U$ 的大小为 $u * t$ ， $Σ_t$ 的大小为 $t * t$ ， $V^T$ 的大小为 $t * v$ 。这样一来将 $u * v$ 降到了 $t * (u + v + t)$ ， $t$ 远小于 $m i n (u, v)$ 。

(3) 实验结果：

(4) 总结：

Fast R-CNN： 输入图像 $\to$ 利用 Selective Search 得到图像的 RoI （即Region of Interest） $\to$ 通过 CNN 得到图像的 feature map $\to$ 将每个RoI 映射到 feature map 上，并进行 RoI pooling以及输入到FCs中计算，得到固定size 的 RoI feature vector $\to$ Classification（linear+softmax）+ Bouding box regression（linear）

优点：

准确率提高：
对 R-CNN 做了一系列的改进，并做了许多探索工作，使得模型的效果显著提升。
耗时减少：
采用了 RoI Pooling layer，避免了对每个候选区域都用 CNN 提取特征的过程，大幅缩短所需时间。
训练相对简单：
Fast R-CNN 不再像R-CNN那样分为三个state进行训练：先 fine-tuning CNN，接着训练 SVM，最后训练Bouding box regressor，fast R-CNN 训练是 single-stage 的，使用 multi-task loss。这样无疑节省了训练时间，减少了对内存和存储空间的需求。

有待改进之处：

仍然使用 Selective Search 算法提取候选区域，耗时高，且这一部分未嵌入到神经网络中，需要单独进行训练，所以fast R-CNN 严格上说不是end-to-end model，是 two-stage 的。

4. Faster R-CNN

论文题目：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
论文作者：Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun
所属机构：Microsoft Research
论文链接：https://arxiv.org/pdf/1506.01497.pdf

(1) 摘要：

2015年，rbg 和 Kaiming He 在 Fast R-CNN 的基础上，引进了 RPN（Region Proposal Network）以此替换提取Region Proposal 部分的 Selective Search ，推出了新的框架：Faster R-CNN。至此，R-CNN系列模型已经逐步演变为了 end-to-end model。

作者在摘要部分，简单的提了一下 Faster R-CNN 的效果：'For the very deep VGG-16 model [3],our detection system has a frame rate of 5fps (including all steps) on a GPU, while achieving state-of-the-art object detection accuracy on PASCAL VOC 2007, 2012, and MS COCO datasets with only 300 proposals per image. In ILSVRC and COCO 2015 competitions, Faster R-CNN and RPN are the foundations of the 1st-place winning entries in several tracks. ’

(2) 模型结构：

首先，输入 CNN 提取 feature map，将 feature map 输入到 RPN 中，提取出 Region Proposal，接着将 Region Propossal 和 feature map 一同进行 RoI pooling ，将得到固定 size 的特征向量，将这一特征向量分别输入给分类器和回归器，便可以得到结果。

关于 RPN：

关于 Loss Function：

Faster R-CNN = RPN + Fast R-CNN，作者将两拆开来训练，一共有两个损失函数。其中，训练 Fast R-CNN 所用到的损失函数与之前 Fast R-CNN 所提到的一样。

训练 RPN 之前，作者对每个 anchor 做了 binary class label（即该 anchor 是不是个 object）：对于‘与ground-truth box 有最高IOU’的 anchor 和 ‘与任意ground-truth box 的IOU超过0.7‘的anchor，即为 Positive；对于 ’与所有ground-truth box 的IOU低于0.3‘的anchor，即为 Negative。

为训练 RPN，作者对 RPN 这一部分提出了multi-task loss：
$L({p_i},{t_i})=\frac{1}{N_{cls}} \sum_{i}{L_{cls}(p^*_i,p_i)}+\lambda \sum_{i}{p^*_i L_{reg}(t^*_i,t_i)}$

其中，当 anchor 是 positive 的时， $p^*=1$ ，其余时候， $p^*=0$ ； $t^*$ 为positive anchor 的位置参数； $L_{cls}$ 是 classification loss（‘The classification loss $L_{cls}$ is log loss over tow classes(object vs not object)’）； $L_{reg}$ 是 regression loss， $L_{reg}(t^*_i,t_i)=R(t^*_i,t_i)$ ，R 是 robust loss function（smooth L1）。

(3) 实验结果：

(4) 总结：

Faster R-CNN： 输入图像 $\to$ 利用 conv layers 得到图像的 feature map $\to$ 将 feature map 输入 Region Proposal Network 里，从而提取出 Region Proposals $\to$ 将提取出来的 Region Proposals 映射到 feature map 上，并进行 RoI pooling，得到固定 size 的 RoI feature vector $\to$ Classification + Bouding box regression

优点：

实现 end-to-end model：
由 two-stage 的 Fast R-CNN 演变为 end-to-end 的 Faster R-CNN，训练过程变得更简洁优雅，训练时间大幅下降，且节省了许多存储空间。
耗时减少：
由于原先 Fast R-CNN 中 Selective Search 被替换为 RPN，这一结构大幅缩短了原先提取候选区域的过程，也将 Fast R-CNN 的瓶颈就此打破。
准确率提高

有待改进之处：

论文中CNN用的是 VGG，而 GoogLe Net，ResNet，IncRes V2，ResNeXt 都是显著超越 VGG 的特征网络，可以尝试使用不同的 CNN 框架，以得到更好的效果
可以改进RPN，减少所提取候选区域个数，提高提取的准确率

参考资料：

zhangqizky/awesome-object-detection
一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
深度学习RCNN系列详解
RCNN，Fast-RCNN，Faster-RCNN以及YOLO的区别
R-CNN, Fast R-CNN, Faster R-CNN, YOLO — Object Detection Algorithms

如果你看到了这篇文章的最后，并且觉得有帮助的话，麻烦你花几秒钟时间点个赞，或者受累在评论中指出我的错误。谢谢！

作者信息：
知乎：没头脑
LeetCode：Tao Pu
CSDN：Code_Mart
Github：Bojack-want-drink

51-29 CVPR 2024 | BEV-Planner：开环端到端自动驾驶中自车状态是你所需要的一切吗？深圳季连AIgraphX aiXpilot 智驾大模型1 自动驾驶人工智能机器学习智慧城市计算机视觉 AIGC
本论文是南京大学、英伟达最新CVPR2024工作。蛮幸运的，该论文提出了很多思考，证明了很多最优Paper在落地上车方面的无效性。咱们对待新方法能否成为自动驾驶的最佳实践要审慎。论文名称：IsEgoStatusAllYouNeedforOpen-LoopEnd-to-EndAutonomousDriving?论文链接：https://arxiv.org/abs/2312.03031.代码链接：ht
Processing 009 一个复杂点的例子，OOP实现屏幕碰撞小球 SuperCandyXu Processing 笔记
Processing009一个复杂点的例子，OOP实现屏幕碰撞小球1processing中的面向对象编程基本上和java的语法一致，例如classCar{Stringname;intprice;publicCar(Stringname,intprice){this.name=name;this.price=price;}publicvoidprintInfo(){println("name:"+t
opencv 自适应阈值虚假程序设计 opencv 人工智能计算机视觉
需要安装扩展库opencv-contrib-pythonCV_class.pyimportcv2importnumpyasnp#importserialimportos,sysfromdatetimeimportdatetimeimport_threadimportthreadingimporttimeimportwin32ui#只有windows能用.#fromCV_classimport*de
OpenCV开源机器视觉软件视觉人机器视觉杂说 opencv 开源人工智能
OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库，广泛应用于实时图像处理、视频分析、物体检测、人脸识别等领域。它由英特尔实验室于1999年发起，现已成为计算机视觉领域最流行的工具之一，支持多种编程语言（如C++、Python、Java）和操作系统（Windows、Linux、macOS、Android、iOS）。核心功能图像处理基
最新kali之ike-scan Vanony kali top13中文手册 linux debian 安全经验分享
描述：发现和指纹IKE主机（IPsecVPN服务器）。 ike-scan可以发现IKE主机，也可以使用重传退避模式对它们进行指纹识别。 ike-scan做两件事：发现：确定哪些主机正在运行IKE。通过显示那些响应ike-scan发送的IKE请求的主机来完成此操作。指纹识别：确定主机使用的是哪种IKE实现。有几种方法可以做到这一点：（a）退避指纹识别-记录来自目标
文章精读篇——用于遥感小样本语义分割的可学习Prompt LiXiang like coding吗学习 prompt 人工智能
题目：LearnablePromptforFew-ShotSemanticSegmentationinRemoteSensingDomain会议：CVPR2024Workshop论文：10.48550/arXiv.2404.10307相关竞赛：https://codalab.lisn.upsaclay.fr/competitions/17568年份：2024任务背景小样本语义分割（Few-shot
Redis Lua沙盒绕过RCE（CVE-2022-0543）不想秃头的烟花 Redis漏洞 redis lua 网络安全 web安全数据库
原理RedisLua沙盒绕过RCE的原理主要涉及到Redis在Lua沙箱中遗留了一个对象package。在Debian以及Ubuntu发行版的源在打包Redis时，不慎在Lua沙箱中遗留了这个对象package。攻击者可以利用这个对象提供的方法加载动态链接库liblua里的函数，进而逃逸沙箱执行任意命令。具体来说，Redis一直有一个攻击面，就是在用户连接Redis后，可以通过eval命令执行Lu
Java练习题，随机生成四位验证码宝耶 java 开发语言
packagelianxibao;importjava.util.Random;publicclasslianxilei{publicstaticvoidmain(String[]args){char[]chs=newchar[52];for(inti=0;i
【openCV-89】人脸检测华东算法王华东算法王-opencv opencv 人工智能计算机视觉
人脸检测简介人脸检测是计算机视觉中的一个重要任务，旨在从图像或视频中识别并定位出人脸的位置。人脸检测不仅是人脸识别、表情分析、面部特征点检测等高级任务的前置步骤，而且在安防监控、智能家居、自动驾驶等多个领域都具有广泛应用。人脸检测的目标人脸检测的目标是从输入的图像或视频流中自动检测出所有人脸的区域，通常用矩形框（boundingbox）表示人脸的位置。人脸检测不仅要识别图像中的人脸，还要在各种条件
Xxl-job 3.0.0 切换postgresql数据库执行器无法注册 lbyxkey java
项目场景：提示：这里简述项目相关背景：例如：项目场景：示例:通过蓝牙芯片(HC-05)与手机APP通信，每隔5s传输一批传感器数据(不是很大)问题描述提示：这里描述项目中遇到的问题：例如：数据传输过程中数据不时出现丢失的情况，偶尔会丢失一部分数据APP中接收数据代码：@Overridepublicvoidrun(){bytes=mmInStream.read(buffer);mHandler.ob
DeepSeek全栈接入指南：从零到生产环境的深度实践量子纠缠BUG DeepSeek部署 AI DeepSeek 人工智能深度学习机器学习
第一章：DeepSeek技术体系全景解析1.1认知DeepSeek技术生态DeepSeek作为新一代人工智能技术平台，构建了覆盖算法开发、模型训练、服务部署的全链路技术栈。其核心能力体现在：1.1.1多模态智能引擎自然语言处理：支持文本生成（NLG）、语义理解（NLU）、情感分析等计算机视觉：提供图像分类、目标检测、OCR识别等CV能力语音交互：包含语音识别（ASR）、语音合成（TTS）及声纹识别
常用Python代码 newlz2000 python
常见的for循环去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的代码片.1Value=[(10,150),(100,200),(180,230)]fori,(minVal,maxVal)inenumerate(Value):plt.subplot(1,3,i+1)edges=cv2.Canny(image,minVal,maxVal)edges=cv2.GaussianBlur(
IO进程 day08 李倚墨 Linux阶段四：IO进程 c语言 IO进程 linux
IO进程day0811.进程间的通信机制11.6.信号灯集概念步骤semgetsemctlsemop初始化和操作信号灯函数封装命令11.7.消息队列特点步骤msggetmsgsndmsgrcvmsgctl命令11.进程间的通信机制11.6.信号灯集概念信号灯，又叫信号量，是不同进程或同一个进程的不同线程间的同步机制 SystemV信号灯集是一个或者多个信号灯的集合。其中每一个都是单独的信号灯，P
【CodeBlocks】搭建OpenCV环境指南万众珩
【CodeBlocks】搭建OpenCV环境指南CodeBlocks搭建OpenCV环境项目地址:https://gitcode.com/Resource-Bundle-Collection/e1e1a本资源提供了详细的教程，帮助您在CodeBlocks集成开发环境中顺利搭建OpenCV环境。OpenCV是一个开源的计算机视觉和机器学习软件库，广泛应用于图像处理和视频分析领域。通过这篇指南，即便是
Java杂谈：解锁面向对象编程（OOP）魔法还是十三 java
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、对象（object）与类（class）：一切的基础二、封装（Encapsulation）：将秘密装进盒子三、继承（Inheritance）：继承父母的基因四、多态（polymorphism）：同一接口，不同实现五、抽象（abstraction）：隐藏复杂，暴露细节总结前言Java的核心理念是面向对象编程。实际上，所有J
cv2.solvePnP 报错求相机位姿 AI算法网奇 3d渲染 python基础数码相机
目录报错信息及解决：cv2.solvePnP使用例子：报错信息及解决：File"/shared_disk/users/lbg/project/human_4d/nlf_pose/render_demo_pkl2_cal.py",line236,insuccess,rotation_vector,translation_vector=cv2.solvePnP(vertices,vertices2d,
WordPress Course Booking System SQL注入漏洞复现 (CVE-2025-22785)（附脚本） iSee857 漏洞复现安全 web安全
免责申明：本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品描述：课程预订系统是一个在线平台，旨在简化课程报名流程。用户可以通过系统浏览可用课程，查看详细的课程描述、时间安排和讲师信息，并通过简单的
PyQt5-sip报错Building wheel for PyQt5-sip (pyproject.toml) ... error 可爱的蜗牛牛 python 开发语言
使用powershellwgethttps://aka.ms/vs/17/release/vs_BuildTools.exe-ovs_BuildTools.exe;cmd/cvs_BuildTools.exec++/cli一定要选成功按装
[ vulhub漏洞复现篇 ] solr 远程命令执行 (CVE-2017-12629-RCE) _PowerShell [靶场实战 ]vulhub vulhub漏洞复现 Apache Solr 远程命令执行 CVE-2017-12629 渗透测试
博主介绍‍博主介绍：大家好，我是_PowerShell，很高兴认识大家~✨主攻领域：【渗透领域】【数据通信】【通讯安全】【web安全】【面试分析】点赞➕评论➕收藏==养成习惯（一键三连）欢迎关注一起学习一起讨论⭐️一起进步文末有彩蛋作者水平有限，欢迎各位大佬指点，相互学习进步！文章目录博主介绍一、漏洞编号二、影响范围三、漏洞描述四、环境搭建1、进入CVE-2017-12629-RCE环境2、启动C
[ vulhub漏洞复现篇 ] Apche log4j远程代码执行漏洞(CVE-2021-44228) _PowerShell [靶场实战 ]vulhub CVE-2021-44228 远程代码执行漏洞 Apche log4j 渗透测试
博主介绍‍博主介绍：大家好，我是_PowerShell，很高兴认识大家~✨主攻领域：【渗透领域】【数据通信】【通讯安全】【web安全】【面试分析】点赞➕评论➕收藏==养成习惯（一键三连）欢迎关注一起学习一起讨论⭐️一起进步文末有彩蛋作者水平有限，欢迎各位大佬指点，相互学习进步！文章目录博主介绍一、漏洞编号二、影响版本三、漏洞描述四、环境搭建1.进入CVE-2021-44228环境2.启动CVE-2
VS C++通过路径遍历文件夹图片并生成xml文件并调用贫僧这就还俗、 c++xml
记录一下(每次用到的时候还得去找...)：网上c++生成xml的方法有很多，这里简单介绍以下opencv自带的FileStorage函数使用方法，1、生成xml文件：#include#includeusingnamespacecv;usingnamespacestd;voidimg_save_xml(Stringimg_path,Stringxml_name){FileStoragefile_st
python怎么用pip怎么用_python的pip怎么用爱文斯坦 python怎么用pip怎么用
详细内容pip是一个Python包管理工具，主要是用于安装PyPI上的软件包，可以替代easy_install工具。pip的一些使用(推荐学习：Python视频教程)1)pip的自我更新$pipinstall-Upip2)安装PyPI软件包$pipinstallSomePackage#latestversion$pipinstallSomePackage==1.0.4#specificversio
Java集合设计模式面试题夜游猿 Java开发工程师面试 java 设计模式开发语言
Java集合设计模式面试题迭代器模式Q1:Java集合框架中的迭代器模式是如何实现的？迭代器模式提供了一种统一的方式来访问集合中的元素，而不需要暴露集合的内部结构。publicclassIteratorPatternExample{//1.基本迭代器使用publicvoidbasicIteratorUsage(){Listlist=newArrayListiterator=list.iterato
设计模式-（单例，简单工厂，工厂，抽象工厂） *^O^*—*^O^* 设计模式 java
单例模式概念：确保一个类只有一个实例，而且自行实例化并向震哥哥系统提供这个实例应用：无状态的，一般以工具类形式，进行提供代码：懒汉式，双重检查锁classSingleton{privatestaticvolatileSingletoninstance=null;privateSingleton(){}publicstaticSingletongetInstance(){if(instance==n
Java连接ES的多种方式 dkjhl elasticsearch elasticsearch 大数据
前言本篇文章主要介绍：使用Basic、Transport、Kerberos三种方式连接ESBisic方式/***Basic方式（带用户名和密码方式访问）*@paramuser用户名*@parampassword密码*@paramindex索引名*/privatestaticvoidbasicConnect(Stringuser,Stringpassword,Stringindex){try{Sys
Jenkins部署GitHub上的前端项目 2401_84150191 程序员 jenkins github 前端
构建–选择执行shell，这里请安装cnpm，构建速度快，且容易报错。echo$PATHnode-vnpm-vnpminstall-gcnpm--registry=https://registry.npm.taobao.orgcnpminstallnpmrunbuild如果部署到服务器的话，建议打包cddisttar-zcvfdist.tar.gz*构建后步骤，发布到远程服务器这里我们时使用doc
半导体芯片制造中 W CVD（钨化学气相沉积）少年码客制造
半导体芯片制造中WCVD（钨化学气相沉积）的Nucleation解析在钨（W）化学气相沉积（CVD）工艺中，Nucleation（成核）是沉积过程的初始阶段，指钨原子或分子在基底表面形成初始晶核的过程。这一步骤对后续薄膜的均匀性、附着力及填充能力至关重要。为什么需要Nucleation？高深宽比结构填充：在先进制程中，接触孔或通孔的深宽比（AspectRatio）可能超过10:1。若成核不均匀，会
【openCV-66】内参矩阵和外参矩阵华东算法王华东算法王-opencv opencv 矩阵人工智能
外参矩阵与内参矩阵在计算机视觉、相机标定和三维重建等领域，内参矩阵和外参矩阵是描述相机如何将三维世界映射到二维图像的重要工具。它们分别描述了相机的内部特性和外部位置，是相机标定的核心组成部分。1.内参矩阵（IntrinsicMatrix）内参矩阵描述了相机内部的几何特性，主要涉及焦距、光心和像素的比例等参数。它通常是一个3x3的矩阵，用来将相机的归一化坐标系转换为像素坐标系。1.1内参矩阵的组成内
大模型之二十七-语音识别Whisper实例浅析 shichaog 神经网络&人工智能语音识别 whisper 人工智能
Whisper简介Whisper是OpenAI于2022年9月开源的一个多语种识别模型，目前支持99种语言，是目前性能最好的开源多语种识别ASR大模型，第一版版使用了68万小时标注好的语料预训练模型，而large-v3的标注数据超过了500万小时，其paper中并没透露使用语料的详细来源，估计是爬了一些版权数据，在Huggingface上提到模型有很强的泛化能力，能够在未经特定训练的情况下处理新的
uml类图 Android西红柿工具-效率 android flutter
关于作者：CSDN内容合伙人、技术专家，从零开始做日活千万级APP，带领团队单日营收超千万。专注于分享各领域原创系列文章，擅长java后端、移动开发、商业化变现、人工智能等，希望大家多多支持。目录一、导读二、概览三、推荐阅读一、导读我们继续总结学习基础知识，温故知新。二、概览无他，唯记录尔！publicvoidtest(){System.out.println("HelloWorld");}fun
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

[论文笔记] R-CNN系列论文笔记

目录

1. R-CNN

2. SPP-Net

3. Fast R-CNN

4. Faster R-CNN

你可能感兴趣的:(Paper,CV,CV,杂谈)