qq_43126480

2018-12 文献阅读：RCNN（2014）

文献阅读：Rich feature hierarchies for accurate object detection and semantic segmentation，Tech report（v5）（2014）

作者：Ross Girshick，Jeff Donahue，Trevor Darrell，Jitendra Malik
阅读原因：了解RCNN、Fast RCNN、Faster RCNN在object detection中的应用
Fast RCNN学习笔记
主要参考：①R-CNN读书笔记 ②关于Faster R-CNN的一切——笔记1：R-CNN ③【目标检测】RCNN算法详解

文章目录

文献阅读：Rich feature hierarchies for accurate object detection and semantic segmentation，Tech report（v5）（2014）
摘要
介绍

1. 回顾
2. 思路

问题一：目标局部化——区域识别
问题二：labeled data缺乏——无监督预训练+有监督微调

3. 模型的高效性

RCNN过程

1. 生成候选区域（region proposal）
2. 用训练好的CNN提取每个proposal的特征
3. 用每个类别训练好的线性SVM对每个proposal中所有类别进行评分
4. Greedy non-maximum suppression（NMS）

Object detection with R-CNN

要点1：生成与类别独立的候选区域
要点2：CNN从每个候选区域提取长度固定的特征向量
要点3：每个类别对应的线性SVM
要点4：bounding box回归（附录C）
Test-time detection
如何训练？

CNN
SVM——Object category classifiers
fine-tuning和SVM关于正负样本定义的不同 and softmax（附录B）

结果

摘要

Region CNN(R-CNN)可以说是利用深度学习进行目标检测的开山之作。作者Ross Girshick多次在PASCAL VOC的目标检测竞赛中折桂，2010年更带领团队获得终身成就奖。这篇文章思路简洁，在DPM方法多年平台期后，效果提高显著。
RCNN是一种可伸缩的（scalable）检测算法，在PASCAL VOC2012数据集上将mean average precision（mAP）提高了30%，达到53.3%。下面是mAP的计算过程，其中AP为average precision，即平均精确度。

$\qquad$ 计算mAP时，一般先计算每个预测框的loU值（预测框与真实框的交集面积与并集面积之比），通过与loU阈值比较得到“正确预测”或“错误预测”。计算第i个图像的第C类的精度：
$Precision_{i,C}=\frac{C类别的正确预测次数}{C类别的总数量}$
再计算平均精度AP：
$AP_C=\frac{\sum_iPrecision_{i,C}}{图像总数}$
进而再对AP取平均，就得到mAP值。
$mAP=\frac{1}{|Q_R|}\sum_{q\in Q_R}AP_q$
RCNN有两个优点：
（1）可以将high-capacity CNN应用于候选区域（region proposals），从而实现目标的局部化和分割（Regions with CNN，R-CNN）。
（2）当有标签的training data缺乏时，先在辅助任务进行有监督预训练，再在自己的数据集上做微调，这样可以提高模型性能。
RCNN的不足：
（1）测试时速度慢：对于提取的Region Proposal，多数都是互相重叠的，重叠部分会被多次重复提取特征，都要分别进行CNN前向传播一次（相当于进行了2000次提特征和SVM分类的过程），操作冗余，计算量较大。
（2）训练时速度慢：原因同上。
（3）多阶段训练过程：每一步需要训练三个模型：CNN、SVM、bounding box回归，且RCNN中独立的分类器和回归器都需要大量特征作为训练样本。

介绍

1. 回顾

过去的图像识别主要基于SIFT和HOG，但在PASCAL VOC目标检测任务中进展缓慢。
SIFT和HOG都是块取向（blockwise orientation）的直方图，可以粗略代表灵长类动物视觉路径中皮层区域V1中的细胞。但同时，我们也需要分层的、多阶段的过程来计算特征。
Fukushima的 “neocognitron” 是用来解决模式识别的一个分层的、具有转移不变形的模型，是对分层过程的一次尝试，但缺乏监督训练的算法。还有一类模型是对neocognitron的拓展，是通过反向传播算法，利用随机梯度下降法来训练CNN，这是有效的。
在SVM出现时，CNN曾沉寂过一段时间，但CNN在ImageNet图像分类任务中的出色表现又使人们对它重燃兴趣。

2. 思路

Q：在什么情况下，CNN在ImageNet分类的结果可以推广到PASCAL VOC目标检测问题？

A：本文通过建立图像分类和目标检测的关系，来回答这一问题。相较于简单的HOG，CNN可以得到好得多的目标检测结果。为得到这一结果，需要解决两个问题：
（1）利用深度网络将目标局部化
（2）只利用较少的带注释的检测数据来训练一个high-capacity模型

问题一：目标局部化——区域识别

经典的目标检测算法是使用滑窗法建立滑窗检测器，依次判断所有可能的区域，这样会使网络中的单元（units）数大幅上升，使得此网络有非常大的感受野（receptive fields）和步长（strides），速度很慢。
本文的方法是区域识别（recognition using regions）：预先提取一系列较可能是object的候选区域，之后只在这些候选区域上提取特征，进行detection。

使用区域识别方法来解决CNN局部化问题，此方法在目标检测和语义分割（semantic segmentation）中的应用都很成功。同时，bounding-box回归（边框回归）方法可以很好的降低mislocalizations——此模型主要的error mode】。

问题二：labeled data缺乏——无监督预训练+有监督微调

经典的目标检测算法在区域中提取人工设定的特征（Haar，HOG）。
本文的方法需要训练深度网络进行特征提取。共有两个数据集：
识别库（ImageNet ILSVRC2012）：标定每张图片中物体的类别。一千万图像，1000类。【没有物体的位置标注，unlabeled data】
检测库（PASCAL VOC2007）：标定每张图片中物体的类别和位置。一万图像，20类。
先在识别库上进行预训练（等同于得到AlexNet），之后在检测库上进行fine-tuning调优参数。

本文的第二个贡献：展现了上述预训练+微调的方法是在labeled data缺乏的情况下，训练大容量CNN的有效方法。

[图像处理之特征提取（一）之HOG特征简单梳理][]

3. 模型的高效性

本文模型是高效的，唯一的计算是矩阵-向量乘积和贪婪非极大值抑制（greedy non-maximum suppression）。这些计算都与在所有类别中出现的特征有关，而且这些类别的维度比之前使用的区域特征小两个数量级。

non-maximum suppression（NMS）是一种局部最大搜索方法，用于在目标检测任务中找出评分最高的窗口。因为得到的窗口会有很多包含或重叠的情况，所以用NMS选取评分最高的窗口，同时抑制评分低的窗口。

RCNN过程

一个image生成约2000个 region proposals（selective search，类似聚类思想）

$\downarrow$

每个region proposal输入CNN，提取4096维 特征向量（所有类别参数共享）

$\downarrow$

将特征向量输入每个类别的SVM 分类器，得到每个proposal所有类别的评分（2000*N评分矩阵）+ bounding-box回归器 精细修正候选框位置

$\downarrow$

Greedy NMS 筛选出detected object bounding box

1. 生成候选区域（region proposal）

为了避免盲目的滑窗，先提取若干候选区域。提取候选区域的算法很多，RCNN对提取候选区域的算法没有限定，论文里使用的是selective search，使得R-CNN与以前的检测方法可比。（具体参考What makes for effective detection proposals详细对比了各种region proposal的算法。）
本文生成了2k个region proposals，最终的检测结果就从这2k个中选择。

2. 用训练好的CNN提取每个proposal的特征

利用CNN从每个区域中提取固定长度特征向量。我们使用仿射图像扭曲（affine image warping） 将图像warp后输入CNN，通过向前传播方法计算固定长度的特征。
训练CNN网络使用的是AlexNet，去掉最后一层FC，使用倒数第二层FC的4096维输出作为特征向量。AlexNet要求输入图像是227 $*$ 227大小，因此对输入的region proposal图像，需要将它变形到与CNN匹配的大小227 $*$ 227，从而通过CNN提取出4096维的特征向量。（变形方法见附录A）

3. 用每个类别训练好的线性SVM对每个proposal中所有类别进行评分

每个类别对应一个二分类svm分类器，输入为CNN输出的4096维特征向量，输出为该region proposal输入该SVM对应类别的score。本文使用的PASCALvoc数据库有20个类别，所以有20个SVM。一幅图像最终输出2k*20的评分矩阵。

候选区域 \ 得分 \ 类别	1	…	N=20
2k个proposals	scores	scores	scores

受Deformable Part Models（DPM）的启发，在得到评分后，我们利用bounding-box回归预测一个新的边框。Bounding-box回归的作用是微调窗口 （见3.5节和附录C，或参考边框回归(Bounding Box Regression)详解）
【注】SVM分类器和bounding box回归器是相互独立的！

4. Greedy non-maximum suppression（NMS）

根据评分对该类的region proposal进行Greedy non-maximum suppression（NMS）筛选出最终的region。
对每一类（即评分矩阵的每一列），根据score对这些region进行排序，把score最大的bounding box（也就是region proposal）加入队列作为已被选择项，然后计算其他候选bounding box与队列中已经被选择了的bounding box的IoU（intersection-over-union），剔除IoU大于阈值的候选bounding box（IoU越大则越重叠），重复直到候选bounding box为空。这样就剩下了每一类符合要求的那些含有该类物体的bounding box。

Object detection with R-CNN

要点1：生成与类别独立的候选区域

文中使用selective search方法，算法如下：

$\qquad$ selective search算法是先通过简单的区域划分算法，将图片划分成很多小区域，再通过相似度和区域大小（小的区域先聚合，这样是防止大的区域不断的聚合小区域，导致层次关系不完全）不断的聚合相邻小区域，类似于聚类的思路。这样就能解决object层次问题。例如汽车是object，轮胎也是object，汽车包含轮胎，两个目标的层次是不同的。

$\qquad$ 为了保证能够划分的完全，对于相似度，作者提出了可以多样化的思路，不但使用多样的颜色空间（RGB，Lab，HSV等等），还有很多不同的相似度计算方法。并类过程中的proposals都是算法的输出，选择评分高的作为selective search的结果，得到约2k个region proposals。参考选择性搜索（selective search）和Selective Search原理及实现（均附代码）

要点2：CNN从每个候选区域提取长度固定的特征向量

用CNN从每个候选区域中提取4096维的特征，用向前传播方法计算特征，CNN包括五个卷积层和两个全连接层。
在计算之前，先要将图像转变为227*227像素大小才能输入CNN。先将边框扩大，再对边框中的所有像素进行warp，使得warping之后，图像中精确有p个像素（文中p=16）。

要点3：每个类别对应的线性SVM

要点4：bounding box回归（附录C）

$\qquad$ bounding-box回归可以改善局部化效果。在DPM中，是用inferred DPM part location计算出的几何特征进行回归，而RCNN是用CNN计算出的特征进行回归。

$\qquad$ 对于N个training pairs ${(P^i,G^i)\}_{i=1}^N$ ，其中proposal $P^i=(P_x^i,P_y^i,P_w^i,P_h^i)$ 、ground-truth bounding box $G^i=(G_x^i,G_y^i,G_w^i,G_h^i)$ 都是四元组：前两项指明了bounding box的中心点的坐标，后两项是bbox的width和height。我们的目的是学习一个变换，将proposed box $P$ 映射到ground-truth box $G$ 。

$\qquad$ 我们用四个函数来（参数化）表示这个变换： $d_x(P),d_y(P),d_w(P),d_h(P)$ 。前两个表示 $P$ 的bounding box的中心的一个scale-invariant的平移，后两个表示 $P$ 的bounding box的宽和高的一个log-space平移（尺度放缩）。则这个变换可以拆分为：平移+尺度放缩

先做平移（ $\Delta x,\Delta y$ ）， $\Delta x=P_wd_x(P),\Delta y=P_hd_y(P)$
再做尺度放缩（ $S_x,S_y$ ）， $S_w=\exp(d_w(P)),S_h=\exp(d_h(P))$

$\qquad$ 每一个函数 $d_*(P)$ 都可以modeled as是proposal $P$ 的pool₅ feature的线性函数，记作 $\phi_5(P)$ 【实际操作中，并不是输入P的四元组，而是P的pool₅ feature】，则有 $d_*(P)=w_*^T\phi_5(P)$ ， $w_*$ 是需要学习的参数。而此时，回归的真实目标也从G变为了： $t_*=(t_x,t_y,t_w,t_h)$ ，其中

因此，损失函数为
$L=\sum_i^N(t_*^i-\hat{w}_*^T\phi_5(P^i))^2$
从而问题转化为正则化的最小二乘问题（Ridge回归）：

训练：【每一类进行一次bounding box回归，多次迭代并不会提升结果】
Input：proposal P的pool₅ feature，真实的transformation $t_*$
Output：由（5）式训练出的参数 $w_*$ ，从而由transformation $\hat{d}_*$ 将 $P$ 映射为 $\hat{G}$

$\qquad$ 进行bounding box回归时需要注意：（1）Ridge回归中正则化参数 $\lambda$ 很重要，本文取 $\lambda=1000$ 。（2）只针对至少和一个ground-truth box“很近”的proposal P进行训练，这里“很近”指的是：与P重叠的ground-truth boxes中，IoU最大的ground-truth box G，且IoU大于等于0.6，则这样的{P,G}需要进行训练。其他不满足的P舍弃。

Test-time detection

RCNN具有两个性质：
（1）所有类别的CNN参数共享
（2）CNN得到的特征向量比其他方法得到的维数要低，例如spatial pyramids with bag-of-visual-word。

这种共享使得计算时间被分摊在所有类别上。每一类的计算只有：特征与SVM权重之间的点乘，和NMS。而一个图像的所有点乘计算可以写成矩阵-矩阵乘积。特征矩阵是2k $\times$ 4096，SVM权重矩阵是4097 $\times$ N，其中N是类别数。这意味着，RCNN的性质使得它可以处理几千个目标种类而不需要借助近似技巧。

如何训练？

从RCNN的结构看，需要训练CNN和SVMs。

CNN

预训练：用Caffe中在ILSVRC2012上训练好的Alexnet作为初始状态
$\qquad$ 在辅助数据集（ILSVRC2012）上预训练CNN，数据集只有图像水平的注释，没有边框label。预训练使用的是开源的Caffe CNN library。
fine-tuning：将预训练好的AlexNet的最后1000-way ImageNet分类（softmax）层替换为随机初始化的(N+1)-way全连接层【N是物体类别数，+1是背景类】，其他结构不变。对于VOC，N=20；对于ILSVRC2013，N=200。
$\qquad$ 使用warped region proposals来继续CNN参数的随机梯度下降（SGD）训练。训练细节：（1）region proposal的标签设置：与某个ground-thuth box的IoU大于等于0.5的为正，其他情况为负。（2）参数：SGD学习速率设为0.001【预训练学习速率的1/10】。（3）Mini-batch size：每个SGD迭代步，随机采样32个正样本和96个负样本，得到mini-batch大小是128

AlexNet框架

SVM——Object category classifiers

每一类都需要训练一个SVM
对每一类，正负样本的规定：该类的Ground-truth box是正样本，与Ground-truth box的IoU小于0.3【0.3是在测试集上从{0,0.1,…,0.5}中间确定的】的region proposal是负样本，其余的region proposal舍弃，不用作训练。

fine-tuning和SVM关于正负样本定义的不同 and softmax（附录B）

为什么要用不同的定义？
$\qquad$ fine-tuning：对于每一个region proposal，找出与图片中ground-truth box的IoU值最大的那个box（如果存在这样的box），若IoU值大于等于0.5，则将这个region proposal标记为该box对应类别的正样本。其余proposals标记为background（即，所有类别中都是负样本）。
$\qquad$ SVM：只将ground-truth box定义为对应类别的正样本，将与某一类中所有ground-truth boxes的IoU值都小于0.3的proposal标记为该类别的负样本。其余灰色区域的proposal舍弃。
这样分别定义的原因
1、若训练SVM时延用fine-tuning的正负样本定义，结果明显劣于现在的定义。
2、fine-tuning的定义方式增加了很多jittered样本，扩充了正样本的数量。在对整个网络进行微调时，这种扩充是必要的，防止过拟合。而在精确的局部化过程中，这些jittered样本会导致结果不是最优的。
为什么fine-tuning之后还要训练SVM？
$\qquad$ 若直接用fine-tuning后的CNN的最后一层【21-way softmax 回归分类器】进行目标检测，会导致mAP下降（VOC2007）。这可能是因为fine-tuning中正样本的定义不能突出精确局部化的目的，而且训练softmax 分类器是在随机抽取的负样本上，而不是训练SVM时的hard negatives。
$\qquad$ 本文推测：若在fine-tuning过程中增加一些变动，不训练SVM也是可以的。那么，这可以使RCNN更简洁，速度更快，且效果不变。

结果

深入理解C++内存管理机制 qzw1210 C++c++学习笔记
侯捷C++系列课程学习笔记：深入理解C++内存管理机制在侯捷老师的C++系列课程中，内存管理是一个极其重要且深刻的主题。通过对这部分内容的学习，我对C++的内存管理机制有了更深入的理解，特别是关于new/delete操作符、内存池设计以及智能指针的应用。一、C++内存分配的层次结构侯捷老师在课程中清晰地阐述了C++内存分配的层次结构，这让我对整个内存管理体系有了全局的认识：最底层：操作系统提供的内
Hive SQL 精进系列： JSON_TUPLE 快速提取多键值进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、json_tuple函数基础2.1基本语法参数解释返回值简单示例三、应用场景3.1数据提取与分析3.2数据集成与转换3.3复杂JSON数据处理四、json_tuple、get_json_object和from_json的对比4.1功能特点4.2语法和使用复杂度4.3性能表现4.4示例对比使用json_tuple使用get_json_object使用from_json五、使用注意事项
TidyBot++：用于机器人学习开源的完整移动机械手三谷秋水计算机视觉智能体人工智能机器人开源人工智能机器学习深度学习
24年12月来自普林斯顿、斯坦福和dexterity.ai的论文“TidyBot++:AnOpen-SourceHolonomicMobileManipulatorforRobotLearning”。要充分利用模仿学习在移动机械操作方面的最新进展，需要收集大量人工引导的演示。本文提出一种开源设计，用于设计一种廉价、坚固、灵活的移动机械手，该机械手可支撑任意臂，从而实现各种现实世界的家用移动机械操作
程序员必看！DeepSeek全栈开发指南：从代码生成到分布式训练的黑科技解析 AI创享派后端
一、DeepSeek技术新突破：程序员必须掌握的MoE架构实战2025年2月25日，DeepSeek开源了专为MoE模型设计的DeepEP通信库，这项技术革新直接影响了分布式训练和推理效率。该库支持FP8精度与NVLink/RDMA技术，吞吐量提升3倍以上，特别适合处理千亿级参数的分布式任务。对于后端工程师而言，DeepEP的以下特性值得关注：计算-通信重叠机制：通过回调函数实现GPU资源动态分配
DeepSeek：全栈开发者视角下的AI革命者大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能
DeepSeek：全栈开发者视角下的AI革命者写在前面随着人工智能（AI）技术的不断进步，AI已经成为各行各业创新的核心动力。从自动驾驶到智能制造，再到自然语言处理和图像识别，AI正在逐渐渗透并改变着我们的生活和工作方式。DeepSeek，作为AI领域的新兴技术，凭借其独特的技术架构和颠覆性的创新理念，成为了全栈开发者关注的焦点。本文将从全栈开发者的角度出发，详细解析DeepSeek的诞生、技术架
IIS网站用myssl评级为B级 bigsea76 windows ssl
不光是IIS网站，包括.net使用HttpListener开发的web程序，在默认情况下都会被评为B级。提示为：降级原因：1.没有使用AEAD系列加密套件,降级为B2.没有优先使用FS系列加密套件，降级为B。我现在知道AEAD系列加密套件指的是那些支持认证加密和关联数据（AuthenticatedEncryptionwithAssociatedData）的套件，比如AES-GCM和ChaCha20
复原IP地址（leetcode 93 JohnFF leetcode 算法职场和发展
leetcode系列文章目录一、核心操作二、外层配合操作三、核心模式代码总结一、核心操作判断字段是否有效函数：首先start不能大于end当到最后一个收获层的时候，start已经是s.size了，但是end还是只能是s.size-1其次当字段不止一位时，start不能是0，然后再循环判断每一位是不是处于字符‘0’和‘9’之间，以及通过num*10+当前数字的操作求出值，判断是不是大于255回溯函数
鸿蒙HarmonyOS开发系列：WebSocket消息发送应用示例太空人_喜之郎 HarmonyOS 鸿蒙 OpenHarmony harmonyos 华为前端 linux 鸿蒙移动开发程序员
1.WebSocket简介WebSocket协议最初于2011年通过RFC6455完成了标准定义，后来又通过RFC7936、RFC8307、RFC8441等标准对协议进行了完善。WebSocket位于网络分层模型的应用层，是建立在TCP之上的双向通讯协议，可以在一个TCP连接上进行全双工通信；和HTTP不同的是，WebSocket通讯需要服务端和客户端先通过握手连接，连接成功后才能相互通信。2.W
从图形处理到通用计算的进化之路绿算技术 GPU架构介绍科技 gpu算力
图形处理单元，作为现代计算机中不可或缺的一部分，已经从最初的图形渲染专用处理器，发展成为强大的并行计算引擎，广泛应用于人工智能、科学计算、游戏娱乐等领域。本文将深入探讨GPU架构的演变历程、核心组件以及其在不同应用场景中的优势。GPU架构的演变：从固定功能到可编程流水线早期的GPU采用固定功能流水线架构，专为图形渲染任务而设计。这种架构将图形渲染流程划分为一系列固定的阶段，例如顶点处理、光栅化、纹
高效快速教你deepseek如何进行本地部署并且可视化对话 chatgpt
随着最近一个新的人工智能deepseek的爆火，很多大佬都开始了在本地进行deepseek的部署操作，并且离线也可以使用，这里的话我就一步一步带你们部署本地的deepseek,说实话这个人工智能的实力不亚于openai的gpt安装ollama我们需要先安装ollama，安装地址ollama,我们直接点击下载，我们在下载的时候尽量使用我们的谷歌浏览器，有魔法的最好带上魔法，不然安装的时候可能会出问题
大模型火爆 2025：LLaMA、Qwen、DeepSeek 核心原理+就业秘籍，快速入门 AI 工程师 weixin_40941102 llama 人工智能
1.大模型核心原理：从零开始理解AI模型这些是大型语言模型（LLMs）的核心技术，适合初学者逐步深入学习。以下是详细拆解，让小白也能掌握：LLaMA系列模型核心原理详解：什么是LLaMA？：LLaMA是一个基于人工智能的语言模型，像一个超级聪明的聊天机器人，能理解和生成人类语言。它由Meta公司开发，类似ChatGPT，但更开源、灵活。核心原理：Transformer架构：想象一个工厂流水线，LL
TensorRT-LLM保姆级教程-快速入门大模型八哥笔记 agi ai 大模型 ai大模型 LLM Transformer
随着大模型的爆火，投入到生产环境的模型参数量规模也变得越来越大（从数十亿参数到千亿参数规模），从而导致大模型的推理成本急剧增加。因此，市面上也出现了很多的推理框架，用于降低模型推理延迟以及提升模型吞吐量。本系列将针对TensorRT-LLM推理进行讲解。本文为该系列第一篇，将简要概述TensorRT-LLM的基本特性。另外，我撰写的大模型相关的博客及配套代码均整理放置在Github，有需要的朋友自
深入探究 C 语言内存函数：memcpy、memmove、memset 和 memcmp 南玖yy C语言基础 c语言开发语言
一，常见的内存函数在C语言的编程世界里，对内存的高效操作至关重要。C标准库为我们提供了一系列强大的内存操作函数，其中memcpy、memmove、memset和memcmp这四个函数是处理内存数据的得力助手。接下来，让我们深入了解它们的功能、使用方法以及适用场景。1.memcpy：简单直接的内存复制功能memcpy函数的主要功能是从源内存地址复制指定数量的字节到目标内存地址。它不关心内存中的内容是
DeepSeek：技术创作者的内容革命，从代码到爆文的AI全栈攻略不想加班的码小牛人工智能 ai chatgpt
一、为什么技术创作者需要关注DeepSeek？作为CSDN的资深用户，你是否经历过这些痛点？选题焦虑：技术热点日新月异，如何抓住「大模型优化」或「量子计算落地」等前沿方向？写作卡顿：明明代码跑通了，却在技术原理描述环节反复修改效率瓶颈：既要写技术文档又要运营专栏，时间永远不够用DeepSeek的多模态理解能力（支持代码+自然语言混合输入）和领域自适应特性（自动识别技术文档/教程/测评等文体），让它
JVM性能调优实战：从理论到线上问题排查 SuperMale-zxq 项目实战 java python c++jvm java-ee
JVM性能调优实战：从理论到线上问题排查线上系统突然变慢，CPU飙升，内存告警，业务超时……面对这些危机时刻，你是束手无策还是胸有成竹？本文将带你掌握JVM性能调优的核心方法，从理论到实战，解决真实环境中的性能难题。为什么大多数JVM调优都失败了？某电商平台的"双11"大促活动，系统突然响应缓慢，交易量锐减。运维团队紧急扩容，开发团队调整GC参数，架构师建议重启服务……一系列"标准操作"后，系统性
TPAMI 2024 | 学习人类教育智慧：以学生为中心的知识蒸馏方法小白学视觉论文解读 IEEE TPAMI 知识蒸馏 TPAMI 论文解读深度学习
题目：LearningFromHumanEducationalWisdom:AStudent-CenteredKnowledgeDistillationMethod学习人类教育智慧：以学生为中心的知识蒸馏方法作者：S.Yang;J.Yang;M.Zhou;Z.Huang;W.-S.Zheng;X.Yang;J.Ren摘要现有的知识蒸馏研究通常侧重于以教师为中心的方法，其中教师网络根据自身标准进行训
必看！一文读懂知识蒸馏技术小天才学习机打游戏人工智能知识图谱神经网络 langchain windows
导读最近，DeepSeek的爆火让大家对人工智能领域的技术发展又有了新的关注。而知识蒸馏作为深度学习中一项重要的技术，也在背后默默地发挥着作用，今天就来给大家详细介绍一下知识蒸馏及其相关原理。1.知识蒸馏是什么在深度学习领域，大型模型（如DeepSeek）通常具有强大的性能，但它们的计算量和参数量都非常庞大，这使得它们难以在资源受限的设备（如移动设备或嵌入式设备）上部署。例如，GPT-3在570G
焊接机器人与线激光视觉系统搭配的详细教程自动化专业爱好者机器人 opencv 人工智能
以下是关于焊接机器人与线激光视觉系统搭配的详细教程，包含核心程序框架、调参方法及源码实现思路。本文综合了多个技术文档与专利内容，结合工业应用场景进行系统化总结。一、系统硬件配置与视觉系统搭建1.硬件组成焊接机器人系统通常由以下模块构成：线激光视觉传感器：用于发射线激光并采集焊缝图像（如英莱科技PF系列传感器，支持4K视频监控与微间隙焊缝检测）。机器人本体与焊枪：需支持外部轴控制，传感器通过夹具安装
用python实现excel 14个常用操作,用Python 操作 Excel,这篇文章别错过了!(超全总结)... weixin_39851914 用python实现excel 14个常用操作
在之前的办公自动化系列文章中，我已经对Python操作Excel的几个常用库openpyxl、xlrd/xlwt、xlwings、xlsxwriter等进行了详细的讲解。为了进一步带大家了解各个库的异同，从而在不同场景下可以灵活使用，本文将横向比较7个可以操作Excel文件的常用模块，在比较各模块常用操作的同时进行巩固学习！首先让我们来整体把握下不同库的特点“xlrd、xlwt、xlutils各自
Mac下安装Zed以及Zed对MCP（模型上下文协议）的支持 skywalk8163 人工智能 macos 前端服务器
Zed是当前新流行的一种编辑器，支持MCP（模型上下文协议）Mac下安装Zed比较简单，直接有安装包，在这里：brewinstall--caskzedMacMonterey下是可以安装上的，亲测有效。配置使用Ctrl+Shift+P调出AI，然后设置使用的模型可以使用deepseek，但是没有找到使用自建服务器的设置方法，有些遗憾。附加学习关于Zed里面的MCP部分，手册：ModelContext
C++学习：类和对象（一）随便取个六字 c++
一、面向过程与面向对象编程1.什么是面向过程编程？面向过程编程（ProceduralProgramming）是一种以过程（或函数）为中心的编程范式。程序被视为一系列按顺序执行的步骤，主要通过函数对数据进行操作特点：执行顺序明确：程序按照代码书写的顺序执行侧重算法：重视具体的操作步骤和实现流程代码重用性低：相似的功能需要重复编写代码代码示例：计算数组元素的平均值#includeusingnamesp
rk3588部署deepseek 随便取个六字 rk3588
也是终于部署上了，过程不难，下面简单叙述：111我的方法肯定有很多漏洞，但是我其他手段要么加载不出来，要么网络超时，呜呜呜，大伙如果有别的好方法，请求各位指导我，不甚感激！！！！我们使用docker代替安装（要下东西的，等待一下~）#安装Dockersudoaptinstalldocker.io#拉取Ollama镜像sudodockerpullollama/ollama#启动容器（数据持久化到~/
Deepseek-R1大模型微调实战技术深度解析大势下的牛马搭建本地gpt Deepseek 大模型评测微调
一、Deepseek-R1架构特性与微调适配性分析1.1核心架构创新对微调的影响Deepseek-R1基于Deepseek-V3-Base架构，通过MoE（Mixture-of-Experts）与MLA（Multi-HeadLatentAttention）的协同设计，实现了参数规模与计算效率的平衡。其6710亿参数总量中，每个token仅激活37B参数的机制，使得微调过程中可针对不同任务动态调整专
模型蒸馏：从复杂到精简，AI技术的“瘦身”秘籍 lmtealily 人工智能
引言在人工智能的浪潮中，大型模型如BERT、GPT系列等在自然语言处理（NLP）、计算机视觉（CV）等领域取得了显著的成果。然而，这些“庞然大物”通常拥有数十亿甚至数千亿个参数，计算和存储成本极高，难以部署到资源受限的设备上。为了解决这一问题，模型蒸馏技术应运而生。模型蒸馏是一种将大型复杂模型的知识迁移到小型简单模型的技术，旨在保持高性能的同时大幅减少模型的参数量和计算复杂度。本文将带你深入了解模
FPGA为何要尽量减少组合逻辑的使用昇柱 fpga开发
在FPGA设计中，组合逻辑的使用确实需要谨慎，尤其是要尽量减少它的复杂性。这并不是因为组合逻辑本身不好，而是因为它在实际应用中容易引发一系列问题，而这些问题往往与FPGA的设计哲学和硬件特性相冲突。让我从几个关键点来和你聊聊这件事。组合逻辑的即时性，是一把双刃剑组合逻辑的最大特点是即时性——它的输出完全由当前输入决定，没有存储功能。这种特性让它在某些场景下非常高效，比如简单的逻辑判断或者快速的数据
设计模式系列开篇：解锁软件设计的智慧密码 Ti笔记设计模式 java 开发语言
在软件开发的世界里，我们常常会遇到这样一些问题：如何让代码更加优雅、可维护？如何在需求不断变化的情况下快速响应？如何让团队协作更加高效？这些问题看似复杂，但其实早已有人为我们提供了答案，那就是——设计模式。一、设计模式是什么？设计模式（DesignPattern）是软件设计中的一种通用解决方案，它是一种经过验证、可复用的代码设计模板，用于解决特定场景下的常见问题。设计模式并不是一段具体的代码，而是
《侯捷 C++ 系列精品课学习之旅：知识盛宴与成长感悟》一朵忧伤的蔷薇 c++学习 jvm
一、初遇C++：基础与语法的探索课程伊始，侯捷老师以深入浅出的方式，为我们讲解了C++的基础语法。从变量、数据类型到控制结构，每一个知识点都被剖析得细致入微。我印象尤为深刻的是老师对指针的讲解。指针作为C++的核心概念之一，向来以其抽象和复杂而让初学者望而却步。然而，侯老师通过生动形象的比喻和丰富的示例，将指针的原理和应用讲解得通俗易懂。他将指针比作地址，就像现实生活中的门牌号，通过它我们可以准确
《今日AI-人工智能-编程日报》-源于2025年3月11日小亦编辑部每日AI-人工智能-编程日报人工智能
1.AI行业动态1.1Manus通用智能体初成型，开启AIAgent新时代中泰证券发布研报称，首款通用型AI智能体Manus已问世，能够将复杂任务拆解为可执行的步骤链，并在虚拟环境中灵活调用工具，标志着AI从“Reasoner”走向“Agent”阶段。Manus的成功引发了开源复现潮，DeepSeek模型已被整合到OWL项目中，并在GAIA基准测试中表现接近Manus。1.2DeepSeek-R2
第三十个问题-讲讲Agent、MCP、OpenAI Responses API 释迦呼呼 AI一千问人工智能语言模型机器学习深度学习自然语言处理
1.Agent（智能体）136定义与核心功能Agent是什么：能够自主执行复杂任务的智能实体，通常基于大语言模型（LLM）构建，配备指令和工具，可独立完成多步骤任务（如网络搜索、文件处理、自动化操作等）18。应用场景：客服自动化、法律文档检索、代码审查、数据输入、股票分析等36。OpenAI的Agent生态：DeepResearch：自动生成带引用的研究报告。Operator：通过控制浏览器光标执
DeepSeek多语言智能创作引擎解析智能计算研究中心其他
内容概要在人工智能技术加速演进的背景下，DeepSeek系列产品通过混合专家架构（MoE）与670亿参数的协同设计，构建了多模态智能创作引擎的核心竞争力。该系统依托动态路由机制，将视觉语言理解模块与多语言处理单元进行深度耦合，使模型在解析图文混合信息时展现出超越单一模态的认知能力。尤为突出的是，其分层参数激活策略将推理成本降低至传统密集模型的38%，同时维持了95%以上的任务完成精度。行业分析机构
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

2018-12 文献阅读：RCNN（2014）

文献阅读：Rich feature hierarchies for accurate object detection and semantic segmentation，Tech report（v5）（2014）

文章目录

摘要

介绍

1. 回顾

2. 思路

问题一：目标局部化——区域识别

问题二：labeled data缺乏——无监督预训练+有监督微调

3. 模型的高效性

RCNN过程

1. 生成候选区域（region proposal）

2. 用训练好的CNN提取每个proposal的特征

3. 用每个类别训练好的线性SVM对每个proposal中所有类别进行评分

4. Greedy non-maximum suppression（NMS）

Object detection with R-CNN

要点1：生成与类别独立的候选区域

要点2：CNN从每个候选区域提取长度固定的特征向量

要点3：每个类别对应的线性SVM

要点4：bounding box回归（附录C）

Test-time detection

如何训练？

CNN

SVM——Object category classifiers

fine-tuning和SVM关于正负样本定义的不同 and softmax（附录B）

结果

你可能感兴趣的:(RCNN系列,Deep,Learning)