AndyLiu1997

（SSD）Single Shot MultiBox Detector论文阅读笔记

文章目录

SSD: Single Shot MultiBox Detector论文阅读笔记2016

Abstract
1. Introduction
2. The Single Shot Detector (SSD)

2.1 Model
2.2 Training

3. Experimental Results

3.1 PASCAL VOC2007
3.2 Model analysis
3.3 PASCAL VOC2012
3.4 COCO
3.5 Preliminary ILSVRC results
3.6 Data Augmentation for Small Object Accuracy
3.7 Inference time

4. Related Work
5. Conclusion

SSD: Single Shot MultiBox Detector论文阅读笔记2016

Abstract

我们提出了一种使用单个深度神经网络进行目标检测的方法，叫做SSD，我们的方法在特征图的每个位置，将bbox离散化成一组不同长宽比和尺度的默认box。在测试阶段，网络对每个默认box中的每个目标类别是否存在生成一个分数，然后对box进行调整来更好地匹配目标形状。另外，网络组合了来自多个不同分辨率的特征图的预测来应对不同尺寸的目标。SSD相对简单，因为它消除了生成proposal以及之后的像素或特征的resampling过程，将所有的计算整合到一个网络中，这使得SSD很容易训练，且可以直接被应用。

对于如数为300 * 300的图像，在VOC2007 test上，SSD可以达到74.3% mAP，59FPS；对于512 * 512输入，取得76.9% mAP，超过了Faster R-CNN。相对于其他one-stage的方法，SSD有着更高的准确率。

1. Introduction

目前SOTA目标检测方法都是按照以下流程：**提出假设的bbox，对于每个box resample像素或特征，然后使用一个高质量的分类器。**这种流程尽管准确，但是计算量很大，对于实时检测应用来说太慢。最快的Faster R-CNN也只能达到7FPS，目前也有很多尝试来加速某个过程，但是迄今为止，极大提升速度往往牺牲了很大的准确率。

本文提出了第一个基于深度网络，但是没有resample像素或特征图来提出bbox假设，并且可以取得与其他方法相当的准确率的目标检测方法。我们的方法在保持准确率的同时，大幅提升了速度，这主要是得益于我们取消了proposal生成以及resample的流程。我们不是第一个这样做的，但是我们的一些方法使得准确率保持很高的水平。**我们的方法包括使用一个小的卷积核来预测目标类别和bbox位置的offsets，对不同的长宽比目标的检测使用分离的predictors(filters)，为了多尺度检测，将这些filters应用在多个不同分辨率的特征图上。**这种在多个尺度的预测极大提升了准确率。我们将我们的贡献总结如下：

我们提出了SSD，一个single-shot的多类别目标检测方法，比SOTA的one-stage方法（YOLO）都快，且准确率可以达到two-stages方法的水平。
SSD的核心是使用小的卷积核应用到特征图上，来对一系列固定的默认bbox来预测类别分数和box offsets。
为了取得高的准确率，对于不同的长宽比，我们使用不同的卷积核；为了不同尺度检测，我们在不同分辨率的特征图上进行预测。
这样设计使得训练更容易，并且即使在低分辨率的输入图像上也取得了高的准确率，提升了speed和accuracy的trade-off。

2. The Single Shot Detector (SSD)

2.1 Model

SSD方法基于一个卷积网络，生成一系列固定尺寸的bbox，然后对这些box中的目标类别是否存在进行评分，之后使用NMS来产生最后的检测结果。前面的网络层基于标准用来分类的网络结构（分类层之前），我们称为base基础网络，我们增加了后面的结构来得到好的效果。

Multi-scale feature maps for detection。

我们在基础网络之后增加了卷积特征层，这些层在尺寸上逐渐递减，使得网络可以对不同尺度进行检测。每个特征层的卷积模型都不相同。

Convolutional predictors for detection。

每个增加的特征层（或base网络中已有的特征层），使用一组卷积核来生成固定的检测预测结果。如图2中的最后几层所示。对于尺寸为m * n，p通道的特征层来说，用于预测的卷积核为3 * 3 * p的小卷积核，生成bbox对于每一类目标的分数或相对于默认bbox坐标的offsets。对于m * n的每个位置都进行预测，bbox的offset输出值是相对于默认bbox的偏差。（YOLO使用的是一个中间的fc层而不是卷积层来进行这步操作。）

Default boxes and aspect ratios。

对于每个特征层的每个cell，我们设定了一系列的默认bbox。默认的bbox按照卷积的方式平铺在特征图上，因此每个box的位置相对于它对应的cell都是固定的。在每个卷积图cell上，我们预测相对于这个cell对应的box的offset以及box中每类目标存在的分数。

详细来说，**对于每个特征图位置，生成k个box，每个box我们计算c类别分数，以及4个offsets。结果就是(c+4)k，对于m * n的特征图，输出结果为(c+4)kmn。**我们的默认box与Faster R-CNN中的相似，见图1，但是我们在几个不同分辨率的特征图上使用。

2.2 Training

训练SSD和其他使用region proposal的目标检测方法最关键的不同在于，**ground truth信息需要分配到fixed set of detector outputs中的某个特定输出。**YOLO个Faster R-CNN的region proposal阶段也需要这样。一旦分配完成，loss函数和反向传播就可以end-to-end，训练过程包括了选择默认box和尺度，以及hard negative mining和数据增强。

Matching strategy。

训练中我们需要决定哪些bbox与ground truth相关联，然后按照这个训练。开始我们将每个ground truth box与默认box中有着最好IoU的进行匹配。之后我们将默认box与任意一个ground truth box进行match，如果IoU大于某个阈值（0.5），那么就认为匹配成功。匹配到的就是正样本，没匹配到的就是负样本。这简化了学习过程，使得网络对多个重叠的默认box预测高分数，而不是只pick有着最高IoU的那一个box。

Training objective。

设置 $x^p_{ij}=\{1,0\}$ 作为第i个默认box和第j个groundtruth box相对于类别p的匹配指示器。按照上面的匹配策略可知，（因为至少有一个最大分数的默认box与这个ground truth相匹配）。总体的目标loss函数是loc loss和置信度loss的加权求和。

N为相匹配的默认boxes的个数，如果N=0，loss设为0。loc loss为预测的box（l）和ground truth（g）参数之间的L1 Loss。我们对默认box的中心坐标（cx，cy）以及宽度（w）高度（h）进行回归，得到offsets。

置信度loss是C类目标的softmax loss。

Choosing scales and aspect ratios for default boxes。

受到之前方法放入其他，我们既使用了lower的特征图，也使用了upper的特征图，来处理多尺度的目标。图1展示了两个示例，使用了8 * 8和4 * 4的特征图。实际上，我们可以使用少的计算使用更多的特征图。

不同等级特征图通常有不同的感受野尺寸，幸运的是在SSD中，默认box不需要和每层的真实感受野相关联。**我们设计将默认box平铺，为了使特定的特征图学习对特定尺寸的目标进行响应。**假设我们使用m个特征图用来预测，每层特征图的默认box的尺度由下面式子计算得出：

其中，**smin = 0.2，smax = 0.9，意味着最低的特征层尺度为0.2，最高的尺度为0.9，所有层之间等差递增。我们为默认box选择多个长宽比，记为 $a_r\in\{1,2,3,1/2,1/3\}$ 。**我们对每个默认box计算宽度和高度：

对于长宽比为1的，我们增加一个长宽比为1，尺度为的box，这样每个特征图的每个位置就生成了6个默认box。我们将每个默认框的中心坐标设置为，其中，fk为第k个特征图的尺寸，i，j范围在0-fk之间。实际上，可以针对特定的数据集来设定默认框，这是一个开放的问题。

对所有的默认框进行预测之后，我们得到了一系列预测，包含了不同的输入目标尺寸和形状。比如，在图1中，狗在4 * 4的特征图中被匹配到一个默认box中，而在8 * 8的特征图中，没有匹配。这是因为这些box的尺度不同，没有匹配到狗。

Hard negative mining。

在matching之后，大部分的默认box都是negatives，这就使得正负样本很不平衡。我们不使用所有的负样本，**我们对它们的置信度loss进行排序，选择loss最高的一些，使得负样本：正样本接近3:1。**我们发现这会使得优化更快，训练更稳定。

Data augmentation。

为了使模型对不同目标尺寸形状更加鲁棒，每张图像都是通过随机进行下面的一种操作取样的。

使用整张输入图像
随机采样一个patch，使得它与目标的最低IoU为0.1,0.3,0.5,0.7,0.9
随机采样一个patch

采样到的每一个patch尺寸是原图的0.1-1，长宽比在[0.5,2]。如果ground truth的中心在采样patch中，我们就保存与ground truth重叠的部分。上面的采样操作之后，每个patch被resize到固定尺寸，0.5的概率水平翻转，使用了一些光度失真。

3. Experimental Results

**Base network。**我们实验基于在ILSVRC CLS-LOC预训练的VGG16网络，我们将fc6和fc7转换为卷积层，将pool5从2 * 2，s2变为3 * 3，s1，使用atrous算法来填“洞”。移除了fc8和所有的dropout。我们使用初始学习率0.001、0.9动量、0.0005权值衰减来进行SGD训练，进行微调，batch size为32。

3.1 PASCAL VOC2007

我们在这个数据集上将SSD与Fast R-CNN和Faster R-CNN的结果进行对比。

图2展示了SSD300模型的结构细节。我们使用conv4_3、conv7、conv8_2、conv9_2、conv10_2、conv11_2作为多个特征图来预测loc和confidence。在conv4_3我们设置默认box尺度为0.1。对于conv4_3、conv10_2、conv11_2，我们每个位置产生4个默认bbox，省略长宽比3和1/3，其他层每个位置生成6个。我们使用L2归一化来对每个位置的特征范数置为20，然后再反向传播中学习这个scale。

表1展示了我们的低分辨率模型SSD300已经比Fast R-CNN更准确，使用512 * 512训练网络，效果超过了Faster R-CNN。

图3中展示了SSD可以高质量的检测多个目标类别。大部分的预测都是正确的，召回率有85-90%。与R-CNN相比，SSD有更少的定位错误，因为它直接学习去regress目标形状和分类，而不是当作两个步骤。然而对于相似的目标类别，SSD有更多的confusion（尤其是动物），可能是因为我们对多类别中共享了locations。

图4展示出SSD对于bbox size非常敏感，也就是说，对于小的目标比大的目标表现更差。这很容易理解，因为那些小的目标在后边的层可能没有任何信息。提升输入尺寸可以帮助提升检测小目标的效果，但是仍有很大提升空间。SSD对于不同尺寸长宽比的目标非常鲁棒。

3.2 Model analysis

为了更好地理解SSD，我们使用控制变量的实验来探究各部分的效果。

**Data augmentation is crucial。**Faster R-CNN使用原图和水平翻转来训练，我们使用了更expensive的策略，表2展示出，我们使用这种策略之后提升了8.8%mAP。

**More default box shapes is better。**如2.2中所讲，我们在特征图每个位置生成6个默认框，如果移除3和1/3，效果降低了0.6%，继续移除2和1/2长宽比，又下降了2.1%。使用更多的默认box尺寸使得效果更好。

**Atrous is faster。**我们使用Atrous版本的VGG16，如果我们使用原本的VGG16，pool5还是2 * 2—s2，不下采样fc6和fc7的参数，增加conv5_3用来预测，效果相似，但是速度下降了20%。

**Multiple output layers at different resolutions is better。**SSD的一个主要贡献就是在不同输出层使用了不同尺度的默认box。为了measure获得到优势，我们逐渐的移除层，然后比较结果，为了公平比较，我们每次移除一层，我们调整默认box平铺来保证box的总数不变。表3展示了，是由更少的层准确率降低了很多，最大从74.3降到62.4。

3.3 PASCAL VOC2012

我们使用与在VOC2007上相同的设置进行训练，0.001学习率训练60k迭代，再使用0.0001训练20k迭代。表4展示了SSD300和SSD512的结果。

我们可以看到与VOC 2007test上相似的结果，将尺寸提升到512，我们比Faster R-CNN准确率高4.5%，相比于YOLO，我们更加准确。

当使用在COCO训练过的模型进行微调之后，我们SSD512达到80.0%mAP。

3.4 COCO

我们又在COCO上训练了SSD300和SSD512。COCO上的目标比VOC上的小，我们对所有层使用了更小的默认box，将最小的默认框尺度从0.2降到0.15，在conv4_3上的尺度为0.07。

表5展示了结果。SSD300在mAP@[0.5:0.95]上超过了Fast R-CNN，提升尺寸到512之后，在所有IoU上都超过了Faster R-CNN。

**我们推测Faster R-CNN相比于SSD来说，更擅长小目标，因为它有两次box refinement。**图5中，我们展示了一些检测样本。

3.5 Preliminary ILSVRC results

我们使用与COCO上同样的网络结构来应用到ILSVRC DET数据集上，使用SSD300，我们在val2上得到43.4%的mAP，这验证了SSD是一个高质量实时检测的通用框架。

3.6 Data Augmentation for Small Object Accuracy

2.2中介绍的数据增强策略提升了模型的表现，尤其在PASCAL VOC数据集上。通过这种策略生成的crops可以看做是放大操作；**我们同样可以进行缩小操作来创建更多小的训练样本，我们开始在原图像大小16倍的canvas上随机放置图像，画布上的值为图像的均值。**我们将训练的迭代次数翻倍，如表6中所示，我们在多个数据集上都可以观察到2-3%的mAP提升。图6展示了这种数据增强方法对小目标的检测效果提升。

**另一种提升SSD的方式就是设计一种更好的默认框平铺策略，使它的位置和尺度与特征图每个位置的感受野更好的对齐。**我们留到未来的工作中。

3.7 Inference time

考虑到我们的方法生成的box数量很大，因此测试阶段使用非极大值抑制NMS就十分关键。对置信度添加一个阈值0.01，我们可以过滤掉大部分box，然后使用nms，对于每类的IoU阈值0.45，每张图像保留200个预测结果。这一步对于SSD300在VOC上每张图像花费1.7ms，与所有新加层的花费时间（2.4ms）相近。

表7比较了SSD、Faster R-CNN、YOLO，我们的两种SSD在速度和准确率上都超过了Faster R-CNN；尽管Fast YOLO可以达到155FPS，但是它比我们的mAP低了22%，SSD300是第一个可以达到超过70%mAP的实时检测方法。超过80%的计算时间都是用在了base网络上，使用更快的base网络可能还会加速我们的方法。

4. Related Work

图像中的目标检测主要有大类方法，基于滑窗的方法和基于region proposal classification的方法，早期的代表为DPM和SS。在R-CNN出现之后，基于region proposal的方法就变为主流，主要使用了深度卷积网络来提升proposal生成的质量。

我们的SSD与RPN网络非常相似，我们同样使用了一系列固定的默认box，类似于RPN中的anchor。但是我们没有对这些框进行池化得到特征，然后送入另一个分类器。我们的方法同时在每个box中生成每一类目标的分数和坐标的offset。因此我们的计算量很少比Faster R-CNN少得多。

对于另一种基于滑窗的方法，OverFeat在知道特征图每个位置的置信度之后直接预测bbox。YOLO使用最后的特征图同时预测置信度和bbox（bbox的坐标在所有类中共享，不是class-specific的）。**我们的SSD就使用这种策略，但是我们的方法更加灵活，因为我们使用了不同分辨率的特征图，使用了不同长宽比的默认框。**如果我们每个位置只产生一个默认框，我们就与OverFeat类似，如果我们只对最后一层特征图进行操作，且没有使用多个长宽比，那么我们就与YOLO类似。

5. Conclusion

本文提出了SSD，一个快速的single-shot目标检测器。我们模型的关键特征就是使用了多尺度的特征层以及多长宽比的默认框。我们验证发现，使用更多的默认框可以提高检测效果。我们验证了，使用VGG16作为基础网络，我们的SSD效果在准确率和速度上都达到SOTA。

我们相信我们的网络可以作为大型的系统中的一个小的目标检测单元。我们未来的研究方向就是研究它在系统中使用RNN网络同时对视频中的目标进行检测和跟踪。

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
cvc降噪和主动降噪_音频知识：CVC降噪和ANC主动降噪的区别和应用汪国 cvc降噪和主动降噪
原标题：音频知识：CVC降噪和ANC主动降噪的区别和应用降噪，对于需要长时间戴耳机的人群来讲，起到了很好的保护作用。然而在购买蓝牙耳机时总会听到商家在宣传耳机所具备的CVC、ANC降噪功能，尽管听过很多商家描述，有些小伙伴依然不是很明白这两者之间的区别以及应用。现在简单和大家介绍这两个看不懂的降噪名词。CVC降噪(ClearVoiceCapture)是通话软件降噪技术。工作原理是是通过耳机内置的消
JVM字节码加载与存储中的细节
问题引出：为什么Java定义int型变量为32767时使用的是bipush32767，而定义int型变量为32768时使用的是ldc#4？在Java中，如果这样定义int型变量：publicclassTest{publicstaticvoidmain(String[]args){inti=0;intj=5;intk=6;intm=32768;intn=32767;}}变量对应的字节码文件内容是这样
C语言手写简易 DNS 客户端（接收部分）（Charon） c语言开发语言
本文通过纯C语言手动构造DNS请求报文，使用UDP协议发送到公共DNS服务器，并接收响应，完整演示DNS请求流程。主流程：dns_client_commit()这是整个流程的核心函数，下面我们按顺序拆解每一步的逻辑，尤其突出发送sendto与接收recvfrom的设计思路和实现。第一步：创建UDP套接字intsockfd=socket(AF_INET,SOCK_DGRAM,0);if(sockfd
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
Java多线程吴鹰飞侠 java 开发语言
多线程是指一个程序中有多个执行路径（线程），每个线程并发运行，彼此独立，执行不同的任务。一个线程是程序中的基本执行单位。创建和启动线程1.通过继承Thread类classMyThreadextendsThread{@Overridepublicvoidrun(){System.out.println("线程正在执行...");}}publicclassMain{publicstaticvoidma
OpenCV图像数据处理:convertTo,normalize和scaleAdd luofeiju OpenCV函数实战 opencv
在OpenCV图像处理的世界里，有几个函数进行一些基本数据变换：cv::convertTo()：类型转换与线性缩放；cv::normalize()：归一化处理；cv::scaleAdd()：加权叠加运算。cv::addWeighted():与scaleAdd相似，进行加权叠加运算；一、cv::convertTo()：线性变换+数据类型转换voidcv::Mat::convertTo(OutputA
用Python和OpenCV从零搭建一个完整的双目视觉系统（三） presenttttt 双目立体视觉数码相机
本系列文章旨在系统性地阐述如何利用Python与OpenCV库，从零开始构建一个完整的双目立体视觉系统。本项目github地址：https://github.com/present-cjn/stereo-vision-python.git在上一篇文章中，我们为项目设计了清晰的架构。现在，我们将深入第一个，也是整个双目视觉系统最关键的模块——相机标定(CameraCalibration)。如果说双目
（一）OpenCV——噪声去除（降噪）
高斯滤波器（针对高斯噪声）高斯噪声是指它的概率密度函数服从高斯分布（即正态分布）的一类噪声。常见的高斯噪声包括起伏噪声、宇宙噪声、热噪声和散粒噪声等等。高斯滤波(Gaussianfilter)包含许多种，包括低通、带通和高通等，我们通常图像上说的高斯滤波，指的是高斯模糊(GaussianBlur)，是一种高斯低通滤波，其过滤调图像高频成分（图像细节部分），保留图像低频成分（图像平滑区域），所以对图
多线程在Java项目中的使用案例(笔记) 车车不吃香菇 java基础 java
多线程在Java项目中的使用案例(笔记)实现runnable接口@OverridepublicBooleanaddMeetingExpertIds(MeetAddExpertDtomeetAddExpertDto,LonguserId){//会议关联到专家//如果需要发给专家newThread(newRunnable(){@Overridepublicvoidrun(){try{if(meetAd
Dart 语言知识点总结小李飞飞砖 javascript 开发语言 ecmascript
Dart语言知识点总结Dart是Flutter框架的编程语言，是一种面向对象的、强类型的、支持垃圾回收的语言。以下是Dart语言的核心知识点：一、基础语法1.变量与常量//变量声明varname='Alice';//类型推断Stringname='Alice';//显式类型dynamicdynamicVar='String';//动态类型//常量finalfinalVar='不可修改';//运行时
NodeJS VM2沙箱逃逸漏洞分析【CVE-2023-29199】 R3s3arcm NodeJS漏洞分析 node.js 安全安全威胁分析
NodeJSVM2沙箱逃逸漏洞分析【CVE-2023-29199】简介Node.js是一个基于V8引擎的开源、跨平台的JavaScript运行环境，它可以在多个操作系统上运行，包括Windows、macOS和Linux等。Node.js提供了一个运行在服务器端的JavaScript环境，使得开发者可以编写并发的、高效的服务器端应用程序。Node.js使用事件驱动、非阻塞I/O模型来支持并发运行。它
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
libjpeg-turbo图片解码 VS opencv momomo_mocs opencv 人工智能计算机视觉
#include#include#includestd::pairJpegTurboDecode(conststd::string&raw_jpeg_data,std::vector*result_data){if(nullptr==result_data){LOG(INFO)(const_cast(raw_jpeg_data.data())),raw_jpeg_data.size(),&widt
多态的两种声明 ···想要成为大佬··· java 开发语言
1.参数传递的形式：多态的语法：父类变量名=new子类名（）；packageTest;importdomin.Cat;importdomin.Master;importdomin.Per;publicclasstest{publicstaticvoidmain(String[]args){//多态实现Perper=newCat();Mastermaster=newMaster();master.f
异步进阶：C#的Task.WhenAll——如何开启多个异步任务
Task.WhenAll是.NET中用于并行等待多个异步任务的核心方法。它可以让多个异步操作同时执行，然后一次性等待所有任务完成，而不是逐个等待。asyncvoidMain(){//准备数据：[1,2,3,4,5,6,7,8,9,10]varinputs=Enumerable.Range(1,10).ToArray();varoutputs=newList();//❌错误方式：串行执行（一个接一个
OpenCV探索之旅：多尺度视觉与形状的灵魂--图像金字塔与轮廓分析
在我们学会用Canny算法勾勒处世界的轮廓之后，一个更深层次的问题摆在了面前：这些由像素组成的线条，如何才能被赋予“生命”，成为我们能够理解和分析的“形状”？如果一个物体在图像中时大时小，我们又该如何稳定地识别它？欢迎来到本次的探索之旅。我们将建造两种强大的“金字塔”，赋予我们跨越尺度的“鹰之眼”；然后，我们将不仅仅是找到轮廓，更要深入其内部，测量它的面积、周长，找到它的重心，甚至量化它的“形状”
网安学习NO.14
防火墙基础实验传统防火墙配置实验拓扑图PC：ip192.168.10.1255.255.255.0192.168.10.254ipdns114.114.114.114二层交换机vl10exinte0/0swmoacswacvl10exinre0/1swtrendoswmotr三层交换机vl10exintg0/0swtrendoswmotrexiproutingintvl10ipaddress192
C#中的Async的异常处理 walterCui 异步编程 c#开发语言
在C#的代码编写中可以通过try/catch来捕获Exception。然而当调用Async方法时需要特别注意privatevoidStart(){try{TestVoid();}catch(Exceptione){Debug.LogException(e);}}privateasyncvoid
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
linux打包指令和移动指令
在Linux中，常用的文件夹打包命令是tar，它可以将文件夹压缩打包成.tar、.tar.gz、.tar.bz2等格式的文件。以下是具体用法：1.基础打包（不压缩，生成.tar文件）将文件夹folder打包为folder.tar：tar-cvffolder.tarfolder/参数说明：-c：创建新的归档文件（打包）。-v：显示打包过程（verbose，可选，方便查看进度）。-f：指定打包后的文件
Linux 进程创建探秘：为什么 strace 看不到 fork 调用？ x.van Linux linux 运维服务器
在学习Linux系统编程时，很多初学者会对进程创建机制感到困惑。当使用strace跟踪程序执行时，明明代码中调用了fork()，却在输出中找不到fork系统调用的踪迹，反而看到了clone()。这背后隐藏着Linux进程创建的重要机制，本文将逐步揭开这个谜团。一、Unix进程模型基础：fork与execve的黄金组合1.1进程创建的核心概念在Unix/Linux系统中，进程创建遵循一个经典模型：先
网络安全｜填志愿选学校，选哪个学校更出洞？——漏洞库网安导师小李网络安全编程程序员 web安全网络安全自动化运维 python java
这篇只讲国内漏洞挖掘这一点，在出洞数量上遥遥领先的一般是安全厂商的队伍，但是其中不乏高校、个人的身影。数据来源仅供参考，如果数据涉及错漏，欢迎指正。漏洞库CVE是国际公认最大的漏洞信息库，除此之外国内的漏洞官方信息公开渠道有：国家信息安全漏洞共享平台（CNVD）：隶属于国家互联网应急中心（CNCERT），是CNCERT联合国内重要信息系统单位、基础电信运营商、网络安全厂商和软件厂商共同建立的平台。
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在