LZQ-liziqin

论文笔记：SSD：Single Shot MultiBox Detector

论文原文：SSD

title：《SSD: Single Shot MultiBox Detector》

author：Wei Liu1, Dragomir Anguelov2, Dumitru Erhan3, Christian Szegedy3Scott Reed4, Cheng-Yang Fu1, Alexander C.

Abstract.我们提出了一个用于图片中检测目标的新方法，这个方法只需要 a single deep neural network.方法取名为SSD，SSD在每一个feature map的位置上将输出空间的bounding box 离散化成一系列默认的不同横纵比和尺度的boxs。在预测的时候，网络在默认box中生成每一个object类别的分数，调节box使其更好的匹配object的形状。而且为了处理各种大小的object，网络结合了不同分辨率的各特征图。SSD相对于需要目标区域的方法来说更为简单，因为它完全消除了区域生成和随后像素或特征的重采样步骤并且将所有的计算压缩到单个网络中。这使得SSD更容易训练，并且能直接集成到需要检测成分的系统中。PASCAL
VOC, COCO, 和ILSVRC数据集上的实验结果证实当提供一个统一的用于训练和推理的框架时，SSD相比于那些利用额外的目标区域步骤的方法精度更高也更快。

1 Introduction.当前最先进的目标检测系统都是以下方法的变种：假设bounding box，对每一个box重采样像素或者特征，利用一个高质量的分类器。这种方法在目标检测中已经十分流行。但是现在这种方法对于嵌入式系统来说计算量太复杂，对于需要实时的设备来说太慢。这些检测方法的检测速度通常用秒每帧（SPF）来度量，即使现在最高精度的Faster R-CNN，也只能达到7帧每秒。在构建更快的检测器有很多尝试，，但是到目前为止，加快速度的最重要的方法还是基于减少检测精度。这篇paper提出了第一个基于目标检测器的网络，这个网络不需要为bounding box 假设对像素或特征重采样并且这是一个精度很高的方法。SSD提速的根本原因是消除bounding box 候选区和随后的像素或重采样步骤。通过一系列的提升，我们相较于以前的尝试明显的提升了精度。我们的提升方法包括：对object分类使用小卷积滤波，使用bounding box 位置的偏置，对不同横纵比的检测物使用不同的预测器，然后将这些滤波器应用到不同的特征图，这是为了适应不同大小的检测。这些修改-尤其是预测不同尺度使用multi layer-我们在相对低分辨率的输入上取得了高精度和速度。

这篇paper的contribution总结如下：

---介绍SSD比之前最先进的YOLO更快，并且精度更高，事实上准确率跟慢速的直接使用候选区域和池化的技术（比如Faster R-CNN）一样好。

---SSD的核心是用小的卷积滤波为一系列默认的bounding box预测类别的分数和box偏置。

---为了达到高的预测精度，我们用来自不同尺度的特征图的不同规模的预测，通过横纵比划分。

---这些设计特征产生了一个端到端的训练和极高精度，即使在低分辨率的输入图像中，即提高了速度又提高了精度。

---实验包括对各种size的输入的模型的时间和精度分析，训练集选择有 PASCAL VOC, COCO, 和 ILSVRC，并且和最近最先进的方法做了比较。

2 The Single Shot Detector (SSD)，这个部分描述我们提出的SSD检测框架（Sec. 2.1)和相关训练方法 (Sec. 2.2).然后 Sec. 3展示了具体数据集上的模型细节和实验结果。

Fig. 1:：SSD框架。a）在训练时SSD只需要一个输入图像和ground truth，在卷积的方式下，在多个不同尺度的特征图上，对于每一个位置，我们估计了一个小的不同横纵比的默认集合框（例如8*8和4*4如 b），c）），对每一个默认box，我们预测形状的偏置和所有种类（c1,c2......cp）的置信度。在训练时我们首先将这些默认box和ground truth匹配。例如我们给猫匹配两个默认box，给狗子匹配一个box，这些框都被认为是正样本，剩下的是负样本。模型的loss是定位loss和置信度loss的加权和。

2.1 Model.SSD方法是基于一个前向卷积网络，这个网络产生一个固定大小的bouding box集合和其对应框出现object实例的分数，随后采用一个非极大抑制产生最后的检测结果，早期的网络基于一个用于高质量图像分类的结构（截去了分类层），然后我们添加了附加的结构到网络里，产生带有下列关键特征的检测：

用于检测的多尺度特征图 ，我们添加了一个卷积层在被截断的网络的后面，这些层在尺度上逐渐减小，允许在多尺度上预测。这个为预测检测的卷积模型不同于每个特征层（overfeat和YOLO都在一个单独的特征图上操作）

用于检测的卷积预测器，每一个添加的特征层（或者随意来自基本网络的已经存在的特征层）可以使用一组卷积滤波器来产生一组固定的检测预测。这些已经在SSD网络结构的顶端指明，见 Fig. 2.对于p个通道m*n的特征层，一个预测参数的基本元素是一个3*3*p的小卷积核，它可以产生一个分数，这个分数是关于类别或者默认框坐标的偏置。在每一个m*n的位置，当应用一个卷积核的时候产生一个输出值。边界框的偏移输出值是相对于默认框，而边界框的位置是相对于每个特征图的位置，（参见YOLO的结构，YOLO使用一个全连接层而不是该步骤的卷积滤波器）。

Fig. 2:一个关于两个单次检测器的比较：SSD和YOLO，我们的SSD模型在基本网络上添加了几个特征层，这些层预测不同尺度和横纵比的默认框的偏移和置信度。

默认框和横纵比，我们将一组默认的边界框和顶层网络多个特征图单元关联起来，默认框以卷积的形式在特征层的后面连接，因此每个框的位置相对于它对应的单元来说是固定的。在每个特征映射单元，我们预测了单元内相对于默认框形状饿偏移，还有对每个框，指示每个类别存在的分数。特别的在一个给定的位置，对于k个框中的每一个框，我们计算c个类别的分数和关于原始默认框形状的4个偏移，这将会在特征图上的每一个位置应用一共（c+4）*k个滤波器，对于一个m*n的特侦图产生（c+4）*k*m*n个输出。请参考图1.我们的默认框与在Faster R-CNN中应用的锚点框很相似，但是我们将它们应用于不同分辨率的多个特征图。允许在不同特征图上的默认box形状使得我们更加高效的离散化可能输出的边框形状的空间。

2.2 Training

训练SSD和训练一个用候选区的检测器最关键的区别是ground truth需要被指定到检测器一组固定输出的某一特定输出。一旦这个指定被确定，损失函数和反向传播将被应用于端到端训练，训练也涉及到选择一组默认框和其大小，还有困难负样本挖掘（hard negative mining）和数据增强策略。

匹配策略 在训练时我们需要确定默认框和ground truth 的对应关系，然后训练这个相应的网络。对于每一个ground truth 框，我们选择来自不同位置，不同横纵比和尺度的默认框。我们刚开始使用jaccard重叠率（比如在MultiBox中）来为每一个ground truth 和默认框做匹配。与 MultiBox不同,我们接着使用高于阈值0.5的jaccard来为ground truth框匹配默认框。这简化了学习问题，时网络在有多个默认的重叠框的时候预测更高的分数，而不仅仅是选择有最大重叠率的box。

训练目标 SS的训练目标是离散来源于 MultiBox的目标，但是被扩展为处理多目标分类任务，设置为一个匹配类别p第i个默认box和第j个ground truth 的框的指示器。在上述的匹配策略中我们有，总的目标损失函数是定位loss（loc）和置信度loss（conf）的加权和：，N是匹配的默认框的数量。如果N=0，我们就设loss=0.这个定位loss是一个介于预测框（l）和ground truth框（g）之间的Smooth L1 loss，类似于Faster R-CNN，我们为默认框（d）回归它的中心（cx，cy）和宽度（w）和高度（h)的偏差。

置信度loss是多类别的置信度（c）的softmax损失

其中权重项a在交叉验证的时候设置为1.

选择默认框的尺寸和横纵比 为了处理不同的目标尺寸，一些方法提出用不同的大小并且结合之后的结果来处理。然而，通过利用在一个单一网络里来自不同层的特征图来预测我们可以模仿相同的结果。同时在所有目标尺度之间共享参数，之前的一个研究表明使用来自低层的特征能够提高语义分割质量，因为低层特征能捕捉到输入目标更多细节的信息。[12]表明增加一个来自特征图的全局语义池化能够帮助平滑分割的结果，受这些方法的启发，我们为检测联合使用来自高层和低层的特征图。图1.展示了用于网络结构里面的两个示例特征图（8*8和4*4）。事实上，我们可以使用更多计算量小的特征图。一般来说，同一个网络里面来自不同层的特征图有不同的感受野大小。幸运的是，在SSD框架下，默认框不需要对应于每层的实际感受野，我们设计默认框的结构，使得特定的特征图学习对特定尺寸的目标做出响应。假设我们为预测使用了m个特征图，每一个特征图的默认框的尺寸按此方式计算：，smin是0.2，smax是0.9，意味着最低层的尺寸是0.2，最高层的尺寸是0.9，且其中所有的层是规则间隔的，我们给默认框加上不同的横纵比，将他们表示为{1，2，3，1/2，1/3}，我们能计算每一个默认框的宽度和高度。对于横纵比为1，我们还添加了一个默认框，他的尺寸是：，每一个特征图的位置产生6个默认框，我们将每个默认框的中心设置为：，其中|fk|是第k个矩形框的大小，，事实上，我们也能设计默认框的分布使其最适合某一个具体的数据集，通过组合许多特征图在所有位置的不同尺寸和横纵比的所有默认框的预测，我们具有多样化的预测集合，覆盖各种输入object的大小和形状。比如在图1中，狗子的匹配的默认框是4*4的特征图而不是8*8d的特征图，这是因为这些框有不同的大小并不匹配狗子的框，因此在预测时被认为时负样本。

Hard negative mining 在匹配步骤之后，大多数的默认框都是负样本，尤其当默认框的数量很大的时候，这显示了一种训练时正负样本量的严重不平衡。我们不使用所有的负样本，我们给每一个默认框用置信度loss排序，并选择前面的那些，使得正负样本之比最多为3：1，我们发现这个比例将导致更快的优化和更稳定的训练。

数据增广 为了使模型对不同大小和形状输入的图像具有更高的鲁棒性，每个训练图像都通过一下选项之一随机采样：

---使用原始的全图作为输入

---采样一个patch，使object最小的jaccard重叠率最小为：0.1，0.3，0.5，0.7，0.9.

---随机的采样一个patch

每一个采样的patch的大小是原图的【0.1，1】倍，横纵比在1/2到2之间，如果ground truth的中心在采样框内，则保持重叠部分。在上述采样步骤之后，将每个采样patch大小调整为固定大小，并以0.5的概率水平翻转。

3 Experimental Results

基础网络 我们的实验都基于VGG6，，将其在 ILSVRC CLS-LOC数据集上预训练，我们将fc6和fc7转换为卷积层，下采样的参数从fc6和fc7中获得，将pool5从2*2——s2转换为3*3——s1，并使用atrous算法填“洞”。我们删除了所有的dropout层和fc8层，使用SGD对这个模型进行fine-tune，初始学习率，0.9 momentum, 0.0005 weight decay, batch大小32。每个数据集的学习速率衰减策略略有不同，稍后我们将描述详细信息。所有训练和测试代码在caffe框架编写，开源地址：https://github.com/weiliu89/caffe/tree/ssd

3.1 PASCAL VOC2007

在这个数据集上，我们比较了Fast R-CNN [6]和Faster R-CNN [2]。所有方法使用相同的训练数据和预训练的VGG16网络。特别地，我们在VOC2007train val和VOC2012 train val（16551images）上训练，在VOC2007（4952图像）测试。

图2显示了SSD300模型的架构细节。我们使用conv4_3，conv7（fc7），conv8_2，conv9_2，conv10_2和pool11来预测位置和置信度（对SSD500模型，额外增加了conv11_2用于预测），用“xavier”方法初始化所有新添加的卷积层的参数[18]。由于conv4_3的大小较大（38×38），因此我们只在其上放置3个默认框 :一个0.1比例的框和另外纵横比为1/2和2的框。对于所有其他层，我们设置6个默认框，如第 2.2节。如[12]中所指出的，由于conv4_3与其他层相比具有不同的特征尺度，我们使用[12]中引入的L2正则化技术，将特征图中每个位置处的特征范数缩放为20，并在反向传播期间学习比例。我们使用学习速率进行40k次迭代，然后将其衰减到，并继续训练另外20k次迭代。表1显示，我们的SSD300模型已经比Fast R-CNN更准确。当以更大的500×500输入图像训练SSD，结果更准确，甚至惊人的超过了Faster R-CNN 1.9% mAP。

为了更详细地了解我们的两个SSD模型的性能，我们使用了来自[19]的检测分析工具。图3显示SSD可以高质量检测（大、白色区域）各种对象类别。它的大部分置信度高的检测是正确的。召回率在85-90％左右，并且比“弱”（0.1 jaccard重叠）标准高得多。与R-CNN [20]相比，SSD具有较少的定位误差，表明SSD可以更好地定位对象，因为它直接回归对象形状和分类对象类别，而不是使用两个去耦步骤。然而，SSD对相似对象类别（尤其是动物）有更多的混淆，部分是因为多个类别分享了位置。

Table 1: PASCAL VOC2007 test detection results. Fast和Faster R-CNN输入图像最小尺寸为600，两个SSD模型除了输入图像尺寸（300*300和500*500），其他设置与其相同。很明显，较大的输入尺寸得到更好的结果。

图4显示SSD对边界框尺寸非常敏感。换句话说，它对较小的对象比较大的对象具有更差的性能。这毫不意外，因为小对象在最顶层可能没有任何信息保留下来。增加输入尺寸（例如从300×300到500×500）可以帮助改善检测小对象，但是仍然有很大改进空间。积极的一面是，我们可以清楚地看到SSD在大对象上表现很好。并且对于不同的对象宽高比非常鲁棒，因为我们对每个特征图位置使用各种长宽比的默认框。

3.2 模型分析

为了更好地理解SSD，我们还进行了几个人为控制的实验，以检查每个组对最终性能的影响。对于所有以下实验，我们使用完全相同的设置和输入大小（300×300），

数据增广是十分重要的

Fast和Faster R-CNN使用原始图像和水平翻转（0.5概率）图像训练。我们使用更广泛的采样策略，类似于YOLO [5]，但它使用了我们没有使用的光度失真。表2显示，我们可以用这个抽样策略提高6.7％的mAP。我们不知道我们的采样策略将对Fast和Faster R-CNN提升多少，但可能效果不大，因为他们在分类期间使用了pooling，比人为设置更鲁棒。

Fig. 3: VOC2007测试集上SSD512对动物、车辆和家具和视觉效果，第一行显示由于定位不良（Loc），与类似类别（Sim）、其他类别（Oth）或背景（BG）混淆的正确检测（Cor）、假阳性检测的累积分数。

越多的默认框形状效果越好 如第2.2节所述，默认情况下，每个位置使用6个默认框。如果我们删除具有1/3和3宽高比的框，性能下降0.9％。通过进一步移除1/2和2纵横比的框，性能再下降2％。使用多种默认框形状似乎使网络预测任务更容易。

Atrous算法更快 如第3节所述，我们使用了VGG16的atrous版本，遵循DeepLabLargeFOV[16]。如果我们使用完整的VGG16，保持pool5与2×2-s2，并且不从fc6和fc7的采集参数，添加conv5_3，结果稍差（0.7％），而速度减慢大约20％。

不同分辨率的多输出层效果更好 SSD的一个主要贡献是在不同输出层使用了不同尺度的默认框。为了测量所获得的提高，我们移除了这些层并和对应的结果比较，为了比较公平，每次我们移除一层，我们就调整默认box的结构来保持box的数量与原始数量一致，Table3显示了减少多输出层精度的下降，从74.3下降到62.4.

3.3 PASCAL VOC2012

用和VOC2007上一样的设置，这次，用VOC2012的训练验证集和VOC2007的训练验证集、测试集（21503张图像）训练，在VOC2012测试集（10991张图像）测试。由于有了更多的训练数据，模型训练时以学习率进行60K次迭代，再减小到继续迭代20K次。

面向对象与面向过程程序设计语言：核心概念、对比分析与应用指南咸鱼_要_翻身 C++C Python 开发语言
目录一、面向过程程序设计语言(ProceduralProgramming)1、基本概念2、主要特点3、代表语言4、典型示例(C语言)5、优势6、局限性二、面向对象程序设计语言(Object-OrientedProgramming)1、基本概念2、四大核心特性3、代表语言4、典型示例(Java)5、优势6、局限性三、主要区别对比四、实际应用选择建议五、现代语言趋势一、面向过程程序设计语言(Proce
Mybatis 微风粼粼 mybatis tomcat java
1、概述什么是mybatis？MyBatis是一个基于Java的持久层框架，它支持定制化SQL、存储过程以及高级映射。MyBatis消除了几乎所有的JDBC代码和参数的手动设置以及结果集的检索。MyBatis使用简单的XML或注解用于配置和原始映射，将接口和Java的POJOs（PlainOrdinaryJavaObjects，普通的Java对象）映射成数据库中的记录。它是一款半自动的ORM持久层
html2Canvas不支持object-fit属性导致图片变形了懒大王、前端 css3
html2Canvas是不支持object-fit属性data(){return{leftImageStyle:{position:'absolute',width:'1952px',height:'3600px',left:'0',top:'0'}};},mounted(){this.$nextTick(()=>{this.calculateImageDimensions();});},calc
kotlin 读取json文件_Kotlin入门(31)JSON字符串的解析 weixin_39727743 kotlin 读取json文件
json是App进行网络通信最常见的数据交互格式，Android也自带了json格式的处理工具包org.json，该工具包主要提供了JSONObject(json对象)与JSONArray(json数组)的解析处理。下面分别介绍这两个工具类的用法：1、JSONObjectJSONObject的常用方法如下所示：构造函数:从指定字符串构造出一个JSONObject对象。getJSONObject:获
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
如何使用单例模式保证全局唯一实例（复杂版本）
//////登录管理类（单例模式），负责用户登录、注销及用户信息管理///publicclassLoginMananger{//用于线程同步的锁对象staticobject_lockObj=newobject();//单例实例（延迟初始化）staticLoginManangerloginMananger=null;//用户数据库操作帮助类ELMeasure.Model.UserSqlHelpuse
Set接口常用方法总结（Java：集合与泛型(二)）挺菜的 java 集合与泛型 Set java
一、Set接口概述：Set接口继承Collection接口。Set接口的常用实现类有：HashSet,LinkedHashSet和TreeSet.Set和List一样是接口,不能直接实例化,只能通过其实现类来实例化.二、Set接口常用方法总结:注:该博客代码中引包代码均省略,eclipse用户可通过CTRL+shift+o来进行快捷引包add(Objectobj)：向Set集合中添加元素，添加成功
C#事件驱动编程：标准事件模式完全指南钢铁男儿 C#图解教程 c#开发语言
事件驱动是GUI编程的核心逻辑。当程序被按钮点击、按键或定时器中断时，如何规范处理事件？.NET框架通过EventHandler委托给出了标准答案。一、EventHandler委托：事件处理的基石publicdelegatevoidEventHandler(objectsender,EventArgse);参数解析：objectsender→事件源对象（任意类型）EventArgse→事件数据容器
Spatie Laravel-Data 数据转换器深度解析倪俪珍Phineas
SpatieLaravel-Data数据转换器深度解析laravel-dataPowerfuldataobjectsforLaravel项目地址:https://gitcode.com/gh_mirrors/la/laravel-data什么是数据转换器在SpatieLaravel-Data项目中，数据转换器(Transformers)扮演着将复杂数据类型转换为简单类型的关键角色。当我们需要将数据
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
20.XLD轮廓 Echo`` Halcon系统化学习计算机视觉人工智能算法
目录1.xld概念2.画轮廓3.区域转轮廓4.边缘提取算子5.xld特征提取6.提取任意线条7.提取最长的线条8.xld分割10.xld合并11.xld拟合12.xld几何变换13.xld变换14.xld集合运算15.区域和轮廓精度16.轮廓的保存读取17.halcon操作CAD文件18.轮廓测量算子19.同心度计算1.xld概念*图像处理*1.处理对象HObject*1.图像-image*2.区
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
解决部分机型浏览器使用pdf.js 出现 undefined is not an object(evaluating ‘response.body.getReader‘) 报错问题 HHH 917 pdf javascript pdf 前端
问题undefinedisnotanobject(evaluating‘response.body.getReader’)参考小王子的笔记本的技术博客仔细分析源码后发现，PDFjs的getDocument方法不仅可以接收URL作为参数，还可以接收多种类型：而fetch方法返回的Response对象恰恰拥有arrayBuffer方法，可以将数据转为ArrayBuffer对象解决PDF.getDocu
[netty5: HttpServerCodec & HttpClientCodec]-源码分析 idolyXyz netty5-源码阅读 netty
在阅读该篇文章之前，推荐先阅读以下内容：[netty5:ChannelHandler&ChannelHandlerAdapter]-源码解析[netty5:HttpObjectEncoder&HttpObjectDecoder]-源码解析HttpServerCodecHttpServerCodec是一个Netty编解码器，结合HttpRequestDecoder和HttpResponseEncod
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习笔记Ⅰ】6 多类特征巴伦是只猫机器学习机器学习笔记人工智能
多类特征（Multi-classFeatures）详解多类特征是指一个特征（变量）可以取多个离散的类别值，且这些类别之间没有内在的顺序关系。这类特征是机器学习中常见的数据类型，尤其在分类和回归问题中需要特殊处理。1.核心概念(1)什么是多类特征？定义：特征是离散的、有限的类别，且类别之间无大小或顺序关系。示例：颜色：红、绿、蓝（无顺序）。城市：北京、上海、广州（无数学意义的大小关系）。动物类别：猫
图像分割技术详解：从原理到实践 lanjieying
本文还有配套的精品资源，点击获取简介：图像分割是图像处理领域将图像分解为多个区域的过程，用于图像分析、特征提取等。文章介绍了图像分割的原理，并通过一个将图像划分为2*4子块的示例，展示了如何使用Python和matplotlib库中的tight_subplot函数进行图像分割和展示。文章还探讨了图像分割在不同领域的应用，以及如何在机器学习项目中作为数据预处理步骤。1.图像分割基本概念在图像处理领域
机器学习笔记——支持向量机 star_and_sun 机器学习笔记支持向量机
支持向量机参数模型对分布需要假设（这也是与非参数模型的区别之一）间隔最大化，形式转化为凸二次规划问题最大化间隔间隔最大化是意思：对训练集有着充分大的确信度来分类训练数据，最难以分的点也有足够大的信度将其分开间隔最大化的分离超平面的的求解怎么求呢？最终的方法如下1.线性可分的支持向量机的优化目标其实就是找得到分离的的超平面求得参数w和b的值就可以了注意，最大间隔分离超平面是唯一的，间隔叫硬间隔1.1
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
【机器学习笔记Ⅰ】7 向量化巴伦是只猫机器学习机器学习笔记人工智能
向量化（Vectorization）详解向量化是将数据或操作转换为向量（或矩阵）形式，并利用并行计算高效处理的技术。它是机器学习和数值计算中的核心优化手段，能显著提升代码运行效率（尤其在Python中避免显式循环）。1.为什么需要向量化？(1)传统循环的缺陷低效：Python的for循环逐元素操作，速度慢。代码冗长：需手动处理每个元素。示例：计算两个数组的点积（非向量化）a=[1,2,3]b=[4
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
spring面试题【持续更新ing】
spring面试题一、什么是循环依赖（高频）？二、Spring如何解决循环依赖？三、Spring都有哪些重要的模块？四、什么是SpringIOC？五、SpringIOC有什么好处？六、Spring中的DI是什么？七、什么是SpringBean？八、Spring中的BeanFactory是什么？九、Spring中的FactoryBean是什么？十、Spring中的ObjectFactory是什么？十
AttributeError: ‘numpy.ndarray‘ object has no attribute ‘unsqueeze‘ ddfa1234 numpy python 深度学习
z=z*pts_depth.unsqueeze(1)*0.1AttributeError:'numpy.ndarray'objecthasnoattribute'unsqueeze'这个错误是因为unsqueeze()方法是PyTorch张量的方法，而不是NumPy数组的方法。在这里，pts_depth是一个NumPy数组，因此不能使用unsqueeze()方法。如果要在NumPy中实现类似于un
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

论文笔记：SSD：Single Shot MultiBox Detector

3 Experimental Results

你可能感兴趣的:(机器学习,深度学习,论文笔记,Object,Detection)