夏洛的网

SSD 学习与研究

目标检测–SSD

论文地址：https://arxiv.org/abs/1512.02325

project：https://github.com/apache/incubator-mxnet/tree/master/example/ssd

其他参考链接：

1、https://blog.csdn.net/a8039974/article/details/77592395
2、https://www.cnblogs.com/fariver/p/7347197.html
3、https://www.sohu.com/a/168738025_717210
4、https://www.cnblogs.com/lillylin/p/6207292.html
5、https://cloud.tencent.com/developer/article/1052779

一、理解

1、对比

SSD的提出，为了解决实时性和准确性的问题。下面这种图给出了对比，SSD有两种模型，300和512代表不同size的输入图像。

SSD的主要思想就以下几点：

提出类似faster rcnn中的anchor机制，default box（与faster rcnn的区别：每个位置的default box一般是4~6个，Faster rcnn默认9个anchor；同时default box是设置在不同尺度的feature maps上的，且大小不同）；
使用特征金字塔的方式，类似FPN，取多个feature map的预测结果，可以同时监测大目标和小目标；
同样是one-stage训练，采用回归的思想；
使用多种size的输入数据；

优缺点：

速度比YOLO快，准确率比faster rcnn高；
但是需要人工设置default box的min_size，max_size和aspect_ratio值，且每一层feature map下的值都不一样；
对小目标的召回仍然不理想，作者认为，这是由于SSD使用conv4_3低级feature去检测小目标，而低级特征卷积层数少，存在特征提取不充分的问题；

2、核心思想

2.0 特征金字塔

与YOLO直接在卷积层后加全连接不同，SSD使用多个卷积层进行预测，即不同size的feature map结果。SSD使用conv4_3、conv7(fc7)、conv8_2、conv9_2、conv10_2和conv11_2来预测定位和confidence，如下图所示。

特征金字塔的意思如下图所示。

2.1 default box

SSD中引入了default box，类似于faster rcnn中的anchor。但是不同于faster rcnn中，faster rcnn的默认anchor是9个，且只有最后特征层进行anchor提取。

下面介绍SSD中的default box。其优点就是default box在不同的feature层有不同的scale，在同一个feature层又有不同的aspect ratio，基本上可以覆盖输入图像中的各种形状和大小的object。

以feature map的每个location，都会生成多个同心的default box；
宽高比为1，2，3，1/2，1/3；
当宽高比为1时，方形box，最小边长为min_size，最大边长为根号下（min_size*max_size）；
长方形的长和宽分别为根号下（aspect_ratio）*min_size、1/根号下（aspect_ratio）*min_size；
每个feature map的min_size、max_size都不一样。

第一层feature map对应的min_size=S1，max_size=S2；第二层min_size=S2，max_size=S3；其他类推。在原文中，Smin=0.2，Smax=0.9，m是feature map的数量，SSD-300中m=6。

多个feature map生成的default box后，还经过 PriorBox 层生成 prior box（生成的是坐标）。每个feature map中每一层的default box的数量是给定的(8732个)。最后将前面三个计算结果分别合并然后传给loss层。

假定有8×8和4×4两种不同的feature map。假设每个feature map cell有k个default box，那么对于每个default box都需要预测c个类别score和4个offset，如果一个feature map的大小是m×n，则这个feature map就一共有（c+4）k * mn 个输出。

prior box，是指实际中选择的default box（每一个feature map cell 不是k个default box都取）。也就是说default box是一种概念，prior box则是实际的选取。

如果是图中的5层feature map，最后会得到（38384 + 19196 + 10106 + 556 + 334 + 114）= 8732个prior box。

2.2 匹配策略

正样本：与每一个groundtruth box有最大交并比的default box；或者default box与任意有一个groundtruth box的交并比超过了阈值；
负样本：正样本剩下的

由于负样本数量远大于正样本数量，所以在训练时，会挑选confidence高的box进行匹配，正负样本比为1:3；

2.3 损失函数

损失函数仍然分为两部分，confidence损失和location损失，如下面公式，其中N是所有default box的数量。

location损失采用smooth-L1损失，如下所示：

confidence损失使用softmax损失，如下，

其中

表示第i个default box匹配到了第j个groundtruth box，类别是p。

粘来别人的具体解释：

2.4 训练

使用数据增强：有6.7%的mAP提升；包括随机裁剪，使得裁剪部分与目标重叠为0.1, 0.3, 0.5, 0.7, 0.9，剪裁完resize到固定尺寸；以0.5的概率进行水平翻转；
使用基础网络中的conv4_3进行检测，提升小目标的召回率；增加这一部分大概会提示4%mAP；
使用不同宽高比的default box会提升2.9%mAP；
使用atrous卷积，预训练模型VGG-16采用了atrous卷积，可以保持感受野不变的条件下，减少padding噪声。使用这种预训练模型会提高0.7mAP；

2.5 网络结构

SSD的结构在VGG16网络的基础上进行修改，

针对conv4_3（4），fc7（6），conv6_2（6），conv7_2（6），conv8_2（4），conv9_2（4）（括号里数字是每一层选取的default box种类）中的每一个再分别采用两个3*3大小的卷积核进行卷积，这两个卷积核是并列的，

这两个33的卷积核一个是用来做localization的（回归用，如果prior box是6个，那么就有64=24个这样的卷积核，卷积后map的大小和卷积前一样，因为pad=1，下同），
另一个是用来做confidence的（分类用，如果prior box是6个，VOC的object类别有20个，那么就有6*（20+1）=126个这样的卷积核）。

假设，conv6_2的localizaiton的33卷积核操作，卷积核个数是24（64=24，由于pad=1，所以卷积结果的map大小不变，下同），

这里的permute层就是交换的作用，比如你卷积后的维度是32×24×19×19，那么经过交换层后就变成32×19×19×24，顺序变了而已。

而flatten层的作用就是将32×19×19×24变成32*8664，32是batchsize的大小。

另一方面结合conv4_3（4），fc7（6），conv6_2（6），conv7_2（6），conv8_2（4），conv9_2（4）中的每一个和数据层（ground truth boxes）经过priorBox层生成prior box。

经过上述两个操作后，对每一层feature的处理就结束了。对前面所列的5个卷积层输出都执行上述的操作后，就将得到的结果合并：采用Concat，类似googleNet的Inception操作，是通道合并而不是数值相加。

二、论文翻译

1、摘要

提出一个比较小的深度神经网络用做图像中的目标检测。本文的方法称为SSD，对于每个feature map定位，将bounding box的输出空间描述为一组default box，有不同的宽高比、大小。在预测时，这个网络对每个default box，生成每个目标类别可能存在的分数，然后调整box以适合目标的shape。此外，这个网络结合了多种分辨率的feature map的预测，可以自然地处理各种大小的目标。SSD相对于那些需要目标proposal的方法来说要简单，因为它完全消除了proposal的产生和随后像素或特征的重采样步骤，将所有计算都压缩在一个简单网络中。这使得SSD很容易训练，并且可以直接整合到需要检测成分的系统中。在PASCAL VOC、COCO、ILSVR数据集上的实验结果证明，SSD对比那些使用额外目标proposal的方法具有可竞争性的准确率，并且比这些方法更快，为训练和推断提供了一个统一的框架。使用英伟达Titan X，对于300x300的输入，SSD在VOC2007测试数据集上，74.3%mAP，59FPS，对于512x512的输入，SSD是76.7%mAP，超过了faster RCNN。相对其他single-stage方法，SSD使用更小size的输入图像有更高的准确率。源码见： https://github.com/weiliu89/caffe/tree/ssd .

2、介绍

前面巴拉巴拉一堆废话。这篇论文提出第一个基于目标检测器的深度网络，而不依赖于对bounding box假设的像素或特征冲采样，并且同样准确。这个结果又很大的提升。在VOC2007测试集上，59FPS，74.3%mAP，而faster RCNN的7 FS，73.2%mAO，YOLO 45FPS，63.4%mAP。速度上的提高主要是消除了bounding box proposal和像素、特征的重采样步骤。本文并不是第一个做这些的，但是通过添加一系列的提高，我们比先前的尝试准确率有明显的提高。我们的提高包括，使用小的卷积核来预测目标类别和bounding box定位的偏移。分别使用不同比例的检测器预测，在网络的最后阶段，在多层feature map上应用这些filter，以实现多种scale的检测。这些修改，特别是使用不同scale的多层预测，我们可以实现相对低分辨率的输入的高准确率，进一步提高检测速度。尽管这些贡献似乎每个单独来说都比较小，但是对于在PASCAL VOC的实时检测上，YOLO只有63.4%mAP，而SSD有74.3%mAP。从最近有着高收益的残差网络来说，相对于检测正确来说，这个相对来说提升更大。进一步，高质量检测的速度显著提升可以扩展应用范围，计算机视觉是有用的。

本文的贡献点如下：

我们介绍了SSD，一个针对多目标的single-shot的检测器。比之前state-of-the-art的single-shot的检测器YOLO要快，并且准确率更高。事实上，相同准确率更慢的技术，使用明确的region proposals和池化（包括faster RCNN）
SSD的核心是，对于一组default bounding box的修正集合，预测类别分数和box offset，对feature map使用小的卷积核。
为了实现高的检测准确率，我们对不同scale的feature map产生预测，然后通过宽高比分别采用这些预测。
这些设计的特征导致简单的端到端训练和高准确率，甚至是在低分辨率的输入图像上。进一步提高了速度。
实验包括模型在PASCAL VOC, COCO, and ILSVRC数据集上，不同输入大小之间关于时间和准确率的分析。并且于最近的state-of-the-art方法进行了比较。

3、The Single Shot Detector (SSD)

这一部分介绍提出的SSD框架和相关的训练方法。然后给出具体数据集的模型细节和实验结果。

3.1 model

SSD方法是基于前馈卷积神经网络，该网络产生固定大小的bounding box的集合，和这些box是否存在目标类别实例的分数，然后使用非极大值一直产生最终的检测。早期的网络层是基于标准架构，使用高质量图像分类（在任何分类层中删除顶端），我们称之为基础网络，然后将辅助功能添加到网络中以产生检测，具有以下关键特征：

多尺度feature map检测. 我们在截断基础网络后添加了卷积层，这些层的尺寸逐渐减小，并允许在多个尺度上预测检测。用于预测检测的卷积层对每个特征层（操作在单个尺度的feature map）是不一样的（参见overfeat、YOLO）。

针对检测的卷积预测器. 每一个添加的feature层（或者是从基础网络中选择已存在的一组），使用一组卷积核，都可以产生一组固定的检测预测集合。这些可以在图2中，SSD网络架构的顶端看到。对于一个feature层，其size为mnp通道，潜在检测的预测参数的基础元素是33p的卷积核，用来生成类别的分数或者相对于default box坐标的shape偏移。对m*n的每一个位置采用卷积核，将产生一个输出值。对于每个feature map的location，bounding box偏移输出值是相对于default box的位置计算的（参加YOLO的结构，直接使用全连接层的而不是卷积滤波器用于这一步）

default box和宽高比. 对网络顶层的多个feature map，我们将一组default bounding box的集合与每一个feature map cell相关联。default box以卷积的方式平铺feature map，因此每一个box的位置与其相对的cell是固定的。对每一个feature map cell，我们预测每个cell相对default box的shape的偏移，同样，也预测每一个类别分数，表明在每个box中这个类别实例的存在可能性。特别地，对给定location的k个box的每一个，我们计算c个类别分数和4个相对于原始default box shape的偏移。在feature map的每个location，有（c+4）k个滤波器，因此，对m*n的feature map，有（c+4）kmn个输出。有关default box的说明，可以参见图1.我们的default box相对于faster rcnn中使用的anchor box要小，但是我们在不同分辨率的几个feature map上使用。在几个feature map上允许不同的default box shape使得我们可以有效地离散可能的输出输出box shape空间。

3.2 training

在训练SSD和训练使用region proposal的典型检测器来说，其关键区别就是，在固定检测器输出集合上，groundtruth信息需要指定特定的输出。一些版本训练时也需要指定，如YOLO，还有faster-rcnn、multibox中的region proposal阶段。一旦配置决定，损失函数和反向传播就可以端到端。训练时也涉及到选择检测的default box和scale的集合，同样需要困难负样本的挖掘的数据增强策略。

匹配策略. 在训练时，我们需要确认，哪个default box与groundtruth检测相关联，并且进行相关地训练。对每个groundtruth box，我们从default box中选择，这些box的宽高比、尺寸都不一样。通过将每个groundtruth box与default box进行最佳jaccard重叠（如multibox）匹配。但不同于multibox，我们然后将default box与所有groundtruth进行了jaccard重叠超过0.5的进行了匹配。这简化了学习问题，允许网络对预测多个重叠的default 认box的高分，而不是只选取最大重叠的那个。

训练目标. SSD的训练目标源自multibox，但是扩展为处理多个目标类别。
可以认为是类别p的第i的default box和第j个groundtruth box的匹配。在以上的匹配策略中，可以使得
整个目标损失是定位损失的加权和confidence损失，如下：

其中，N是匹配到的default box的数量。如果N=0，则损失设为0。定位损失采用预测box(l)和groundtruth box(g)参数之间的smooth l1损失。类似faster-rcnn，我们回归default bounding box(d)的中心偏置(cx, cy)和宽(w)、高(h)。

confidence损失是多个类别confidence©的softmax损失，其中权重参数α在交叉验证时设置为1。

为default box选择尺度和宽高比. 为了处理不同尺度的目标，一些方法建议处理不同size的图像，然后再结合结果。然而，通过利用一个网络中的不同层的feature map来做预测，可以模仿相同的效果，且共享了所有尺度的目标的参数。先前的工作展示出，使用低层的feature map可以提到语义分割质量，因为低层捕捉到了输入目标更细节的东西。类似的，xx论文展示出，从一个feature map上添加全局环境池化可以帮助平滑分割结果。受这些方法启发，我们使用了高层和低层的feature map用来检测。图1中，两个feature map（8x8和4x4）用在了这个框架中。事实上，我们可以用一点小的开销，使用更多的feature map。

一个网络中不同层的feature map已知是不同感受野大小的。幸运的是，SSD框架，default box不需要与每一层的实际感受野相关联。我们设计了default box的平铺，因此指定feature map学习相应的特定尺度的目标。假设我们想要使用feature map来预测，每个feature map default box的尺度如下计算：

其中，s_min=0.2，s_max=0.9，意味着最低层的scale是0.2，最高层是0.9，中间所有层都是规律间隔。我们对default box施以不同宽高比，表示

我们可以为每一个default box计算其宽和高

对于宽高比为1，我们添加一个default box，其scale是

这样可以造成每个feature map location有6个default 认box。我们设置每个default box的中心是

其中|f_k|是第k个feature map的大小，切i,j属于[0, [f_k]]。事实上，也可以设计成default box的分布以最好的拟合特定数据集。如何设计最好tiling是一个开放的问题。

通过结果来自很多featuremap的所有location的不同scale和宽高比的所有default box的预测，我们有了大量预测集合。覆盖了不同size和shape的输入目标。例如，图一中，狗与4x4的feature map中的一个default 认box匹配，但是与8x8的feature map的所有default box都不匹配。这是因为这些不同scale的box不匹配狗的box，因此在训练中被认为是负样本。

hard negative挖掘. 在结束匹配后，大多数default box都是负的，特别是当可能的default box比较大的时候。这里介绍了一个明显的正负训练样本不均衡的例子。我们不使用所有的负样本，而是将这些负样本，按照每个default box的最高confidence 损失进行排序，并且选择最高的一个，因此正负样本的比例是1:3。我们发现，这可以导致更快的优化和更稳定的训练。

数据增强. 为了使得模型对于不同size和shape的输入更具有鲁棒性，每一个训练图像都使用下列方法进行随机采用：

使用整个原始的输入图像
采样一个图像块，使得与目标的最小jaccard重叠分别是 0.1, 0.3,0.5, 0.7, or 0.9.
随机采样图像块

每一个采样的图像块的发现都是原来图像size的[0.1， 1]，并且宽高比在12与2之间。如果groundtruth box的中心在采样图像块中，我们保留与groundtruth box重叠的部分。在上述提到的采样之后，每一个采样的图像块被resize为固定的size，并且以0.5的概率进行水平翻转，此外还添加一些测光扭曲等。

4、Experimental Results

基础网络. 我们的网络是基于VGG-16的，并且在ILSVRC CLS-LOC数据集上进行了预训练。类似于DeepLab-LargeFOV，我们将fc6和fc7转换成了卷积层，下采样fc6和fc7的参数，改变pool5的池化核，将2x2改为3x3，然后使用 `a trous 算法来充满”holes”。我们去除了所有的dropout层和fc8层。使用SGD，初始学习率为0.001，momentum=0.9，weight decay=0.0005，batch size=32，进行微调结果。学习率衰减策略每个数据集都略有不同，细节稍后给出。开源代码见：https://github.com/weiliu89/caffe/tree/ssd

4.1 PASCAL VOC2007

在PASCAL VOC2007数据集上与fast rcnn、faster rcnn方法进行了比较，测试集是4952张图像。所有方法都是在预训练的VGG-16模型上微调的。

图2是SSD-300模型的网络细节。我们使用conv4_3、conv7(fc7)、conv8_2、conv9_2、conv10_2和conv11_2来预测定位和confidence。设置conv4_3的default box，scale=0.1。

4.2 Model analysis

4.3 PASCAL VOC2012

4.4 COCO

4.5 Preliminary ILSVRC results

4.6 Data Augmentation for Small Object Accuracy

4.7 Inference time

5、结论

这篇论文介绍了SSD，一个基于多类别的快的single-shot的检测器。我们这个模型的关键特征是使用与网络顶层多个feature map匹配的mult-scale的卷积bounding box的输出。这种表示允许我们有效地训练可能的box的shape空间。我们进行实验验证了给定的合理的训练策略，一组数目很大的经过仔细选择的default box结果可以提高性能。与现有方法相比，我们建立的SSD模型，至少有一个数量级的box预测采样位置、scale、宽高比。我们表明，在给定相同的VGG-16基础架构，SSD相比之前的state-of-the-art目标检测器在准确率和速度上都实现了超越。我们的SSD-512明显地比state-of-the-art faster rcnn在PASCAL VOC 和 COCO数据集上的准确率要高，并且有3倍快。我们的实时SSD-300速度是59FPS，比目前的实时YOLO要快，且检测准确率更高很多。

除了这些独立的实用性，我们相信，我们的单片和相对简单的SSD模型为更大的需要目标检测的系统提供了有用的building block。一个充满希望的未来方向是探索使用RNN来检测，并同时跟踪视频目标，来作为系统的一部分使用。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
python+springboot+vue的音乐系统 QQ_511008285 python spring boot vue.js django flask node.js php
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
基于 Python 的图书管理系统（源码）
摘要：本论文详细阐述了利用Python语言开发一个简易图书管理系统的过程。该系统具备图书信息录入、删除、修改、查询以及借阅管理等核心功能，可有效提升图书管理的效率与便捷性。通过阐述系统的需求分析、设计思路、代码实现及测试过程，展示了Python在小型管理系统开发中的应用潜力，为相关领域的软件开发提供了有益参考。关键词：Python编程；图书管理系统；数据结构；代码实现一、引言（一）研究背景随着数字
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
超越RAG的搜索革命！分层框架让AI像专家团队一样深度思考 Python_金钱豹人工智能深度学习网络知识图谱大数据
❝一句话概括：与其训练一个越来越大的“六边形战士”AI，不如组建一个各有所长的“复仇者联盟”，这篇论文就是那本“联盟组建手册”。（原论文题目见文末，点击阅读原文可直接跳转至原文链接，Publishedonarxivon03Jul2025,byRenminUniversityofChina）*第一阶段：核心思想概览**论文的动机*在面对“未来的家庭娱乐会是什么样？”或“结合最新的财报和市场趋势，分析
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
SPGAN: Siamese projection Generative Adversarial Networks 这张生成的图像能检测吗优质GAN模型训练自己的数据集人工智能生成对抗网络计算机视觉深度学习神经网络算法
简介简介：该论文针对传统GANs中鉴别器采用硬边际分类导致的误分类问题，提出了基于Siameseprojection网络的SPGAN方法。主要创新点包括：（1）设计Siameseprojection网络来测量特征相似性；（2）提出相似特征对抗学习框架，将相似性测量融入生成器和鉴别器的损失函数；（3）通过相似特征对抗学习，鉴别器能最大化真实图像和生成图像特征的差异性，生成器能合成包含更多真实图像特征
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR