Le0v1n

目标检测模型性能衡量指标、MS COCO数据集的评价标准以及不同指标的选择推荐

0. 引言

0.1 COCO数据集评价指标

目标检测模型在验证集上会得到COCO的评价列表，具体参数的含义是什么呢？

0.2目标检测领域常用的公开数据集

PASCAL VOC
Microsoft COCO

在COCO数据集出来之前，目标检测基本上用的是PASCAL VOC数据集，现在COCO非常流行。

这两个数据集均有自己的评判标准。

0.3 COCO（Common Objects in Context，上下文中的常见对象）数据集简介

0.3.1 介绍

COCO数据集是一个可用于图像检测（Image Detection），语义分割（Semantic Segmentation）和图像标题生成（Image Captioning）的大规模数据集。它有超过330K张图像（其中220K张是有标注的图像），包含

150万个目标
80个目标类别（object categories：行人、汽车、大象等）
91种材料类别（stuff categoris：草、墙、天空等）
每张图像包含五句图像的语句描述
且有250,000个带关键点标注的行人

MS COCO官网：https://cocodataset.org/#home

0.3.2 COCO可用于的任务

目标检测（object detection）
使用 bounding box 或者 object segmentation (也称为instance segmentation)将不同的目标进行标定。
Densepose（密集姿势估计）
DensePose任务涉及同时检测人、分割他们的身体并将属于人体的所有图像像素映射到身体的3D表面。用于不可控条件下的密集人体姿态
估计。
Key-points detection（关键点检测）
在任意姿态下对人物的关键点进行定位，该任务包含检测行人及定位到行人的关键点。
Stuff Segmentation（材料细分）
语义分割中针对stuff class类的分割（草，墙壁，天空等）
Panoptic Segmentation（全景分割）
其目的是生成丰富且完整的连贯场景分割，这是实现自主驾驶或增强现实等真实世界视觉系统的重要一步。
image captioning（图像标题生成）
根据图像生成一段文字。

0.3.3 COCO的80个类别

1. 目标检测中常见的指标

对于这样一张图片，怎样才能算检测正确呢？

绿色为GT，红色为预测框

IoU大于指定阈值？
类别是否正确？
confidence大于指定阈值？

以上三点都是我们需要考虑的。

1.1 TP、FP、FN

1.1.1 定义

TP（True Positive）：预测正确的预测框数量 [IoU > 阈值]（同一个GT只计算一次）
FP（False Positive）：检测到是同一个GT的多余预测框的数量 [IoU < 阈值]（或者是检测到同一个GT的多余预测框的数量）
FN（False Negative）：没有检测到GT的预测框数量 [漏检的数量]

阈值根据任务进行调整，一般选择0.5
FP就是“假阳性”，就是模型误认为是TP

1.1.2 例子说明TP、FP、FN

举个例子理解TP、FP、FN：

对于张图片来说，绿色为GT，红色为模型预测框，IoU阈值设置为0.5。

对于中间这只猫来说，在绿色框（GT）中的预测框（红色）和绿色框的IoU肯定是>0.5的，所以它应该是一个TP（预测对目标且IoU > 阈值）；而对于偏左的预测框来说，它和GT的IoU肯定是不足0.5的，加之因为有TP的存在，所以它是FP。
对于右下角的那只猫，GT是有的，但模型并没有给出对应的预测框，因此模型对于这只猫来说，漏检了，故FN的数量为1。

1.2 AP（Average Precision，平均精度）

1.2.1 Precision

$\mathrm{Precision = \frac{TP}{TP + FP}}$ ：模型预测的所有目标中，预测正确的比例 -> 查准率

模型认为正确的目标中真的对了多少

那么仅仅通过Precision这个指标能不能全面衡量模型的检测能力呢？

举个例子进行说明：

上面这张图片有5个目标，但是网络只针对猫①给出了预测框，剩下的猫都没有检测出来。这里的TP=1，FP=0。所以此时的Precision为：
$\begin{aligned} \mathrm{Precision} & = \mathrm{\frac{TP}{TP+FP}} \\ & = \frac{1}{1 + 0} \\ & = 1\\ & = 100\% \end{aligned}$

很明显对于这张图片网络漏检了4个目标，所以仅仅通过Precision无法评判检测网络的性能。因此引入了另外一个指标——Recall。

1.2.2 Recall

$\mathrm{Recall = \frac{TP}{TP + FN}}$ ：所有真实目标中，模型预测正确的比例 -> 查全率

本应该检测对的，模型检测对了多少

那么我们只使用Recall这个指标来判定模型的好坏吗？

举个例子说明：

这张图片和上一张图片类似，而网络总共预测出了50个预测框（即50个目标）。这50个预测框中包括了所有要检测的目标，那么该网络针对这张图片的Recall为：

$\begin{aligned} \mathrm{Recall} & = \mathrm{\frac{TP}{TP+FN}} \\ & = \frac{1}{1 + 0} \\ & = 1\\ & = 100\% \end{aligned}$

很明显，单单使用Recall无法评判模型的好坏。

所以我们需要同时使用Precision和Recall这两个指标来进行网络性能的评判，引入——AP。

1.2.3 AP —— P-R曲线下面积

AP就是P-R曲线下方的面积，而P-R分别为Precision和Recall。

假设模型已经训练完毕，验证集为下面3张图片：

1.2.3.1 第一张图片

首先判断该图片中有几个目标（GT），很明显绿色的框有两个，所以有两个GT，即num_ob = 0 + 2 = 2。
接下来同一个列表统计网络所检测到的目标信息：

GT id	Confidence	OB(IoU=0.5)
1	0.98	True
1	0.61	False

其中GT id为预测框匹配的GT的id，Confidence为预测框的置信度（为此类别的概率），OB为判断该预测框是否是TP。
该表从上到下的顺序是根据Confidence降序排列的
对于GT id=2，网络并没有给出预测框，所以表中没有

1.2.3.2 第二张图片

这张图片中目标的个数（绿色的框）有1个，所以累积目标个数num_ob = 2 + 1 = 3。

表也需更新：

GT id	Confidence	OB(IoU=0.5)
1	0.98	True
3	0.89	True
3	0.66	False
1	0.61	False

1.2.3.3 第三张图片

累积目标个数num_ob = 3 + 4 = 7。
更新表：

GT id	Confidence	OB(IoU=0.5)
1	0.98	True
3	0.89	True
6	0.88	True
7	0.78	True
3	0.66	False
1	0.61	False
4	0.52	True

1.2.3.4 计算AP

得到表以后，我们计算针对不同Confidence（即取不同Confidence阈值）得到的Precision和Recall的信息）。

GT id	Confidence	OB(IoU=0.5)
1	0.98	True
3	0.89	True
6	0.88	True
7	0.78	True
3	0.66	False
1	0.61	False
4	0.52	True

首先将Confidence的阈值设置为0.98（Confidence≥0.98的目标才算匹配正确），只有一个预测框符合条件（表中的第一行）。
- TP = 1; FP = 0; FN = 6
在Confidence≥0.98的条件下，TP=1没什么问题；FP=0是因为阈值的存在；FN=6是因为累积目标个数num_ob=7，所以 $\mathrm{FN=num\_ob - TP} = 7 - 1 = 6$ 。因此我们可以得到 $\mathrm{Precision = \frac{TP}{TP + FP} = \frac{1}{1+0}=1}$ 和 $\mathrm{Recall = \frac{TP}{TP + FN} = \frac{1}{1+6}=0.14}$
Note：这个TP; FP; FN是看那个表，就不区分什么第几张图片了，看表就可以。
将Confidence阈值设置为0.89
- 此条件下，TP=2;FP=0;FN=num_ob-TP=7-2=5，我们可以得到Precision和Recall
…
将Confidence阈值设置为0.66
- 此条件下，TP=4;FP=1;FN=num_ob-TP=7-4=3，我们可以得到 $\mathrm{Precision = \frac{TP}{TP + FP} = \frac{4}{4+1}=0.80}$ 和 $\mathrm{Recall = \frac{TP}{TP + FN} = \frac{4}{4+3}=0.57}$
…

全部计算完毕后，结果如下表所示。

Rank	Precision	Recall
1	1.0	0.14
2	1.0	0.28
3	1.0	0.42
4	1.0	0.57
5	0.80	0.57
6	0.66	0.57
7	0.71	0.71

我们可以根据求得的一系列的Precision和Recall绘制P-R曲线。以Recall为横坐标，Precision为纵坐标得到P-R曲线，如下图所示。

在绘制P-R曲线时需注意：
对于Recall（横坐标）需要滤除一些重复数据（图中用框住的即为参与计算的点，有两个点没有被框，它俩不参与AP的计算）。根据表中的数据可知，Recall=0.57有3个值，此时需保留Precision最大的值，即：

Rank	Precision	Recall
1	1.0	0.14
2	1.0	0.28
3	1.0	0.42
4	1.0	0.57
5	~~0.80~~	0.57
6	~~0.66~~	0.57
7	0.71	0.71

图中阴影部分的面积就是AP，计算如下（重复的Recall已经滤除）：

Rank	Precision	Recall
1	1.0	0.14
2	1.0	0.28
3	1.0	0.42
4	1.0	0.57
6	0.71	0.71

$\begin{aligned} \mathrm{Recall} & = \sum_{i=1}^{\mathrm{Rank}} (\mathrm{Recall}_i -\mathrm{Recall}_{i-1}) \times \max(\mathrm{Precision}_{ i, ..., \mathrm{Rank}}) \\ \mathrm{Recall} & = \sum_{i=本行}^{\mathrm{Rank}} (\mathrm{Recall}_{本行} -\mathrm{Recall}_{上一行}) \times 本行及以下最大的\mathrm{Precision} \end{aligned}$

根据公式可以求得阴影的面积，即AP为：
$\begin{aligned} \mathrm{Recall} & = (0.14 - 0) \times 1.0 + (0.28 - 0.14) \times 1.0 + (0.42 - 0.28) \times 1.0 + (0.57 - 0.42) \times 1.0 + (0.71 - 0.57) \times 0.71 \\ & = 0.6694 \end{aligned}$

了解完AP后我们就可以进一步得到一个新的指标——mAP。

1.3 mAP(mean Average Precision，即各类别AP的平均值)

mAP就是各类别AP的平均值，计算公式如下：

$\mathrm{ mAP = \frac{1}{nc}\sum^{nc}_{i=1}AP_i }$

其中nc为类别数。

1.4 注意事项

以上的TP、FP、FN都是经过NMS处理后得到的预测框。

2. MS COCO评价指标中每条数据的含义

COCO官网说明：https://cocodataset.com/#detection-eval

虽然写的是AP，但实际上表示的是mAP

2.1 Average Precision (AP)

AP：COCO的主要评价指标，设置的IoU阈值为IoU = range(0.5, 1.00, 0.05)共10个IoU的mAP的均值
$\mathrm{AP = \frac{1}{10}(mAP^{IoU=0.5} + mAP^{IoU=0.55} + mAP^{IoU=0.60} + mAP^{IoU=0.65} + mAP^{IoU=0.70} + mAP^{IoU=0.75} + mAP^{IoU=0.80} + mAP^{IoU=0.85} + mAP^{IoU=0.9} + mAP^{IoU=0.95})}$
AP^IoU=0.50：将IoU阈值设置为0.5得到的mAP值（就是上面我们举的例子），这个取值也是PASCAL VOC的评价指标
AP^IoU=0.75：更加严格的标准（因为IoU的阈值越大，说明网络预测框与GT重合度越来越高 -> 目标的定位越来越准，这对网络来说是很难的）

2.2 Across Scales

AP^small：[mAP针对小目标] 需检测目标（GT）的像素面积小于32²，则将其归为小目标 —— 衡量网络对于小目标的平均查准率
AP^medium：[mAP针对中目标] 需检测目标（GT）的像素面积在32²和96²，则将其归为中目标 —— 衡量网络对于中等目标的平均查准率
AP^large：[mAP针对大目标] 需检测目标（GT）的像素面积大于96²，则将其归为大目标 —— 衡量网络对于大目标的平均查准率

通过这三个指标可以看出该目标检测网络对于不同尺度目标的检测效果。如果我们的任务需要检测的目标都是较小的，我们应该更加关注与AP^small参数而不是AP^large

2.3 Average Recall (AR)

对于目标检测网络，在代码部分会限制每张图片最终预测框的数量，这里的max就是这个数量。如max=100，即每张图片最终预测100个预测框。而这里的AR^max=100就表示在每张图片预测框阈值为100的情况下，平均的查全率是多少。

AR^max=1：在每张图片预测框阈值为1的情况下，平均的查全率是多少
AR^max=10：在每张图片预测框阈值为10的情况下，平均的查全率是多少
AR^max=100：在每张图片预测框阈值为100的情况下，平均的查全率是多少

从上图可以看到，AR^max=100=64%，AR^max=10=63.3%，AR^max=1=45.2%。这说明取max取100和取10相差不大，说明模型训练时使用的数据集每张图片中目标（GT）的数目并不是很多，基本上在10左右；而当预测框数量限制在1时，它的AR仅为45.2%，说明每张图片的目标个数一般是＞1的。

2.4 AR Across Scales

与AP、AP across scales类似，AR across scales表示对应不同目标尺度的AR。

AR^small：[AR针对小目标] 需检测目标（GT）的像素面积小于32²，则将其归为小目标 —— 衡量网络对于小目标的平均查全率
AR^medium：[AR针对中目标] 需检测目标（GT）的像素面积在32²和96²，则将其归为中目标 —— 衡量网络对于中等目标的平均查全率
AR^large：[AR针对大目标] 需检测目标（GT）的像素面积大于96²，则将其归为大目标 —— 衡量网络对于大目标的平均查全率

3. 各种指标的选择 —— 基于不同的任务

不同的任务需要使用不同的指标。

3.1 mAP

于PASCAL VOC的mAP来说，**AP^IoU=0.50**是要看的，因为它是PASCAL VOC的主要评价指标。
对于MS COCO数据集来说，AP（第一行，10个mAP的平均）是要看的，因为它是MS COCO的主要评价指标。
如果我们对目标框定位精度要求较高的话，我们可以关注AP^IoU=0.75
如果我们对小目标检测要求比较高的话，我们可以关注AP^small，通过这个值可以了解网络对于小目标检测的平均查准率（整体情况）
如果我们对中目标检测要求比较高的话，我们可以关注AP^medium
如果我们对大目标检测要求比较高的话，我们可以关注AP^large

3.2 AR

主要关注下面两个指标：

AR^max=10
AR^max=100

如果它俩AR（平均查全率）相差很小的话，可以减少网络预测框的个数 -> 提高目标检测的效率

参考

https://www.bilibili.com/video/BV1ez4y1X7g2?spm_id_from=333.999.0.0
https://blog.csdn.net/qq_44554428/article/details/122597358#t2

强化学习 16G实践以下是基于CQL（Conservative Q-Learning）与QLoRA（Quantized Low-Rank Adaptation）结合的方案相关开源项目及资源，【ai技】行云流水AI笔记开源人工智能
根据你提供的CUDA版本（11.5）和NVIDIA驱动错误信息，以下是PyTorch、TensorFlow的兼容版本建议及环境修复方案：1.版本兼容性表框架兼容CUDA版本推荐安装命令（CUDA11.5）PyTorch11.3/11.6pipinstalltorchtorchvisiontorchaudio--extra-index-urlhttps://download.pytorch.org/
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现1.背景介绍1.1图像处理的重要性在当今数字时代,图像处理技术在各个领域都扮演着重要角色。无论是在计算机视觉、模式识别、医学影像、遥感探测还是多媒体处理等领域,图像处理都是不可或缺的核心技术。通过对图像进行预处理、增强、分割、特征提取等操作,可以从图像中获取有价值的信息,为后续的分析和决策提供支持。1.2图像倾斜问题及其影响在实际应用中,由于
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
pytorch-数学运算码啥码深度学习之pytorch pytorch 深度学习 python
四则运算加减乘除add+sub-mul*div/a=torch.rand(3,4)b=torch.rand(4)a,b'''(tensor([[0.2384,0.5022,0.7100,0.0400],[0.1716,0.0894,0.0795,0.1456],[0.7635,0.9423,0.7649,0.3379]]),tensor([0.8526,0.8296,0.1845,0.7922])
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
【PyTorch】保存和加载模型 Jackilina_Stone #Deep Learning pytorch python 人工智能深度学习模型
目录■state_dict■用于推理的保存和加载模型保存/加载state_dict保存/加载整个模型以TorchScript格式导出/加载模型■保存和加载用于推断和/或恢复训练的一般检查点(Checkpoint)■将多个模型保存在一个文件中■使用来自不同模型的参数进行暖启动(Warmstarting)模型■跨设备保存和加载模型保存在GPU,加载到CPU保存在GPU,加载到GPU保存在CPU,加载到
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
使用YOLOv5-ONNX-PyQT-EXE: 全栈式对象检测应用的构建与部署
使用YOLOv5-ONNX-PyQT-EXE:全栈式对象检测应用的构建与部署去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，实时对象检测是一个至关重要的任务。是一个开源项目，它将流行的YOLOv5对象检测模型集成到ONNX(OpenNeuralNetworkExchange)中，并通过PyQT构建了一个可执行的应用程序，使得非开发人员也能轻松地进行对象检测。项目简
【大模型学习 | 量化】pytorch量化基础知识（1）九年义务漏网鲨鱼算法学习 pytorch 人工智能
pytorch量化[!note]官方定义：performingcomputationsandstoringtensorsatlowerbitwidthsthanfloatingpointprecision.支持INT8量化，可以降低4倍的模型大小以及显存需求，加速2-4倍的推理速度通俗理解：降低权重和激活值的精度（FP32→INT8），从而提高模型大小以及显存需求。一、前置知识1.1算子融合将多个
OpenCV实现相机标定的棋盘格制作与应用 BIG-HO
本文还有配套的精品资源，点击获取简介：在计算机视觉领域，棋盘格标定板用于获取相机参数，实现图像校正和三维重建。OpenCV库提供了绘制棋盘格和相机标定的功能。本文将详细介绍如何使用OpenCV制作棋盘格标定板，包括设计、绘制、保存、相机标定过程和应用。通过实际案例，如畸变矫正、三维重建、AR应用和机器人导航，展示棋盘格标定板在视觉技术中的关键作用。1.棋盘格设计与绘制1.1棋盘格的基本概念与应用棋
从0开始学习计算机视觉--Day04--线性分类 Chef_Chen 学习计算机视觉分类
从宏观来看，卷积网络可以看做是由一个个不同的神经网络组件组合而成，就像积木一样通过不同类型的组件搭建形成，其中线性分类器是一个很重要的组件，在很多卷积网络中都有用到，所以了解清楚它的工作原理对我们后续的学习会有很大的帮助。线性分类器是参数模型中最简单，最基础的例子，下面我们用输入图片输出图片分类的模型的例子来更进一步地了解它。首先，我们输入一张图片到模型中，输入后我们就会得到f(x,W)，x指的是
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f