泽渊20

深度学习目标检测模型测试评价指标的选取及介绍

文章目录

测试指标的选取
- 一、精度评价指标
- - 1. MAP（平均准确度均值）
  - - 1.1 mAP定义及相关概念
    - 1.2 mAP的具体计算
  - 2. 准确率（Accuracy）
  - 3. 混淆矩阵（Confusion Matrix）
  - 4. 精确率（Precision）与召回率（Recall）
  - 5. 平均精度（Average-Precision，AP）与 mean Average Precision(mAP)
  - 6. IoU
  - 7. ROC（Receiver Operating Characteristic）曲线与AUC（Area Under Curve）
  - 8. fppi/fppw
  - 9. 非极大值抑制（NMS）
  - 10. F1-Score
- 二、速度评价指标
- - 1. 概述
  - 2. FLOPs计算
参考链接

自动驾驶的一大前提是保证人的安全，故对人的检测是必须的。考虑到自动驾驶的场景需求，各类车辆、交通灯、交通标志以及其他路上高频出现的，对决策有影响的物体类别都应进行识别，例如摩托车、自行车等。在确定了数据集及检测类别后，测试指标对评估模型性能好坏有着至关重要的意义，目前已有大量相关研究。本文对在工程中选取的指标做出总结，并介绍了目前比较主流的各类评价指标。

测试指标的选取

目标检测问题，一般的常用评价指标有：

精度评价指标：map（平均准确度均值，精度评价），准确率（Accuracy），混淆矩阵（Confusion Matrix），精确率（Precision），召回率（Recall），平均正确率（AP），mean Average Precision(mAP)，交除并（IoU），ROC + AUC，非极大值抑制（NMS）。
速度评价指标： FPS（即每秒处理的图片数量或者处理每张图片所需的时间，当然必须在同一硬件条件下进行比较）

选取mAP、混淆矩阵、PR曲线、fppi和F1-Score作为精度评价指标，其中mAP、F1-Score是量化的评价指标，fppi可以进行量化，使用log-average miss rate作为其量化的评价指标。混淆矩阵和PR曲线从不同角度反映了模型的好坏。

选取FLOPs作为速度评价指标，表征了处理一帧图像所需的计算量，相比FPS更加通用，同时考虑到模型的评价是在同一台主机上进行的，故FPS也将作为参考标准。

下面具体介绍目标检测领域中常用的评价指标。

一、精度评价指标

1. MAP（平均准确度均值）

1.1 mAP定义及相关概念

mAP: mean Average Precision, 即各类别AP的平均值
AP: PR曲线下面积，后文会详细讲解
PR曲线: Precision-Recall曲线
Precision: TP / (TP + FP)
Recall: TP / (TP + FN)
TP （True Positive，真阳性）：检测器给出正样本，事实上也是正样本，即正确检测到目标
TN （True Negative，真阴性）：检测器给出负样本，事实上也是负样本，即正确检测到非目标
FP （False Positive，假阳性）：检测器给出正样本，事实上却是负样本，即误检测
FN （False Negative，假阴性）：检测器给出负样本，事实上却是正样本，即漏检测
TP: IoU>0.5的检测框数量（同一Ground Truth只计算一次）
FP: IoU<=0.5的检测框，或者是检测到同一个GT的多余检测框的数量
FN: 没有检测到的GT的数量

注意：

（1）一般来说mAP针对整个数据集而言的；

（2）AP针对数据集中某一个类别而言的；

（3）而percision和recall针对单张图片某一类别的。

1.2 mAP的具体计算

不同数据集map计算方法

由于map是数据集中所有类别AP值得平均，所以我们要计算map，首先得知道某一类别的AP值怎么求。不同数据集的某类别的AP计算方法大同小异，主要分为三种：

（1）在VOC2010以前，只需要选取当Recall >= 0, 0.1, 0.2, …, 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值，map就是所有类别AP值的平均。

（2）在VOC2010及以后，需要针对每一个不同的Recall值（包括0和1），选取其大于等于这些Recall值时的Precision最大值，然后计算PR曲线下面积作为AP值，map就是所有类别AP值的平均。

（3）COCO数据集，设定多个IOU阈值（0.5-0.95,0.05为步长），在每一个IOU阈值下都有某一类别的AP值，然后求不同IOU阈值下的AP平均，就是所求的最终的某类别的AP值。

计算某一类别的AP

由上面概念我们知道，我们计算某一类别AP需要需要绘画出这一类别的PR曲线，所以我们要计算数据集中每张图片中这一类别的percision和recall。

由公式：

Precision: TP / (TP + FP)
Recall: TP / (TP + FN)

只需要统计出TP，FP，FN个数就行了。

如何判断TP,FP,FN（重要）

拿单张图片来说吧，

首先遍历图片中ground truth对象，
然后提取我们要计算的某类别的gt objects，
之后读取我们通过检测器检测出的这种类别的检测框（其他类别的先不管），
接着过滤掉置信度分数低于置信度阈值的框（也有的未设置信度阈值），
将剩下的检测框按置信度分数从高到低排序，最先判断置信度分数最高的检测框与gt bbox的iou是否大于iou阈值，
若iou大于设定的iou阈值即判断为TP，将此gt_bbox标记为已检测（后续的同一个GT的多余检测框都视为FP,这就是为什么先要按照置信度分数从高到低排序，置信度分数最高的检测框最先去与iou阈值比较，若大于iou阈值，视为TP，后续的同一个gt对象的检测框都视为FP），
iou小于阈值的，直接规划到FP中去。

这里置信度分数不同的论文可能对其定义不一样，一般指分类置信度的居多，也就是预测框中物体属于某一个类别的概率。

计算mAP在NMS之后

这一点一定要明确，**mAP值计算在NMS之后进行的，**mAP是统计我们的检测模型的最终评价指标，是所有操作完成之后，以最终的检测结果作为标准，来计算mAP值的，另外提一点一般只有测试的时候才会作NMS，训练的时候不进行NMS操作，因为训练的时候需要大量的正负样本去学习。

2. 准确率（Accuracy）

分对的样本数除以所有的样本数，即：

准确（分类）率 = 正确预测的正反例数 / 总数。

准确率一般用来评估模型的全局准确程度，不能包含太多信息，无法全面评价一个模型性能。

3. 混淆矩阵（Confusion Matrix）

混淆矩阵中的横轴是模型预测的类别数量统计，纵轴是数据真实标签的数量统计。

对角线，表示模型预测和数据标签一致的数目，所以对角线之和除以测试集总数就是准确率。对角线上数字越大越好，在可视化结果中颜色越深，说明模型在该类的预测准确率越高。如果按行来看，每行不在对角线位置的就是错误预测的类别。总的来说，我们希望对角线越高越好，非对角线越低越好。

4. 精确率（Precision）与召回率（Recall）

一些相关的定义。假设现在有这样一个测试集，测试集中的图片只由大雁和飞机两种图片组成，假设你的分类系统最终的目的是：能取出测试集中所有飞机的图片，而不是大雁的图片。

True positives : 正样本被正确识别为正样本，飞机的图片被正确的识别成了飞机。
True negatives: 负样本被正确识别为负样本，大雁的图片没有被识别出来，系统正确地认为它们是大雁。
False positives: 假的正样本，即负样本被错误识别为正样本，大雁的图片被错误地识别成了飞机。
False negatives: 假的负样本，即正样本被错误识别为负样本，飞机的图片没有被识别出来，系统错误地认为它们是大雁。
**Precision其实就是在识别出来的图片中，True positives所占的比率。**也就是本假设中，所有被识别出来的飞机中，真正的飞机所占的比例。

Recall 是测试集中所有正样本样例中，被正确识别为正样本的比例。也就是本假设中，被正确识别出来的飞机个数与测试集中所有真实飞机的个数的比值。

**Precision-recall 曲线：**改变识别阈值，使得系统依次能够识别前K张图片，阈值的变化同时会导致Precision与Recall值发生变化，从而得到曲线。

如果一个分类器的性能比较好，那么它应该有如下的表现：

在Recall值增长的同时，Precision的值保持在一个很高的水平。

而性能比较差的分类器可能会损失很多Precision值才能换来Recall值的提高。

通常情况下，文章中都会使用Precision-recall曲线，来显示出分类器在Precision与Recall之间的权衡。

5. 平均精度（Average-Precision，AP）与 mean Average Precision(mAP)

AP就是Precision-recall 曲线下面的面积，通常来说一个越好的分类器，AP值越高。

mAP是多个类别AP的平均值。这个mean的意思是对每个类的AP再求平均，得到的就是mAP的值，mAP的大小一定在[0,1]区间，越大越好。该指标是目标检测算法中最重要的一个。

在正样本非常少的情况下，PR表现的效果会更好。

6. IoU

IoU这一值，可以理解为系统预测出来的框与原来图片中标记的框的重合程度。

计算方法即检测结果Detection Result与 Ground Truth 的交集比上它们的并集，即为检测的准确率。

IOU正是表达这种bounding box和groundtruth的差异的指标：

7. ROC（Receiver Operating Characteristic）曲线与AUC（Area Under Curve）

受试者工作特征曲线 (receiver operating characteristic curve，简称ROC曲线)，又称为感受性曲线(sensitivity curve)。

ROC空间将伪阳性率（FPR）定义为 X 轴，真阳性率（TPR）定义为 Y 轴。

ROC曲线：

横坐标：假正率(False positive rate， FPR)，FPR = FP / [ FP + TN] ，代表所有负样本中错误预测为正样本的概率，假警报率；
纵坐标：真正率(True positive rate， TPR)，TPR = TP / [ TP + FN] ，代表所有正样本中预测正确的概率，命中率。

PD=(number of true target)/(number of actural target)

FA=number of false detection/number of tested frames

以FA为横轴PD为纵轴绘制ROC曲线

对角线对应于随机猜测模型，而（0,1）对应于所有整理排在所有反例之前的理想模型。

曲线越接近左上角，分类器的性能越好。

ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。

在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化。

ROC曲线绘制：

（1）根据每个测试样本属于正样本的概率值从大到小排序；

（2）从高到低，依次将“Score”值作为阈值threshold，当测试样本属于正样本的概率大于或等于这个threshold时，我们认为它为正样本，否则为负样本；

（3）每次选取一个不同的threshold，我们就可以得到一组FPR和TPR，即ROC曲线上的一点。

当我们将threshold设置为1和0时，分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来，就得到了ROC曲线。当threshold取值越多，ROC曲线越平滑。

AUC（Area Under Curve）

即为ROC曲线下的面积。AUC越接近于1，分类器性能越好。

**物理意义：**首先AUC值是一个概率值，当你随机挑选一个正样本以及一个负样本，当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然，AUC值越大，当前的分类算法越有可能将正样本排在负样本前面，即能够更好的分类。

计算公式：就是求曲线下矩形面积。

PR曲线和ROC曲线比较

——ROC曲线特点：

（1）优点：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。因为TPR聚焦于正例，FPR聚焦于与负例，使其成为一个比较均衡的评估方法。

（2）缺点：上文提到ROC曲线的优点是不会随着类别分布的改变而改变，但这在某种程度上也是其缺点。因为负例N增加了很多，而曲线却没变，这等于产生了大量FP。像信息检索中如果主要关心正例的预测准确性的话，这就不可接受了。在类别不平衡的背景下，负例的数目众多致使FPR的增长不明显，导致ROC曲线呈现一个过分乐观的效果估计。ROC曲线的横轴采用FPR，根据FPR ，当负例N的数量远超正例P时，FP的大幅增长只能换来FPR的微小改变。结果是虽然大量负例被错判成正例，在ROC曲线上却无法直观地看出来。（当然也可以只分析ROC曲线左边一小段）

——PR曲线：

（1）PR曲线使用了Precision，因此PR曲线的两个指标都聚焦于正例。类别不平衡问题中由于主要关心正例，所以在此情况下PR曲线被广泛认为优于ROC曲线。

使用场景：

ROC曲线由于兼顾正例与负例，所以适用于评估分类器的整体性能，相比而言PR曲线完全聚焦于正例。
如果有多份数据且存在不同的类别分布，比如信用卡欺诈问题中每个月正例和负例的比例可能都不相同，这时候如果只想单纯地比较分类器的性能且剔除类别分布改变的影响，则ROC曲线比较适合，因为类别分布改变可能使得PR曲线发生变化时好时坏，这种时候难以进行模型比较；反之，如果想测试不同类别分布下对分类器的性能的影响，则PR曲线比较适合。
如果想要评估在相同的类别分布下正例的预测情况，则宜选PR曲线。
类别不平衡问题中，ROC曲线通常会给出一个乐观的效果估计，所以大部分时候还是PR曲线更好。
最后可以根据具体的应用，在曲线上找到最优的点，得到相对应的precision，recall，f1 score等指标，去调整模型的阈值，从而得到一个符合具体应用的模型。

8. fppi/fppw

fppi = false positive per image

OK，到这里你好不容易画出PR曲线，算好了mAP，然后兴高采烈的在项目进度会上大讲特讲。当你说完后，对面的产品妹子，用看智障的眼神瞅了你一眼，不紧不慢的说：
我不关心什么mAP，更不关心你的曲线，我就想知道你这个算法平均每张图错几个。

fppi曲线

fppi曲线的纵轴为FN（即Miss rate），横轴为false positive per image。

显然相比PR曲线，fppi更接近于实际应用。

至于画法，与PR曲线类似，都是通过调整thresh_conf计算相关指标画点，然后连线得到。
对应的还有fppw(fppw = false positive per window)。

在介绍miss rate versus false positives per-image（后文简称FPPI）之前，就不得不先说另一个指标，名字叫
miss rate versus false positives per window（后文简称FPPW）。

起初呢，大家是使用FPPW作为评价行人检测指标的。这个指标最早出现在文章 Histograms of Oriented Gradients for Human Detection。这篇文章中发表了INRIA行人数据集，评估性能的时候就是用这个FPPW（值得一提的是，HOG+SVM这个经典的行人检测方法也是在这篇文章中提出的）

下面简单介绍下FPPW的检测原理：

FPPW的纵轴是miss rate，横轴是false positives per window，两个坐标轴都是采用对数坐标轴表示：

miss rate = false negative / positive，即1-recall，即表示所有存在的行人中（positive），漏检的行人（false negative）占了多少
false positives per window = false positive / the number of window
为什么要用the number of window呢，因为这和HOG+SVM的原理相关，他的检测过程大概是这样的：

输入一张待检测的图片
首先用滑窗法，选取图片上的某一块区域（后面称这块区域为window）
提取这个区域的HOG特征
将HOG特征输入SVM中，利用SVM进行分类，判断是否为行人
通过上面的过程我们可以看到，因为SVM仅仅只是作为分类器，所以如果要检测到不同size的行人的话，就需要在滑窗法中用很多不同size的窗口去滑动，每滑动一次，就对应一个window，因此诞生了很多window，每个window都对应一个SVM的预测结果。

对于一张图片来说，我们关注的是SVM是否能够对这些window判断准确，所以用false positive / the number of window，就可以评估SVM在这张图片上的检测性能如何。

那如何得到多个miss rate与fppw值呢？

这和ROC曲线的套路比较类似，即通过调整检测的阈值，来得到一系列的miss rate与fppw。

例如，阈值越高，说明只有置信度越高的检测框才能被认为是检测器的输出，所以输出的实际检测框越少、检测框越准确，检测到空气的可能性越低，这也会导致漏检概率越大（置信度低的true positive变为了false negative），所以此时miss rate增加，fppw减少。反之同理。

上面是只有一个图片时的计算方法，对于多张的图片来说，其实也是类似的。首先先把所有图片的结果都放在一起，按照置信度由高到低排序，然后按照置信度的高低来调整检测的阈值，由此就得到了一系列的miss rate与fppw，然后再除以the number of window（此时the number of window为每张图片上window的数量*图片的数量）。

（调整检测的阈值的例子在下文中有）

那FPPW如何量化对比呢？

因为曲线与曲线之间是没办法量化对比的，所以作者使用FPPW=1 0 − 4 时 10^{−4}时10
−4
时的miss rate作为结果对比的参考点（地位类似ROC曲线中的AUC值）。

以上，就是FPPW的大致原理。

原文中，作者说FPPW这个指标对于miss rate变化非常敏感，即miss rate稍微变化一点点，横轴的fppw就会改变非常大。例如，miss rate每降低1％，就相当于将原本的fppw降低1.57倍。

miss rate versus false positives per image (FPPI)

前面介绍了FPPW，但是FPPW存在以下问题：

不能反映false positive在不同size和位置空间中的表现，即无法得知分类器检测目标附近的表现或分类器在与目标相似的背景下性能如何。
因为我们从per window中无法得知这个window是在图像中哪个位置的，也无法得知这个window的size如何，我们用per window所能得到关于window的有用信息量也不大，所以per window并没有什么特别优势
FPPW这个指标不好理解，因为per window这个概念过于接近底层的检测原理了，按照正常的思维，我们其实比较好奇的是 “对于每一张图片，误检率是多少”，我们会思考更加宏观、贴近实际应用的场景，反而不会关心每个window检测情况是怎样
所以在文章Pedestrian detection: A benchmark中，作者提出了FPPI作为更合适的行人检测衡量指标。

FPPI的好处主要如下：

per image这个概念更加贴近实际生活，更好理解
下面简单介绍下FPPI的检测原理：

FPPI的纵轴是miss rate，横轴是false positives per image，两个坐标轴都是采用对数坐标轴表示：

miss rate = false negative / positive，即1-recall
false positives per image = false positive / the number of image
我们可以发现，其实就只是横轴变了而已，其实纵轴是一样的。

同样，我们也可以调整阈值，得到一系列的miss rate和fppi。

那FPPI如何量化对比呢？

同样，曲线与曲线之间是没办法量化对比的，所以一开始，使用FPPI=1时的miss rate作为结果对比的参考点。

但是在后续的论文 Pedestrian Detection: An Evaluation of the State of the Art中（两篇论文的作者都是大神Piotr Dollar），作者改成了使用log-average miss rate作为结果对比的参考点，计算方式为：

在对数坐标系下，从 $10^{-2}$ 到 $10^0$ 之间均匀地取9个FPPI值，这9个FPPI值会对应9个miss rate值，将这9个miss rate值求均值，就得到了log-average miss rate。

（对于一些在达到特定FPPI值之前，就已经提前结束的曲线，miss rate值则取曲线所能达到的最小值）

什么叫提前结束的曲线呢？

我们可以看看下面这张图

倒数第二个紫色的HogLbp还没有达到 $10^0$ 就已经提前结束了，而且你也会发现不同曲线也是长短不一，为什么会这样呢？其实这和不同检测器的输出有关。

因为FPPI图中的曲线本质上是由一组一组的[fppi,mr]点组成的，这些点就连成了曲线，曲线提前结束了，说明这些点的最大fppi值到不了 $10^0$ 。而一组一组的[fppi,mr]点是通过调整检测器的阈值得到的。检测器的阈值选取方式，是根据检测器输出检测框的数量和置信度决定的。

例如，检测器A检测了3张图片，它在这3张图片上共输出了10个检测框，每个检测框有其对应的置信度，我们按照置信度将这些检测框由高到低排序，例如：0.9、0.85、0.8、0.75、0.7、0.65、0.6、0.55、0.5、0.45。

我们先选择0.9作为检测器的阈值，大于等于0.9的检测框，我们认为有行人、低于0.9的检测框，我们认为没有行人，这样我们就得到了一个[fppi,mr]点。

接下来，我们选择0.85作为检测器的阈值，大于等于0.85的检测框，我们认为有行人、低于0.85的检测框，我们认为没有行人，这样我们就得到了一个[fppi,mr]点。

以此类推，一直到0.45，我们就可以一共得到10个[fppi,mr]点，即检测器输出了多少个检测框，我们就能得到多少个[fppi,mr]点。当阈值为0.45时，假设检测器A对应的[fppi,mr]点的值为[0.8, 0.25]，那么此时，检测器A的曲线最多只能画到fppi=0.8，所以就到不了 $10^0$ 了。但是如果换了一个检测器，可能他们输出的检测框结果。例如，检测器B检测同样的3张图片，假设它在这3张图片上也是共输出了10个检测框，按照上面的步骤，检测器B就会输出10个[fppi,mr]点。当阈值为0.45时，假设检测器B对应的[fppi,mr]点的值为[1.5, 0.25]，那么此时，检测器B的曲线在绘制的时候就会超出 $10^0$ 。

（不同检测器输出的检测框数量可能也不一样，也是一个影响因素，为了简化表述所以上面的例子中没有考虑进去）

其实说白了，就是不同检测器性能不一样。当检测器的阈值选择最低的那个置信度时，本质上就是所有的检测框我们都认为检测结果为行人，此时如果有些检测器有很多误检的框，那么它所能达到的fppi就会比较高；如果有些检测器误检的框比较少，那么它所能达到的fppi最大值也会比较低，所以因此导致了不同检测器的fppi上界不同。

以上，就是FPPI的大致原理。

由ROC曲线得到FPPI曲线
在实际画FPPI曲线的代码中，作者用的是compRoc、plotRoc这些带有ROC字眼的词来写的，那我们从理论上来看看作者是怎么通过ROC得到FPPI的

ROC曲线的y轴是TPR（True positive rate），x轴是FPR（False positive rate）：

TPR = TP / ( TP + FN )
FPR = FP / ( FP + TN )
TPR 和recall的计算公式是一样，所以我们可以认为TPR=recall

FPPI曲线的y轴是miss rate，x轴是fppi（false positives per image）：

miss rate = FN / ( TP + FN )
fppi = FP / the number of image
关于y轴的转换

miss rate = ( TP + FN - TP) / ( TP + FN ) = 1 - recall = 1 - TPR

所以只要用1减去ROC曲线的y值，就可以得到FPPI曲线的y值

关于x轴的转换

作者在compRoc函数中，对于ROC曲线，计算的y轴就是fppi！这其实是一个名词理解的问题。。。。

通常，我们一听到ROC曲线，想到的就是y轴是TPR、x轴是FPR的曲线。

但是在作者的代码中，他所指代的ROC，指的是y轴是TPR、x轴是fppi的曲线。所以不存在类似y轴一样的FPR与fppi之间的转换，因为作者直接算的就是fppi

我们也可以换一个角度理解他为什么要这样命名，其实ROC曲线的FPR和FPPI曲线中的fppi他们的本质是非常相近的，分子都是FP，这两个指标关注的都是误检方面。

两者的区别只是在于分母不同，FPR的分母是“所有负例”，fppi的分母是“所有图片”。

这也是很好理解的，因为在行人检测任务中，“所有负例”的数量实在是太多了！一张图片就只有那么几个行人（即“正例”），没有行人的地方都可以认为是“负例”，这个数量我们是确定不了的。

所以在行人检测任务中，FPR是算不出来的，所以用的是fppi来评价误检的情况。

9. 非极大值抑制（NMS）

Non-Maximum Suppression就是需要根据score矩阵和region的坐标信息，从中找到置信度比较高的bounding box。对于有重叠在一起的预测框，只保留得分最高的那个。

（1）NMS计算出每一个bounding box的面积，然后根据score进行排序，把score最大的bounding box作为队列中首个要比较的对象；

（2）计算其余bounding box与当前最大score与box的IoU，去除IoU大于设定的阈值的bounding box，保留小的IoU得预测框；

（3）然后重复上面的过程，直至候选bounding box为空。

最终，检测了bounding box的过程中有两个阈值，一个就是IoU，另一个是在过程之后，从候选的bounding box中剔除score小于阈值的bounding box。需要注意的是：Non-Maximum Suppression一次处理一个类别，如果有N个类别，Non-Maximum Suppression就需要执行N次。

10. F1-Score

F1分数(F1-score)是分类问题的一个衡量指标。F1分数认为召回率和精度同等重要, 一些多分类问题的机器学习竞赛，常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数，最大为1，最小为0。计算公式如下：

F1= 2TP/(2TP+FP+FN)

此外还有F2分数和F0.5分数。F2分数认为召回率的重要程度是精度的2倍，而F0.5分数认为召回率的重要程度是精度的一半。计算公式为：

更一般地，我们可以定义Fβ（precision和recall权重可调的F1 score）:

Fβ = ((1+β*β)*precision*recall) / (β*β*precision + recall)

常用的如F2和F0.5。

二、速度评价指标

1. 概述

目标检测技术的很多实际应用在准确度和速度上都有很高的要求，如果不计速度性能指标，只注重准确度表现的突破，但其代价是更高的计算复杂度和更多内存需求，对于全面行业部署而言，可扩展性仍是一个悬而未决的问题。一般来说目标检测中的速度评价指标有：

（1）FPS，检测器每秒能处理图片的张数

（2）检测器处理每张图片所需要的时间

但速度评价指标必须在同一硬件上进行，同一硬件，它的最大FLOPS（每秒运算浮点数代表着硬件性能，此处区分FLOPs）是相同的，不同网络，处理每张图片所需的FLOPs(浮点操作数)是不同的，所以同一硬件处理相同图片所需的FLOPs越小，相同时间内，就能处理更多的图片，速度也就越快，处理每张图片所需的FLOPs与许多因素有关，比如你的网络层数，参数量，选用的激活函数等等，这里仅谈一下网络的参数量对其的影响，一般来说参数量越低的网络，FLOPs会越小，保存模型所需的内存小，对硬件内存要求比较低，因此比较对嵌入式端较友好。

一般来说ResNeXt+Faster RCNN在NVIDIA GPU上可以做到1秒/图
而MobileNet+SSD在ARM芯片上可以做到300毫秒/图

ARM和GPU之间的运算能力差距，各位都懂。

2. FLOPs计算

FLOPs和FLOPS区分

先解释一下FLOPs：floating point operations 指的是浮点运算次数，理解为计算量，可以用来衡量算法/模型的复杂度。

此处区分一下FLOPS（全部大写），FLOPS指的是每秒运算的浮点数，理解为计算速度，衡量一个硬件的标准。我们要的是衡量模型的复杂度的指标，所以选择FLOPs。

FLOPs计算（以下计算FLOPs不考虑激活函数的运算）

(1)卷积层

FLOPs=(2*Ci*k*K-1）*H*W*Co（不考虑bias）

FLOPs=(2*Ci*k*K）*H*W*Co（考虑bias）

Ci为输入特征图通道数，K为过滤器尺寸，H,W,Co为输出特征图的高，宽和通道数。

最后得到的Co张输出特征图，每张特征图上有HW个像素点，而这其中的每个像素点的值都是由过滤器与输入特征图卷积得到的，过滤器中Cik*K个点，每个点都要和输入特征图对应点作一次相乘操作（浮点操作数为 $c_i \times k\times k$ ），然后将这些过滤器和输入特征图对应点相乘所得的数相加起来（浮点操作数为 $c_i \times k\times k$ ，n个数相加，所需要的浮点操作数为n-1），得到一个值，对应于一张输出特征图中的一个像素，输出特征图有Co张，故有Co个过滤器参与卷积运算，所以卷积层的 $FLOPs=(2\times C_i \times k \times k -1)\times H \times W \times C_o$

(Ci为输入特征图通道数，K为过滤器尺寸，H,W,Co为输出特征图的高，宽和通道数)

(2)池化层

池化分为最大值池化和均值池化，看别人的博客说网络中一般池化层较少，且池化操作所占用的FLOPs很少，对速度性能影响较小。我在想，

最大池化虽然没有参数，但存在计算，类似的还有Dropout等

均值池化，要求平均值，先相加再除以总数（输出特征图上一个像素点，需要浮点操作数为： $\times k -1 +1$ 。求平均值，先 $\times k$ 个数相加，操作数为, $k\times k-1$ ，然后除以 $\times k$ ，浮点操作数为1），输出特征图通道数为Co，所以这里浮点操作数应该为 $k * k * H * W * C o$ (不知道有没有问题，如有大佬知道，还望告知）

（3）全连接层

先解释一下全连接层

卷积神经网络的全连接层
在 CNN 结构中，经多个卷积层和池化层后，连接着1个或1个以上的全连接层．与 MLP 类似，全连接层中的每个神经元与其前一层的所有神经元进行全连接．全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息．为了提升 CNN 网络性能，全连接层每个神经元的激励函数一般采用 ReLU 函数。最后一层全连接层的输出值被传递给一个输出，可以采用 softmax 逻辑回归（softmax regression）进行分类，该层也可称为 softmax 层（softmax layer）．对于一个具体的分类任务，选择一个合适的损失函数是十分重要的，CNN 有几种常用的损失函数，各自都有不同的特点．通常，CNN 的全连接层与 MLP 结构一样，CNN 的训练算法也多采用BP算法
全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由于其全相连的特性，一般全连接层的参数也是最多的。例如在VGG16中，第一个全连接层FC1有4096个节点，上一层POOL2是77512 = 25088个节点，则该传输需要4096*25088个权值，需要耗很大的内存

其中，x1、x2、x3为全连接层的输入，a1、a2、a3为输出，

其实现在全连接层已经基本不用了，CNN基本用FCN来代表，可用卷积层来实现全连接层的功能。设I为输入神经元个数，O为输出神经元个数，输出的每个神经元都是由输入的每个神经元乘以权重（浮点操作数为I），然后把所得的积的和相加（浮点操作数为I-1），加上一个偏差（浮点操作数为1）得到了，故FLOPs为：

FLOPs=(I+I-1) * O = (2I-1) * O(不考虑bias)

FLOPs=((I+I-1+1）* O = (2I) * O(考虑bias)

FLOPs和参数量计算小工具

最近在github上找到了一个别人开源的在Pytorch框架中使用的FLOPs和参数量计算的小工具OpCouter，非常好用，这个工具安装也十分方便，可以直接使用pip简单的完成安装。以下放出作者开源的链接：THOP: PyTorch-OpCounter

参考链接

目标检测评价指标

机器学习算法评估指标——2D目标检测

【行人检测】miss rate versus false positives per image (FPPI) 前世今生（理论篇）

你可能感兴趣的:(深度学习,自动驾驶,目标检测,深度学习,自动驾驶)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
铸造软件交付的“自动驾驶”系统——AI大模型如何引爆DevOps革命 LucianaiB 评测人工智能自动驾驶 devops
铸造软件交付的“自动驾驶”系统——AI大模型如何引爆DevOps革命嗨，我是LucianaiB！总有人间一两风，填我十万八千梦。路漫漫其修远兮，吾将上下而求索。摘要(Abstract)本文深入探讨了人工智能大模型（AILargeModels）如何驱动DevOps从“自动化”（Automation）向“自主化”（Autonomous）的革命性跃迁。文章指出，AI大模型正成为现代软件工厂的“中枢神经系
目标检测之数据增强
数据翻转，需要把bbox相应的坐标值也进行交换代码：importrandomfromtorchvision.transformsimportfunctionalasFclassCompose(object):"""组合多个transform函数"""def__init__(self,transforms):self.transforms=transformsdef__call__(self,ima
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR