张小殊.

硬件加速器及其深度神经网络模型的性能指标理解

前言：

　　现如今，深度神经网络模型和硬件加速器，如GPU、TPU等的关系可谓是“不分彼此”，随着模型参数的增加，硬件加速器成为了训练、推理深度神经网络不可或缺的一个工具，而近年来硬件加速器的发展也得益于加速人工智能模型的训练和推理。作为在人工智能领域最重要的两个基件，即模型（算法）和硬件（算力）（人工智能三个核心要素：算法、算力、数据），我们有必要去理解每种基件的评价指标以及指标的意义，才能在应用的过程中去选择适合的模型和硬件！

　　本文主要介绍GPU的性能指标以及深度神经网络模型的性能指标，让你首先对各种性能指标有一个理解，下面贴上目录，根据需要自行跳转哈。

单位换算

GPU指标/性能指标

GPU基础时钟频率 (Base Clock)

GPU加速时钟频率 (Boost Clock)

显存容量（VRAM Capacity）

显存带宽（Memory Bandwidth）

流处理器簇(Streaming Multiprocessors，SMs)

CUDA 核心数量（CUDA Cores）

FP32/FP64/INT32 Cores：

张量核心（Tensor Cores）

TDP (Thermal Design Power)/TGP (Total Graphics Power)

计算速度（FLOPS）

eg. 以A100为例说明参数

深度神经网络性能指标

准确性（Accuracy）

损失（Loss）

模型参数量（Params）

模型计算量（FLOPs、MACs）

训练速度（Training Speed）

推理速度（Inference Speed）

易混指标对比

FLOPS和FLOPs（名称易混）

Params和FLOPs（理解易混）

模型的参数数量与储存大小

单位换算

　　在性能指标中，通常会使用一些单位换算，先做以说明：

K（千）	M（百万）	G（十亿）	T（万亿）	P（千亿）	E（百京）
10^3	10^6	10^9	10^12	10^15	10^18

GPU指标/性能指标

　　GPU性能通常由多个指标来衡量，这些指标可以帮助我们了解GPU的性能水平和适用领域。以下是一些常见的GPU性能指标：

GPU基础时钟频率 (Base Clock)

　　基本时钟频率是GPU核心的最低工作时钟频率，通常以兆赫兹(MHz) 或千兆赫兹 (GHz)表示。这是GPU在正常工作负载下的最低工作频率，用于处理轻度任务和节能。

GPU加速时钟频率 (Boost Clock)

　　加速时钟频率是GPU核心能够自动达到的最高工作时钟频率，通常也以兆赫兹 (MHz) 或千兆赫兹(GHz)表示。当GPU需要更多性能以处理复杂任务时它会自动提高时钟频率，以提供额外的计算能力。

Boost Clock的存在允许GPU在需要时提供更大的计算性能，而在轻负载情况下降低时钟频率以降低功耗和温度。这种动态时钟管理可以在不浪费能源的情况下实现更好的性能。

显存容量（VRAM Capacity）

　　显存容量是GPU用于存储图像和计算数据的内存大小。更大的显存容量适用于处理大型数据集和复杂的深度学习模型。

显存带宽（Memory Bandwidth）

　　显存带宽是GPU内存与GPU核心之间数据传输的速度，通常以千兆字节每秒(GB/s) 表示。高带宽有助于高速数据传输，提高了计算性能。

流处理器簇(Streaming Multiprocessors，SMs)

　　GPU SMs 是NVIDIA GPU架构中的关键组成部分，它们用于执行并行计算任务。SMs是一种多用途的硬件单元，每个SM包含多个CUDA核心、寄存器文件和共享内存等资源，用于处理并发工作负载。

　　以下是有关GPU SMs的一些特点和说明：

CUDA核心：每个SM包含多个CUDA核心，这些核心可以同时执行多个线程。不同的GPU型号有不同数量的SMs和CUDA核心，从而影响了GPU的总计算能力。
寄存器文件：每个SM包含一个寄存器文件，用于存储线程的本地数据和中间结果。这些寄存器用于执行计算任务，但数量是有限的，因此开发者需要优化代码以最大程度地减小寄存器使用。
共享内存：SMs还包含共享内存，它是一种高速的内存，可用于线程之间的通信和协作。共享内存对于一些计算任务的性能至关重要。
调度和执行：SMs负责调度线程块（Thread Blocks）的执行。线程块是一组线程的集合，它们可以协作执行任务。SMs会将线程块分配给CUDA核心，以便并行执行任务。
并行性级别：不同GPU型号具有不同数量的SMs，每个SM又包含不同数量的CUDA核心。因此，GPU的并行性级别取决于SMs的数量和CUDA核心的数量。更多的SMs和CUDA核心通常意味着更高的并行计算性能。

　　我们可以使用NVIDIA的CUDA编程模型来利用GPU SMs，将计算任务并行化以提高性能。通过合理利用CUDA核心、寄存器文件和共享内存等资源，可以实现高效的GPU并行计算。

CUDA 核心数量（CUDA Cores）

　　CUDA核心是GPU上的计算单元，它们执行并行计算任务，不仅限于图形处理。每个CUDA核心可以执行一些特定的计算操作，如浮点数运算、整数运算，更多核心通常意味着更高的并行计算能力，有助于处理大规模并行计算任务。

　　以下是有关CUDA核心的一些特点：

并行性：CUDA核心是为并行计算而设计的。一块GPU通常包含数百到数千个CUDA核心，这使得GPU非常适合高度并行化的工作负载，如深度学习、科学计算和密码学等。
单指令多线程（SIMT）：CUDA核心采用了单指令多线程的执行模型，这意味着它们可以同时执行多个线程，每个线程都执行相同的指令，但可以处理不同的数据。这有助于提高计算效率。
数据类型支持：CUDA核心支持多种数据类型，包括单精度浮点数、双精度浮点数、整数等，这使得GPU在不同类型的计算任务中都具有广泛的应用。
并行性级别：NVIDIA的GPU通常有不同的架构和型号，每种型号的CUDA核心数量和性能都会有所不同。更高端的GPU通常包含更多的CUDA核心，从而具有更高的计算性能。

　　　CUDA核心的存在使得GPU成为了强大的通用计算设备，可以用于加速各种科学和工程计算任务。我们可以使用CUDA编程模型来利用这些核心，将计算任务并行化以提高性能。

FP32/FP64/INT32 Cores：

　　GPU（图形处理单元）通常包含不同类型的核心，以执行不同类型的计算任务。其中，FP32（单精度浮点数）核心、FP64（双精度浮点数）核心和INT32（整数）核心是常见的核心类型。它们在执行不同类型的计算时具有不同的性能和精度。

FP32 Cores（单精度浮点数核心）：这些核心主要用于执行单精度浮点数计算，通常用于图形渲染、机器学习、深度学习等需要高性能但不需要高精度的应用。单精度浮点数使用32位存储，提供了较高的计算速度，但牺牲了一些精度。
FP64 Cores（双精度浮点数核心）：这些核心用于执行双精度浮点数计算，通常用于科学计算、工程模拟和其他需要高精度计算的应用。双精度浮点数使用64位存储，提供了更高的精度，但计算速度相对较慢。
INT32 Cores（整数核心）：这些核心用于执行整数计算。整数计算通常用于控制流程、逻辑运算和其他不需要浮点数计算的任务。整数计算核心通常能够提供高性能，特别是在需要大量整数运算的情况下。

　　不同的GPU架构和制造商可能采用不同的核心配置，以满足不同类型的应用需求。在选择GPU时，您应该根据您的具体应用需求来考虑这些核心类型的比例和性能。

张量核心（Tensor Cores）

　　Tensor Cores是一种特殊的GPU核心，主要用于进行深度学习和人工智能(AI)工作负载中的张量运算。这些核心最初由NVIDIA引I入，并在一些高端GPU中出现，如NVIDIA的Volta和Ampere架构。Tensor Cores旨在加速深度神经网络训练和推理等计算密集型任务。

　　Tensor Cores通常支持混合精度计算，即同时处理半精度(16位)和单精度(32位)数据。这种精度混合可加速训练过程，因为它在减少计算需求的同时保持足够的数值精度

TDP (Thermal Design Power)/TGP (Total Graphics Power)

　　GPU的最大功耗参数通常被称为TDP 或TGP 。这是一个重要的性能指标，它表示GPU在正常工作条件下可以消耗的最大功率。
　　TDP是一个由GPU制造商提供的参数，表示在设计和散热解决方案允许的情况下，GPU能够持续消耗的最大功率。这个值通常以瓦特(W)为单位表示。TDP是一个指导性的参考，用于确定需要多大的散热解决方案来保持GPU在适当的温度范围内运行。较高的TDP通常表示更高的性能，但也可能需要更强大的散热系统
　　TGP是一个相似的参数，但它通常包括了GPU、显存和其他与图形外理相关的组件的总功耗。TGP更全面地考虑了整个图形卡的功耗，而不仅仅是GPU核心。这对于笔记本电脑等紧凑型设备非常重要，因为它们需要有效管理整个图形系统的热量和功耗。

计算速度（FLOPS）

　　FLOPS（每秒浮点运算数）是衡量计算设备性能的一种常用指标，特别是在科学计算、机器学习和深度学习等领域。它表示一个设备每秒能够执行的浮点运算的数量。例如，一个拥有10 TFLOPS的GPU能够在一秒内执行10万亿次浮点运算。

　　要计算一个GPU的FLOPS，我们通常需要考虑以下几个因素：

核心数量：GPU中的处理单元数量。每个核心都能够执行浮点运算。
时钟频率：GPU的工作频率，以赫兹（Hz）为单位。它表示每秒钟执行的时钟周期数。
每个周期的浮点运算数：这是每个时钟周期内每个核心可以执行的浮点运算数。

计算公式如下：

FLOPS = 核心数量 * 时钟频率 * 每个周期的浮点运算数

对于特定数据类型的FLPOS计算也可以使用下式：

FLOPS = GPU SM数量 * 特定数据类型的指令吞吐 * 时钟频率 * 每个周期的浮点运算数

　　举例来说，如果一个GPU拥有1000个核心，每个核心能够在1 GHz时钟频率下执行2次浮点运算，那么它的理论峰值性能将是2 TFLOPS。

　　需要注意的是，实际的性能可能会受到许多因素的影响，包括内存带宽、缓存大小、架构设计等。因此，TFLOPS只是一个理论上的性能指标，实际应用中的性能可能会有所下降。

eg. 以A100为例说明参数

　　下图为A100的一个SM，即一个流处理器，可以看到，FP32 Cores有64个，FP64 Cores有32个，INT32 Cores有64个，Tensor Cores有4个，而A100像这样的SM足足有108个。另外，一个SM中有64个CDUA Cores，

　　下面是A100的一些基本性能参数：

GPU基础时钟频率 (Base Clock)：1410MHz
GPU加速时钟频率 (Boost Clock):1530 MHz
显存容量（VRAM Capacity）:80GB
显存带宽（Memory Bandwidth）:2039GB/s
流处理器簇(Streaming Multiprocessors，SMs): 108
CUDA 核心数量（CUDA Cores）:　6912（64 * 108）
FP32/FP64/INT32 Cores：6912/3456/6912（64/32/64 * 108）
张量核心（Tensor Cores）:432（4 * 108）
TDP (Thermal Design Power)/TGP (Total Graphics Power):400W

计算速度（FLOPS）：

FP32 FLOPS = FP32 核心数量 * 时钟频率 * 每个周期的浮点运算数 = 6912 * 1410 MHz * 2 =19.5 TFLOPS

FP64 FLOPS = FP64 核心数量 * 时钟频率 * 每个周期的浮点运算数 = 3456 * 1410 MHz * 2 = 9.7 TFLOPS

　　对于A100的特定数据类型的FPLOS计算，我们可以先查阅A100特定数据类型的指令吞吐如下表所示：

　　我们可以参照上表进行计算，例如FP16 FPLOS/FP16 TC FPLOS：

FP16 FPLOS = GPU SM数量 * 特定数据类型的指令吞吐 * 时钟频率 * 每个周期的浮点运算数

=108 * 256 * 1410 MHz * 2=78 TFLOPS

FP16 TC FPLOS = GPU SM数量 * 特定数据类型的指令吞吐 * 时钟频率 * 每个周期的浮点运算数

=108 * 1024 * 1410 MHz * 2=312 TFLOPS

深度神经网络性能指标

准确性（Accuracy）

　　神经网络的准确性可以通过多种指标来衡量，具体选择哪些指标取决于任务的性质。以下是一些常见的神经网络准确性指标：

1. 准确率（Accuracy）：是最基本的评估指标，表示模型正确分类样本的比例。计算方式是正确分类的样本数除以总样本数。

\[ \text{准确率} = \frac{\text{正确分类的样本数}}{\text{总样本数}} \]

2. 精确度（Precision）：在所有被模型判定为正类别的样本中，真正为正类别的比例。适用于关注假正例的任务，如垃圾邮件检测。

\[ \text{精确度} = \frac{\text{真正例}}{\text{真正例 + 假正例}} \]

3. 召回率（Recall）：在所有实际正类别的样本中，被模型正确判定为正类别的比例。适用于关注假负例的任务，如癌症检测。

\[ \text{召回率} = \frac{\text{真正例}}{\text{真正例 + 假负例}} \]

4. F1分数：精确度和召回率的调和平均数，综合考虑了两者的性能。F1分数越高，模型在精确度和召回率之间取得了更好的平衡。

\[ F1 = \frac{2 \times \text{精确度} \times \text{召回率}}{\text{精确度} + \text{召回率}} \]

5. ROC曲线和AUC（Area Under the Curve）：用于评估二分类模型性能，ROC曲线表示真正例率（召回率）和假正例率之间的权衡，AUC则是ROC曲线下的面积，AUC越大，模型性能越好。

6.IOU（Intersection over Union）：IOU是目标检测任务中常用的评估指标之一，用于衡量模型检测结果与真实标注框之间的重叠程度。

　　IOU的计算方法是通过计算检测框（通常是矩形框）与真实标注框之间的交集面积与并集面积的比值来衡量重叠程度。具体计算公式如下：

IOU = 交集面积 / 并集面积

其中，交集面积是检测框和真实标注框重叠的部分的面积，而并集面积是两个框的总面积。

　　IOU的取值范围在0到1之间，越接近1表示检测框与真实标注框的重叠程度越高，即检测结果越准确。常用的IOU阈值是0.5，即当IOU大于等于0.5时，认为检测结果是正确的。在目标检测任务中，IOU常用于计算模型的准确率、召回率以及平均精确度（mAP）。通过设置不同的IOU阈值，可以得到不同的评估结果，从而评估模型在不同重叠程度下的性能。

　　总之，IOU是一种常用的用于衡量目标检测模型性能的指标，它能够量化检测结果与真实标注框之间的重叠程度，帮助评估模型的准确性和鲁棒性。

7.平均精确度均值（Mean Average Precision，mAP）：mAP是目标检测任务中常用的重要度量指标之一。它用于综合评估模型在多类别目标检测中的性能。

mAP的计算过程包括以下步骤：

计算每个类别的精确度-召回率曲线（Precision-Recall Curve）：对于每个目标类别，计算模型的精确度和召回率，并生成精确度-召回率曲线。这通常涉及在不同阈值下计算精确度和召回率的值。
计算每个类别的平均精确度（Average Precision，AP）：对于每个类别，计算其精确度-召回率曲线下的面积（曲线下积分），这个面积就是AP。AP反映了模型在单个类别上的性能。
计算所有类别的mAP：将所有类别的AP取平均值，得到mAP。mAP综合考虑了模型在多个类别上的性能，因此可以更全面地评估目标检测模型。

　　通常情况下，mAP值范围在0到1之间，越接近1表示模型性能越好。mAP是一种很有用的指标，特别是在多类别目标检测任务中，因为它考虑了不同类别之间的性能差异，提供了一个全局性的性能度量。在评估目标检测算法时，我们经常关注mAP值，以确定模型的优劣，并进行改进和比较。

　　这些指标提供了对模型性能不同方面的评估，选择合适的指标取决于任务的特性和关注的重点。在实际应用中，可以根据具体需求综合考虑多个指标来全面评估。

损失（Loss）

　　神经网络的损失指标用于衡量模型在训练过程中预测结果与实际目标之间的差异。这些损失指标帮助优化算法调整模型参数，以最小化误差。以下是一些常见的神经网络损失指标：

1. 均方误差（Mean Squared Error，MSE）：用于回归任务，它计算模型预测值与实际目标值之间的平方差的平均值。

\[ \text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 \]

其中，\(y_i\) 是实际目标值，\(\hat{y}_i\) 是模型的预测值，\(N\) 是样本数量。

2. 均方根误差（Root Mean Squared Error，RMSE）：MSE的平方根。

\[ \text{RMSE} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2} \]

3. 平均绝对误差（Mean Absolute Error，MAE）：也用于回归任务，计算模型预测值与实际目标值之间的绝对差的平均值。

\[ \text{MAE} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i| \]

4. 交叉熵损失（Cross-Entropy Loss）：常用于分类任务，特别是二分类和多分类问题。对于二分类问题，交叉熵损失如下：

\[ \text{二分类交叉熵损失} = - (y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})) \]

其中，\(y\) 是实际目标，\(\hat{y}\) 是模型的预测概率。对于多分类问题，可以扩展为多类别交叉熵损失。

5. 对数损失（Log Loss）：类似于交叉熵损失，通常用于二分类和多分类问题的概率输出。对数损失在实际目标是二进制值或多类别标签时很有用。

　　这些损失指标各自适用于不同类型的任务，选择正确的损失函数对于训练神经网络非常重要，因为它直接影响着模型的性能和收敛速度。通常，在训练神经网络时，目标是最小化这些损失指标。

模型参数量（Params）

　　神经网络模型的参数量是指网络中需要学习的权重和偏差的总数量。参数量是一个关键的指标，因为它直接影响模型的容量、训练速度和内存占用。

　　神经网络的总参数量是所有层的参数数量之和。在深层神经网络中，参数量可能会非常庞大，这也需要考虑训练和推理时的计算和内存需求。通常，为了减小参数量和防止过拟合，可以采用技巧如参数共享、权重正则化等。

　　了解模型的参数量有助于决定网络的复杂度，选择适当的模型结构，以及在不同硬件和资源限制下进行部署。在实际应用中，模型参数量通常会在训练前和模型选择时被仔细考虑。

模型计算量（FLOPs、MACs）

　　神经网络的计算量是指在前向传播（inference）和反向传播（backpropagation）过程中所执行的浮点运算的总数量。计算量是评估模型复杂度和性能的关键指标之一。以下是常见的用于计算神经网络计算量的指标：

1. 浮点运算次数（Floating-Point Operations，FLOPs，ｓ表示复数）：神经网络的计算量通常以浮点运算的数量来表示。这包括乘法、加法、除法等浮点运算。浮点运算次数可以用来估算在不同硬件上的计算时间和资源需求。

2. MACs（Multiply-Accumulate Operations）：MACs是乘法累加操作的缩写，1MACs包含一个乘法操作与一个加法操作，大约是2FLOPs，通常用于衡量卷积神经网络的计算量。每个卷积核在每个位置执行乘法和加法操作通常数量一样。

　　计算量通常是在模型设计和部署阶段考虑的重要因素之一。较大的计算量可能需要更多的计算资源，例如GPU或TPU，以便高效地训练和推理神经网络模型。在移动设备或边缘计算环境中，计算量的减小对于模型的实际可用性至关重要。因此，在设计和选择神经网络模型时，通常会综合考虑模型的性能、精度和计算需求

训练速度（Training Speed）

　　神经网络模型的训练速度是一个关键性能指标，它涉及到训练时间、资源利用率和迭代次数等方面。以下是常见用于衡量神经网络模型训练速度的指标：

1. 训练时间：训练时间是训练一个神经网络模型所需的实际时间。通常以小时、分钟或秒为单位来表示。较短的训练时间通常被认为是一个训练速度较快的指标。

2. 收敛速度：模型的收敛速度指的是模型在训练过程中达到所需性能的速度。一个快速收敛的模型将在较少的迭代次数内达到所需的精度水平，从而加快训练速度。

3. 每秒处理的样本数（Samples Per Second，SPS）：SPS表示在训练过程中每秒处理的训练样本数量。较高的SPS表明模型训练速度更快。通常，使用GPU或TPU等硬件可以提高SPS。

4. 硬件资源利用率：训练速度还涉及到硬件资源的有效利用。高效的模型训练流程应该能够充分利用计算资源，例如GPU或多核CPU，以提高训练速度。

5. 迭代次数：模型训练需要的迭代次数也是一个衡量训练速度的指标。较少的迭代次数通常表示训练速度较快。

6. 分布式训练：分布式训练是指将训练任务分配到多个计算节点或设备上，以加快训练速度。衡量分布式训练速度通常涉及到通信开销、数据同步和并行计算等因素。

7. 批处理大小：批处理大小是指在每个训练迭代中用于更新模型参数的样本数量。较大的批处理大小通常可以加快训练速度，但也可能增加内存需求。

　　综合考虑这些指标可以帮助评估神经网络模型的训练速度。快速的训练速度对于快速迭代模型设计和调试、减少资源成本以及实时应用中的性能至关重要。同时，训练速度还受到硬件性能、数据集大小、模型架构和超参数设置等因素的影响。

推理速度（Inference Speed）

1. 推理时间（Inference Time）：推理时间是神经网络模型执行单个推断任务所需的实际时间，通常以毫秒（ms）为单位表示。推理时间越短，意味着模型的推理速度越快。

2. 每秒推理次数（Inferences Per Second，IPS）：IPS表示模型在一秒内可以完成的推理任务数量，通常以次/秒来表示。IPS越高，模型的推理速度越快。

3. 延迟（Latency）：延迟是指模型从接收输入数据到生成输出结果之间的时间间隔。低延迟是实时应用中的关键要求，例如视频流处理和自动驾驶。

4. 吞吐量（Throughput）：吞吐量是指在一定时间内，模型可以处理的输入数据量。通常以每秒处理的数据量来表示，例如图像的数量或文本的字数。

5. 模型尺寸（Model Size）：模型尺寸表示模型所占用的内存或磁盘空间大小。较小的模型尺寸通常可以更快地加载到内存中，从而减少推理时间。

6. 硬件资源利用率：硬件资源利用率指的是在推理过程中，模型如何有效地利用硬件资源，如CPU、GPU或TPU。高效的硬件资源利用率可以提高推理速度。

7. 批处理大小（Batch Size）：批处理大小表示一次并行处理的输入数据数量。较大的批处理大小通常可以提高硬件的利用率，但也会增加内存需求。

8. 模型精度（Model Accuracy）：模型精度是指模型在推理过程中生成的输出结果与实际标签的一致性。在追求更快推理速度时，需要权衡模型精度，以确保不牺牲太多的准确性。

　　这些指标在不同应用场景中具有不同的重要性。例如，在移动设备上运行的应用可能更关注低延迟和较小的模型尺寸，而云端服务器上的应用可能更侧重于高IPS和吞吐量。综合考虑这些指标，可以选择适当的神经网络模型、硬件加速和优化方法，以满足特定应用的需求。

易混指标对比

FLOPS和FLOPs（名称易混）

　　FLOPS和FLOPs是两个与计算性能相关的术语，它们有一些区别和不同的含义。

FLOPS（Floating Point Operations Per Second）：FLOPS是指每秒执行的浮点运算次数。它是衡量计算设备（如CPU、GPU、TPU等）的计算能力的指标。FLOPS通常用于衡量计算设备的理论峰值性能，表示设备在理想情况下每秒钟可以执行的浮点运算次数。
FLOPs（Floating Point Operations）：FLOPs是指浮点运算的总次数。它是衡量计算任务中实际执行的浮点运算数量的指标。FLOPs可以用于衡量神经网络模型的计算复杂度，即模型中浮点运算的总量。

　　理解上的区别在于，FLOPS是指计算设备的计算能力，而FLOPs是指计算任务中的实际计算量。FLOPS通常用于评估硬件设备的性能，而FLOPs用于评估计算任务的复杂度。

　　举个例子来说，如果一台计算设备的峰值性能为100 TFLOPS（每秒执行1万亿次浮点运算），而一个神经网络模型的计算复杂度为10 GFLOPs（总共执行10亿次浮点运算），那么这个模型在这台设备上的推理速度可能会受到设备性能的限制，无法达到峰值性能。

Params和FLOPs（理解易混）

　　"Params" 和 "FLOPs" 是两个与神经网络模型相关的术语，它们有不同的含义和用途。

Params（Parameters）：Params是指神经网络模型中的参数数量。这些参数是模型中的可学习权重和偏差，它们在训练过程中通过反向传播算法进行学习。Params通常以数量来表示，比如百万（Million）或千万（Ten Million）个参数。参数的数量通常反映了模型的容量和复杂度，更多的参数通常意味着更复杂的模型。
FLOPs（Floating Point Operations）：FLOPs是指神经网络模型在推理或训练时执行的浮点运算的总数量。这包括加法、乘法等浮点运算。FLOPs通常以数量来表示，例如十亿（GigaFLOPs）或千亿（TeraFLOPs）次浮点运算。 FLOPs是一种衡量模型计算复杂度的指标，它可以用来估计模型在硬件上的计算需求。

　　理解上的区别在于，"Params" 是关于模型的规模和容量的度量，而 "FLOPs" 是关于模型的计算复杂度的度量。更多的参数通常会增加模型的容量，使其更容易拟合复杂的数据，但也会增加训练和推理的计算成本。同时，模型的 "FLOPs" 数量可以帮助我们估计模型在不同硬件上的运行性能，例如在CPU、GPU或TPU上的速度。

　　总之，Params是关于模型参数的数量，而FLOPs是关于模型计算复杂度的度量，它们各自提供了不同角度的信息，用于评估神经网络模型。

模型的参数数量与储存大小

　　神经网络模型的参数数量与储存大小之间存在直接关系，因为模型的参数数量直接影响了模型的存储需求。以下是参数数量和储存大小之间的关系：

参数数量：神经网络模型的参数数量是指模型中可学习的权重和偏差的数量。通常以百万（Million）或千万（Ten Million）为单位来表示。更多的参数通常表示模型的容量更大，可以更好地拟合复杂的数据。
储存大小：神经网络模型的储存大小是指将模型保存在磁盘或内存中所需的空间。模型的储存大小与参数数量成正比，因为每个参数通常需要一个浮点数或整数来表示。参数的储存通常使用字节（Bytes）为单位来表示，但也可以使用更大的单位如千字节（Kilobytes）、兆字节（Megabytes）、千兆字节（Gigabytes）等。

　　一般来说，可以使用以下公式来估算模型的储存大小：

储存大小（Bytes） = 参数数量 × 参数数据类型大小

　　在估算储存大小时，还需要考虑模型的权重和偏差的数据类型，通常是浮点数（float）或整数（int）。例如，一个具有1000万个参数，每个参数使用4字节（32位浮点数）表示的神经网络模型，其储存大小将是约40兆字节（40 MB）。

　　注意，模型的储存大小不仅包括参数，还包括模型的架构和元数据等信息。因此，总储存大小可能略大于参数数量估算的大小。

　　在部署和存储模型时，需要考虑模型的储存大小，特别是在资源受限的环境中。对于移动设备、嵌入式系统或边缘计算设备，模型的大小可能是一个关键考虑因素。如果需要减小模型的储存大小，可以采取模型剪枝、压缩和量化等技术。

　　最后的最后，希望本文能为你带来帮助，如果你觉得有用，希望能三连支持，你的鼓励是我持续创作的动力！要是本文中出现错误，也欢迎指正！

参考：

NVIDIA A100 深度解密（一）：GPU 峰值计算那些事 - 知乎 (zhihu.com)

[GPU硬件架构]NVIDIA Ampere 架构：第三代 Tensor Core - 简书 (jianshu.com)

深度学习中FLOPS和FLOPs的区别与计算_一直特立独行的猫1994的博客-CSDN博客

你可能感兴趣的:(性能分析,人工智能,神经网络,GPU算力,性能度量,性能指标,性能优化)

2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
走向以教育叙事为载体的教育叙事研究 666小飞鱼
今天我读了吴松超老师的《给教师的68条建写作建议》中的第23条《如何通过教育叙事走向研究》，吴老师在文中与我们分享了一个德育案例，这是一个反面的案例，意在告知我们在处理问题时，不能就考虑的点太窄，思考要全面。走向教育叙事研究，教师要有敏锐的“感知力”，这个感知力来自于背后专业知识的支撑，思维能力以及广阔的视野和见识等。所以对于同一件事处理方法不同，这个就是教师背后“敏锐力”的不同造成的，也就是说是
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
想家，想念家乡的四季三妹杨敏
不知道，为什么，这次我回自己出生地—老家，反倒有了一种出差走亲戚的感觉。人啊，出来得久了，就生分了。就不再那么心贴着心脸对着脸了。需要时间，需要机缘，需要我们再重新把自己的思维重置一遍，你才能够转得回这个弯儿的。最好的转弯儿，不是说教，也不是余旧，都有些治标不治本。真正管用的东西，只有一样。也简单。一个字：吃。吃一顿家乡的饭，喝一口家乡的水，听一听那浓重得有些陌生的乡音，心就回来了。心回来，人才算
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
大雄的新恐龙：养育生命，的确不易沧浪先生
哆啦A梦这个动画片，我小时候没有看过，长大了之后似乎对这种充满童真童趣的动画片也没有太多的喜爱，所以结果很明显，我并没有看过哆啦A梦这个动画片。但是近年来大屏幕的兴起，让各家影视剧制作者发现了电影化的好处，没错，电影不仅影响力更大，钱赚得也多。《哆啦A梦·大雄的新恐龙》是最新的一部大屏幕电影，大雄和柯南一样，都永远长不大，而且他和他的小伙伴日复一日、年复一年地和机器猫哆啦A梦在一起玩耍，永远的神奇
178 坚守自律花儿迎风飞扬
如果错过了太阳时你流了泪，那么你也要错过群星了。如果你错过了早上而懊悔，那么你也要错过一整天了。白俊庭老师说，如果没有外部环境的咄咄逼人和自己逼自己，我们一般都不会自己走出舒适区，就像那只温水里的青蛙。百炼成钢，就是要锻造，就是锤打，给自己压力才有动力。咄咄逼人的外部环境是他律，是外力，走出舒适区是觉醒，是顿悟；而自己逼自己，是自律，是意志，是恒心，是内驱力。女儿的中学生活开始，开学整整一个月，也
父母教育孩子的方式，将影响孩子一生树英教育
为什么有些孩子总是充满自信与快乐？独立、有主见又坚强？而有些孩子却自卑、胆怯，软弱又过度依赖父母？为什么有些孩子总是健康、阳光又富于创造力？而有些孩子却悲观、孤僻又思想空乏？一个孩子的行为取决于孩子的思想，思想取决于环境和自己的认知，认知取决于教育。父母是孩子人生中的第一位教育者，父母养育孩子的方式，将决定他们人生的高度，影响他们的一生。网络图，侵权即删优秀的父母就像园丁，既要浇水施肥，又要修剪杂
张芝华49天共修 - 草稿李娟AINI
祈禱、靜心、源代碼編程、觀想發願四根支柱，運用靈性能量的助力，讓夢想和渴望在最大向度中輕鬆實現。共修群指定书籍:1.能断金刚麦克格西2.新世界：灵性的觉醒埃克哈特·托尔3.爱是一切的答案芭芭拉迪安吉莉思4.完美的爱,不完美的关系约翰•威尔伍德5.爱的业力法则麦克格西6.漫画《金刚经》蔡志忠7.蔡志忠典藏国学漫画系列(套装共6册)作业:全部在共修群里完成，并请保存好自己的作业。l一周三次共修觉察作业
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
2023-08-20 圆梦菌
魔力宝贝最详细新手教程，新手该如何完美开局，建议收藏转发2023-08-2010:34《魔力宝贝》手游体力是什么?魔力宝贝体力恢复机制是每10分钟回复1点；体力作用：挑战关卡需消耗体力体力获取方式1、好友每天可以赠送15次，也就是15点体力2、系统每天中午12点以及下午6点赠送25体3、在商城使用神石购买《魔力宝贝》手游战斗力如何提升?1、宠物强化宠物通过融合进阶后可以大幅度提升战力，最高级的宠物
ARMv8 Debug __pop_ ARMv8 ARM64 架构 linux 运维
内容来自DEN0024A_v8_architecture_PG.pdf本质ARMv8Debug是什么历史在ARMv4开始被引入,并已发展成一系列广泛的调试(debug1)和跟踪(trace)功能ARMv6和ARMv7-a新增了自托管调试(debug2)和性能评测(trace-enhance)ARMv8处理器提供硬件功能侵入式:调试工具能够对核心活动提供显著级别的控制非侵入式:以非侵入性方式收集有关
SpringCloudAlibaba—Sentinel(限流) 菜鸟爪哇
前言：自己在学习过程的记录，借鉴别人文章，记录自己实现的步骤。借鉴文章：https://blog.csdn.net/u014494148/article/details/105484410Sentinel介绍Sentinel诞生于阿里巴巴，其主要目标是流量控制和服务熔断。Sentinel是通过限制并发线程的数量（即信号隔离）来减少不稳定资源的影响，而不是使用线程池，省去了线程切换的性能开销。当资源
Android应用性能优化轻口味 Android
Android手机由于其本身的后台机制和硬件特点，性能上一直被诟病，所以软件开发者对软件本身的性能优化就显得尤为重要；本文将对Android开发过程中性能优化的各个方面做一个回顾与总结。Cache优化ListView缓存：ListView中有一个回收器，Item滑出界面的时候View会回收到这里，需要显示新的Item的时候，就尽量重用回收器里面的View；每次在getView函数中inflate新
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
好习惯:锻炼孩子的思考力好习惯2011
家长在教育孩子时，应积极鼓励孩子提问，让孩子尽量相信自己能够解决问题，还要注意激发孩子的好奇心，使孩子对所探究的问题产生强烈的求知欲望。在适当的时候，家长们也要问孩子一些问题，锻炼孩子的思考能力。只要我们愿意，就可以用适合孩子年龄的理解的方式和语言，引导孩子进行思考，并学到知识。知识是一环扣一环的，我们为孩子解开一个谜，就为解开下一个谜作了准备，只要我们用心，孩子的知识链条就会越接越长。孩子们在学
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement