奔跑的码仔

4_TensorRT概况

文章目录

什么是TensorRT

TensorRT的优势

谁可以从TensorRT中受益

TensorRT适用于哪里
TensorRT如何工作
TensorRT提供何种能力
哪里可以获得TensorRT

使用c++ API处理TensorRT

实例化TensorRT
创建网络定义

使用C ++ API从头开始创建网络定义
使用解析器导入模型
使用C ++ Parser API导入Caffe模型
使用C ++ UFF Parser API导入TensorFlow模型
使用C ++ Parser API导入ONNX模型

构建引擎
序列化模型
执行推理
内存管理
改进引擎

使用Python API
使用自定义层扩展TensorRT
混合精度工作
DLA
部署一个TensorRT优化模型

云端部署
嵌入式系统部署

使用深度学习框架

使用TensorFlow

示例
FAQ

BatchSize是什么？

什么是TensorRT

TensorRT™的核心是一个C ++库，可以提升NVIDIA图形处理单元（GPU）的高性能推断。它旨在与TensorFlow，Caffe，PyTorch，MXNet等深度学习框架以互补的方式工作。它专注于在GPU上快速有效地运行已经过训练的网络，以便生成结果（在各个地方称为评分，检测，回归或推理的过程）。

一些神经网络训练框架（如TensorFlow）已经集成了TensorRT，因此可用于加速框架内的推理过程。或者，TensorRT可以用作用户应用程序中的库。它包括用于从Caffe，ONNX或TensorFlow导入现有模型的解析器，以及用于以编程方式构建模型的C ++和Python API。

图-1TensorRT是一种用于生产部署的高性能神经网络推理优化器和运行时引擎

TensorRT通过组合层和优化内核选择来优化网络，从而改善延迟，吞吐量，功效和内存消耗。如果应用程序指定，它还将优化网络以更低的精度运行，进一步提高性能并降低内存需求。

下图显示了TensorRT被定义为高性能推理优化器和部件运行时引擎的一部分。它可以采用在一些流行框架上训练的神经网络，优化神经网络计算，生成轻量级运行时引擎（这是您需要部署到生产环境的唯一需要做的事），然后它将最大化这些GPU平台上的吞吐量，延迟和性能。

图-2 TensorRT是一种可编程推理加速器

TensorRT API包括最常见的深度学习层的实现。有关图层的更多信息，可以参见这里。您还可以使用C++插件API或Python插件API为TensorRT不支持的不常用或更具创新性的层提供实现。

TensorRT的优势

神经网络被训练好之后，TensorRT使网络能够被压缩、优化并作为运行时部署，而不需要框架的开销。TensorRT结合了多个层，优化内核选择，并根据指定的精度(FP32、FP16或INT8)执行规范化和转换，以优化矩阵数学，从而提高延迟、吞吐量和效率。

对于深度学习推理，有5个关键因素可以用来衡量软件:

吞吐量:在一定时期内的输出量。通常以inferences/second或samples/second来度量，每个服务器的吞吐量对于数据中心的成本效益扩展非常关键。
效能：单位功率的吞吐量，通常表示为性能/瓦特。效率是高效数据中心扩展的另一个关键因素，因为服务器、服务器机架和整个数据中心必须在固定的电力预算内运行。
延迟：执行推理的时间，通常以毫秒为单位。低延迟对于交付快速增长的实时基于推理的服务至关重要。
准确度：训练有素的神经网络提供正确答案的能力。对于基于图像分类的应用，关键指标表示为前5或前1个百分比。
内存使用量：在神经网络上进行推理需要保留的主机和设备内存取决于所使用的算法。这限制了在给定的推理平台上运行哪些网络以及网络的哪些组合。这对于需要多个网络且内存资源有限的系统尤其重要，如用于智能视频分析和多摄像头、多网络自主驾驶系统的级联多类检测网络。

使用TensorRT的替代方案包括：

使用训练框架本身执行推理。
编写一个定制应用程序，该应用程序专门用于使用低级库和数学操作执行网络。

使用训练框架来执行推断很简单，但是在给定的GPU上，使用类似于TensorRT这样的优化解决方案可能会导致更低的性能。训练框架倾向于实现更通用的代码，这些代码强调通用性，在进行优化时，优化的重点往往是有效的进行训练。

只需要编写一个定制的应用程序来执行一个神经网络，就可以获得更高的效率，但是它可能非常耗费人力，并且需要相当多的专业知识才能在现代GPU上达到高水平的性能。此外，在一个GPU上工作的优化可能不能完全转化为同一家族中的其他GPU，而且每一代GPU都可能引入只能通过编写新代码来利用的新功能。

TensorRT通过将API与特定硬件细节的高级抽象以及专门针对高吞吐量、低延迟和低设备内存占用推断而开发和优化的实现相结合来解决这些问题。

谁可以从TensorRT中受益

TensorRT适用于工程师，他们负责基于新的或现有的深度学习模型构建特性和应用程序，或者将模型部署到生产环境中。这些部署可以部署到数据中心或云中的服务器、嵌入式设备、机器人或车辆，或者运行在用户工作站上的应用程序软件中。

TensorRT已成功地在广泛的场景中使用，包括：

**机器人：**公司销售的机器人使用TensorRT来运行各种计算机视觉模型，自动引导无人机系统在动态环境中飞行。
**自动驾驶车辆：**TensorRT用于驱动应用了NVIDIA Drive的产品实现计算机视觉处理。
**科学计算：**一个流行的技术计算包嵌入了TensorRT，以支持神经网络模型的高吞吐量执行。
**深度学习训练和框架部署：**TensorRT包含在几个流行的深度学习框架中，包括TensorFlow和MXNet。有关TensorFlow和MXNet容器发布说明，请参见TensorFlow发布说明和MXNet发布说明。
**视频分析：**TensorRT被用于英伟达的DeepStream产品中，为复杂的视频分析解决方案提供强大的支持，这些解决方案包括边缘的1 - 16个摄像头源，以及数据中心中可能聚集数百甚至数千个视频原的数据中心。
**自动语音识别：**TensorRT用于小型桌面/桌面设备上的语音识别。该设备支持有限的词汇量，而云计算支持更大的词汇量语音识别系统。

TensorRT适用于哪里

一般来说，开发和部署深度学习模型的工作流经历三个阶段。

第一阶段：神经网络训练
第二阶段：开发部署解决方案
第三阶段：部署解决方案

第一阶段：训练

在培训阶段，数据科学家和开发人员将从他们想要解决的问题的陈述开始，并决定他们将使用的精确的输入、输出和损失函数。他们还将收集、整理、扩充训练、测试和验证数据集，并可能为这些数据集贴上标签。然后他们将设计网络的结构并训练模型。在训练过程中，他们会监控学习过程，这可能会提供反馈，导致他们修改损失函数，获取或增加培训数据。在这个过程的最后，他们将验证模型的性能并保存所训练的模型。训练和验证通常使用DGX-1™、Titan或Tesla数据中心gpu完成。TensorRT一般不用于训练阶段的任何部分。

第二阶段：开发部署解决方案
在第二阶段中，数据科学家和开发人员将从经过训练的模型开始，并使用这个经过训练的模型创建和验证部署解决方案。将这个阶段分解为几个步骤，就得到：

考虑一下神经网络在更大的系统中是如何工作的，它是这个系统的一部分，并设计和实现一个合适的解决方案。可能包含神经网络的系统是非常多样化的。例子包括
- 车辆的自动驾驶技术
- 公共场所或公司校园的视频安全系统
- 电子消费设备的语音接口
- 工业生产线自动化质量保证系统
- 提供产品推荐的在线零售系统
- … …
确定你的首要任务是什么。考虑到可以实现的不同系统的多样性，在设计和实现部署体系结构时可能需要考虑很多事情。
- 车辆的自动驾驶技术
- 您有单个网络还是多个网络?例如，您正在开发基于单个网络(人脸检测)的功能或系统吗?或者您的系统将由不同模型的混合或级联组成，或者可能由一个更通用的工具来提供最终用户可能提供的集合模型?
- 您将使用什么设备或计算元素来运行网络?CPU, GPU，其他，还是混合?如果模型要在GPU上运行，它是单一类型的GPU，还是需要设计一个可以在多种GPU上运行的应用程序?
- 数据将如何到达模型?什么是数据管道?这些数据是来自摄像头或传感器、一系列文件，还是通过网络连接上传的?
- 将进行什么预处理?数据将采用什么格式?如果是图像，是否需要裁剪和旋转?如果是文本，那么它是什么字符集?是否允许所有字符作为模型的输入?有什么特别的token吗?
- 您将有什么延迟和吞吐量需求?
- 您能够将多个请求批处理在一起吗?
- 您是否需要单个网络的多个实例来实现所需的总体系统吞吐量和延迟?
- 您将如何处理网络的输出?
- 需要什么后处理步骤?
TensorRT提供了一个快速、模块化、紧凑、健壮、可靠的推理引擎，可以支持部署体系结构中的推理需求。
在数据科学家和开发人员定义了他们的推理解决方案的体系结构之后，他们确定了优先级，然后使用TensorRT从保存的网络构建一个推理引擎。根据使用的训练框架和网络体系结构，有许多方法可以做到这一点。通常，这意味着您需要使用ONNX解析器(参见图3)、Caffe解析器或TensorFlow/UFF解析器将保存的神经网络从其保存的格式解析为TensorRT。

图-3 ONNX 工作流 V1
通过解析器对网络尽心解析之后，您需要考虑优化选项——批处理大小、工作区大小和混合精度。这些选项被选择并指定为TensorRT构建步骤的一部分，在此步骤中，您将根据您的网络实际构建一个优化的推理引擎。本指南的后续部分提供了关于工作流这一部分的详细说明和大量示例，将您的模型解析为TensorRT并选择优化参数(参见图4)。

图-4TensorRT优化训练过的神经网络模型，以生成可部署的运行时推理引擎
在使用TensorRT创建了一个推理引擎之后，您将需要验证它是否复制了在训练过程中测量的模型结果。如果您选择了FP32或FP16，那么它应该与结果非常接近。如果你选择了INT8，那么在训练中获得的准确性和推理的准确性之间可能会有一个小的差距。
以串行格式写出推理引擎。这也称为计划文件。

第三阶段：部署解决方案
TensorRT库将链接到部署应用程序，部署应用程序将在需要推理结果时调用该库。要初始化推理引擎，应用程序首先将模型从计划文件反序列化为推理引擎。

TensorRT通常异步使用，因此，当输入数据到达时，程序调用一个enqueue函数，其中包含输入缓冲区和TensorRT应该将结果放入其中的缓冲区。

TensorRT如何工作

为了优化您的推理模型，TensorRT接受您的网络定义，执行优化，包括特定于平台的优化，并生成推理引擎。这个过程称为构建阶段。构建阶段可能需要相当长的时间，特别是在嵌入式平台上运行时。因此，典型的应用程序将构建引擎一次，然后将其序列化为计划文件供以后使用。

**注意:**生成的计划文件不能跨平台或移植到其他TensorRT版本。计划特定于它们构建的精确GPU模型（除了平台和TensorRT版本），并且必须重新定位到特定的GPU，以防您想要在不同的GPU上运行它们。

构建阶段在图层图上执行以下优化：

去除没有输出的层
融合卷积，bias和ReLU操作
具有足够相似的参数和相同的源张量的操作聚合（例如，GoogleNet v5初始模块中的1x1卷积）
通过将层输出定向到正确的最终目标来合并连接层。

如有必要，构建器还会修改权重的精度。当以8位整数精度生成网络时，它使用称为校准的过程来确定中间激活的动态范围，并因此确定用于量化的适当缩放因子。

此外，构建阶段还在虚拟数据上运行图层以从其内核目录中选择最快的图像，并在适当的情况下执行权重预格式化和内存优化。

获取更多信息可以参考混合精度工作一节。

TensorRT提供何种能力

TensorRT使开发人员能够导入，校准，生成和部署优化过的网络。网络可以直接从Caffe导入，也可以通过UFF或ONNX格式从其他框架导入。还可以通过编程方式创建它们，方法是实例化各个层并直接设置参数和权重。

用户还可以使用插件接口通过TensorRT运行定制过的层。通过graphurgeon实用程序，可以将TensorFlow节点映射到TensorRT中的自定义层，从而可以使用TensorRT对许多TensorFlow网络进行推理。

TensorRT在所有支持的平台上提供c++实现，在x86上提供Python实现。

TensorRT核心库的关键接口为:

网络定义
网络定义接口为应用程序提供了指定网络定义的方法。可以指定输入和输出张量，可以添加层，并且有一个接口用于配置每个受支持的层类型。除了支持卷积层、循环层之外，Tensor还可以通过安装插件的方式扩展其本身不支持的类型。有关网络定义的详细信息，请参阅网络定义API。

构建器
构建器接口允许通过网络定义创建优化过的引擎。它允许应用程序指定最大批量和工作空间大小，最小可接受精度水平，自动调整的计时迭代计数，以及用于量化网络以8位精度运行的接口。有关Builder的更多信息，请参阅Builder API。

引擎
Engine接口允许应用程序执行推理。它支持同步和异步执行，分析，枚举和查询引擎输入和输出的绑定。单个引擎可以具有多个执行上下文，允许使用单组训练参数来同时执行多个批次。有关Engine的更多信息，请参阅Execution API。

TensorRT提供解析器，用于导入经过训练的网络以创建网络定义，TensorRT支持的解析器包括：

Caffe Parser:

此解析器可用于解析在BVLC Caffe或NVCaffe 0.16中创建的Caffe网络。它还提供了为自定义图层注册插件工厂的功能。有关c++ Caffe解析器的详细信息，请参阅 NvCaffe Parser 或Python Caffe Parser。

UFF Parser:
此解析器可用于以UFF格式解析网络。它还提供了注册插件工厂和传递自定义图层的字段属性的功能。有关C ++ UFF Parser的更多详细信息，请参阅NvUffParser或Python UFF Parser。
ONNX Parser:
此解析器可用于解析ONNX模型。有关C ++ ONNX Parser的更多详细信息，请参阅NvONNXParser或Python ONNX Parser。

限制
由于ONNX格式正在快速开发，因此您可能会遇到模型版本和解析器版本之间的版本不匹配。 TensorRT 5.0.0附带的ONNX Parser支持ONNX IR（中间表示）版本0.0.3，opset版本7。

哪里可以获得TensorRT

有关如何安装TensorRT的详细说明，可以参考TensorRT Installation Guide.

使用c++ API处理TensorRT

使用c++ API处理TensorRT”.

以下部分突出显示了可以使用c++ API执行的TensorRT用户目标和任务。示例部分提供了进一步的详细信息，并在适当时链接到下面。

假设您从一个经过训练的模型开始。本章将介绍使用TensorRT时的必要步骤:

从模型创建TensorRT网络定义
调用TensorRT构建器从网络创建优化过的运行时引擎
序列化和反序列化引擎，以便在运行时快速重新创建引擎
为引擎提供数据以执行推理。

在本质上，c++ API和Python API在支持您的需求方面应该非常接近。 C++ API应该用于任何性能关键场景，以及安全性非常重要的情况，例如在汽车中。

Python API的主要好处是数据预处理和后处理很容易使用，因为您可以使用各种库，比如NumPy和SciPy。有关Python API的更多信息，请参见使用Python API一节。

实例化TensorRT

实例化TensorRT”.

为了运行推理，您需要使用IExecutionContext对象。为了创建类型为IExecutionContext的对象，首先需要创建类型为的对象
ICudaEngine(引擎)。

引擎可以通过以下两种方式创建:

通过来自于用户模型的网络定义。在这种情况下，可以选择序列化引擎并保存起来供以后使用。
通过从磁盘读取序列化引擎。在这种情况下，性能更好，因为解析模型和创建中间对象的步骤被省略了。

需要全局创建iLogger类型的对象。它被用作TensorRT API的各种方法的参数。下面是一个演示如何创建日志程序的简单示例:

class Logger : public ILogger
{
	void log(Severity severity, const char* msg) override
	{
		// suppress info-level messages
		if (severity != Severity::kINFO)
		std::cout << msg << std::endl;
	}
} gLogger;

名为createInferBuilder（gLogger）的全局TensorRT API方法用于创建iBuilder类型的对象，如图5所示。有关更多信息，请参阅IBuilder类引用。

图-5 使用iLogger作为输入参数创建iBuilder

为iBuilder定义的名为createNetwork的方法用于创建iNetworkDefinition类型的对象，如图6所示。

图-6 createNetwork（）用于创建网络。

使用iNetwork定义作为输入创建一个可用的解析器:

ONNX:parser = nvonnxparser::createParser(*network, gLogger);
NVCaffe:ICaffeParser* parser = createCaffeParser();
UFF:parser = createUffParser();

调用来自iParser类型的对象的名为parse（）的方法来读取模型文件并填充TensorRT网络。

图-7 解析模型文件。

调用iBuilder的一个名为buildCudaEngine（）的方法来创建一个iCudaEngine类型的对象，如图8所示：

图-8 创建TensorRT引擎。

可以选择将引擎序列化并转储到文件中。

图-9 序列化TensorRT引擎。

执行上下文用于执行推理。

图-10 创建执行上下文。

如果引擎已经序列化被保留并保存到文件中，则可以绕过上述大多数步骤。

名为createInferRuntime（gLogger）的全局TensorRT API方法用于创建iRuntime类型的对象，如图11所示：

图-11 创建TensorRT运行时。

有关TensorRT运行时的更多信息，请参阅IRuntime类引用。通过调用运行时方法deserializeCudaEngine（）来创建引擎。

对于这两种使用模型，其余推断是相同的。
尽管可以避免创建CUDA上下文（将为您创建默认上下文），但这是不可取的。建议在创建运行时或构建器对象之前创建和配置CUDA上下文。

将使用与创建线程关联的GPU上下文创建构建器或运行时。虽然如果缺省上下文尚不存在，但会创建它，但建议在创建运行时或构建器对象之前创建和配置CUDA上下文。

创建网络定义

使用TensorRT进行推理的第一步是从您的模型创建TensorRT网络。实现此目的的最简单方法是使用TensorRT解析器库导入模型，该解析器库支持以下格式的序列化模型：

both BVLC and NVCaffe。
onnx\_mnist\_sample。
used for TensorFlow。

另一种方法是使用TensorRT API直接定义模型。这要求您进行少量API调用以定义网络图中的每个层，并为模型的训练参数实现自己的导入机制。

在任何一种情况下，您都明确需要告诉TensorRT需要哪些张量作为推理的输出。未标记为输出的张量被认为是可由建造者优化的瞬态值。输出张量的数量没有限制，但是，将张量标记为输出可能会禁止对张量进行一些优化。输入和输出张量也必须给出名称（使用ITensor :: setName（））。在推理时，您将为引擎提供一个指向输入和输出缓冲区的指针数组。为了确定引擎对这些指针的预期顺序，您可以使用张量名称进行查询。

TensorRT网络定义的一个重要方面是它包含指向模型权重的指针，这些指针由构建器复制到优化引擎中。如果网络是通过解析器创建的，则解析器将拥有权重占用的内存，因此在构建器运行之前，不应删除解析器对象。

使用C ++ API从头开始创建网络定义

您也可以通过网络定义API直接将网络定义到TensorRT，而不是使用解析器。此方案假定在网络创建期间，每层权重已准备好在主机内存中传递给TensorRT。

在下面的示例中，我们将创建一个包含Input，Convolution，Pooling，FullyConnected，Activation和SoftMax图层的简单网络。要查看整体代码，请参阅位于/usr/src/tensorrt/samples/sampleMNISTAPI目录。

创建Builder和network

 IBuilder* builder = createInferBuilder(gLogger);

 INetworkDefinition* network = builder->createNetwork();

使用输入维将“输入”层添加到网络。网络可以有多个输入，但在此示例中只有一个：
```
 auto data = network->addInput(INPUT_BLOB_NAME, dt, Dims3{1, INPUT_H, INPUT_W});
```
添加具有隐藏层输入节点的Convolution图层，过滤器和偏差的步幅和权重。为了从图层中检索张量参考，我们可以使用：
```
 auto conv1 = network->addConvolution(*data->getOutput(0), 20, DimsHW{5, 5}, weightMap["conv1filter"],   
  weightMap["conv1bias"]);
 conv1->setStride(DimsHW{1, 1});
```
**Note:**传递给TensorRT图层的权重在主机内存中。

添加Pooling层：

 auto pool1 = network->addPooling(*conv1->getOutput(0), PoolingType::kMAX, DimsHW{2, 2});
 pool1->setStride(DimsHW{2, 2});

添加FullyConnected和Activation图层:

 auto ip1 = network->addFullyConnected(*pool1->getOutput(0), 500, weightMap["ip1filter"], weightMap["ip1bias"]);
 auto relu1 = network->addActivation(*ip1->getOutput(0), ActivationType::kRELU);

添加SoftMax图层以计算最终概率并将其设置为输出：

 auto prob = network->addSoftMax(*relu1->getOutput(0));
 prob->getOutput(0)->setName(OUTPUT_BLOB_NAME);

标记输出：

 network->markOutput(*prob->getOutput(0));

使用解析器导入模型

要使用C ++ Parser API导入模型，您需要执行以下高级步骤：

创建TensorRT构建器和网络。

 IBuilder* builder = createInferBuilder(gLogger);
 nvinfer1::INetworkDefinition* network = builder->createNetwork();

有关如何创建记录器的示例，参见实例化TensorRT。

为特定格式创建TensorRT解析器。

ONNX

 auto parser = nvonnxparser::createParser(*network, gLogger);

UFF

 auto parser = createUffParser();

NVCaffe

 ICaffeParser* parser = createCaffeParser();

使用解析器解析导入的模型并填充网络。

 parser->parse(args);

 具体的args取决于使用什么格式的解析器。 有关更多信息，请参阅[TensorRT API](https://docs.nvidia.com/deeplearning/sdk/tensorrt-api/index.html)中记录的解析器。

必须在网络之前创建构建器，因为它充当网络的工厂。不同的解析器具有用于标记网络输出的不同机制。

使用C ++ Parser API导入Caffe模型

以下步骤说明了如何使用C ++ Parser API导入Caffe模型。欲获得更多信息，参见。

创建builder和network

 IBuilder* builder = createInferBuilder(gLogger);
 INetworkDefinition* network = builder->createNetwork();

创建Caffe parser:

 ICaffeParser* parser = createCaffeParser();

解析导入的模型：

 const IBlobNameToTensor* blobNameToTensor = parser->parse("deploy_file" , "modelFile", *network, DataType::kFLOAT);

 这将填充Caffe模型中的TensorRT网络。 最后一个参数指示解析器生成权重为32位浮点数的网络。 使用DataType :: kHALF将生成具有16位权重的模型。

 除了填充网络定义之外，解析器还返回一个字典，该字典从Caffe blob名称映射到TensorRT张量。 与Caffe不同，TensorRT网络定义没有就地操作的概念。 当Caffe模型使用就地操作时，字典中返回的TensorRT张量对应于对该blob的最后一次写入。 例如，如果卷积写入blob并且后跟就地ReLU，则该blob的名称将映射到TensorRT张量，该张量是ReLU的输出。

指定网络的输出：

 for (auto& s : outputs)
  	network->markOutput(*blobNameToTensor->find(s.c_str()));

使用C ++ UFF Parser API导入TensorFlow模型

**NOTE:**对于新项目，建议使用TensorFlow-TensorRT集成作为转换TensorFlow网络以使用TensorRT进行推理的方法。

有关集成说明，请参阅Integrating TensorFlow With TensorRT与 Release Notes。

从TensorFlow框架导入需要您将TensorFlow模型转换为中间格式UFF（通用框架格式）。有关转换的更多信息,Converting A Frozen Graph To UFF。

以下步骤说明了如何使用C ++ Parser API导入TensorFlow模型。有关UFF导入的更多信息，参见。

创建builder和network:

 IBuilder* builder = createInferBuilder(gLogger);
 INetworkDefinition* network = builder->createNetwork();

创建UFF parser:

 IUFFParser* parser = createUffParser();

向UFF解析器声明网络输入和输出：

 parser->registerInput("Input_0", DimsCHW(1, 28, 28), UffInputOrder::kNCHW);
 parser->registerOutput("Binary_3");
 
 **NOTE:**TensorRT期望输入张量为CHW顺序。 从TensorFlow导入时，请确保输入张量符合所需顺序，如果不是，请将其转换为CHW。

解析导入的模型以填充网络：

 parser->parse(uffFile, *network, nvinfer1::DataType::kFLOAT);

使用C ++ Parser API导入ONNX模型

构建引擎

下一步是调用TensorRT构建器来创建优化的运行时。构建器的一个功能是搜索其CUDA内核目录以获得最快的可用实现，因此必须使用相同的GPU来构建优化引擎将运行的GPU。
构建器具有许多属性，您可以设置这些属性以控制网络应运行的精度，以及自动调整参数，例如TensorRT在确定哪个最快时（多次迭代导致更长的运行时间）应该为每个内核计时多少次但是对噪声的敏感性较低。）您还可以查询构建器以找出硬件本身支持的精简类型。

两个特别重要的属性是最大批量大小和最大工作空间大小。

最大批量大小指定TensorRT将优化的批量大小。在运行时，可以选择较小的批量大小。
层算法通常需要临时工作空间。此参数限制网络中任何层可以使用的最大大小。如果提供的***insufficient scratch***，则TensorRT可能无法找到给定层的实现。

使用构建器对象构建引擎：

 builder->setMaxBatchSize(maxBatchSize);
 builder->setMaxWorkspaceSize(1 << 20);
 ICudaEngine* engine = builder->buildCudaEngine(*network);

在构建引擎时，TensorRT会复制权重。

销毁network、builder、parser

 parser->destroy();
 network->destroy();
 builder->destroy();

序列化模型

要进行序列化，您要将引擎转换为一种格式，以便以后存储和使用以进行推理。要用于推理，您只需反序列化引擎即可。序列化和反序列化是可选的。由于从网络定义创建引擎可能非常耗时，因此每次应用程序重新运行时都可以通过序列化一次并在推理时对其进行反序列化来避免重建引擎。因此，在构建引擎之后，用户通常希望将其序列化以供以后使用。

构建可能需要一些时间，因此一旦构建了引擎，您通常需要将其序列化以供以后使用。在将模型用于推理之前，并非绝对有必要对模型进行序列化和反序列化 - 如果需要，可以直接使用引擎对象进行推理。

**NOTE：**序列化引擎不能跨平台或TensorRT版本移植。引擎特定于它们构建的精确GPU模型（除了平台和TensorRT版本）。

将构建器作为先前的脱机步骤运行，然后序列化：

 IHostMemory *serializedModel = engine->serialize();
 // store model to disk
 // <…>
 serializedModel->destroy();

创建要反序列化的运行时对象：

 IRuntime* runtime = createInferRuntime(gLogger);
 ICudaEngine* engine = runtime->deserializeCudaEngine(modelData, modelSize, nullptr);

最后一个参数是使用自定义图层的应用程序的插件层工厂。欲获得更多信息，参见Extending TensorRT With Custom Layers。

执行推理

以下步骤说明了如何使用引擎在C++中执行推理。

创建一些空间来存储中间激活值。由于引擎保持网络定义和训练的参数，因此需要额外的空间。这些都保存在执行上下文中。
```
 IExecutionContext *context = engine->createExecutionContext();
```
引擎可以具有多个执行上下文，允许一组权重用于多个重叠推理任务。例如，你可以在并行CUDA流处理中使用一个引擎配合一个上下文的方式来处理图像。每个上下文将在与引擎相同的GPU上创建。

使用输入和输出blob名称来获取相应的输入和输出索引:

 int inputIndex = engine.getBindingIndex(INPUT_BLOB_NAME);
 int outputIndex = engine.getBindingIndex(OUTPUT_BLOB_NAME);

使用这些索引，设置指向GPU上输入和输出缓冲区的缓冲区数组：

 void* buffers[2];
 buffers[inputIndex] = inputbuffer;
 buffers[outputIndex] = outputBuffer;

TensorRT执行通常是异步的，因此将内核排入CUDA流：
```
 context.enqueue(batchSize, buffers, stream, nullptr);
```

通常在内核之前和之后将异步memcpy（）排入队列以从GPU移动数据（如果尚未存在）。 enqueue（）的最后一个参数是一个可选的CUDA事件，当输入缓冲区被消耗并且它们的内存可以安全地重用时，它将被发出信号。

要确定内核（以及可能的memcpy（））何时完成，请使用标准CUDA同步机制（如事件）或等待流。

内存管理

TensorRT提供了两种机制，允许应用程序更好地控制设备内存。
默认情况下，在创建IExecutionContext时，会分配持久设备内存来保存激活数据。要避免此分配，请调用
createExecutionContextWithoutDeviceMemory。然后应用程序负责调用IExecutionContext :: setDeviceMemory（）来提供运行网
络所需的内存。内存块的大小由ICudaEngine :: getDeviceMemorySize（）返回。

此外，应用程序可以通过实现IGpuAllocator接口提供在构建和运行时使用的自定义分配器。实现接口后，调用setGpuAllocator（＆allocator）;

在IBuilder或IRuntime接口上。然后，将通过此接口分配和释放所有设备内存。

改进引擎

TensorRT可以使用新的权重改进引擎，而无需重建。引擎必须构造为“可重新改进”。由于引擎的优化方式，如果您更改一些权重，您可能还需要提供一些其他权重。接口可以告诉您需要提供哪些额外的权重。

在构建之前请求可重新改进的引擎:

 ...
 builder->setRefittable(true); 
 builder->buildCudaEngine(network);

创建一个refitter对象：

 ICudaEngine* engine = ...;
 IRefitter* refitter = createInferRefitter(*engine,gLogger)

更新要更新的权重。例如，要更新名为“MyLayer”的卷积层的内核权重：
```
 Weights newWeights = ...;
 refitter.setWeights("MyLayer",WeightsRole::kKERNEL,newWeights);
```
新的权重应与用于构建引擎的原始权重具有相同的计数。
如果出现问题，setWeights返回false，例如错误的图层名称或角色，或者权重计数的变化。

找出必须提供的其他权重。这通常需要两次调用IRefitter :: getMissing，首先获取必须提供的Weights对象的数量，然后获取他们的图层和角色。

 const int n = refitter->getMissing(0, nullptr, nullptr);
 std::vector layerNames(n);
 std::vector weightsRoles(n);
 refitter->getMissing(n, layerNames.data(), weightsRoles.data());

以任何顺序提供缺失的权重:
```
 for (int i = 0; i < n; ++i)
     refitter->setWeights(layerNames[i], weightsRoles[i],
                          Weights{...});
```
仅提供缺失的权重将不再需要任何权重。提供任何额外的权重可能会触发更多权重的需要。
使用提供的所有权重更新引擎：
```
 bool success = refitter->refitCudaEngine();
 assert(success);
```
如果success为假，请检查日志以查找诊断，可能还有仍然缺失的权重。
销毁refitter结构
```
 refitter->destroy();
```

更新的引擎行为是否是从使用新权重更新的网络构建的。要查看引擎中所有可重新调整的权重，请使用refitter-> getAll（…）; 类似于步骤3中如何使用getMissing。

使用Python API

混合精度工作”.

使用自定义层扩展TensorRT

混合精度工作

混合精度工作”.

混合精度是在计算方法中组合使用不同的数值精度。 TensorRT可以存储权重和激活，并以32位浮点，16位浮点或量化的8位整数执行层。
使用低于FP32的精度可以减少内存使用，允许部署更大的网络。数据传输花费的时间更少，计算性能也会提高，尤其是在Tensor Core支持该精度的GPU上。

默认情况下，TensorRT使用FP32推理，但它也支持FP16和INT8。在运行FP16推理时，它会自动将FP32权重转换为FP16权重。
您可以使用以下API检查平台上支持的精度：

if (builder->platformHasFastFp16()) { … }; 
if (builder->platformHasFastInt8()) { … };

指定网络的精度定义了应用程序的最低可接受精度。如果对于某些特定的内核参数集更快，或者如果不存在低精度内核，则可以选择更高精度的内核。您可以设置构建器标志setStrictTypeConstraints以强制网络或层精度，这可能没有最佳性能。仅建议在调试时使用此标志。

如果平台支持，您也可以选择设置INT8和FP16模式。 TensorRT将选择性能最佳的内核来执行推理。

NOTE:Jetson TX2仅支持FP32和FP16.

DLA

NVIDIA DLA（深度学习加速器）是一款针对深度学习操作的固定功能加速器引擎。 DLA旨在对卷积神经网络进行全硬件加速。 DLA支持各种层，如卷积，反卷积，完全连接，激活，池化，批量标准化等。

NOTE:Jetson TX2不支持DLA.

部署一个TensorRT优化模型

在创建包含优化推理模型的计划文件后，可以将该文件部署到生产环境中。如何创建和部署计划文件取决于您的环境。例如，您可能为模型提供了一个专用推理可执行文件，用于加载计划文件，然后使用TensorRT执行API将输入传递给模型，执行模型以执行推理，最后从模型中读取输出。

本节讨论如何在一些常见的部署环境中部署TensorRT。

云端部署

用于推理的一种常见云部署策略是通过为模型实现HTTP REST或gRPC端点的服务器公开模型。然后，远程客户端可以通过向该端点发送格式正确的请求来执行推理。请求将选择模型，提供模型所需的必要输入张量值，并指出应计算哪些模型输出。

要在此部署策略中利用TensorRT优化模型，不需要进行任何根本性更改。必须更新推理服务器以接受由TensorRT计划文件表示的模型，并且必须使用TensorRT执行API来加载和执行这些计划。可以在TensorRT推理服务器容器发行说明和TensorRT推理服务器指南中找到为推理提供REST终结点的推理服务器示例。

嵌入式系统部署

TensorRT还可用于将经过训练的网络部署到嵌入式系统，如NVIDIA Drive PX。在此上下文中，部署意味着获取网络并在嵌入式设备上运行的软件应用程序中使用它，例如对象检测或映射服务。将经过训练的网络部署到嵌入式系统涉及以下步骤：

将训练好的网络导出为UFF或ONNX等可导入TensorRT的格式（参见，使用深度学习框架）
编写一个程序，使用TensorRT C ++ API将训练好的网络导入，优化和序列化为计划文件（参见前面对应的章节）
在部署到目标系统之前，在主机系统上构建并运行make_plan以验证训练的模型.(能不能直接在目标系统上验证？)
将训练有素的网络（和INT8校准缓存，如果适用）复制到目标系统。在目标系统上重新构建并重新运行make_plan程序以生成计划文件。

**NOTE：**make_plan程序必须在目标系统上运行，才能为该系统正确优化TensorRT引擎。但是，如果在主机上生成了INT8校准高速缓存，则在生成引擎时，构建器可以在目标上重新使用高速缓存（换句话说，不需要在目标系统本身上进行INT8校准）。

在嵌入式系统上创建计划文件后，嵌入式应用程序可以从计划文件创建引擎，并使用TensorRT C++ API对引擎执行推理。更多信息可以参考，使用c++ API处理TensorRT

介绍在嵌入式系统上部署TensorRT引擎的典型用例可以参考：

Deploying INT8 Inference For Autonomous Vehicles DRIVE PX
Jetson and Jetpack

使用深度学习框架

使用深度学习框架”.

使用Python API，使用TensorFlow，Caffe或ONNX兼容框架构建的现有模型可用于使用提供的解析器构建TensorRT引擎。 Python API还支持以NumPy兼容格式存储图层权重的框架，例如PyTorch。

使用TensorFlow

示例

示例.

FAQ

BatchSize是什么？

出现在builder->setMaxBatchSize(maxBatchSize)、context.enqueue(batchSize, buffers, stream, nullptr)中的batchsize是什么意思？

你可能感兴趣的:(AI,Linux,NVIDIA_TX2,NVIDIA-AI,实践)

都快3202年了，你还不会用Java生成计算机统一标识符 Heping_Ge2333 java
Java生成计算机统一标识符计算机统一标识符的概念什么是计算机统一标识符？计算机统一标识符就相当于每台电脑每个系统的“身份证”。它是唯一的。通常，计算机统一标识符是根据电脑的硬件情况（主板、cpu的序列号，mac地址）和系统情况（windows/linux/unix）生成的。Java语言的实现下面这段代码浅浅的实现了计算机统一标识符importlombok.Data;importlombok.ex
2025年开发者工具全景图：IDE与AI协同的效能革命 He.Tech ide 人工智能
2025年开发者工具全景图：IDE与AI协同的效能革命（基于CSDN、腾讯云等平台技术文档与行业趋势分析）一、核心工具链的务实演进与配置指南主流开发工具的升级聚焦于工程化适配与智能化增强，以下是2025年开发者必须掌握的配置技巧：1.VSCode：性能优化与远程协作标杆核心特性：CUDA核心利用率分析：通过NVIDIANsight插件优化GPU计算任务，需在settings.json中添加："ns
提升敏感力，“工具人”破圈的唯一解！技能咖 GAI认证生成式人工智能认证人工智能
在当今这个日新月异的数字化时代，个人与组织面临着前所未有的挑战与机遇。随着科技的飞速发展，尤其是生成式人工智能（GenerativeAI）的兴起，职场生态正在发生深刻变革。如何在这场变革中提升敏感力，实现从“工具人”到行业佼佼者的跨越，成为了众多职场人士关注的焦点。本文将探讨提升敏感力的重要性，并引入生成式人工智能认证（GAI认证），为您揭示“工具人”破圈的唯一解。提升敏感力：职场竞争的关键什么是
Java IO流详解我真的不想做程序员 java 文件读写 java 开发语言后端数据结构算法
目录一、JavaIO流基础（一）字节流常见字节流类（二）字符流常见字符流类二、字节流操作示例（一）读取文件（二）写入文件（三）带缓冲功能的字节流三、字符流操作示例（一）读取文件（二）写入文件（三）带缓冲功能的字符流四、总结一、JavaIO流基础JavaIO流用于处理设备之间的数据传输，主要包括字节流和字符流两大类。字节流以字节为单位进行数据传输，适用于处理二进制数据；字符流以字符为单位进行传输，适
CSS3背景与渐变天涯学馆大前端&移动端全栈架构 css3 前端 css
背景与渐变background-sizebackground-size属性用于设置背景图像的尺寸。您可以指定绝对或相对单位，或者使用关键词来控制背景图像在元素背景区域中的大小。.element{background-size:[length|percentage|cover|contain]|[length|percentage][length|percentage]|auto|inherit;}
Linux常用命令与权限理解总结续篇小白要加油努力 Linux linux 运维服务器
接着前文（Linux常用命令与权限理解总结-CSDN博客）来继续说明一些常见的指令。5.进程管理详解ps-显示进程状态ps命令用于显示当前运行的进程信息。详细用法：ps：显示当前终端的进程ps-e或ps-A：显示所有进程ps-f：全格式列表ps-ef：显示所有进程的完整格式ps-uusername：显示指定用户的进程ps-aux：BSD风格显示所有进程详情ps-axjf：树状结构显示进程（显示父子
aixbt 被盗 55.5 ETH，本就孱弱的 AI 代理叙事会「雪上加霜」吗人工智能区块链以太坊
作者：Techub热点速递撰文：Yangz，TechubNews在大部分行业目光都投向币安「组合拳」引发的BNBChain热潮、OKX因合规问题暂停DEX聚合服务以及Solana深陷政治广告风波的同时，周一CT上爆出的关于头部AI代理aixbt被「钓鱼诈骗」55.5ETH一事再次引发了社区关于AI代理叙事可持续性的思考。不少用户担忧，目前本就孱弱的AI代理叙事是否会因此「雪上加霜」？周一下午，多名
金三银四快过去一半了，是时候加把劲了后端go找工作面试
从复旦春招会的15000+岗位争夺战，到AI算法岗年薪百万的“神仙打架”，再到游戏行业20:1的残酷竞争比，今年的金三银四像极了《三体》里的黑暗森林：机会看似遍地，但稍有不慎就成了别人的“背景板”。但现实真的是“投晚了就凉了”吗？数据告诉你真相：智联研究院统计显示，算法工程师、机器人算法工程师等岗位需求同比激增44%，而中小企业的“捡漏窗口”才刚开启。这半个月，我整理了20+场面试实录（含小鹅通、
常用的git和linux命令有哪些？海姐软件测试 git linux elasticsearch 大数据搜索引擎
一、Git常用命令1.仓库与基础操作命令作用常用参数/示例gitinit初始化新仓库gitinitgitclone克隆远程仓库gitclonehttps://github.com/user/repo.gitgitstatus查看仓库状态gitstatus-s（简洁模式）gitadd添加文件到暂存区gitadd.（添加所有文件）gitaddfile1.txtgitcommit提交代码gitcommi
新浪财经App喜娜AI助手通过大模型登记，已上线AI摘要和个股公告AI解读量子位
3月14日，官方发布的信息显示，新浪财经App喜娜AI助手近日已通过北京市生成式人工智能服务登记。目前，喜娜AI助手已上线两项创新功能：喜娜AI摘要和个股公告AI解读。这两项功能旨在通过先进的人工智能技术，提升用户对财经资讯和上市公司公告的理解与分析效率，这标志着AI技术在信息服务领域的又一重大突破。喜娜AI摘要：快速提炼财经资讯核心要点AI时代，资讯信息迎来爆炸性增长，用户每天都要面对海量资讯，
什么是企业邮箱？在公司中企业邮箱有什么作用？安全
在现代商业环境中，企业邮箱已经成为公司日常运营中不可或缺的工具。无论是初创企业还是大型跨国公司，企业邮箱都扮演着重要角色。那么，什么是企业邮箱？它与普通邮箱有什么区别？在公司中又能发挥哪些作用？本文将为您一一解答。一、什么是企业邮箱？企业邮箱，顾名思义，是专门为企业设计的电子邮件服务。与我们日常使用的个人邮箱（如Gmail、QQ邮箱）不同，企业邮箱通常以公司域名为后缀，例如：name@yourco
拓数派荣登2024年《财富》中国最具社会影响力的创业公司人工智能创新数据库云原生
9月11日，全球著名商业杂志《财富》(FortuneMagazine）在其中文版发布“2024年中国最具社会影响力的创业公司”榜单。拓数派凭借基础AI理论、产品在核心领域应用，AI向善品牌影响力等方面的综合竞争力荣誉上榜。作为《财富》最具权威性的榜单之一，“中国最具社会影响力的创业公司”榜单聚焦“dowellwhiledoinggood”的企业，以“创新、高成长和社会影响力”三个维度为重点，致力于
模型微调：让AI更懂你的魔法棒带上一无所知的我 pytorch 人工智能 python
模型微调：让AI更懂你的魔法棒✨在人工智能的世界里，模型微调（Fine-tuning）就像是一位魔法师用魔法棒对预训练模型进行“个性化改造”，让它更适应特定的任务。今天，我们就来深入探讨模型微调的技术细节，让你也能像魔法师一样，轻松驾驭AI模型！什么是模型微调？模型微调是指在预训练模型的基础上，通过少量的特定任务数据进行训练，使模型更好地适应新任务的技术。预训练模型通常是基于大规模数据集（如Ima
加密算法的性能优化与安全性平衡研究 sigen520520 笔记
摘要在数字化信息飞速发展的当下，数据安全至关重要，加密算法作为数据保护的核心手段，其性能与安全性直接关乎信息系统的稳定运行。本文深入剖析常见加密算法，详细分析其性能指标与安全性特点，全面探讨在提升加密速度的同时确保安全的有效方法与实践，旨在为构建高效、安全的加密体系提供理论支撑与实践指导。引言随着互联网的普及和信息技术的广泛应用，数据在传输与存储过程中面临诸多安全威胁，如数据泄露、篡改、伪造等。加
aixbt 被盗 55.5 ETH，本就孱弱的 AI 代理叙事会「雪上加霜」吗人工智能区块链以太坊
作者：Techub热点速递撰文：Yangz，TechubNews在大部分行业目光都投向币安「组合拳」引发的BNBChain热潮、OKX因合规问题暂停DEX聚合服务以及Solana深陷政治广告风波的同时，周一CT上爆出的关于头部AI代理aixbt被「钓鱼诈骗」55.5ETH一事再次引发了社区关于AI代理叙事可持续性的思考。不少用户担忧，目前本就孱弱的AI代理叙事是否会因此「雪上加霜」？周一下午，多名
基于 Websoft9 平台的 Odoo 教学实践：助力智能制造、物流与财务会计专业教师提升教学效果开源
Websoft9作为企业级开源软件的自动化部署与管理平台，为高校智能制造、物流与财务会计等专业提供了完整的Odoo（开源ERP）教学解决方案。以下从部署、维护及功能扩展三方面解析其核心价值：一、部署：开箱即用的企业级业务场景模拟一键构建复杂业务架构Websoft9预置了Odoo全模块集成模板，部署时可自动关联PostgreSQL数据库、Nginx负载均衡及Let'sEncryptSSL证书，还原真
书籍-《优化基础：理论、工具及应用（论文版）》机器学习人工智能
书籍：OptimizationEssentials:Theory,Tools,andApplications作者：FaizHamid出版：Springer编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《优化基础：理论、工具及应用（论文版）》01书籍介绍本书探讨了运筹学和数学优化领域的最新发展和令人兴奋的挑战。它以统一且精心编排的方式呈现了以下内容：(a)现实生活中出现的新颖优化问题，并突出每
从 DeepSeek 到 AI 工具箱：Websoft9 应用托管平台赋能高校教学与科研人工智能deepseek
从DeepSeek到AI工具箱：Websoft9应用托管平台赋能高校教学与科研人工智能技术的快速发展正在重塑高校的教学与科研生态。从智能教学辅助到跨学科研究，AI工具的应用场景不断扩展，而技术落地的复杂性也带来新的挑战。在这一背景下，如何将大模型能力与多样化AI工具无缝整合，构建安全、易用的科研教学环境，成为高校数字化转型的关键命题。一、高校智能化转型的三大痛点技术门槛高•AI工具部署依赖专业运维
Websoft9 开源多应用平台：培养学生数字化能力的实战工具开源实践
引言数字化教育转型的核心在于将技术工具与教学场景深度融合，但传统模式常因环境配置复杂、工具链割裂等问题阻碍实践教学效率。Websoft9开源多应用平台以标准化部署、多工具集成、轻量化运维为核心能力，为教育场景提供了一种技术门槛更低、协作效率更高的解决方案。本文基于实际教学需求与技术验证，探讨如何通过该平台构建数字化能力培养体系。一、技术特性与教育场景的适配性开源生态覆盖全技术栈，缩短教学准备周期平
WPF使用MVVM模式开发 pluto li .net .net
本文用到的有：WPF（.net5）Microsoft.Toolkit.Mvvm按钮不带参数/带参数点击事件绑定文本框Text绑定，点击事件绑定步骤如下：创建wpf项目：WpfMVVM创建Views、ViewModels两个文件夹nuget添加Microsoft.Toolkit.Mvvm在ViewModels文件夹添加类MainViewModelusingMicrosoft.Toolkit.Mvvm
聊聊关于Python与人工智能那些事小G-biu- python 人工智能 tensorflow
Python与人工智能：介绍Python在人工智能方面的应用Python是一种广泛使用的编程语言，也是人工智能领域中最受欢迎的语言之一。Python提供了许多用于构建和训练人工智能模型的库和框架。本文将介绍一些常见的人工智能技术以及Python在这些技术中的应用。OpenAIOpenAI是一个非营利组织，旨在推动人工智能的发展并促进其对人类的利益。OpenAI通过开发人工智能技术、研究人工智能的影
Matlab 基于最小二乘向量机 LSSVM + NSGAII 多目标优化算法的工艺参数优化前程算法屋私信获取源码工艺参数优化 matlab 算法多目标优化
Matlab基于最小二乘向量机LSSVM+NSGAII多目标优化算法的工艺参数优化一、引言1.1研究背景与意义在现代工业生产中，工艺参数优化占据着举足轻重的地位。它犹如工业生产的核心引擎，直接影响着企业的生产效率、产品质量以及成本控制。从生产效率角度看，优化工艺参数能够显著提升生产速度。合理的参数设置可使生产设备处于最佳运行状态，减少不必要的停机与等待时间，让生产流程更加顺畅。以汽车制造业为例，通
人形机器人报告：新一代GPU、具身智能与AI应用小报告达人机器人人工智能
今天分享的是人形机器人系列深度研究报告：《人形机器人专题：新一代GPU、具身智能与AI应用》。（报告出品方：中泰证券）核心观点GTC2024召开在即，关注新一代GPU、具身智能、AI应用三大方向。GTC2024将于当地时间3月18-21日在美国加州圣何塞会议中心及线上举行，预计发布加速计算、生成式AI以及机器人领域突破性成果。建议关注三大方向：1）B100及后续芯片路线。B100预计采用Black
centOS7使用yum安装报错的解决办法小泊客 lLinux学习开发语言 linux 运维 ssh 网络运维开发
一、错误提示信息：[root@localhost/]#sudoyuminstallbash-completionCouldnotretrievemirrorlisthttp://mirrorlist.centos.org/?release=7&arch=x86_64&repo=os&infra=stockerrorwas14:curl#7-"Failedtoconnectto2a05:d012:8
从0到1，在Ubuntu 20.04 下编译 openWRT 姓张名江叫大江软路由 ubuntu linux openwrt
从0到1，在Ubuntu20.04下编译openWRT/LELD/老毛子固件（跳过八大坑，你就是赢家！）0.申明1.Virtualbox下载与安装2.Linux系统下载与安装2.1Ubuntu下载2.2在Virtualbox中安装Ubuntu3.固件编译4.老毛子固件编译5.后话0.申明本教程所用的软件及代码均是免费开源的，请大家自觉遵守相关的开源协议。在此向开源软件及开源代码的作者们致敬。因本人
Ubuntu下编译OpenWrt的详细教程艾丽丝的爱情 ubuntu linux 运维编程
OpenWrt是一个基于Linux的嵌入式操作系统，常用于路由器等网络设备。本文将为您提供在Ubuntu操作系统下编译OpenWrt的完整教程。步骤1：安装必要的软件包首先，我们需要安装一些必要的软件包来支持OpenWrt的编译过程。在终端中运行以下命令来安装这些软件包：sudoaptupdatesudoaptinstallbuild-essentiallibncurses5-devzlib1g-
华为仓颉编程语言与医疗领域的深度融合：技术与实践想成为高手499 华为人工智能服务器
引言在数字化浪潮席卷全球的背景下，医疗行业的智能化转型已成为一种不可逆的趋势。从电子病历（EMR）、医疗影像分析，到远程手术和个性化健康管理，技术创新正在不断推动医疗领域的变革。然而，这一过程对底层技术提出了更高的要求：高效的计算性能、强大的硬件适配性、分布式计算能力以及生态系统的支持。华为推出的自研编程语言仓颉（Cangjie）正是在此背景下应运而生。仓颉语言以其高效、灵活和强大的硬件整合能力，
AIGC与教育行业的邂逅--其在数学领域的应用与实现想成为高手499 AIGC
引言在数学教学中，教师往往需要大量的时间准备练习题和答案解析，而学生则需要定制化的练习来满足不同的学习需求。AIGC技术可以通过自动生成数学题目、定制化学习内容、即时反馈等方式，极大地提升数学学习的效率与质量。本文将深入探讨AIGC在数学领域的几种应用场景，并通过Python代码展示具体实现方式。1.自动生成数学题目与解析数学题目生成是AIGC在数学教学中的主要应用之一。通过生成不同难度和类型的题
用LangChain构建自愈式生成式AI：颠覆传统知识库的智能问答系统实战煜bart 机器人人工智能 python AI编程
引言：当生成式AI遇到自进化架构ChatGPT的惊艳表现让企业意识到生成式AI的潜力，但传统问答系统仍面临数据孤岛、知识更新滞后等痛点。本文将揭秘如何通过LangChain框架构建具有自进化能力的智能问答系统，实现企业知识库的实时动态更新与智能推理。通过本文，您将掌握一套让AI系统在运行中持续学习、自主优化的创新架构。---##一、核心技术突破###1.1自愈式数据管道（Self-healingP
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在