qq_38196982

6.跑一下Triton官方教程

1.模型部署

首先拉取官方示例代码

git clone --recursive https://github.com/triton-inference-server/tutorials.git
cd tutorials/Conceptual_Guide/Part_1-model_deployment

1.下载文本检测模型

wget https://www.dropbox.com/s/r2ingd0l3zt8hxs/frozen_east_text_detection.tar.gz
tar -xvf frozen_east_text_detection.tar.gz

将得到frozen_east_text_detection.pb模型文件

将模型导出为onnx

pip install -U tf2onnx
pip install tensorflow==2.12.0
python -m tf2onnx.convert --input frozen_east_text_detection.pb --inputs "input_images:0" --outputs "feature_fusion/Conv_7/Sigmoid:0","feature_fusion/concat_3:0" --output detection.onnx

转换命令的含义如下：

python -m tf2onnx.convert: 这部分是执行Python模块 tf2onnx.convert 的命令，它用于执行模型转换操作。
--input frozen_east_text_detection.pb: 这是您要转换的TensorFlow模型的输入文件名。frozen_east_text_detection.pb 是Frozen TensorFlow模型的文件名，其中包含模型结构和权重。
--inputs "input_images:0": 这是指定TensorFlow模型的输入节点的参数。在TensorFlow模型中，通常有多个输入节点，这里 "input_images:0" 指定了模型的一个输入节点，其中 input_images 是输入节点的名称，:0 表示该节点的输出索引。
--outputs "feature_fusion/Conv_7/Sigmoid:0","feature_fusion/concat_3:0": 这是指定TensorFlow模型的输出节点的参数。与输入节点类似，TensorFlow模型通常有多个输出节点，这里列出了两个输出节点的名称，用逗号分隔。
--output detection.onnx: 这是转换后的ONNX模型的输出文件名。detection.onnx 是您希望为ONNX模型指定的输出文件名。

目的是将TensorFlow模型 frozen_east_text_detection.pb 转换为ONNX格式，并指定了输入节点和输出节点的信息，最终将转换后的模型保存为 detection.onnx 文件。

执行情况如下

结果将得到detection.onnx模型文件

2.下载文本识别模型

下载文本识别模型权重

wget https://www.dropbox.com/sh/j3xmli4di1zuv3s/AABzCC1KGbIRe2wRwa3diWKwa/None-ResNet-None-CTC.pth

将得到None-ResNet-None-CTC.pth模型文件

代码如下

将None-ResNet-None-CTC.pth模型文件转换为onnx格式，转换时要用到utils目录下的model.py文件，创建pt2onnx.py文件，文件内容如下：

import torch
from utils.model import STRModel

# Create PyTorch Model Object
model = STRModel(input_channels=1, output_channels=512, num_classes=37)

# Load model weights from external file
state = torch.load("None-ResNet-None-CTC.pth")
state = {key.replace("module.", ""): value for key, value in state.items()}
model.load_state_dict(state)

# Create ONNX file by tracing model
trace_input = torch.randn(1, 1, 32, 100)
torch.onnx.export(model, trace_input, "str.onnx", verbose=True)

这段代码的解释如下：

1. `import torch`: 导入PyTorch库。

2. `from utils.model import STRModel`: 从 `utils.model` 模块中导入 `STRModel` 类。这个类可能是您自己定义的，用于创建模型。

3. `model = STRModel(input_channels=1, output_channels=512, num_classes=37)`: 创建了一个 `STRModel` 的实例，这是您定义的模型类。您为模型的构造函数传递了三个参数：`input_channels` 表示输入通道数为1，`output_channels` 表示输出通道数为512，`num_classes` 表示分类的类别数为37。

4. `state = torch.load("None-ResNet-None-CTC.pth")`: 使用PyTorch的 `torch.load` 函数从文件 "None-ResNet-None-CTC.pth" 中加载模型的权重和状态，并将其保存在 `state` 变量中。

5. `state = {key.replace("module.", ""): value for key, value in state.items()}`: 这一行代码可能用于处理加载的模型状态字典，将其中的键名中的 "module." 字符串去掉。通常，当模型在多个GPU上进行训练时，模型的状态字典中的键名可能包含 "module." 前缀，这里将其移除以适应模型。

6. `model.load_state_dict(state)`: 使用加载的状态字典 `state` 来加载模型 `model` 的权重和状态。

7. `trace_input = torch.randn(1, 1, 32, 100)`: 创建一个随机的PyTorch张量 `trace_input`，用于模型的追踪（tracing）。这个张量的形状是 (1, 1, 32, 100)，表示一个输入样本，通道数为1，高度为32，宽度为100。

8. `torch.onnx.export(model, trace_input, "str.onnx", verbose=True)`: 使用PyTorch的 `torch.onnx.export` 函数将模型 `model` 转换为ONNX格式，并保存为 "str.onnx" 文件。`trace_input` 是用于模型追踪的输入，"str.onnx" 是输出的ONNX文件的名称。`verbose=True` 参数用于启用详细输出，以便查看转换过程的信息。

总之，这段代码的目的是加载一个预训练的PyTorch模型，将其转换为ONNX格式，并保存为 "str.onnx" 文件。这可以用于在其他深度学习框架或推理引擎中使用模型。

这段代码的目的是加载一个预训练的PyTorch模型，将其转换为ONNX格式，并保存为 "str.onnx" 文件。这可以用于在其他深度学习框架或推理引擎中使用模型

现在我们的文本检测模型detection.onnx和文本识别模型str.onnx都准备好了

3.设置模型存储库

1.设置文件结构

Triton 可以从一个或多个本地可访问的文件路径、Google Cloud Storage、Amazon S3 和 Azure Storage 访问模型。无论位置在哪，但模型存储库的格式都是固定的，如下：

# Example repository structure
/
  /
    [config.pbtxt]
    [ ...]
    /
      
    /
      
    ...
  /
    [config.pbtxt]
    [ ...]
    /
      
    /
      
    ...
  ...

model-name：模型的识别名称。
config.pbtxt：对于每个模型，用户可以定义模型配置。此配置至少需要定义：模型输入和输出的后端、名称、形状和数据类型。对于大多数流行的后端，此配置文件是使用默认值自动生成的。model_config配置文件的完整规范可以在protobuf 定义中找到。
version：版本控制使同一模型的多个版本可供使用，具体取决于所选的策略。有关版本控制的更多信息。

每个模型在模型存储库中都可以有一个或多个版本，每个版本都存储在自己的，以数字命名的子目录中，子目录的名称对应模型的版本号。未按数字命名或名称以0开头的子目录将被忽略。每个模型配置都指定一个版本策略，未指定版本策略，默认使用最新版本(即版本号为1的目录)。通过在config.pbtxt里设置version_policy可以指定要加载哪些版本。主要有3种方式：

全部：模型存储库中可用的模型的所有版本都可用于推理.version_policy: { all: {}}
最新：只有存储库中模型的最新“n”个版本可用于推理。该模型的最新版本是数字上最大的版本号。 version_policy: { latest: { num_versions: 2}}
Specific：只有特别列出的模型版本可用于推理。 version_policy: { specific: { versions: [1,3]}}

在官方示例中，已经创建了model_repository和子目录，以及config.pbtxt,只需要完成后续工作即可

mkdir -p model_repository/text_detection/1
mv detection.onnx model_repository/text_detection/1/model.onnx

mkdir -p model_repository/text_recognition/1
mv str.onnx model_repository/text_recognition/1/model.onnx

此时model_repository的路径结构为

2.说一下config.pbtxt

打开model_repository/text_detection下的config.pbtxt

name: "text_detection"
backend: "onnxruntime"
max_batch_size : 0
input [
  {
    name: "input_images:0"
    data_type: TYPE_FP32
    dims: [ -1, -1, -1, 3 ]
  }
]
output [
  {
    name: "feature_fusion/Conv_7/Sigmoid:0"
    data_type: TYPE_FP32
    dims: [ -1, -1, -1, 1 ]
  }
]
output [
  {
    name: "feature_fusion/concat_3:0"
    data_type: TYPE_FP32
    dims: [ -1, -1, -1, 5 ]
  }
]

name代表模型的名称，是可选的，如果config.pbtxt里未指定模型的名称，则假定该名称与包含模该模型的模型存储库目录相同。若指定名称，则必须与包含模型的模型存储库目录的名称匹配，否则会报错。
backend:必选，每个模型都必须与一个后端关联。对于使用 TensorRT 后端，此设置的值应为tensorrt。同样，对于使用 PyTorch、ONNX 和 TensorFlow 后端，该backend 字段应分别设置为pytorch、onnxruntime或tensorflow。对于所有其他后端，backend必须设置为后端的名称。某些后端可能还会检查platform模型分类的设置，例如，在 TensorFlow 后端中，根据模型格式platform应设置为 tensorflow_savedmodel或tensorflow_graphdef。platform是否使用请参考具体后端仓库。
platform：指定模型的运行平台，可选。未指定，Triton将根据后端的默认配置来选择运行平台，只有在需要将模型显式部署到特定硬件或平台上时才需要指定platform字段。
max_batch_size:可选，，但建议必填。指定模型可以处理的最大批次大小（batch size）。当模型支持动态批次大小（dynamic batch size）， max_batch_size 设置为 0 ，即。动态批次大小意味着模型可以接受不同大小的批次，而不仅仅是一个特定大小的批次。这在一些应用中非常有用，因为它允许客户端根据需要发送不同大小的输入数据，而无需事先知道模型支持的批次大小。如果省略了 max_batch_size，Triton Inference Server 会假定模型支持动态批处理，这意味着它可以处理不同大小的批次请求。这在某些情况下可能是有用的，但这也会使性能分析和配置管理更加复杂。
input和output：输入和输出部分指定名称、形状、数据类型等

某些情况下，可以省略input和output部分，让 Triton 直接从模型文件中提取该信息。在这里，为了清楚起见，我们将它们包括在内，因为稍后我们需要知道客户端应用程序中输出张量的名称。

如果您的模型不支持动态批处理，仅支持特定批次大小，并且将 `max_batch_size` 设置为 0，但在实际使用中始终确保不超过特定批次大小，通常不会引发错误。 Triton Inference Server 将接受特定批次大小的请求，并在批次大小不匹配时拒绝请求。

然而，这不是一个推荐的做法，因为将 `max_batch_size` 设置为特定批次大小会更加明确和可维护。这有助于确保您的部署是可预测的，并且可以更容易地诊断问题，例如，如果某些请求不小心超过了特定批次大小。

因此，建议将 `max_batch_size` 设置为特定批次大小，以便您的配置更加清晰和可管理。

4.启动服务并测试

1.启动服务

/opt/tritonserver/bin/tritonserver --model-repository=/triton/tutorials/Conceptual_Guide/Part_1-model_deployment/model_repository

启动成功，如下：

2.构建客户端应用程序

与 Triton 推理服务器交互的方式有以下三种：

HTTP(S) API
gRPC API
原生 C API

还有用 C++、Python 和 Java 封装 HTTP 和 gRPC API 的预构建客户端库。在官方示例中已经写好了client.py,直接执行即可。

识别结果是

stop

和/triton/tutorials/Conceptual_Guide/Part_1-model_deployment/img1.jpg一致

2.提高资源利用率

1.动态批处理

动态批处理是指Triton推理服务器允许将一个或多个推理请求组合成单个批次(必须动态创建)以最大化吞吐量的功能

通过在模型的config.pbtxt，添加如下参数启用动态批处理

dynamic_batching { }

设置该参数之前，需要确保模型支持动态批处理，否则会导致推理失败会出错

Triton可以对传入的请求不加任何延迟，立即进行批处理，但用户可以选择为调度程序分配有限的延迟，以收集更多推理请求供动态批处理程序使用

dynamic_batching {
    max_queue_delay_microseconds: 100
}

假设有A、B、C、D、E五个请求，批量大小分别为4、2、2、6、2。每个批次需要花费模型Xms的处理时间。模型支持的最大批量大小为8，A和C在T=0时到达，B在T=x/3到达，D和E在T=2*x/3到达

在不使用动态批处理时，所有请求顺序处理，要花费5Xms处理所有请求。

在这种情况下，使用动态批处理可以更有效地将请求打包到 GPU 内存中，从而显着加快处理时间(3X ms). 它还减少了响应的延迟，因为可以在更少的周期内处理更多的查询。delay如果考虑使用， A，B，C和D，E可以一起批处理以获得更好的资源利用率。

使用动态批处理可以改善模型服务时的延迟和吞吐量。此批处理功能主要致力于为无状态模型（在执行之间不维护状态的模型，如对象检测模型）提供解决方案。Triton 的序列批处理程序可用于管理有状态模型的多个推理请求。

2.并发模型执行

Triton推理服务器可以启动同一个模型的多个实例，从而并行处理查询。这是通过使用instance groups模型配置中的选项来启用的。

instance_group [
  {
    count: 2
    kind: KIND_GPU
    gpus: [ 0, 1 ]
  }
]

仍然以上一个例子为例

无动态批处理时，请求会平均分配。可以通过添加优先级来确定任何特定实例组的优先级或取消优先级

启用动态批处理时，AC同时到达，在第一个模型实例上运行。当B到达时，在第二个模型实例运行(这里我觉得官方图错了，B应该在T=X/3时刻开始运行)。DE同时到达时，等待AC处理结束放到第一个模型实例上运行

启动动态批处理且有延迟时，实例会等待T=X/2,在AC同时到达时，等待T时间才运行，前好等到B，一起作为一个批次开始运行；而DE同时到达时。实例2空闲，且DE的大小恰好等于动态批处理大小，无需等待，DE可以无延迟的在第二个实例上运行，开始推理。

动态批处理为什么可以提高性能？

1. **更高的吞吐量：** 动态批处理允许推理服务器同时处理多个推理请求，将它们分组成批次。这样，服务器可以一次性执行多个推理操作，而不是逐个处理请求。这提高了服务器的吞吐量，可以更快地完成一组请求。

2. **资源利用率提高：** 在动态批处理下，推理服务器更有效地使用计算资源，因为它将多个请求合并到一个批次中。这降低了处理请求时的开销，从而提高了资源利用率。

3. **降低延迟：** 批处理通常比单个请求的延迟更低，因为服务器可以同时处理多个请求。这对于需要快速响应的应用程序和服务非常重要。

4. **优化硬件加速器的使用：** 对于与硬件加速器（如GPU或TPU）一起使用的模型，批处理可以更有效地利用这些加速器的并行计算能力。这意味着在相同的时间内可以处理更多的推理请求。

5. **减少通信开销：** 在某些情况下，推理请求和响应之间的通信开销可能是性能瓶颈之一。通过将多个请求合并到批次中，可以减少通信次数，从而减少了这种开销。

一般情况下，可以将动态批处理和并发模型执行一起使用

3.示例

首先下载模型

cd /triton/tutorials/Conceptual_Guide/Part_2-improving_resource_utilization
cp -r ../Part_1-model_deployment/utils/ ./
wget https://www.dropbox.com/sh/j3xmli4di1zuv3s/AABzCC1KGbIRe2wRwa3diWKwa/None-ResNet-None-CTC.pth

编写getmodel.py文件获取模型

注意：需要把Part_1目录下的utils拷贝到Part_2

import torch
from utils.model import STRModel

# Create PyTorch Model Object
model = STRModel(input_channels=1, output_channels=512, num_classes=37)

# Load model weights from external file
state = torch.load("None-ResNet-None-CTC.pth")
state = {key.replace("module.", ""): value for key, value in state.items()}
model.load_state_dict(state)

# Create ONNX file by tracing model
trace_input = torch.randn(1, 1, 32, 100)
torch.onnx.export(model, trace_input, "str.onnx", verbose=True, dynamic_axes={'input.1':[0],'308':[0]})

和1.2获取str.onnx的代码区别在于最后一行

在第一段代码中，torch.onnx.export函数导出模型时，并未指定动态轴。这意味着导出的ONNX模型将具有静态形状，即输入和输出的形状在模型的生命周期中将保持不变。

而在第二段代码中，使用了dynamic_axes参数，并定义了'input.1'和'308'两个轴为动态轴。这意味着在导出的ONNX模型中，这两个轴的形状可以在推理时进行动态调整。通常，这在处理序列数据时非常有用，因为序列长度可能会变化。

执行文件获得str.onnx

mkdir -p model_repository/text_recognition/1
mv str.onnx model_repository/text_recognition/1/model.onnx

此时Part_2文件结构为

1.启动模型

启动模型

/opt/tritonserver/bin/tritonserver --model-repository=/triton/tutorials/Conceptual_Guide/Part_2-improving_resource_utilization/model_repository/

启动成功

2.启动性能分析器

自行编译

git clone --depth 1 https://github.com/triton-inference-server/client
cd cliend
mkdir build
cd build
apt-get update
apt-get install libcurl4-openssl-dev
apt-get install libssl-dev libb64-dev
cmake -DTRITON_ENABLE_PERF_ANALYZER=ON -DTRITON_ENABLE_GPU=ON -DTRITON_ENABLE_PERF_ANALYZER_C_API=ON -DTRITON_ENABLE_PERF_ANALYZER_TS=ON -DTRITON_ENABLE_PERF_ANALYZER_TFS=ON ..
make -j32 cc-clients

编译完成后

另起一个窗口监控GPU使用率

watch -n0.1 nvidia-smi

再起一个窗口运行性能分析器

启动性能分析器的命令为

perf_analyzer -m  -b  --shape : --concurrency-range ::

每次运行性能分析器的命令都是

cd /test_triton/client/build/cc-clients/install
./bin/perf_analyzer -m text_recognition -b 2 --shape input.1:1,32,100 --concurrency-range 2:16:2 --percentile=95

分为3种情况

1）无动态批处理，单个模型实例

此时config.pbtxt为

name: "text_recognition"
backend: "onnxruntime"
max_batch_size : 8
input [
  {
    name: "input.1"
    data_type: TYPE_FP32
    dims: [ 1, 32, 100 ]
  }
]
output [
  {
    name: "308"
    data_type: TYPE_FP32
    dims: [ 26, 37 ]
  }
]

另一个窗口启动性能分析器

2)只有动态批处理

此时config.pbtxt为

name: "text_recognition"
backend: "onnxruntime"
max_batch_size : 8
input [
  {
    name: "input.1"
    data_type: TYPE_FP32
    dims: [ 1, 32, 100 ]
  }
]
output [
  {
    name: "308"
    data_type: TYPE_FP32
    dims: [ 26, 37 ]
  }
]

instance_group [
    {
      count: 2
      kind: KIND_GPU
    }
]
dynamic_batching { }

另一个窗口启动性能分析器

3）动态批处理+多实例

此时config.pbtxt为

name: "text_recognition"
backend: "onnxruntime"
max_batch_size : 8
input [
  {
    name: "input.1"
    data_type: TYPE_FP32
    dims: [ 1, 32, 100 ]
  }
]
output [
  {
    name: "308"
    data_type: TYPE_FP32
    dims: [ 26, 37 ]
  }
]

instance_group [
    {
      count: 2
      kind: KIND_GPU
    }
]
dynamic_batching { }

另一个窗口启动性能分析器

输出中各个指标的含义：

以下是输出的解释：

Batch size: 每个推理请求的批次大小，这里设置为2。
Service Kind: 此处设置为Triton，表示使用Triton Inference Server。
Using "time_windows" mode for stabilization: 用于稳定性测试的模式，以确保性能测量的一致性。
Measurement window: 测量窗口的持续时间，这里设置为5000毫秒（5秒）。
Latency limit: 延迟限制，这里设置为0毫秒。
Concurrency limit: 并发请求的限制，这里设置为16个并发请求。
Using synchronous calls for inference: 使用同步调用进行推理。
Stabilizing using p95 latency: 使用p95（95th percentile，第95百分位数）的延迟作为稳定性度量。

对于每个并发级别，性能指标包括：

Request count: 请求计数，表示发送的总请求数量。
Throughput: 吞吐量，表示每秒的推理请求数量。
p50 latency: p50延迟，表示延迟的中位数值，即50th percentile的延迟。
p90 latency: p90延迟，表示90th percentile的延迟。
p95 latency: p95延迟，表示95th percentile的延迟。
p99 latency: p99延迟，表示99th percentile的延迟。
Avg HTTP time: 平均HTTP时间，表示处理HTTP请求的平均时间，包括发送和接收HTTP请求的时间以及等待响应的时间。
Inference count: 推理计数，表示执行的总推理数量。
Execution count: 执行计数，表示执行的总次数，通常与推理计数相等。
Successful request count: 成功的请求计数，表示成功完成的请求数量。
Avg request latency: 平均请求延迟，表示请求的平均延迟时间。

从吞吐量和延迟方面比较，发现这三批数据最好的是第二次，可见，未必是性能不一定会随着GPU数量或模型实例的增加而线性增加，性能的提升受到多个因素的影响，包括硬件资源、模型复杂度、批处理大小、并发请求等

3.优化Triton配置

1.性能的影响因素

测量推理服务架构的性能是一个很复杂的问题，推理服务器在启用动态批处理和使用多个模型实例的情况下处理查询如下所示

Triton Inference Server 处理推理请求的工作流程：

1. 当客户端发送一个推理查询时，Triton 的请求处理程序会将该查询放入模型的请求队列中。

2. Triton 根据模型实例的可用性和队列中的请求，决定何时执行推理。一旦有模型实例可用，Triton 将使用已经在队列中的查询或传入的新查询来创建一个批次。这个批次的大小会根据模型配置中定义的首选批次大小来形成，以尽量充分利用硬件资源。

3. 接下来，这个批次会被转换成适合模型框架（例如PyTorch、TensorFlow、TensorRT等）运行的格式。

4. Triton 将这个批次发送到底层的模型框架运行时，模型框架运行时会执行推理操作，即模型的前向传播。

5. 推理完成后，模型框架运行时将结果返回给 Triton。

6. Triton 将这些推理结果返回给客户端，以满足客户端的推理查询。

在此过程中，造成延迟的主要因素有3个：

网络延迟
推理计算时间
由于模型队列中的等待时间而导致的延迟

对于推理过程中可能引起延迟的三个主要因素：

1. **网络延迟**：网络通信需要时间，因此较长的网络延迟可能会导致推理请求的响应时间增加。为了减少网络延迟，可以考虑减小数据传输的大小。例如，在处理计算机视觉模型时，可以将图像数据从float32格式转换为float16格式，这减少了传输的数据量，从而减少了网络延迟。

2. **推理计算时间**：模型的前向传播需要一定的时间，特别是对于复杂的模型或大型数据。为了加速推理计算，可以采取一系列优化措施，如层融合、减小模型精度（例如使用float16而不是float32）、融合内核等。这些技术有助于减少计算时间，从而降低延迟。

3. **队列中的延迟**：在模型服务中，请求可能会排队等待处理，这可能会导致请求等待的延迟。为了减少队列中的延迟，可以通过添加更多模型实例来提高并行性。这意味着可以同时处理更多的请求，从而减少每个请求在队列中等待的时间。

对于第三点，Triton Inference Server 提供了模型分析器，它是一个命令行工具，可帮助用户更好地了解模型的计算和内存需求，并进行性能分析。模型分析器可以执行以下任务：

- 运行自定义的配置扫描，以确定最佳配置，适用于不同的工作负载和硬件环境。
- 提供详细的性能报告、指标和图表，汇总延迟、吞吐量、GPU 资源利用率、功耗等性能方面的信息，有助于用户比较不同配置的性能。
- 允许用户根据自己的服务质量需求自定义模型部署配置，例如设置特定的延迟限制（如p99延迟限制）、GPU内存利用率要求和最小吞吐量等。

2.使用模型分析器寻找最佳配置

自行编译模型分析器

git clone https://github.com/triton-inference-server/model_analyzer
cd model_analyzer
./build_wheel.sh /test_triton/client/build/cc-clients/install/bin/perf_analyzer true

编译完成如下

得到triton_model_analyzer-1.32.0.dev0-py3-none-manylinux1_x86_64.whl文件，pip安装即可

pip3 install wheels/triton_model_analyzer-1.32.0.dev0-py3-none-manylinux1_x86_64.whl

或者按照如下方式直接安装

sudo apt-get update && sudo apt-get install python3-pip
sudo apt-get update && sudo apt-get install wkhtmltopdf
pip3 install triton-model-analyzer

理解如何设置性能分析的目标和约束是使用该工具的关键。在进行性能分析时，用户需要明确他们希望达到的性能目标，同时也需要考虑到可能存在的限制条件。

Objectives（目标）：用户可以根据部署目标对结果排序，这些目标可以包括吞吐量（通过量测度的工作速度）、延迟（系统响应时间）或根据特定资源限制进行定制。这意味着用户可以根据他们的需求，例如想要快速的处理速度（吞吐量）或低延迟来选择性能测量结果。
Online Mode 和 Offline Mode（在线模式和离线模式）：Model Analyzer 工具有两种模式，Online 和 Offline。在在线模式下，用户可以指定他们的部署的延迟预算，以满足他们的需求。在离线模式下，用户可以为最小吞吐量做类似的规定。这意味着用户可以根据部署模式选择性能参数，例如对于在线部署，他们可能关心的是响应速度（延迟），而对于离线批处理，他们可能更关心处理速度（吞吐量）。
Constraints（约束）：用户还可以选择将性能分析结果限制在特定的吞吐量、延迟或GPU内存利用率要求之内。这意味着用户可以根据他们的系统要求对性能进行限制或筛选，以满足他们的特定需求。

目标指定最终结果的排序标准。此对象类型支持以下字段：

选项名称	描述
`perf_throughput`	使用吞吐量作为目标。
`perf_latency_p99`	使用延迟作为目标。
`gpu_used_memory`	使用模型使用的 GPU 内存作为目标。
`gpu_free_memory`	使用模型未使用的 GPU 内存作为目标。
`gpu_utilization`	使用 GPU 利用率作为目标。
`cpu_used_ram`	使用模型使用的 RAM 作为目标。
`cpu_free_ram`	使用模型未使用的 RAM 作为目标。

用户使用模型分析器时需要使用2个子命令：profile和report

profile：profile用于运行基准测试扫描。用户可以在此处指定扫描空间详细信息，例如每个 GPU 的实例数量、模型的最大批量大小范围、最大 CPU 利用率、发送的查询的批量大小、发送到 Triton 的并发查询数量等。profile运行这些扫描，记录每个配置的性能并保存运行检查点。将此步骤视为简单地运行大量实验并记录数据点以进行分析。此步骤将需要 60-90 分钟运行。用户可以使用该--run-config-search-mode quick标志以更少的配置进行更快的扫描。
report：report子命令生成顶级配置的详细报告以及摘要。这些报告包含：
- 概述发送到服务器的并发请求数量不断增加的吞吐量和延迟的图表
- GPU 内存 VS 延迟和 GPU 利用率 vs 延迟图表
- 该表概述了 p99 延迟、延迟的各个组成部分、吞吐量、GPU 利用率和 GPU 内存利用率，最多可达分析步骤中选择的最大并发请求数（默认为 1024）（
- 吞吐量与延迟图、GPU 内存与延迟图以及包含高级详细信息的表格，对顶级配置和用户选择的默认配置进行比较。

使用 Triton 的模型分析器通常会涉及两个主要步骤：`model-analyzer profile` 和 `model-analyzer report`。

1. **使用 `model-analyzer profile` 进行性能分析**：该命令会分析指定的模型或模型集合，以收集性能数据。这个命令将根据配置文件执行性能分析，并记录有关模型推理的吞吐量、延迟和其他性能指标的信息

model-analyzer profile --model-repository /workspace/model_repository --profile-models text_recognition --triton-launch-mode=local --output-model-repository-path /workspace/output/ -f perf.yaml --override-output-model-repository --latency-budget 10 --run-config-search-mode quick

这个命令将使用配置文件中的设置来分析指定的模型。

2. **使用 `model-analyzer report` 生成性能报告**：一旦性能分析数据被收集和记录，接下来可以运行 `model-analyzer report` 命令，以生成性能报告。性能报告将提供关于模型的性能数据的详细信息，包括各种性能指标的图表和指标的分布情况。示例命令可能如下所示：

model-analyzer report --perf-data-directory /workspace/output/text_recognition/perf-analyzer-results --output-directory /workspace/report --full-data --show-configuration

这个命令将使用性能数据目录中的数据来生成性能报告。

通过这两个步骤，可以收集、分析和可视化有关模型性能的数据，以便更好地了解模型在不同配置下的行为，从而帮助您做出优化和调整决策。

4.推理加速

模型加速是一个复杂而微妙的话题。模型的图优化、剪枝、知识蒸馏、量化等技术的可行性在很大程度上取决于模型的结构。每个主题本身都是广阔的研究领域，构建定制工具需要大量的工程投资。

为了简洁和客观，本次讨论将重点关注在使用 Triton 推理服务器部署模型时建议使用的工具和功能，而不是对生态系统进行详尽的概述。

加速建议取决于两个主要因素：

硬件类型：Triton 用户可以选择在 GPU 或 CPU 上运行模型。由于 GPU 提供的并行性，GPU 提供了多种性能加速途径。使用 PyTorch、TensorFlow、ONNX 运行时和 TensorRT 的模型可以利用这些优势。对于 CPU，Triton 用户可以利用 OpenVINO 后端进行加速。
模型类型：通常用户会利用三种不同类别的模型中的一种或多种：Shallow models(如随机森林)、Neural Networks(如BERT 或 CNN)，Large Transformer Models(通常太大而无法容纳在单个 GPU 的内存中)。每个模型类别都利用不同的优化来提高性能。

三种主要模型类别是：

1. **Shallow Models（浅层模型）**：这类模型通常包括传统的机器学习算法，如随机森林。它们通常不涉及深度神经网络，因此在内存和计算资源方面要求相对较低。这些模型适用于一些简单的任务，例如分类和回归问题。

2. **Neural Networks（神经网络）**：这是深度学习的一部分，通常包括诸如BERT（自然语言处理任务）或CNN（卷积神经网络，用于图像处理任务）等神经网络模型。它们具有多层神经元组成的深度结构，可以处理更复杂的数据和任务。它们需要更多的计算资源和内存，但在许多领域取得了出色的性能。

3. **Large Transformer Models（大型Transformer模型）**：这些是深度神经网络的一种子集，通常包括巨大的Transformer模型。它们在自然语言处理等领域表现出色，但由于其庞大的参数量，通常无法容纳在单个GPU的内存中。因此，它们需要分布式计算或专门的硬件来进行训练和推理。

1.基于GPU加速

深度学习模型的加速可以通过多种方式实现。融合层等图形级优化可以减少启动执行所需的 GPU 内核的数量。融合层使模型执行的内存效率更高，并增加了操作密度。一旦融合，内核自动调优器就可以选择正确的内核组合，以最大限度地利用 GPU 资源。同样，使用较低精度（FP16、INT8 等）和量化等技术可以大大减少内存需求并提高吞吐量。

1.直接使用TensorRT

用户可以使用三种途径将模型转换为 TensorRT：C++ API、Python API 和trtexec / polygraphy（TensorRT 的命令行工具）。请参阅本指南以获取充实的示例。

首先，将模型转换为 TensorRT 引擎。建议使用TensorRT容器来运行命令。

trtexec --onnx=model.onnx \
        --saveEngine=model.plan \
        --explicitBatch

其次，模型已经被转换为TensorRT支持的格式，它需要被放置到模型存储库中。

最后，在配置文件 config.pbtxt 中，需要指定将使用TensorRT作为后端来运行这个特定模型。

对于用户遇到 TensorRT 不支持模型中的某些运算符的情况，有以下三种可能的选择：

使用框架集成：TensorRT 有两种与框架的集成：Torch-TensorRT (PyTorch) 和 TensorFlow-TensorRT (TensorFlow)。这些集成具有内置的回退机制，可以在 TensorRT 不直接支持图形的情况下使用框架后端。
将 ONNX 运行时与 TensorRT 结合使用：Triton 用户还可以通过 ONNX 运行时利用此回退机制（下一节将详细介绍）。
构建插件：TensorRT 允许构建插件并实现自定义操作。用户可以编写自己的TensorRT 插件来实现不支持的操作（推荐给专家用户）

2.使用TensorRT与Pytorch/TensowFlow的集成

就PyTorch而言，Torch-TensorRT 是一个提前编译器，它将 TorchScript/Torch FX 转换为针对 TensorRT 引擎的模块。编译后，用户可以像使用 TorchScript 模型一样使用优化后的模型。查看Torch TensorRT入门以了解更多信息。请参阅本指南，了解详细示例，演示使用 Torch TensorRT 编译 PyTorch 模型并将其部署在 Triton 上。

TensorFlow用户可以使用 TensorFlow TensorRT，它将图分割成 TensorRT 支持和不支持的子图。然后，受支持的子图将替换为 TensorRT 优化节点，生成同时具有 TensorFlow 和 TensorRT 组件的图。请参阅本教程，了解使用 TensorFlow-TensorRT 加速模型并将其部署到 Triton Inference Server 上所需的确切步骤。

3.使用TensorRT与ONNX RunTime的集成

加速 ONNX 运行时的选项有三个：GPU 的使用TensorRT和CUDA执行提供程序以及OpenVINOCPU 的使用（将在后面的部分中讨论）。

一般来说，TensorRT 将提供比 CUDA 执行提供程序更好的优化，但是，这取决于模型的确切结构，更准确地说，它取决于正在加速的网络中使用的运算符。如果支持所有运算符，转换为 TensorRT 将产生更好的性能。当TensorRT被选择为加速器时，所有支持的子图都由 TensorRT 加速，图的其余部分在 CUDA 执行提供程序上运行。用户可以通过在配置文件中添加以下内容来实现此目的。

optimization {
  execution_accelerators {
    gpu_execution_accelerator : [ {
      name : "tensorrt"
      parameters { key: "precision_mode" value: "FP16" }
      parameters { key: "max_workspace_size_bytes" value: "1073741824" }
    }]
  }
}

也就是说，用户还可以选择在没有 TensorRT 优化的情况下运行模型，在这种情况下，CUDA EP 是默认的执行提供程序。更多详细信息可以在这里找到。请参阅此处，获取本系列第 1-3 部分中使用的Text Recognition模型onnx_tensorrt_config.pbtxt的示例配置文件。

还有一些其他 ONNX 运行时特定的优化。有关更多信息，请参阅我们的ONNX 后端文档的这一部分。

2.基于CPU加速

Triton 推理服务器还支持使用OpenVINO对仅基于 CPU 模型加速。在config.pbtxt配置文件中，用户可以添加以下内容来启用CPU加速。

optimization { 
  execution_accelerators {
    cpu_execution_accelerator : [{
      name : "openvino"
    }]
  }
}

虽然 OpenVINO 提供软件级优化，但考虑所使用的 CPU 硬件也很重要。CPU 包含多个内核、内存资源和互连。对于多个 CPU，这些资源可以通过 NUMA（非统一内存访问）共享。有关更多信息，请参阅Triton 文档的此部分。

3.加速浅层模型

像梯度提升决策树这样的浅层模型经常在许多pipeline中使用。这些模型通常使用XGBoost、LightGBM、Scikit-learn、cuML等库构建。这些模型可以通过 Forest Inference Library 后端部署在 Triton Inference Server 上。查看这些示例以获取更多信息。

4.加速大型transformers模型

另一方面，深度学习从业者被具有数十亿参数的基于大型 Transformer 的模型所吸引。对于这种规模的模型，通常需要不同类型的优化或跨 GPU 并行化。这种跨 GPU 的并行化（因为它们可能不适合 1 个 GPU）可以通过张量并行或管道并行来实现。为了解决这个问题，用户可以使用Faster Transformer Library和 Triton 的Faster Transformer Backend。查看此博客了解更多信息！

5.工作示例

首先准备模型

cd /triton/tutorials/Conceptual_Guide/Part_3-optimizing_triton_configuration
cp -r ../Part_2-improving_resource_utilization/model_repository/ ./

其次，根据模型的ONNX版本，选择合适的ONNX后端配置文件，有3种情况

使用CUDA执行提供程序在GPU上加速ONNX RT执行：ORT_cuda_ep_config.pbtxt
在GPU上使用TRT加速执行ONNX RT：ORT_TRT_config.pbtxt
在CPU上使用OpenVINO加速执行ONNX RT：ORT_openvino_config.pbtxt

使用 ONNX RT 时，无论执行提供程序如何，都需要考虑一些常规优化。这些可以是图形级优化，或者选择用于并行执行的线程的数量和行为或一些内存使用优化。每个选项的使用都高度依赖于所部署的模型。

启动模型

/opt/tritonserver/bin/tritonserver --model-repository=/triton/tutorials/Conceptual_Guide/Part_3-optimizing_triton_configuration/model_repository

启动性能分析器

cd /test_triton/client/build/cc-clients/install
./bin/perf_analyzer -m text_recognition -b 8 --shape input.1:1,32,100 --concurrency-range 64

性能分析器输出为：

*** Measurement Settings ***
  Batch size: 8
  Service Kind: Triton
  Using "time_windows" mode for stabilization
  Measurement window: 5000 msec
  Using synchronous calls for inference
  Stabilizing using average latency

Request concurrency: 64
  Client:
    Request count: 7052
    Throughput: 3132.89 infer/sec
    Avg latency: 163419 usec (standard deviation 3592 usec)
    p50 latency: 163172 usec
    p90 latency: 168173 usec
    p95 latency: 169580 usec
    p99 latency: 172601 usec
    Avg HTTP time: 163407 usec (send/recv 117 usec + response wait 163290 usec)
  Server:
    Inference count: 56416
    Execution count: 7052
    Successful request count: 7052
    Avg request latency: 162977 usec (overhead 26 usec + queue 142562 usec + compute input 47 usec + compute infer 20325 usec + compute output 16 usec)

Inferences/Second vs. Client Average Batch Latency
Concurrency: 64, throughput: 3132.89 infer/sec, latency 163419 usec

将该数据作为基准数据，作为后续比较的基础

1.ONNX RT 在 GPU 上执行 CUDA执行提供者

config.pbtxt内容为

name: "text_recognition"
backend: "onnxruntime"
max_batch_size : 8
input [
  {
    name: "input.1"
    data_type: TYPE_FP32
    dims: [ 1, 32, 100 ]
  }
]
output [
  {
    name: "308"
    data_type: TYPE_FP32
    dims: [ 26, 37 ]
  }
]

instance_group [
    {
      count: 2
      kind: KIND_GPU
    }
]


dynamic_batching { }
parameters { key: "cudnn_conv_algo_search" value: { string_value: "0" } }
parameters { key: "gpu_mem_limit" value: { string_value: "4294967200" } }

启动性能分析器

cd /test_triton/client/build/cc-clients/install
./bin/perf_analyzer -m text_recognition -b 8 --shape input.1:1,32,100 --concurrency-range 64

性能分析器输出为：

*** Measurement Settings ***
  Batch size: 8
  Service Kind: Triton
  Using "time_windows" mode for stabilization
  Measurement window: 5000 msec
  Using synchronous calls for inference
  Stabilizing using average latency

Request concurrency: 64
  Client:
    Request count: 7017
    Throughput: 3116.86 infer/sec
    Avg latency: 163496 usec (standard deviation 7550 usec)
    p50 latency: 163417 usec
    p90 latency: 170242 usec
    p95 latency: 172470 usec
    p99 latency: 176169 usec
    Avg HTTP time: 163485 usec (send/recv 287 usec + response wait 163198 usec)
  Server:
    Inference count: 56136
    Execution count: 7017
    Successful request count: 7017
    Avg request latency: 162846 usec (overhead 26 usec + queue 142346 usec + compute input 75 usec + compute infer 20382 usec + compute output 16 usec)

Inferences/Second vs. Client Average Batch Latency
Concurrency: 64, throughput: 3116.86 infer/sec, latency 163496 usec

2.ONNX RT 在 GPU 上执行 TRT加速

config.pbtxt内容为

name: "text_recognition"
backend: "onnxruntime"
max_batch_size : 8
input [
  {
    name: "input.1"
    data_type: TYPE_FP32
    dims: [ 1, 32, 100 ]
  }
]
output [
  {
    name: "308"
    data_type: TYPE_FP32
    dims: [ 26, 37 ]
  }
]

instance_group [
    {
      count: 2
      kind: KIND_GPU
    }
]

dynamic_batching { }
optimization {
  graph : {
    level : 1
  }
 execution_accelerators {
    gpu_execution_accelerator : [ {
      name : "tensorrt",
      parameters { key: "precision_mode" value: "FP16" },
      parameters { key: "max_workspace_size_bytes" value: "1073741824" }
    }]
  }
}

启动性能分析器

cd /test_triton/client/build/cc-clients/install
./bin/perf_analyzer -m text_recognition -b 8 --shape input.1:1,32,100 --concurrency-range 64

性能分析器输出为：

*** Measurement Settings ***
  Batch size: 8
  Service Kind: Triton
  Using "time_windows" mode for stabilization
  Measurement window: 5000 msec
  Using synchronous calls for inference
  Stabilizing using average latency

Request concurrency: 64
  Client:
    Request count: 11661
    Throughput: 5179.44 infer/sec
    Avg latency: 87968 usec (standard deviation 9274 usec)
    p50 latency: 86528 usec
    p90 latency: 100159 usec
    p95 latency: 106134 usec
    p99 latency: 114655 usec
    Avg HTTP time: 87945 usec (send/recv 181 usec + response wait 87764 usec)
  Server:
    Inference count: 93288
    Execution count: 11661
    Successful request count: 11661
    Avg request latency: 87040 usec (overhead 46 usec + queue 85521 usec + compute input 92 usec + compute infer 1348 usec + compute output 33 usec)

Inferences/Second vs. Client Average Batch Latency
Concurrency: 64, throughput: 5179.44 infer/sec, latency 87968 usec

但是Triton这次输出了如下

2023-08-25 10:21:15.049787670 [W:onnxruntime:log, tensorrt_execution_provider.h:60 log] [2023-08-25 10:21:15 WARNING] TensorRT encountered issues when converting weights between types and that could affect accuracy.
2023-08-25 10:21:15.049823087 [W:onnxruntime:log, tensorrt_execution_provider.h:60 log] [2023-08-25 10:21:15 WARNING] If this is not the desired behavior, please modify the weights or retrain with regularization to adjust the magnitude of the weights.
2023-08-25 10:21:15.049835004 [W:onnxruntime:log, tensorrt_execution_provider.h:60 log] [2023-08-25 10:21:15 WARNING] Check verbose logs for the list of affected weights.
2023-08-25 10:21:15.049846754 [W:onnxruntime:log, tensorrt_execution_provider.h:60 log] [2023-08-25 10:21:15 WARNING] - 31 weights are affected by this issue: Detected subnormal FP16 values.
2023-08-25 10:21:15.049872213 [W:onnxruntime:log, tensorrt_execution_provider.h:60 log] [2023-08-25 10:21:15 WARNING] - 23 weights are affected by this issue: Detected values less than smallest positive FP16 subnormal value and converted them to the FP16 minimum subnormalized value.
2023-08-25 10:21:15.055939312 [W:onnxruntime:log, tensorrt_execution_provider.h:60 log] [2023-08-25 10:21:15 WARNING] CUDA lazy loading is not enabled. Enabling it can significantly reduce device memory usage. See `CUDA_MODULE_LOADING` in https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#env-vars

3.ONNX RT 在 CPU 上执行 OpenVINO加速

config.pbtxt内容为

name: "text_recognition"
backend: "onnxruntime"
max_batch_size : 8
input [
  {
    name: "input.1"
    data_type: TYPE_FP32
    dims: [ 1, 32, 100 ]
  }
]
output [
  {
    name: "308"
    data_type: TYPE_FP32
    dims: [ 26, 37 ]
  }
]

instance_group [
    {
      count: 2
      kind: KIND_GPU
    }
]

dynamic_batching { }
optimization { execution_accelerators {
  cpu_execution_accelerator : [ {
    name : "openvino"
  } ]
}}

启动性能分析器

cd /test_triton/client/build/cc-clients/install
./bin/perf_analyzer -m text_recognition -b 8 --shape input.1:1,32,100 --concurrency-range 64

性能分析器输出为：

*** Measurement Settings ***
  Batch size: 8
  Service Kind: Triton
  Using "time_windows" mode for stabilization
  Measurement window: 5000 msec
  Using synchronous calls for inference
  Stabilizing using average latency

Request concurrency: 64
  Client:
    Request count: 6689
    Throughput: 2971.7 infer/sec
    Avg latency: 172257 usec (standard deviation 5532 usec)
    p50 latency: 171915 usec
    p90 latency: 179786 usec
    p95 latency: 181834 usec
    p99 latency: 185119 usec
    Avg HTTP time: 172248 usec (send/recv 111 usec + response wait 172137 usec)
  Server:
    Inference count: 53520
    Execution count: 6690
    Successful request count: 6690
    Avg request latency: 171827 usec (overhead 25 usec + queue 150309 usec + compute input 50 usec + compute infer 21426 usec + compute output 16 usec)

Inferences/Second vs. Client Average Batch Latency
Concurrency: 64, throughput: 2971.7 infer/sec, latency 172257 usec

通过性能分析器可以发现后三批数据相对于第一批数据具有更高的吞吐量，这通常被认为是性能改进的指标。所以，从吞吐量的角度来看，后三批数据的性能都优于第一批数据。但是，延迟方面的表现不一定更好，因为延迟可能在不同的批次之间有所波动。要全面评估性能，需要根据具体的部署需求和目标来确定哪个批次的性能更适合

第三批数据（平均吞吐量：5179.44 次推理/秒，平均延迟：87968 微秒）可以被认为是性能最好的批次，因为它具有最高的吞吐量和相对较低的延迟。

6.模型导航器

上面的部分描述了转换模型和使用不同的加速器，并提供了“一般指南”，以建立关于在考虑优化时采取哪条“路径”的直觉。这些都是手动探索，需要花费大量时间。要检查转化覆盖率并探索可能的优化子集，用户可以使用模型导航器工具。

你可能感兴趣的:(triton,neo4j)

【Docker compose】基于宿主机的Neo4j自动备份 roman_日积跬步-终至千里 neo4j Docker docker neo4j 容器
文章目录1、开启自动备份2、恢复1、开启自动备份在宿主机执行：bash#{lakehouse_home}/neo4j_cron.sh自动备份开启如下日志：FriMar701:59:53UTC2025-Checkingifcronjobalreadyexists.FriMar701:59:53UTC2025-Addingnewcronjob.FriMar701:59:53UTC2025-Cronjo
Django Neomodel：将Django与Neo4j图数据库无缝集成纪嫣梦
DjangoNeomodel：将Django与Neo4j图数据库无缝集成项目地址:https://gitcode.com/gh_mirrors/dj/django-neomodel项目介绍DjangoNeomodel是一个开源模块，旨在通过neomodel库，将Django框架与Neo4j图数据库结合使用。这个模块为开发者提供了一个强大的工具，使得在Django项目中使用Neo4j图数据库变得简单
Neo4j CQL命令大全（一）正函数_d neo4j neo4j
文章目录一、CREATE命令CREATE命令语法语法说明Neo4jCQL创建具有属性的节点语法说明二、MATCH命令MATCH命令语法语法说明三、ETURN子句RETURN命令语法：四、MATCH&RETURN匹配和返回MATCHRETURN命令语法：语法说明：CREATE+MATCH+RETURN命令创建客户节点创建CreditCard节点观察节点查看客户节点详细信息查看CreditCard节点
Neo4j笔记整理CQL大全 Kugua-F Neo4j Neo4j 图形数据库
工作需要用到知识图谱，学习一下Neo4jCQL常规操作查询关系的父节点match(n)-[r:likes]-()returnn查询节点名称为person的前25条结点记录和查询后25条结点记录match(n:Person)returnnlimit25match(n:Person)returnnskip25查询结点名称为personage=12的所有结点match(n:Person)wheren.a
Neo4j之CQL基础风云诀4 图数据库知识图谱大数据人工智能
Neo4j之CQL基础文章目录Neo4j之CQL基础一、CQL概念二、CQL简介三、CQL命令使用creatematch+returnwheredeleteremovesetorderbymerge四、CQL函数使用StringAggregationRelationship一、CQL概念关系型数据库的查询语言是SQL，Neo4j图数据库也有自己的查询语言，那就是CQL。CQL全称CypherQue
neo4j图数据库坐吃山猪数据库 neo4j 数据库
neo4j图数据库学习neo4j图数据库的使用文章目录neo4j图数据库@[toc]1-核心知识点2-思路整理3-参考网址4-上手实操1-安装neo4j-docker2-要学习CQL语句3-解决cmake问题1-可能的原因及解决办法1.`cmake`未正确安装或者版本不兼容2.依赖库缺失3.环境变量配置问题4.网络问题2-具体操作步骤1.安装`cmake`2.安装VisualStudioC++构建
Java操作Neo4J实例：简单易学的后端数据库 OyLinux 数据库 java neo4j 后端
Neo4J是一种图形数据库，广泛应用于存储和处理大规模的图形数据。它提供了一种高效的方式来表示和查询复杂的关系网络。在本文中，我们将学习如何使用Java来操作Neo4J数据库。我们将介绍如何建立连接、创建节点、创建关系以及执行查询操作。引入Neo4J驱动程序首先，我们需要引入Neo4J的Java驱动程序。你可以从Neo4J的官方网站上下载并导入相关的jar包。确保你的Java开发环境已经配置好。i
Neo4j的安装和使用（mac）悦崽在线搬砖数据库 neo4j
目录1.什么是Neo4j2.Neo4j的安装2.1neo4j的下载2.2neo4j的启动2.3neo4j环境配置3.Neo4j的使用3.1打开网页3.2连接neo4j3.3开始使用4.总结1.什么是Neo4j我理解的它是一种图数据库，就是可以用图来展示数据关系的数据库。适用于需要处理复杂关系的数据。具体专业的描述可见Neo4j技能树2.Neo4j的安装2.1neo4j的下载官网【注意：这里选择4.
Mac安装Neo4j图数据库你白勺男孩TT macos neo4j 数据库
通过Homebrew安装（推荐）打开mac终端：1.安装Homebrew（如果尚未安装）/bin/bash-c"$(curl-fsSLhttps://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"2.安装Neo4jbrewinstallneo4j3.启动Neo4j服务brewservicesstartneo4j#后台运行#或
【基于KG的大模型对话系统（fastapi）完整可上手】放飞自我的Coder python fastapi kg
以下是一个使用FastAPI搭建的基于知识图谱的大模型对话系统的示例代码。该系统包括：FastAPI服务器：提供RESTfulAPI。知识图谱：使用Neo4j作为存储和查询引擎。大模型：利用OpenAIGPT进行自然语言处理。查询解析：将用户输入解析为知识图谱查询，并结合LLM生成回答。主要功能：解析用户输入：检查用户输入是否包含知识图谱查询内容。执行Cypher查询：如果用户问题涉及知识图谱，向
大模型与图数据库RAG通俗流程拆解 gallonyin 产品笔记 AI 知识图谱
图构建（略）neo4j、tugraph等均可，不影响GraphRAG核心框架模型向量化模型bce-embedding-base_v1重排序模型bce-reranker-base_v1大语言模型Qwen/Qwen2.5-32B-Instruct图数据库tugraph索引faiss核心流程这个调用链日志展示了一个完整的问答系统处理用户输入“百草园里有什么”的过程。本项目使用和参考了开源项目茴香豆。以下
[neo4j报错]py2neo.errors.ClientError: [Request.Invalid] Not Found解决方案阿梦Anmory neo4j
报错源代码g=Graph('http://localhost:7687',auth=("neo4j","password"))或许这是从网上复制下来的代码，看上去没什么问题，但实际上要结合具体的浏览器上的地址来看，具体如下：看到了吗，这里才是要写的地址因此解决方案也很明显了解决方案g=Graph('neo4j://localhost:7687',auth=("neo4j","password"))
neo4j cypher_Neo4j：使用Cypher生成实时建议 dnc8371 python java 大数据人工智能 hadoop
neo4jcypherNeo4j的最常见用途之一是构建实时推荐引擎，一个共同的主题是它们利用大量不同的数据来提出有趣的推荐。例如，在此视频中，阿曼达（Amanda）展示了约会网站如何通过社交联系开始，然后介绍热情，位置和其他一些东西，从而构建实时推荐引擎。GraphAware有一个简洁的框架，可以帮助您使用Java构建自己的推荐引擎，我很好奇Cypher版本的外观。这是示例图：CREATE(m:P
Neo4j：使用Cypher生成实时建议 dnc8371 python java 大数据人工智能 vue ViewUI
Neo4j的最常见用途之一是构建实时推荐引擎，一个共同的主题是它们利用大量不同的数据来提出有趣的推荐。例如，在此视频中，阿曼达（Amanda）展示了约会网站如何通过社交联系开始，然后介绍热情，位置和其他一些东西，从而构建实时推荐引擎。GraphAware有一个简洁的框架，可以帮助您使用Java构建自己的推荐引擎，我很好奇Cypher版本的外观。这是示例图：CREATE(m:Person:Male{
neo4j安装_Neo4j：使用Cypher生成实时建议 cunhui1209 python 大数据 java 人工智能 hadoop
neo4j安装Neo4j的最常见用途之一是构建实时推荐引擎，一个共同的主题是它们利用大量不同的数据位来提出有趣的推荐。例如，在此视频中，阿曼达(Amanda)展示了约会网站如何通过社交联系开始，然后介绍热情，位置和其他一些东西，从而构建实时推荐引擎。GraphAware有一个简洁的框架，可以帮助您使用Java构建自己的推荐引擎，我很好奇Cypher版本的外观。这是示例图：CREATE(m:Pers
图数据库Neo4j面试内容整理-图遍历和最短路径不务正业的猿面试 Neo4j 数据库 neo4j 网络面试职场和发展图数据库
图遍历和最短路径是图数据库中两个非常重要的概念，尤其是在图数据结构中，它们是解决许多问题（如社交网络分析、推荐系统、网络分析等）的核心算法。Neo4j提供了强大的图遍历和最短路径查询能力，帮助用户有效地从图中提取信息。1.图遍历（GraphTraversal）
图数据库Neo4j面试内容整理-Cypher 查询优化不务正业的猿面试 Neo4j 数据库 neo4j 面试职场和发展图数据库
Cypher查询优化是在Neo4j中提高查询性能的关键部分。Cypher是Neo4j的查询语言，允许我们通过图的结构进行高效的数据检索。然而，随着数据量的增大和查询复杂度的提高，查询性能可能会变差。为了优化Cypher查询，我们可以使用多种策略，包括合理设计查询、利用索引和约束、避免不必要的查询操作等。以下是一些Cypher查询优化的最佳实践和策略：1.使用索引（Index）
windows系统备份mysql数据库文件和备份neo4j数据库文件今天也想快点毕业数据库 mysql neo4j
1.备份mysql数据库文件mysql-u[用户名]-p[目标数据库名]<[导入文件路径].sql参数说明：[用户名]：连接MySQL数据库时使用的用户名。一般默认是root[目标数据库名]：要备份的数据库名称[导入文件路径]：保存SQL文件的路径。2.备份neo4j图数据库文件1.在备份前需要停止Neo4j服务neo4jstop2.执行备份命令neo4j-admindatabasedumpneo
【安装教程】Windows环境下Neo4j的安装与配置慢热型网友. 机器学习作业报告 windows neo4j
【安装教程】Windows环境下Neo4j的安装与配置Neo4j的概念一、安装前准备——JDK二、Neo4j的安装三、Neo4j的环境配置四、安装验证Neo4j的概念Neo4j是一个高性能的图形数据库管理系统，它使用图形模型来存储和处理数据。Neo4j的图形模型由节点和边组成，节点代表实体或对象，边表示它们之间的关系。节点和边都可以拥有属性，这些属性可以是任何类型的数据。Neo4j的图形模型可以轻
【知识图谱】neo4j安装与配置_社区版_2025（附完整安装软件包）知识靠谱知识图谱知识图谱 neo4j 人工智能
【知识图谱】neo4j-community-5.15.0社区版安装步骤前言所需环境配置1.安装JDK（1）测试一下（2）安装2.配置JDK环境3.安装neo4j4.配置neo4j环境5.测试安装结果前言(经历过各种版本NEO4J，遇见杂七杂八的各种问题，也看过非常多很好的教程，特此来分享一下，为大家排排坑。)所需环境配置环境工具：Windows10+jdk-17.0.7_windows-x64_b
IDEA-插件开发踩坑记录-第七坑-Unable to locate JNA native support library 無炆_ intellij-idea java ide
背景插件里需要要到Neo4j存储一些数据关系。因为插件环境没办法使用用户的Neo4j库，因此需要用到Neo4j的内嵌模式（Embedded）。参考官方文档操作遇到一个问题：依赖dependencies{//内置图数据库implementation("org.neo4j:neo4j:5.25.1")}代码publicstaticNeo4jServiceINSTANCE(){if(INSTANCE!=
图数据库Neo4j面试内容整理-索引（Index）不务正业的猿面试 Neo4j 数据库 neo4j oracle 职场和发展面试
索引（Index）是数据库中用来提高查询性能的技术，特别是在处理大量数据时，索引能够大大加速查询操作。在Neo4j这样的图数据库中，索引也起着非常重要的作用，尤其是在图中查找节点时，使用索引可以避免全图扫描，从而提高查询效率。1.Neo4j中的索引概念
Windows下安装triton iearthshine
1、triton官方只支持Linux2、Windows下安装triton，只能通过whl安装，且必须使用严格对应python版本3、建议使用triton-windows的版本https://github.com/woct0rdho/triton-windows4、下载地址https://github.com/woct0rdho/triton-windows/releases------------
Neo4j父子节点向量检索：平衡精确嵌入和上下文保留的高效方案 jaioyfpo neo4j python
Neo4j父子节点向量检索：平衡精确嵌入和上下文保留的高效方案引言在自然语言处理和信息检索领域，如何在保持上下文的同时实现精确的文本嵌入一直是一个挑战。本文将介绍一种基于Neo4j图数据库的创新解决方案，通过父子节点结构和向量索引，实现了精确嵌入和上下文保留的平衡。这种方法不仅提高了检索的准确性，还保持了文本的语义完整性。主要内容1.方案概述该方案的核心思想是将文档分割成较大的"父"块和较小的"子
将Neo4j用于Python学习的创新方法黑金IT 知识图谱 neo4j python 学习
Neo4j作为一款强大的图数据库，其独特的关系性特点能够为Python学习带来全新的视角和深度理解。通过将Neo4j与Python学习相结合，可以帮助学生更直观、更深入地掌握Python编程的各个方面。以下是具体的建议和方法：1.利用Neo4j可视化Python数据结构通过Neo4j把Python中的数据结构，如列表、字典、集合等，以可视化的方式呈现。把数据结构中的元素当作节点，元素之间的关系作为
neo4j社区版多图部署梦想成为大佬的王老八 neo4j 数据库 mysql
neo4j社区版不支持多图谱，可采用多安装文件或容器进行多图部署。（想法倒是很简单，就是有一个小问题浪费了我宝贵的半天时间）单图数据库安装、配置及部署：1.neo4j数据库运行需要JDK，首先要下载配置个JDK，此处不赘述了。2.下载neo4j安装包。链接：Neo4jDeploymentCenter-GraphDatabase&Analytics，注意选择社区版、版本号（文件版本越高，对JDK的版
图数据库Neo4j面试内容整理-Neo4j的性能不务正业的猿面试 Neo4j 数据库 neo4j 面试职场和发展图数据库
Neo4j的性能是它作为图数据库的重要特性之一。Neo4j在处理图数据时，通过优化图的存储、查询和遍历等方面，提供了高效的性能，特别适合用于需要处理复杂关系和多层次连接的应用场景，如社交网络、推荐系统、知识图谱等。以下是Neo4j性能的几个关键方面：1.图数据结构的优势
NoSQL数据库介绍与分类码农老起 nosql 数据库
目录一.NoSQL数据库的定义及其特点二.NoSQL的四种主要类型2.1文档型数据库（Document-BasedDatabase）2.2键值型数据库（Key-ValueStore）2.3列族型数据库（Column-FamilyStore）2.4图数据库（GraphDatabase）三.主要的NoSQL数据库3.1MongoDB3.2Redis3.3Cassandra3.4Neo4j四.使用NoS
使用OpenAI LLM与Neo4j数据库进行自然语言交互 bBADAS neo4j 数据库交互 python
技术背景介绍在现代数据分析和应用开发中，图数据库以其独特的强大功能越来越受到重视。其中，Neo4j是最受欢迎的图数据库之一。结合自然语言处理（NLP），可以使数据查询变得更加直观和便捷。本篇文章将介绍如何使用OpenAI的语言模型将自然语言问题转换成Cypher查询，并通过Neo4j数据库执行该查询，并给出自然语言的响应。核心原理解析我们的目标是实现一个系统，该系统能够接受自然语言输入，将其转换为
知识图谱neo4j—利用python进行知识入库 gcl_code 知识图谱 neo4j 知识图谱 python
知识图谱neo4j—利用python进行知识入库知识图谱—利用python进行知识入库作为一个写sql出生的菜鸡，在这里分享一下去年11月到12月之间研究的关于知识图谱的课题相关知识，由于客户的原因最终该项目没有继续进行下去，但是有些经验还是可以跟大家分享一下，理论知识就不说了，很多人已经有类似的分享了，这边分享一个我自己用python写的导入neo4j的脚本，能达到1秒入库4000条左右记录数据
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st