sophia_xw

triton inference server翻译之Model Configuration

link

Model Configuration

模型库中的每个模型都必须包括一个模型配置，该配置提供有关该模型的必需和可选信息。通常，此配置在指定为ModelConfig protobuf的config.pbtxt文件中提供。在某些情况下，如生成的模型配置中所述，模型配置可以由推理服务器自动生成，因此不需要显式提供。

最小的模型配置必须指定name, platform, max_batch_size, input, output。

示例：

name: "mymodel"
platform: "tensorrt_plan"
max_batch_size: 8
input [
  {
    name: "input0"
    data_type: TYPE_FP32
    dims: [ 16 ]
  },
  {
    name: "input1"
    data_type: TYPE_FP32
    dims: [ 16 ]
  }
]
output [
  {
    name: "output0"
    data_type: TYPE_FP32
    dims: [ 16 ]
  }
]

PyTorch命名约定：由于模型中没有输入和输出的名称，因此配置中输入和输出的“名称”属性都必须遵循特定的命名约定，即__。其中，可以是任何字符串，而表示相应输入/输出的位置。这意味着如果有两个输入和两个输出，则它们的名称必须为：INPUT__0，INPUT__1和OUTPUT__0，OUTPUT__1，以使INPUT__0表示第一输入，INPUT__1表示第二输入。

模型的名称必须与包含模型的模型库目录的名称匹配。该平台必须是tensorrt_plan，tensorflow_graphdef，tensorflow_savedmodel，caffe2_netdef，onnxruntime_onnx，pytorch_libtorch或custom之一。

输入和输出张量允许的数据类型根据模型的类型而变化。参见

由dims指定的输入形状表示推理API期望的输入形状，dims指定的输出形状表示推理API返回的输出形状。输入和输出形状都必须满足rank >= 1，即，不允许使用空形状[]。如果基础框架模型或自定义后端要求输入或输出的形状为空，则必须使用reshape属性。

对于支持批量输入的模型，max_batch_size值必须大于等于1。Triton Inference Server假定批量沿着输入或输出中未列出的第一维进行。对于以上示例，服务器希望接收形状为[x，16]的输入张量，并生成形状为[x，16]的输出张量，其中x是请求的批处理大小。

对于不支持批量输入的模型，max_batch_size值必须为零。如果上面的示例将max_batch_size指定为零，则推理服务器将期望接收形状为[16]的输入张量，并会生成形状为[16]的输出张量。

对于支持尺寸可变的输入和输出张量的模型，这些尺寸可以在输入和输出配置中列为-1。例如，如果模型需要二维输入张量，其中第一维必须为大小4，而第二维可以为任意大小，则该输入的模型配置将包括dims:[4，-1]。然后，如果输入张量的第二维是任何值> = 0，则推理服务器将接受推理请求。模型配置的限制可能比基础模型所允许的限制更大。例如，即使模型允许第二维为任意大小，模型配置也可以特定为dims:[4，4]。在这种情况下，推理服务器将仅接受输入张量的形状正好为[4，4]的推理请求。

对于支持形状张量的模型，必须为输入适当设置is_shape_tensor，并为输出正确设置is_shape_tensor。考虑以下示例配置，以了解如何在批处理中使用形状张量：

name: "myshapetensormodel"
platform: "tensorrt_plan"
max_batch_size: 8
input [
  {
    name: "input0"
    data_type: TYPE_FP32
    dims: [ -1 ]
  },
  {
    name: "input1"
    data_type: TYPE_INT32
    dims: [ 1 ]
    is_shape_tensor: true
  }
]
output [
  {
    name: "output0"
    data_type: TYPE_FP32
    dims: [ -1 ]
  }
]

如前所述，Triton Inference Server假定沿第一维进行批处理，该维未在输入或输出张量暗中列出。但是，对于形状张量，批量发生在第一个形状值处。对于上面的示例，推理请求必须提供具有以下形状的输入：

"input0": [ x, -1]
"input1": [ 1 ]
"output0": [ x, -1]

其中x是请求的批量大小。使用批处理时，服务器要求将形状张量标记为模型中的形状张量。注意，input1具有形状[1]而不是[2]。在发出建模请求之前，服务器将在input1处添加形状值x。

Generated Model Configuration

默认情况下，每个模型都必须提供包含所需设置的模型配置文件。但是，如果使用--strict-model-config = false选项启动服务器，则在某些情况下，推理服务器可以自动生成模型配置文件的所需部分。模型配置的必需部分是上面的示例最小配置中显示的那些设置。特别：

TensorRT Plan模型不需要模型配置文件，因为推理服务器可以自动导出所有必需的设置。
TensorFlow SavedModel模型不需要模型配置文件，因为推理服务器可以自动导出所有必需的设置。
ONNX Runtime ONNX模型不需要模型配置文件，因为推理服务器可以自动导出所有必需的设置。但是，如果模型支持批处理，则所有输入和输出的初始批处理尺寸必须为可变大小。
PyTorch TorchScript模型在模型配置文件中具有可选的输出配置，以支持存在可变数量和/或输出数据类型的情况。

使用--strict-model-config = false时，您可以看到使用状态API为模型生成的模型配置。

Triton Inference Server仅生成模型配置文件的必需部分。如有必要，您仍必须提供模型配置的可选部分，例如version_policy, optimization, scheduling and batching, instance_group, default_model_filename, cc_model_filenames, tags。

提供分类模型时，请记住不能自动生成label_filename。您将需要创建一个config.pbtxt文件，该文件指定所有必需的输出以及label_filename，或者直接在客户端代码中处理从模型输出到label的映射。

Datatypes

下表显示了Triton Inference Server支持的张量数据类型。第一列显示在模型配置文件中显示的数据类型的名称。其他列显示了服务器支持的模型框架和Python numpy库的相应数据类型。如果模型框架没有给定数据类型的条目，则推理服务器不支持该模型的数据类型。

TensorRT 参数类型在nvinfer1::DataType命名空间。例如，nvinfer1::DataType::kFLOAT就是 32-bit floating-point。
TensorFlow 参数类型在tensorflow命名空间。例如，tensorflow::DT_FLOAT就是 32-bit floating-point。
Caffe2 参数类型在caffe2命名空间且带前缀TensorProto_DataType_。例如，caffe2::TensorProto_DataType_FLOAT就是 32-bit floating-point。
ONNX Runtime 参数类型前缀ONNX_TENSOR_ELEMENT_DATA_TYPE_。例如，ONNX_TENSOR_ELEMENT_DATA_TYPE_FLOAT就是 32-bit floating-point。
PyTorch 参数类型在torch命名空间。例如，torch::kFloat就是32-bit floating-point。
Numpy参数类型在numpy模块。例如，numpy.float32就是32-bit floating-point。

Reshape

模型配置输入或输出上的ModelTensorReshape属性用于标示推理API接受的输入或输出形状与基础框架模型或自定义后端预期或产生的输入或输出形状不同。

对于输入，可以使用reshape将输入张量reshape为框架或后端期望的其他形状。一个常见的用例是支持批处理的模型期望批处理输入的形状为[batch-size]，这意味着批处理尺寸完全描述了形状。对于推理API，必须指定等效形状[batch-size，1]，因为批次中的每个输入都必须指定非空形状。对于这种情况，输入应指定为：

input [
  {
    name: "in"
    dims: [ 1 ]
    reshape: { shape: [ ] }
  }
  ...

对于输出，可使用reshape将框架或后端产生的输出张量reshape为推理API返回的不同形状。一个常见的用例是支持批处理的模型期望批处理的输出具有形状[batch-size]，这意味着批处理尺寸完全描述了形状。对于推理API，必须指定等效形状[batch-size，1]，因为批次中的每个输出都必须指定非空形状。对于这种情况，输出应指定为：

output [
  {
    name: "in"
    dims: [ 1 ]
    reshape: { shape: [ ] }
  }
  ...

Version Policy

每个模型可以在模型仓库中有1个或多个版本，nvidia::inferenceserver::ModelVersionPolicy提供的版本策略是：

All: 模型存储库中可用的所有模型版本均可用于推理。
Latest: 仅可使用存储库中模型的最新n版本进行推理。该模型的最新版本是数字上最大的版本号。
Specific: 仅模型的特定列出的版本可用于推理。

如果未指定版本策略，则将“最新”（num_version = 1）用作默认值，指示推理服务器仅提供模型的最新版本。在所有情况下，从模型存储库中添加或删除版本子目录都可以更改在后续推理请求上的使用模型版本。

继续上面的示例，以下配置指定该模型的所有版本都可以从服务器获得：

name: "mymodel"
platform: "tensorrt_plan"
max_batch_size: 8
input [
  {
    name: "input0"
    data_type: TYPE_FP32
    dims: [ 16 ]
  },
  {
    name: "input1"
    data_type: TYPE_FP32
    dims: [ 16 ]
  }
]
output [
  {
    name: "output0"
    data_type: TYPE_FP32
    dims: [ 16 ]
  }
]
version_policy: { all { }}

Instance Groups

Triton Inference Server可以提供一个模型的多个执行实例，以便可以同时处理对该模型的多个同时推理请求。模型配置ModelInstanceGroup用于指定应提供的执行实例数以及这些实例应使用的计算资源。

默认情况下，为系统中可用的每个GPU创建一个模型的执行实例。 instance-group设置可用于在每个GPU或仅某些GPU上放置模型的多个执行实例。例如，以下配置会将模型的两个执行实例放置在每个系统GPU上：

instance_group [
  {
    count: 2
    kind: KIND_GPU
  }
]

以下配置会在GPU0上放1个实例，在GPU1和GPU2上放2个实例：

instance_group [
  {
    count: 1
    kind: KIND_GPU
    gpus: [ 0 ]
  },
  {
    count: 2
    kind: KIND_GPU
    gpus: [ 1, 2 ]
  }
]

模型实例同样可以配置在CPU上，模型除了可在GPU执行之外，也可在CPU执行。以下配置会将模型的两个执行实例放置在每个系统CPU上：

instance_group [
  {
    count: 2
    kind: KIND_CPU
  }
]

Scheduling And Batching

Triton Inference Server通过允许单个推理请求指定一批输入来支持批量推理。批输入的推理是同时执行的，这对于GPU尤其重要，因为它可以大大提高推理吞吐量。在许多用例中，各个推理请求没有进行批处理，因此，它们无法从批处理的吞吐量优势中受益。

推理服务器包含多种调度和批处理算法，这些算法支持许多不同的模型类型和用例。有关模型类型和调度程序的更多信息，参见。

Default Scheduler

如果未指定schedule_choice配置，则将默认调度程序用于模型。该调度程序将推理请求分配给为该模型配置的所有实例。

Dynamic Batcher

动态批处理是推理服务器的一项功能，它允许推理请求由服务器进行组合，以便动态创建批处理，从而使批量推理请求的吞吐量得到相同的提高。动态批处理程序应用于无状态模型。动态创建的批次将分发到为模型配置的所有实例。

使用模型配置中的ModelDynamicBatching设置，可以为每个模型独立启用和配置动态批处理。这些设置控制动态创建的批次的首选大小，调度程序中可以延迟请求以允许其他请求加入动态批次的最大时间，以及队列属性，例如队列大小，优先级和超时。

Preferred Batch Sizes

preferred_batch_size设置指示动态批处理程序应尝试创建的批处理大小。例如，以下配置启用了动态批处理，首选批量大小为4和8。

dynamic_batching {
  preferred_batch_size: [ 4, 8 ]
}

当模型实例可用于推理时，动态批处理程序将尝试根据调度程序中可用的请求创建批处理。按照收到请求的顺序将请求添加到批处理中。如果动态批处理程序可以形成一个首选大小的批次，它将创建一个最大可能首选大小的批次并将其发送以进行推理。如果动态批处理程序无法形成首选大小的批处理，它将发送最大可能的批处理，该批处理小于模型允许的最大批处理大小。

可以使用Count指标汇总检查生成的批次的大小，请参阅Metrics，推理服务器的详细日志记录可用于检查单个批次的大小。

Delayed Batching

可以将动态批处理程序配置为允许在调度程序中将请求延迟有限的时间，以允许其他请求加入动态批处理。例如，以下配置将请求的最大延迟时间设置为100微秒：

dynamic_batching {
  preferred_batch_size: [ 4, 8 ]
  max_queue_delay_microseconds: 100
}

当无法创建首选大小的批处理时，max_queue_delay_microseconds设置会更改动态批处理程序的行为。当无法从可用请求中创建首选大小的批次时，只要没有延迟时间超过配置的max_queue_delay_microseconds设置，动态批次器就会延迟发送批次。如果在此延迟期间收到新请求，并允许动态批处理程序形成具有首选批处理大小的批处理，则将立即发送该批处理以进行推断。如果延迟到期，则动态批处理程序将按原样发送批处理，即使这不是首选大小。

Preserve Ordering

reserve_ordering设置用于强制所有响应以与接收请求相同的顺序返回。有关详细信息，请参见protobuf文档。

Priority Levels

默认情况下，动态批处理程序维护一个队列，该队列保存模型的所有推理请求。这些请求将按顺序进行处理和批处理。 priority_levels设置可用于在动态批处理程序中创建多个优先级，以便允许优先级较高的请求绕过优先级较低的请求。相同优先级的请求将按顺序处理。未设置优先级的推理请求使用default_priority_level进行调度。

Queue Policy

动态批处理程序提供了几种设置，用于控制如何将请求排队以进行批处理。

如果未定义priority_levels，则可以使用default_queue_policy设置单个队列的ModelQueuePolicy。

定义priority_levels时，每个优先级级别可以具有由default_queue_policy和priority_queue_policy指定的不同的ModelQueuePolicy。

ModelQueuePolicy允许使用 max_queue_size设置来设置最大队列大小。队列策略timeout_action，default_timeout_microseconds和allow_timeout_override设置允许配置队列，以便单个请求在队列中的时间超过指定的超时时被拒绝或推迟。

Sequence Batcher

与动态批处理程序类似，序列批处理程序结合了非批处理推断请求，因此可以动态创建批处理。与动态批处理程序不同，序列批处理程序应用于有状态模型，在该状态模型中，推理请求序列必须路由到同一模型实例。动态创建的批次将分发到为模型配置的所有实例。

使用模型配置中的ModelSequenceBatching设置，可以为每个模型独立启用和配置序列批处理。这些设置控制序列超时以及配置推理服务器如何将控制信号发送到模型，指示序列开始，结束，准备就绪和相关性ID。有关更多信息和示例，请参见模型和调度程序。

可以使用“Count”指标汇总检查生成的批次的大小，请参阅“Metrics”。推理服务器的详细日志记录可用于检查单个批次的大小。

Ensemble Scheduler

集成调度程序必须用于集成模型，而不能用于任何其他类型的模型。

使用模型配置中的ModelEnsembleScheduling设置，可以为每个模型独立启用和配置集成调度程序。这些设置描述了集成中包含的模型以及模型之间的张量值的流动。有关更多信息和示例，请参见集成模型。

Optimization Policy

模型配置ModelOptimizationPolicy用于指定模型的优化和优先级设置。这些设置控制后端框架是否/如何优化模型，以及推理服务器如何调度和执行模型。有关当前可用的设置，请参阅protobuf文档。

TensorRT Optimization

TensorRT优化是一种特别强大的优化，可以为TensorFlow和ONNX模型启用。为模型启用后，TensorRT优化将在加载时或首次接收推理请求时应用于模型。 TensorRT优化包括专门化和融合模型层，并使用降低的精度（例如16位浮点数）来显着提高吞吐量和延迟。

Model Warmup

对于某些框架后端，模型初始化可能会延迟到请求第一个推断之前，例如TF-TRT优化，这会导致客户端看到意外的延迟。模型配置ModelWarmup用于指定模型的预热设置。这些设置定义了一系列推理请求，推理服务器应创建这些推理请求以预热每个模型实例。仅当模型实例成功完成请求时，才会提供模型实例。请注意，预热模型的效果因框架后端而异，这将导致服务器对模型更新的响应较慢，因此用户应进行试验并选择适合其需求的配置。有关当前可用的设置，请参阅protobuf文档。

你可能感兴趣的:(Deep,Learning,深度学习,triton,is,trt,is,tensorrt)

jmeter 接入deepseek 或者chatgpt 小赖同学啊 jmeter专栏 jmeter chatgpt
接入ChatGPT实现思路要将JMeter与ChatGPT接入，核心在于通过JMeter发送HTTP请求至OpenAI的API接口，以此调用ChatGPT进行交互。整个过程包含创建JMeter测试计划、添加必要组件、配置请求参数以及处理响应结果等步骤。具体步骤1.获取OpenAIAPI密钥在使用ChatGPTAPI之前，你需要在OpenAI平台注册账号并获取API密钥，此密钥用于身份验证，保障请求
引导AI使用思维树（Tree of Thought, ToT）的提示词模板由数入道提示词工程人工智能
引导AI进行ToT思考的关键在于提示词需要指示AI进行以下操作：多路径探索(Branching):生成多个不同的思考方向或初步解决方案。评估与选择(Evaluation&Selection):对每个方向进行评估，选择有潜力的方向。迭代深化(Iteration&Deepening):在选定方向上深入思考，可以再次分支。结构化输出(StructuredOutput):清晰展示ToT过程，例如列出分支、
【深度解析】Java接入DeepSeek大模型：从零实现流式对话+多轮会话管理（完整项目实战） —— SpringBoot整合、API安全封装、性能优化全攻略 barcke java spring boot
一、DeepSeek接入全景图：不只是API调用核心优势对比特性DeepSeek其他主流模型免费Token额度500万/月通常10-100万响应延迟平均800ms1-3s流式响应兼容性原生支持需定制适配中文理解能力行业Top中等偏上适用场景推荐智能客服（实时反馈）代码辅助生成（流式输出）知识问答系统（多轮对话）分析报告（长文本生成）二、环境搭建：手把手配置开发环境1.创建SpringBoot项目（
英伟达确认RTX 5090和5070 Ti存在制造问题；DeepSeek-R1成Hugging Face最受欢迎大模型|极客头条极客日报 AI
「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|苏宓出品|CSDN（ID：CSDNnews）一分钟速览新闻点！雷军：小米15Ultra、SU7Ultra是小米创业十五年来最高端产品华为近300人团队已入驻阿维塔，鸿蒙智行“塔界”或将登场小米超级小爱重新接入DeepSeekR1大模型：已上线DeepSeek-R1成H
DeepSeek＋Kimi生成高质量PPT Ljw... 小知识点计算机知识点 powerpoint 数据库 DeepSeek ppt c++
DeepSeek与Kimi生成PPT全流程解析一、工具分工原理DeepSeek核心作用：生成结构化PPT大纲（擅长逻辑构建与内容优化）Kimi核心作用：将文本转换为视觉化PPT（提供模板库与排版引擎）二、操作步骤详解1.通过DeepSeek生成PPT大纲down输入提示词示例（需包含三要素）你是有10年经验的AI行业分析师，请为科技公司投资人制作一份30页的PPT，要求：首页包含主标题与3个核心论
python系列&deep_study系列：【Conda】自定义conda环境安装位置，三种解决方法坦笑&&life #python AI系列 python conda 开发语言
【Conda】自定义conda环境安装位置，三种解决方法【Conda】自定义conda环境安装位置，三种解决方法前言常用命令方法一方法二方法三【Conda】自定义conda环境安装位置，三种解决方法前言新建conda环境时，可能会出现默认在C盘创建环境，一般情况下，是不建议将conda环境放在C盘里，因此，我们需要对conda的环境位置进行配置。常用命令查看环境和环境所在的位置condainfo-
Ubuntu DeepSeek磁盘空间不够解决办法 achirandliu ubuntu DeepSeek 空间不足 671B Ubuntu22
标签：Ubuntu；DeepSeek磁盘空间不够解决办法；Ubuntu22,DeepSeekR1671B,solutionforInsufficientDiskSpace问题：Ubuntu22，DeepSeekR1671B磁盘空间不够解决办法Ubuntu22.04操作系统，台式机，先运行DeepSeekR114B，因为只有10G左右，磁盘空间充足。然后尝试671B，下载到60%，报磁盘空间不足。尝
MaxKB + Ollama + DeepSeek本地部署陷入回忆的人 AI MaxKB AI Deepseek Ollama
本地部署AI大模型通过ollama部署本地AI大模型，Ollama是管理和部署大模型的一个工具，它可以帮助我们在本地更加方便并快速的部署和使用各种大模型下面是我通过虚拟机CentOS7.9.2009版本进行演示当然，如果你的电脑配置较低，可以使用公网的API接口，点击下面链接，不过要先安装MaxKB，下面有MaxKB的安装教程关于MaxKB对接硅基流动-CSDN博客1、安装和配置Ollama1.1
如果后台的Long类型的数据返回是null，那么Android客户端的数据bean的kotlin的Long类型的字段接受到数据后是null空指针吗？ yzpyzp android kotlin
如果后台的Long类型的数据返回是null，那么Android客户端的数据bean的kotlin的Long类型的字段接受到数据后是null空指针吗？DeepSeekR1思考35秒思考过程好的，用户的问题是关于在Android客户端使用Kotlin处理后台返回的Long类型数据为null时的情况。首先，我需要确认Kotlin中Long类型如何处理可空性。用户提到数据bean中的字段是Kotlin的L
DeepSeek掀起“AI淘金热”，普通人如何入局。周师姐经验分享人工智能笔记课程设计深度学习
随着DeepSeek崛起，AI淘金热迅速占领各大媒体热搜，很多人利用DeepSeek日入过万，月入几十万，学习DeepSeek这一AI工具显得尤为重要。只有足够了解，才能更好的运用。清华大学团队最新出品了一个DeepSeek全方位学习资料《DeepSeek：从入门到精通》，帮助用户了解学习并熟练掌握DeepSeek的使用方法，快速学会DeepSeek从入门到精通。完整版104页学习资料我已经帮大家
公开了清华大学DeepSeek指导手册PDF下载 2501_90771721 pdf
「DeepSeek使用手册」链接：https://pan.quark.cn/s/82cf53a54de6《DeepSeek：从入门到精通》是清华大学新闻与传播学院、新媒体研究中心、元宇宙文化实验室推出的DeepSeek使用指导手册。本手册以pdf的形式向公众展示了以下三个核心问题：Deepseek是什么？Deepseek能够做什么？如何使用Deepseek？文档内不仅大篇幅解释里AI提示语的基本概
centos7中Open-Webui的部署 linuxxx110 linux 运维服务器 ai
前期中部署了ollama及deepseek-r1,为了有web界面访问，需要部署open-webui系统要求是python3.11以上版本，一、先升级openssl1.安装依赖yuminstall-ygccgcc-c++autoconfautomakezlibzlib-develpcre-devel2.下载源码包并解压wgethttps://www.openssl.org/source/opens
AI环境初识网络飞鸥 AI 人工智能
在搭建AI环境时，当前流行的技术涉及多个方面，包括开发框架、深度学习库、硬件支持以及具体的应用技术等。以下是一些主要的技术趋势和流行技术：一、开发框架与深度学习库TensorFlow：由谷歌开发的一个开源机器学习库，广泛用于研究和生产环境。它提供了强大的张量计算能力和灵活的架构，支持广泛的机器学习和深度学习算法。PyTorch：由Facebook推出，也是一个广受欢迎的开源机器学习库。PyTorc
DeepSeek模型微调的原理和方法 alankuo 人工智能
DeepSeek模型微调的原理迁移学习基础DeepSeek模型微调基于迁移学习的思想。预训练模型在大规模通用数据上进行了无监督或有监督的训练，学习到了丰富的语言知识、语义表示和通用模式。这些知识和模式具有一定的通用性，可以迁移到其他相关的任务中。在微调时，我们利用预训练模型已经学到的这些通用知识，针对特定的目标任务进行进一步的调整和优化，使得模型能够更好地适应新任务的需求。微调的参数更新机制在微调
DeepSeek不好用？那是你还没有清华大学指导手册悉数之淀 pdf
「清华Deepseek最新使用手册教程资源」链接：https://pan.quark.cn/s/c9c795c32bed终于等到清华出了deepseek手册，前几天也看了一些花里胡哨的教程，大多言之无物，就是把之前gpt的手册换了个皮直接套给deepseek。果然清华出手就是不一样，从科普原理，到手把手教你科学使用。而且不光是告诉你怎么问，还会告诉你为什么要这么问，教你提示词的底层逻辑。✅这才是授
忘掉 DeepSeek：Qwen 2.5 VL 与 Qwen Max 来了
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读Qwen系列又推出了两款令人瞩目的新模型：Qwen2.5VL和Qwen2.5Max。如果还停留在“DeepSeek是最强”那一档，就可能要重新考虑一下，因为这两款模型的实力相当惊艳。什么是Qwen2.5VL？先从Qwen2.5VL说起。它不仅能看图识物，还能理解视频、文本，具备执行电脑操作（agentic）
langchain4j+ollama+deepseek小试牛刀 deepseek
序本文主要研究一下如何使用langchain4j集成ollama+deepseek步骤pom.xmldev.langchain4jlangchain4j-spring-boot-starter${langchain4j-spring.version}dev.langchain4jlangchain4j-ollama-spring-boot-starter${langchain4j-spring.v
覆盖从供应、生产、销售到运营的全过程，引领行业数智化转型新方向的智慧快消开源了 AI服务老曹开源人工智能自动化音视频能源
智慧快消视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。基于多年的深度学习技术研究和业务应用为基础，集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体，是中国首个自主研发、功能完备、开源开放的产业级深度学习平台。基
DeepSeek：探索者与引领者的成长过程梓芮. 人工智能
目录引言DeepSeek的成长历程2.1初创阶段：从梦想到现实2.2技术突破：从实验室到市场2.3商业化与全球化：从中国到世界关键人物3.1创始人：技术梦想的践行者3.2核心团队：多元背景的精英力量优化过程4.1技术优化：从算法到工程化4.2产品迭代：从用户需求到市场反馈4.3生态构建：从单一产品到平台化DeepSeek对国人的意义5.1技术自主：打破国外技术垄断5.2产业赋能：推动传统行业升级5
2025最新保姆级教程：DeepSeek本地部署+知识库搭建全流程投喂数据 deepseek01 AI工具功能测试
本地部署：从Ollama安装、环境变量配置到DeepSeek-R1模型下载（附C盘空间不足的解决方案）。知识库搭建：支持PDF/Word/微信聊天记录等格式导入，演示如何批量处理非文本文件。隐私与成本：对比API和本地方案的隐私性、长期成本（突出老旧笔记本也能运行）。差异化：强调“2025最新版”，解决旧教程环境变量设置、模型版本过时等问题。知识库搭建教学：Dify在windows系统的docke
ollama本地部署Deepseek安装步骤 deepseek01 AI工具功能测试
1/Windows(预览版)访问Ollama官网下载Windows预览版安装程序。如果官网下不了，就使用→备用地址。双击安装包并按提示完成安装。1、下载Ollama2、wim+R打开Cmd3、ollamarundeepseek-r1:7b4、win+s打开环境变量修改路径5、变量名：OLLAMA_MODELS变量值：D:\Ollama\models如果官网下不了，就使用→备用地址。2/高级配置（W
金融大模型应用的机遇与挑战 Python程序员罗宾金融人工智能语言模型数据库自然语言处理
大模型本质特征大模型通常指大语言模型（LargeLanguageModel，LLM），是基于深度学习算法的自然语言处理技术，是通用大模型。大模型也在从单一自然语言处理模态向语音、图像等多模态大模型演进。目前国内外推出了众多的大模型，国内就不下上百款，也因此被称为“百模大战”或“千模大战”。但很多所谓的“大模型”仅是叫“大模型”而已，不管参数量多少，都不能称为真正的大模型。参数量是大模型的一个特征，
Docker国内镜像源部署deepseek deepseek01 AI工具 docker 容器运维
‌部署deepseek时Docker拉取国内镜像失败可能是由于国内网络环境复杂或镜像源配置不正确导致的‌。具体原因可能包括：‌网络问题‌：国内网络环境复杂，可能导致访问国内镜像仓库的速度较慢或无法访问，进而影响Docker镜像的拉取‌1。‌镜像源配置错误‌：可能使用了错误的镜像仓库地址，或者镜像源配置不正确，导致Docker无法从指定的镜像源拉取镜像。确保在/etc/docker/daemon.j
DeepSeek 15天指导手册——从入门到精通大彬聊编程分享 ai 人工智能
开始介绍前先跟大家分享一份DeepSeek优质资料，包含DeepSeek从入门到精通完整版手册、DeepSeek资源教程、使用技巧大全、指令合集汇总，希望对大家学习deepseek有帮助！DeepSeek从入门到精通完整版手册、DeepSeek资源教程、使用技巧大全、指令合集汇总链接：https://pan.quark.cn/s/76648b80571a第一章：准备篇（30分钟上手）1.1三分钟创
【AI】详解从数学到物理再到工程应用，人类研究新理论新方法的研究范式（deepseek chatgpt Gemini等）... 十年一梦实验室人工智能 chatgpt
deepseek-R1Chatgpto3-miniGemini2.0FlashThinkingExperimentalClaudeMicrosoftCopilot-ThinkDeeperGrok3-Deepsearchdeepseek-R1人类探索新理论与方法的研究范式遵循着从抽象数学到物理建模，最终实现工程应用的递进路径。这一过程体现了基础科学与应用技术的深度协同，形成了知识创新的完整链条。以下
DeepSeek vs ChatGPT：AI 领域的华山论剑，谁主沉浮？晨陌y chatgpt 人工智能
一、引言在当今科技飞速发展的时代，人工智能（AI）已然成为推动各领域变革的核心力量。而在人工智能的众多分支中，自然语言处理（NLP）因其与人类日常交流和信息处理的紧密联系，成为了最受瞩目的领域之一。在这片充满创新与突破的领域里，DeepSeek和ChatGPT犹如两颗璀璨的明星，吸引着全球开发者、研究人员以及广大普通用户的目光。它们代表着当前AI语言模型的顶尖水准，一场关于“谁主沉浮”的激烈较量正
深度强化学习算法在金融交易决策中的优化应用【附数据】算法与数据算法
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
基于深度学习的股票短期趋势预测模型设计与实现【附代码】算法与数据深度学习人工智能
，我们首先对股票的基本交易数据进行了清洗和预处理，包括去除异常值、填补缺失值等。同时，我们还挖掘了多个可能影响股票价格走势的因子，如成交量、市盈率、市净率等，并将这些因子作为特征加入到数据集中。通过特征工程，我们进一步扩展了数据集，提高了模型的输入质量。在模型构建方面，我们采用了LSTM网络来处理时间序列数据。LSTM网络具有记忆功能，能够捕捉数据中的长期依赖关系，这对于股票价格走势的预测至关重要
DeepSeek学习教程从入门到精通pdf下载：快速上手 DeepSeek 不会编程的程序猿ᅟ 学习
下载链接：DeepSeek从入门到精通(清华大学).pdf链接:https://pan.baidu.com/s/1Ym0-_x9CrFHFld9UiOdA5A提取码:2ebc一、DeepSeek简介DeepSeek是一款由中国团队开发的高性能大语言模型，具备强大的推理能力和对中文的深刻理解。它广泛应用于智能办公、教育辅助、编程开发、商业分析等领域，支持自然语言交互，用户无需复杂提示词即可获得高质量
LLaMA-Factory|微调大语言模型初探索(3)，qlora微调deepseek记录闻道且行之自然语言处理语言模型人工智能 qlora微调 llama deepseek
前言上篇文章记录了使用lora微调llama-1b，微调成功，但是微调llama-8b显存爆炸，这次尝试使用qlora来尝试微调参数体量更大的大语言模型，看看64G显存的极限在哪里。1.WhyQLora?QLoRA在模型加载阶段通过4-bit量化大幅减少了模型权重的显存占用。QLoRA通过反量化到BF16进行训练，在保持计算精度的同时，进一步节省显存和提高效率。QLoRA在加载、训练、以及权重
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin