inference

YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-torch_utils.py

torch_utils.pyultralytics\utils\torch_utils.py目录torch_utils.py1.所需的库和模块2.defsmart_inference_mode():3.

红色的山茶花·2025-07-01 11:11

大模型的“Tomcat”：一文读懂AI推理引擎（Inference Engine)

本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！魔都架构师|全网30W技术追随者大厂分布式系统/数据中台实战专家主导交易系统百万级流量调优&车联网平台架构AIGC应用开发先行者|区块链落地实践者以技术驱动创新，我们的征途是改变世界！实战干货：编程严选网1推理引擎是啥？从熟悉的“服务器”说起，想象你用Java写好了一个业务应用，如订单处理服务，打成一个JAR或WAR包。这包能直接

·2025-06-29 10:04

rknn优化教程（三）

├──def││└──rknn_define.h│└──rknn_engine.h├──src│├──common││├──rknn_data.h││└──rknn_functions.hpp│├──inference

凌佚·2025-06-28 02:58

【vLLM 学习】Disaggregated Prefill

·2025-06-25 16:27

【vLLM 学习】Data Parallel

·2025-06-13 12:26

LLaMA-Factory的5种推理方式总结

示例命令：#使用原始模型推理llamafactory-clichatexamples/inference/llama3.yaml#使用微调后的LoRA模型推理（需指定适配器路径）llama

勤奋的知更鸟·2025-06-07 12:00

端到端大语言模型微调技术 Demo 全流程详解（附完整模块说明）

2️⃣数据预处理流程3️⃣样本构造脚本三、模型构建模块（models/）模型加载逻辑：四、训练微调模块（trainer/）1️⃣微调方式支持2️⃣训练参数配置3️⃣Trainer配置：五、推理与验证模块（inference

gs80140·2025-06-07 05:44

dockerfile: PaddleOCR hubserving api 服务

docker镜像构建目录结构-inference_models(下载好的模型放这里，可以直接在dockerfile中下载)-PaddleOCR(git仓库，

Grassto·2025-05-30 17:41

生态仿真软件：MOSAIC (Multi-scale Object-based Spatial Analysis and Inference of Change)_（9）.仿真结果分析与解释

仿真结果分析与解释在生态仿真软件MOSAIC中，仿真结果的分析与解释是至关重要的一步。这不仅帮助用户理解仿真过程中的各种现象，还能为后续的模型优化和实际应用提供有价值的信息。本节将详细介绍如何利用MOSAIC提供的工具和方法对仿真结果进行分析和解释，包括数据可视化、统计分析、模型验证和敏感性分析等。数据可视化数据可视化是理解仿真结果的最直观方式。MOSAIC提供了一系列强大的可视化工具，可以帮助用

kkchenjj·2025-05-12 07:54

生态仿真软件：MOSAIC (Multi-scale Object-based Spatial Analysis and Inference of Change)_（12）.高级功能与技巧

高级功能与技巧1.自定义对象和类在MOSAIC生态仿真软件中，自定义对象和类是实现复杂生态系统模型的关键步骤。通过自定义对象和类，用户可以更灵活地模拟特定的生态过程和生物行为。本节将详细介绍如何在MOSAIC中自定义对象和类，并提供具体的操作示例。1.1.创建自定义对象MOSAIC允许用户创建自定义对象，这些对象可以代表生态系统中的各种生物或非生物元素。创建自定义对象的基本步骤如下：定义对象属性：

kkchenjj·2025-05-12 07:54

【 vLLM 学习】Audio Language

·2025-05-09 21:44

PaddlePaddle最简单的例子：利用python api调用paddle实现模型加载与预测

fromPILimportImage矩阵操作：importnumpyasnpexe=fluid.Executor(fluid.CPUPlace())//设置model的地址，在model_path字符型变量中保存[inference_program

少安的砖厂·2025-04-29 21:40

YOLOv5-DeepSort 项目使用教程

YOLOv5-DeepSort项目使用教程项目地址:https://gitcode.com/gh_mirrors/yo/Yolov5-deepsort-inference1.项目介绍1.1项目概述YOLOv5

怀创宪·2025-04-25 13:00

第十四讲、Isaaclab在USD环境中进行策略推断

0前言官方教程：https://isaac-sim.github.io/IsaacLab/main/source/tutorials/03_envs/policy_inference_in_usd.htmlIsaacsim

跳跳糖炒酸奶·2025-04-23 20:21

【模型部署】使用onnxruntime部署yolo11n，提供fastapi接口

文章目录背景目录结构server.pyonnx_inference.pyDockerfile文件编写docker镜像构建运行并测试背景triton太臃肿，所以选择onnxruntime进行yolo模型部署

青春狗头少年不会梦到格温学姐·2025-04-22 04:12

pytorch 51 GroundingDINO模型导出tensorrt并使用c++进行部署，53ms一张图

为此对GroundingDINO的trt推理进行调研，发现在GroundingDINO-TensorRT-and-ONNX-Inference项目中分享了模型导出onnx转trt格式，并分享了python-trt

万里鹏程转瞬至·2025-04-19 21:32

What are the advantages of our neural network inference framework?

Whataretheadvantagesofourneuralnetworkinferenceframework?1.Background2.Whataretheadvantagesofourneuralnetworkinferenceframework?References1.BackgroundLetmeintroduce/ˌɪntrəˈdjuːs/thebackground/ˈbækɡraʊ

Yongqiang Cheng·2025-04-16 00:50

Inference: Parallel LLM Generation via Concurrent Attention

Hogwild!推理：通过并发注意力实现并行LLM生成目录介绍顺序LLM生成的挑战Hogwild推理方法用于协作推理的缓存布局旋转位置嵌入协作提示实验结果涌现的协作行为局限性和未来方向结论介绍大型语言模型（LLM）彻底改变了自然语言处理，但它们的顺序特性在文本生成过程中造成了计算瓶颈。每个token预测都需要模型处理所有先前的token，导致推理时间随输出长度线性增长。对于需要生成冗长输出的复杂推

Alexguantp·2025-04-15 19:23

YOLOX系列二 -- tools/demo.py详解

#获取图片（文件夹中所有图片）get_image_list(path)2.预测参数初始化Predictor(object)3.图片（帧）检测inference(self,img)4.visual(self

刘丶小歪·2025-04-14 07:59

Paddle Inference模型文件解释说明

PaddleInference是飞桨的原生推理库，提供服务器端的高性能推理能力，其功能特性丰富，性能优异，具有高吞吐、低时延、快速部署等特点。然而有些同学可能对Paddle推理模型的文件有哪些，以及每个文件有什么作用，傻傻分不清楚，以至于在Download模型或部署时，出现各种各样的问题。本篇文章，旨在以简明扼要的方式，为大家阐述PaddleInference模型每一种文件类型的具体作用与重要性。

Sweet锦·2025-03-27 21:21

飞桨Paddle Inference模型转ONNX模型的方法

ONNX是个好东西，其全称OpenNeuralNetworkExchange，是一种用于表示和交换深度学习模型的开放标准格式。由Microsoft和Facebook在2017年共同推出的一个开放标准，旨在促进不同深度学习框架之间的互操作性，并采用相同格式存储模型数据。ONNX有诸多优势，简直让人爱不释手呀。以下简单列举几个：在不同深度学习框架（如PaddlePaddle、PyTorch、Tenso

Sweet锦·2025-03-27 21:21

Stable Diffusion 模型具体如何设置参数？

num_inference_steps：控制模型推理的步数。步数越多，生成的图像质量通常越高，但生成时间也会相应增加。

壁纸样机神器·2025-03-16 19:01

人工智能 - TensorRT与DeepDP终极指南：释放GPU潜能的深度学习推理优化之道

TensorRTTensorRT（TensorRuntime）是英伟达（NVIDIA）推出的高性能深度学习推理（Inference）优化器和运行时库，专为在NVIDIAGPU上高效部署深度学习模型而设计

天机️灵韵·2025-03-13 13:36

模型训练和推理

计算图以及前向后向传播训练时需要梯度，推理时不需要阶段是否计算梯度是否反向传播是否更新参数用例写法训练✅✅✅loss训练默认即可，requires_grad=True推理❌❌❌采样、预测、部署用@torch.inference_mode

一杯水果茶！·2025-03-13 12:02

onnx处理和TensorRT量化推理相关代码工具

为例）进行推理，往往需要一些处理工具，比如：拆分或者合并onnx；修改onnx中的量算子QuantizeLinear的scale值；以及使用onnxruntime进行推理；TensorRT的序列化文件的inference

天亮换季·2025-03-13 12:26

【xinference部署大模型超详细教程 gemma-it为例子】

inference文档地址你的点赞和收藏是我持续分享优质内容的动力哦~加速source/etc/network_turbo#仅限autodl平台pipconfigsetglobal.index-urlhttps

放飞自我的Coder·2025-03-12 02:50

DeepSeek源码解析（1）

初步看它的代码并不多，主要是inference目录，convert.py#1.导入标准库importos#os是Python的标准库之一，提供了与操作系统交互的功能，比如文件路径操作、环境变量管理等。

白鹭凡·2025-03-11 01:26

AF3 block_delete_msa函数解读

推理（inference）时不会使用，因为完整MSA对预测准确性很重要。源代码：#Notusedininference@curry1defblock_delete_

qq_27390023·2025-03-10 10:43

AI芯片概述-分类、应用、技术（APU、CPU、DPU、GPU、NPU和TPU）及厂家

二、AI芯片分类1.Training(训练)2.Inference(推理)三、AI芯片应用领域四、AI芯片技术路线五、APU、CPU、DPU、GPU、NPU和TPU六、AI芯片厂家一、AI芯片是什么？

一码当前·2025-03-09 00:27

llama-factory生成Meta-Llama-3-8B-Instruct模型api服务

llama-factory完成模型的微调训练后，需要开启其api服务进行调用，参考官方https://github.com/hiyouga/LLaMA-Factory/blob/main/examples/inference

码不动了鸭·2025-03-08 00:19

YOLOv8目标检测推理流程及C++代码

代码主要分成三部分，1.main_det.cpp推理函数主入口；2.inference_det.h头文件及inference_det.cpp具体函数实现；3.CMakeList.txt.1.main_det

吃鱼不卡次·2025-03-06 22:49

大语言模型原理与工程实践：大语言模型推理工程推理加速：算子优化

其中，推理（Inference）过程是大语言模型的核心环节之一。然而，随着模型规模的不断扩大，推理过程中的计算复杂度和延时也逐渐成为制约模型应用的重要因素。

AI天才研究院·2025-03-04 22:32

DeepSeek-OpenSourceWeek-第六天-Inference System Overview

开源周的第6天，DeepSeek对DeepSeek-V3/R1推理系统进行了深入概述。本文将深入探讨该系统的设计原则、优化策略以及性能统计数据，重点突出在吞吐量和延迟优化方面取得的显著进展。1SystemDesignPrinciplesDeepSeek-V3/DeepSeekR1推理系统旨在实现更高的吞吐量（即单位时间内处理的数据量）和更低的延迟（即处理数据所需的时间）。为了达成这些目标，该系统采

数据分析能量站·2025-03-04 01:57

【llm对话系统】 LLM 大模型推理python实现：vLLM 框架

在LLM的应用中，推理(Inference)阶段至关重要。它指的是利用训练好的LLM模型，根据输入(Prompt)生成文本的过程。

kakaZhui·2025-03-02 06:06

from PIL import Image ModuleNotFoundError: No module named ‘PIL‘

问题报错：Traceback(mostrecentcalllast):File"examples/inference_demo.py",line10,infromPILimportImageModuleNotFoundError

万年枝·2025-03-01 06:45

使用Hugging Face Text Embeddings Inference进行文本嵌入推理

在自然语言处理中，文本嵌入是一个重要的技术，它将文本转换为可以由机器学习算法处理的数字向量。在这篇文章中，我们将探讨如何使用HuggingFace的TextEmbeddingsInference（TEI）工具包来部署和服务开源文本嵌入和序列分类模型。TEI支持高性能提取，包括常用的嵌入模型如FlagEmbedding、Ember、GTE和E5。技术背景介绍文本嵌入在现代NLP任务中起着关键作用，它

dgay_hua·2025-02-28 01:40

python环境的yolov11.rknn物体检测

1.首先是我手里生成的一个yolo11的.rknn模型：2.比对一下yolov5的模型：2.1yolov5模型的后期处理：outputs=rknn.inference(inputs=[img2],data_format

子正·2025-02-19 22:30

一个AI应用的开发、上线流程解析

目录1.模型文件格式1.1CheckPoint(ckpt)文件格式1.2.pth文件格式1.3.mindir文件格式1.4.onnx文件格式2.推理（Inference）2.1.pth(PyTorch模型格式

終不似少年遊*·2025-02-14 17:03

重拾二进制之魂：大语言模型与逆向工程的奇幻旅程

同时，还将结合来自LLM4Decompile_Inference.ipy

步子哥·2025-02-09 18:50

Causal Inference for Leveraging Image-TextMatching Bias in Multi-Modal Fake NewsDetection

https://ieeexplore.ieee.org/document/9996587https://ieeexplore.ieee.org/document/99965871.概述社交媒体的快速发展为虚假新闻的产生和传播提供了便捷渠道，并带来了诸多不良后果。为了减轻虚假新闻的负面影响，自动化的虚假新闻检测变得尤为重要。随着多媒体技术的发展，社交媒体上的新闻不仅限于文本内容，还逐步转变为包含图像

樱花的浪漫·2025-02-02 13:46

Meta Llama 3 使用 Hugging Face 和 PyTorch 优化 CPU 推理

原文地址：meta-llama-3-optimized-cpu-inference-with-hugging-face-and-pytorch了解在CPU上部署Meta*Llama3时如何减少模型延迟2024

lichunericli·2025-01-27 00:37

Multi-Head Latent Attention: Boosting Inference Efficiency

ContentsIntroductionMethodLow-RankKey-ValueJointCompressionDecoupledRotaryPositionEmbeddingReferencesIntroduction作者提出Multi-headLatentAttention(MLA)，通过将KV压缩为CompressedLatentKV，在减小KVcache的同时保持模型精度Method

连理o·2025-01-22 14:56

大模型训练显卡选择

大模型的训练用4090是不行的，但推理（inference/serving）用4090不仅可行，在性价比上还能比H100稍高。

kcarly·2025-01-19 07:39

华为昇腾AI处理器，atc模型转换和推理过程，华为的CANN库对标的是NVIDIA的cuda，所以在华为昇腾AI处理器上安装了CANN后，就可以直接使用pytorch了，以及推理框架(参考学习)

1，模型转换atc模型转换模型转换如图参考链接如下：https://toscode.mulanos.cn/ascend/samples/tree/master/inference/modelInference

鼾声鼾语·2025-01-17 12:53

【大模型】triton inference server

前言：tritoninferenceserver常用于大模型部署，可以采用http或GRPC调用，支持大部分的backend，单GPU、多GPU都可以支持，CPU也支持。本文主要是使用tritoninferenceserver部署大模型的简单流程示例。目录1.整体流程2.搭建本地仓库3.服务端代码4.启动服务5.客户端调用1.整体流程搭建模型仓库模型配置服务端调用代码docker启动服务客户端调用

idiotyi·2024-09-15 05:47

深度学习部署：Triton（Triton inference server）【旧称：TensorRT serving，专门针对TensorRT设计的服务器框架，后来变为Triton，支持其他推理后端】

triton作为一个NVIDIA开源的商用级别的服务框架，个人认为很好用而且很稳定，API接口的变化也不大，我从2020年的20.06切换到2022年的22.06，两个大版本切换，一些涉及到代码的工程变动很少，稍微修改修改就可以直接复用，很方便。本系列讲解的版本也是基于22.06。本系列讲解重点是结合实际的应用场景以及源码分析，以及写一些triton周边的插件、集成等。非速成，适合同样喜欢深入的小

u013250861·2024-09-10 03:09

LLM系列 | 36：Google最新开源大模型：Gemma 2介绍及其微调(下篇)

引言环境安装数据准备下载处理模型训练模型inference结果gemma-2-9bgemma-2-9b-it引言低头观落日，引手摘飞星。

JasonLiu1919·2024-09-08 18:10

【论文阅读】GLiRA: Black-Box Membership Inference Attack via Knowledge Distillation

摘要While（虽然）DeepNeuralNetworks(DNNs)havedemonstratedremarkableperformanceintasksrelatedtoperception（感知）andcontrol（控制）,therearestillseveralunresolvedconcerns（未解决的问题）regardingtheprivacyoftheirtrainingdat

Bosenya12·2024-08-24 16:35

Python连接huggingface的API接口

之前的代码以及出现的问题：之前的代码：importrequestsAPI_URL="https://api-inference.huggingface.co/models/flax-sente

young·2024-03-03 03:51

Memory Wall in Neural Network Inference

MemoryWallinNeuralNetworkInference神经网络推理的瓶颈在于访存带宽，通常无法发挥出加速器的全部算力。本文总结了目前常用的推理加速器及其设计，并分析了常用神经网络的访存瓶颈。文章大部分内容参考自ComputerArchitecture:AQuantitativeApproach。1Computecentricaccelerators1.1CPU一般来说，CPU擅长于做

简vae·2024-02-19 14:03

推荐频道