Infer

大模型的“Tomcat”：一文读懂AI推理引擎（Inference Engine)

本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！魔都架构师|全网30W技术追随者大厂分布式系统/数据中台实战专家主导交易系统百万级流量调优&车联网平台架构AIGC应用开发先行者|区块链落地实践者以技术驱动创新，我们的征途是改变世界！实战干货：编程严选网1推理引擎是啥？从熟悉的“服务器”说起，想象你用Java写好了一个业务应用，如订单处理服务，打成一个JAR或WAR包。这包能直接

·2025-06-29 10:04

Bagel: 开源协作式AI数据管理平台的使用指南

Bagel简介Bagel（OpenInferenceplatformforAI）可以

llzwxh888·2025-06-29 07:46

rknn优化教程（三）

├──def││└──rknn_define.h│└──rknn_engine.h├──src│├──common││├──rknn_data.h││└──rknn_functions.hpp│├──inference

凌佚·2025-06-28 02:58

OpenVINO™2025部署PaddleOCR模型

DownloadandunzipPP-OCRv5_server_detpre-trainedmodelhttps://paddle-model-ecology.bj.bcebos.com/paddlex/official_infer

OpenVINO 中文社区·2025-06-27 01:05

如何在 CloudMatrix 384 超节点上部署 DeepSeek 大模型：业界首次公开非英伟达体系下解决此类技术难题的论文

联合署名的论文《ServingLargeLanguageModelsonHuaweiCloudMatrix384》的简要解说与技术分析文章，深入剖析了CloudMatrix384架构设计、CloudMatrix-Infer

猫头虎·2025-06-25 23:38

【vLLM 学习】Disaggregated Prefill

·2025-06-25 16:27

vllm docker容器部署大语言模型

VLLM（VeryLargeLanguageModelInference）是一个高性能、优化显存管理的大模型推理引擎。

zhangxiangweide·2025-06-25 07:15

Hugging Face 一键部署代码模型

摘要：全球最大的开源AI社区HuggingFace近日宣布，其广受欢迎的InferenceEndpoints（推理端点）服务现已全面支持代码生成模型。

儿女初养·2025-06-24 07:20

利用ms-swift微调LLaVA-OneVision

ms-swift微调LLaVA-OneVision资料合集环境安装目录详情训练模型下载模型准备训练(train)数据和验证集(validation)数据提前改一些小bug脚本Merged-LoRA脚本Infer

moTcream·2025-06-23 07:16

M1芯片macOS安装Xinference部署大模型

如果你看的是官方手册：安装—Xinference千万不要直接运行：pipinstall"xinference[all]"会遇到几个问题：1）Python版本如果太新可能安装失败2）全量安装会失败3）未科学上网可能会

Box_csdn·2025-06-21 01:27

人工智能混合编程实践：Python ONNX FP16加速进行图像超分重建

PythonONNXFP16加速进行图像超分重建前言相关介绍Python简介ONNX简介图像超分辨率重建简介应用场景前提条件实验环境项目结构使用PythonONNXFP16加速进行图像超分重建sr_py_infer_fp16

FriendshipT·2025-06-20 22:32

人工智能混合编程实践：C++调用封装好的DLL进行图像超分重建（v2.0）

创建与使用****应用场景****优点与挑战**图像异常检测简介应用场景前提条件实验环境项目结构C++调用封装好的DLL进行图像超分重建C++调用dll的相关代码framework.hpch.hcxx_infer_sr

FriendshipT·2025-06-20 22:31

使用Xinference与LangChain实现强大的模型推理

Xinference是一款强大的推理库，它能够无缝地为LLMs、语音识别模型以及多模态模型提供服务。

yunwu12777·2025-06-20 16:53

typescript泛型编程

映射类型（MappedTypes）6、映射修饰符（MappingModifiers）7、内置工具和类型体操1、泛型实现类型参数化使用方式通过的方式将类型传递给函数通过类型推导（typeargumentinference

程序潇潇·2025-06-19 18:44

llama3源码解读之推理-infer

文章目录前言一、整体源码解读1、完整main源码2、tokenizer加载3、llama3模型加载4、llama3测试数据文本加载5、llama3模型推理模块1、模型推理模块的数据处理2、模型推理模块的model.generate预测3、模型推理模块的预测结果处理6、多轮对话二、llama3推理数据处理1、完整数据处理源码2、使用prompt方式询问数据加载3、推理处理数据三、llama3推理ge

tangjunjun-owen·2025-06-16 05:05

微信小程序开发文档指南：全面解析 wx.getInferenceEnvInfo API

本文将详细介绍wx.getInferenceEnvInfoAPI，该API用于获取通用AI推理引擎版本，并详细解析其参数、回调函数、使用场景和实际应用案例。

梦玄网络安全·2025-06-15 23:31

speculative decoding: SpecInfer

speculativedecoding学习笔记：speculativedecodinglookhead机制一、SpecInfer提出前的一些问题串行依赖：传统自回归解码必须逐token生成，GPU利用率不足

Jay Kay·2025-06-14 12:29

【vLLM 学习】Data Parallel

·2025-06-13 12:26

【代码分析】TensorRT sampleINT8 详解

目录前言代码分析Main入口构建(Build)网络BatchStream推理(Infer)过程资源释放前言TensorRT可以通过INT8量化处理网络，然后大幅加速网络推理速度，本文旨在详细分析MNISTINT8Sample

HaoBBNuanMM·2025-06-12 20:24

Akamai云上AI推理：赋能开发者加速边缘原生应用

随着Akamai云推理服务（AkamaiCloudInference）的推出，我们向"打造

Akamai中国·2025-06-12 11:21

LLaMA-Factory的5种推理方式总结

示例命令：#使用原始模型推理llamafactory-clichatexamples/inference/llama3.yaml#使用微调后的LoRA模型推理（需指定适配器路径）llama

勤奋的知更鸟·2025-06-07 12:00

端到端大语言模型微调技术 Demo 全流程详解（附完整模块说明）

2️⃣数据预处理流程3️⃣样本构造脚本三、模型构建模块（models/）模型加载逻辑：四、训练微调模块（trainer/）1️⃣微调方式支持2️⃣训练参数配置3️⃣Trainer配置：五、推理与验证模块（inference

gs80140·2025-06-07 05:44

huggingface 使用和模型微调

InferenceAPI：基于Kubernetes的动态扩缩容服务，支持零代码模型部署，提

Psycho_MrZhang·2025-06-07 04:35

.NET 玩转 PaddleSharp：通天猿臂，AI一把抓

只要你熟悉C#、.NET，就能靠着它“调戏”PaddleInference，深度推理不求人，想下班到底早还是晚全看你的代码效率！

许泽宇的技术分享·2025-06-05 16:55

vLLM vs Ollama

二、特征对比特征vLLMOIlama推理速度（InferenceSpeed）极快，采用分页注意力(PagedAttention)优化速度快，但受硬件限制内存效率（MemoryEff

iranw·2025-06-04 22:49

Langchain-chatchat源码部署及测试实验

Langchain-chatchat从0.3版本开始，支持更多的部署框架，如xinference、Ollama和FastChat，较多的是xinfere

一望无际的大草原·2025-06-02 09:49

如何在dify中添加自定义reranker模型

思路概述将Xinference中的reranker模型集成到Dify中，主要思路是先在Xinference中部署reranker模型，使其能提供稳定的推理服务，然后通过Dify的模型供应商配置功能，将Xinference

由数入道·2025-06-01 00:58

数据分析中假设检验_假设检验数据科学

数据分析中假设检验UsingInferentialStatistics,welearnedhowtoanalyzethesampledataandmakeinferencesaboutthepopulationmeanandotherpopulationdata.However

weixin_26705651·2025-05-31 14:43

在本地安装和部署 Xinference，并下载对应的模型

引言Xinference是一个开源的推理框架，支持多种深度学习模型的本地推理，适用于GPU和CPU环境。它可以用于自然语言处理、计算机视觉等任务，并且提供了API接口，方便集成到各种应用中。

萧鼎·2025-05-31 09:06

dockerfile: PaddleOCR hubserving api 服务

docker镜像构建目录结构-inference_models(下载好的模型放这里，可以直接在dockerfile中下载)-PaddleOCR(git仓库，

Grassto·2025-05-30 17:41

架构分享｜三层存储架构加速云端大模型推理

作者简介NileshAgarwal,Inferless联合创始人&CTO关于InferlessInferless：无服务器GPU推理无需管理服务器即可扩展机器学习推理，轻松部署复杂的自定义模型。

·2025-05-30 13:18

常见本地大模型个人知识库工具部署、微调及对比选型

文章目录常见本地大模型个人知识库工具部署、微调及对比选型知识库侧AnythingLLMMaxKBRAGFlowFastGPTDifyOpenWebUI小结大模型侧OllamaLMStudioXinference

猫猫姐·2025-05-27 23:07

gdb调试程序退出没有堆栈信息([Inferior 1 (process 12867) exited with code 0177])

上周有新任务开发，然后周五开发完了，和其他同事联调(不能远程调试)，发现客户端上报给server之后，serever莫名其妙的就挂了，然后被重新启动(重启是自己设置的，只要进程不存在就回去启动程序)，只要上报了新增的功能相关的，server就会挂掉，上报原来有的都是正常的。但是并不是被kill掉了，也不是崩溃了。因为程序里收到SIGSEGV和SIGABRT会打印堆栈信息到一个文件里面。但是没有发现

　　　　free·2025-05-24 09:04

Ocean: Object-aware Anchor-free Tracking

领域：ObjecttrackingItaimstoinferthelocationofanarbitrarytargetinavideosequence,givenonlyitslocationinthefirstframe

YuSun_WK·2025-05-22 14:56

EXO：模型最终验证的地方；infer_tensor；step；MLXDynamicShardInferenceEngine

目录EXO：模型最终验证的地方EXO：infer_tensorEXO:stepMXNet的mx.array类型是什么NDArray优化了什么1.异步计算和内存优化2.高效的数学和线性代数运算3.稀疏数据支持

ZhangJiQun&MXP·2025-05-20 00:37

Xinference 分布式推理框架的部署

系列文章目录第一章Xinference分布式推理框架的部署第二章LLaMAFactory微调框架的部署第三章LLaMAFactory微调框架数据预处理加载文章目录系列文章目录前言一、Xinference

TA zhao·2025-05-16 15:43

大型语言模型（LLM）推理框架的全面分析与选型指南（2025年版）

为帮助读者在繁多的框架中做出明智选择，本文将深入分析主流推理框架（如XInference、LiteLLM、LMDeploy、SGLang、vLLM等）的功能特性、性能表现、易用性及适用场景。

和老莫一起学AI·2025-05-16 15:12

全面指南：Xinference大模型推理框架的部署与使用

全面指南：Xinference大模型推理框架的部署与使用Xinference（XorbitsInference）是一个功能强大的分布式推理框架，专为简化各种AI模型的部署和管理而设计。

黄宝良·2025-05-16 15:41

GPT-4o, GPT 4.5, GPT 4.1, O3, O4-mini等模型的区别与联系

然而，OpenAI的模型家族日益壮大，光是用于推理（Infere

surfirst·2025-05-15 20:24

收集一些因果推断比较好的工具包，教程

：http://www.liuyanecon.com/wp-content/uploads/%E7%8E%8B%E5%81%A520201022.pdf感兴趣可以看看其他手下博士做的课件：Causalinferencereadinggroup2020

TinaO-O·2025-05-15 06:44

stable diffusion 优化加速文生图效率

参考自：Accelerateinferenceoftext-to-imagediffusionmodels默认使用diffusers1.bfloat16使用torch.bfloat16或者torch.float16

Qiming_v·2025-05-15 05:39

VLLM快速部署大模型单卡/多卡

本人之前试过Xinference和Ollama，这两个遇到了因为其他软件不兼容或者无安装软件权限导致安装失败，vllm是python包，不需要安装软件所以更方便。

the_3rd_bomb·2025-05-12 13:04

生态仿真软件：MOSAIC (Multi-scale Object-based Spatial Analysis and Inference of Change)_（9）.仿真结果分析与解释

仿真结果分析与解释在生态仿真软件MOSAIC中，仿真结果的分析与解释是至关重要的一步。这不仅帮助用户理解仿真过程中的各种现象，还能为后续的模型优化和实际应用提供有价值的信息。本节将详细介绍如何利用MOSAIC提供的工具和方法对仿真结果进行分析和解释，包括数据可视化、统计分析、模型验证和敏感性分析等。数据可视化数据可视化是理解仿真结果的最直观方式。MOSAIC提供了一系列强大的可视化工具，可以帮助用

kkchenjj·2025-05-12 07:54

生态仿真软件：MOSAIC (Multi-scale Object-based Spatial Analysis and Inference of Change)_（12）.高级功能与技巧

高级功能与技巧1.自定义对象和类在MOSAIC生态仿真软件中，自定义对象和类是实现复杂生态系统模型的关键步骤。通过自定义对象和类，用户可以更灵活地模拟特定的生态过程和生物行为。本节将详细介绍如何在MOSAIC中自定义对象和类，并提供具体的操作示例。1.1.创建自定义对象MOSAIC允许用户创建自定义对象，这些对象可以代表生态系统中的各种生物或非生物元素。创建自定义对象的基本步骤如下：定义对象属性：