vLLM

使用vllm部署 Nanonets-OCR-s

使用vLLM部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型，结合vLLM的高效推理引擎可显著提升部署性能。

没刮胡子·2025-06-28 23:20

VLLM：虚拟大型语言模型（Virtual Large Language Model）

VLLM：虚拟大型语言模型（VirtualLargeLanguageModel）VLLM指的是一种基于云计算的大型语言模型的虚拟实现。

大霸王龙·2025-06-27 17:57

LLM推理入门实践：基于 Hugging Face Transformers 和 vLLM

文章目录1.HuggingFace模型下载2.HuggingFaceTransformers库模型推理3.关于prompt的组成：system、user、assistant4.vLLM模型推理vLLM的多卡推理踩坑

ctrl A_ctrl C_ctrl V·2025-06-27 17:57

vLLM（Virtual Large Language Model）框架：一个开源的高性能推理和服务的框架

vLLM（VirtualLargeLanguageModel）是一个开源的高性能推理和服务的框架，专为大语言模型（LLM）设计，旨在优化推理速度、内存效率和吞吐量。

彬彬侠·2025-06-27 17:54

开源新王MiniMax -M1 vLLM本地部署教程：百万级上下文支持成大模型领域新标杆！

一、模型介绍MiniMax-M1是由中国AI公司MiniMax于2025年6月17日推出的全球首个开源大规模混合架构推理模型，凭借其百万级上下文支持、超高效计算性能和突破性成本表现，成为大模型领域的新标杆。MiniMax-M1型号可以在配备8个H800或8个H20GPU的单个服务器上高效运行。在硬件配置方面，配备8个H800GPU的服务器可以处理多达200万个令牌的上下文输入，而配备8个H20GP

算家计算·2025-06-27 07:17

【vLLM 学习】Disaggregated Prefill

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-06-25 16:27

vllm docker容器部署大语言模型

什么是VLLM？VLLM（VeryLargeLanguageModelInference）是一个高性能、优化显存管理的大模型推理引擎。

zhangxiangweide·2025-06-25 07:15

创建vllm的docker镜像和容器

dockerrun-dit--gpusall--ipc=host--namevLLM-p3001:80-v/mnt/d0/checkpoints:/modelspython:3.11在新建的容器内部安装vllm

zhangxiangweide·2025-06-25 07:15

vLLM专题（十三）-结构化输出（Structured Outputs）

vLLM支持使用outlines、lm-format-enforcer或xgrammar作为引导解码的后端来生成结构化输出。本文档展示了一些可用于生成结构化输出的不同选项示例。

AI专题精讲·2025-06-23 05:59

大模型系列——VLLM 部署当前最火大模型llama4

大模型——VLLM部署当前最火大模型llama4最近llama4火车圈了，不愧是大模型界的当红炸子鸡，号称宇宙最强大模型，这里我们快速尝鲜，看看怎么快速部署，首先我们需要知道当前的llama4是没有办法用

猫猫姐·2025-06-22 22:41

如何用cURL测试Ollama和vLLM的大模型服务运行状态

在部署大模型服务（如Ollama或vLLM）后，快速验证服务是否正常运行至关重要。cURL作为轻量级命令行工具，能直接发送HTTP请求到模型API，通过解析响应确认服务状态，无需编写额外代码。

Ven%·2025-06-21 09:16

DeepSeek 大型 MoE 模型大规模部署压测学习

DeployingDeepSeekwithPDDisaggregationandLarge-ScaleExpertParallelismon96 H100GPUs》的中文总结，以及对您提到的几个术语（MLA、MoE、SGLang、VLLM

andyguo·2025-06-18 12:14

✨零基础手把手｜Docker+vLLM极速部署OpenAI风格API：5分钟4卡GPU推理+避坑指南+完整镜像配置

查看镜像列表dockerimages#列出本地所有镜像二、镜像与容器操作镜像打包为.tar文件dockersave-o#将镜像导出为.tar文件#示例：dockersave-omy_image.tarvllm/vllm-openai

·2025-06-17 18:16

Ollama vs. vLLM

Ollama和vLLM并非竞争关系，而是满足不同需求的互补工具。Ollama极大地降低了大众接触和使用大模型的门槛，而vLLM则为严肃的、规模化的AI应用提供了坚实的性能基石。

frostmelody·2025-06-16 23:37

深入探究 Python 领域 vllm 的核心功能_副本

深入探究Python领域vLLM的核心功能：让大模型推理像高铁一样高效关键词：vLLM、大语言模型推理、PagedAttention、连续批处理、GPU优化摘要：大语言模型（LLM）的推理效率一直是工业落地的

Python编程之道·2025-06-16 22:58

speculative decoding: SpecInfer

speculativedecodinglookhead机制一、SpecInfer提出前的一些问题串行依赖：传统自回归解码必须逐token生成，GPU利用率不足30%内存墙：KV缓存占用显存，长文本场景下并发请求数锐减现有方案（如vLLM

Jay Kay·2025-06-14 12:29

一文搞定离线环境下的RAG引擎部署

如何在这种严苛的环境下，完整、可靠地部署一套包含向量数据库、**高性能推理服务（vLLM）**和Python后台的复杂RAG系统呢？本文将为你提供

木鱼时刻·2025-06-14 08:05

✨如何在 vLLM 中取消 Qwen3 的 Thinking 模式

如何在vLLM中取消Qwen3的Thinking模式在使用Qwen3模型与vLLM（VeryLargeLanguageModel）进行推理服务时，你可能会发现模型默认会输出类似“我正在思考……”的提示内容

杨靳言先·2025-06-14 00:15

【vLLM 学习】Data Parallel

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-06-13 12:26

Python调用大模型LLM时,借用局域网内的算力

以下是具体实现方案及步骤：一、基础环境配置统一部署模型服务在每台局域网设备上部署大模型服务（如Ollama、vLLM等），并开放API接口。

Alex艾力的IT数字空间·2025-06-09 15:53

qwen3使用VLLM启动：vllm docker运行命令

1.停止大模型dockerstopvllm-qwen3-32b&&dockerrmvllm-qwen3-32b2.启动大模型dockerrun-d--gpusall--restartunless-stopped--networkmy_network--namevllm-qwen3-32b--shm-size=16g-v/home

Ven%·2025-06-08 08:12

架构师炼丹炉 | 大语言模型引擎全解析：Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama

原文链接：大语言模型引擎全解析：Transformers、vLLM、Llama.cpp、SGLang、MLX和Ollama本文将带你深入了解Transformers、vLLM、Llama.cpp、SGLang

双木的木·2025-06-07 18:39

五大主流大模型推理引擎深度解析：llama.cpp、vLLM、SGLang、DeepSpeed和Unsloth的终极选择指南

在人工智能的竞技场上，大模型推理框架就像是为超级跑车精心调校的引擎系统——选对了能让你的AI应用一骑绝尘，选错了可能连"停车场"都开不出去。这些框架的核心价值在于将训练好的"大脑"转化为实际可用的"肌肉记忆"，而选择标准则需要像职业赛车手挑选装备般精准。在人工智能的竞技场上，大模型推理框架就像是为超级跑车精心调校的引擎系统——选对了能让你的AI应用一骑绝尘，选错了可能连"停车场"都开不出去。这些框

我就是全世界·2025-06-07 18:37

【AI】大语言模型引擎全解析：Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama，最佳选择？

本文将带你深入了解Transformers、vLLM、Llama.cpp、SGLang、MLX和Ollama这些引擎，帮助你找到最适合的工具，释放大语言模型的全部潜力！作为技术人员，不仅

厦门德仔·2025-06-07 12:02

全面掌握 vLLM Serve：高性能 OpenAI API 兼容推理服务部署实战指南

vLLM是一款专为高效推理设计的推理引擎，支持OpenAIAPI接口，具备极强的批处理能力和优秀的内存管理性能。一、什么是vLLMServe？

@程序员小袁·2025-06-05 19:16

DeepSeek-R1-0528-Qwen3-8B为底座微调领域大模型准备:制作领域专用数据集

制作领域专用数据集这里制作的数据集格式为使用的aphaca格式的1.启动vllm服务python-mvllm.entrypoints.openai.api_server\--modelyour-model-path

Ven%·2025-06-05 17:33

【大模型入门指南 10】大模型推理部署：vLLM和llama.cpp

青松ᵃⁱ·2025-06-05 06:18

vLLM vs Ollama

一、介绍vLLM:VLLM（超大型语言模型）是SKYPILOT开发的推理优化框架，主要用于提升大语言模型在GPU上的运行效率。

iranw·2025-06-04 22:49

# 使用 Micromamba 安装 vLLM 并运行最小模型（facebook/opt-125m）

️环境准备系统：UbuntuPython版本：3.10包管理器：MicromambaGPU：NVIDIA（CUDA支持）创建环境并安装vLLM#创建micromamba环境micromambacreate-nvllmpython

老大白菜·2025-06-03 22:14

Python 领域 vllm 流式推理实现原理

Python领域vllm流式推理实现原理关键词：vllm、流式推理、大语言模型、推理优化、Python实现、KV缓存、注意力机制摘要：本文深入探讨了vllm（VectorizedLargeLanguageModel

Python编程之道·2025-06-02 11:05

ImportError: /usr/local/app/.local/lib/python3.10/site-packages/flash_attn_2_cuda.cpython-310-x86_64

情况描述环境：linuxtransformers4.39.0tokenizers0.15.2torch2.1.2+cu121flash-attn2.3.3在使用vllm运行xverse/XVERSE-13B

Cyril_KI·2025-06-02 11:03

【大模型】情绪对话模型项目研发

一、使用框架：Qwen大模型后端+Open-webui前端实现使用LLamaFactory的STF微调数据集，vllm后端部署，二、框架安装下载千问大模型安装魔塔社区库文件pipinstall modelscopeDownload.py

SSH_5523·2025-05-31 14:16

通过vllm部署qwen3大模型以及基于 vLLM 的 OpenAI 兼容 API 接口调用方法总结

一，通过vllm部署qwen3模型。

Gq.xxu·2025-05-25 01:54

Vllm框架入门及本地私有化部署

企业级大模型部署推理管理工具Part1.Vllm框架基础入门与本地私有化部署一、大模型部署框架的核心需求与主流方案对开源大模型而言，即使模型权重开源，仍需依赖框架实现运行与推理。

Zhong Yang·2025-05-22 20:28

SGLang和vllm比有什么优势？

环境：SGLangvllm问题描述：SGLang和vllm比有什么优势？解决方案：SGLang和vLLM都是在大语言模型（LLM）推理和部署领域的开源项目或框架，它们各自有不同的设计目标和优势。

玩人工智能的辣条哥·2025-05-22 05:21

JAVA请求vllm的api服务报错Unsupported upgrade request、 Invalid HTTP request received.

环境：vllm0.8.5java17Qwen3-32B-FP8问题描述：JAVA请求vllm的api服务报错Unsupportedupgraderequest、InvalidHTTPrequestreceived.WARNING

玩人工智能的辣条哥·2025-05-22 05:20

SGLang、Ollama、vLLM和LLaMA.cpp推理框架的对比及选型建议

SGLang、Ollama、vLLM和LLaMA.cpp推理框架的对比及选型建议一、核心维度对比二、多维度对比一览表三、选型建议SGLang、Ollama、vLLM和LLaMA.cpp四个大模型推理框架的对比及选型建议

看今朝··2025-05-20 12:21

讨论：单张4090能运行的最强开源大模型？

对于运行大型模型的最佳推理引擎，并非是llama.cpp或vllm，而是闲鱼。如果你考虑将4090显卡出售，无论换成哪种显卡，其性

斯文by累·2025-05-19 17:42

Python 领域 vllm 文本摘要功能实现

Python领域vllm文本摘要功能实现关键词：vllm、文本摘要、Python、自然语言处理、大语言模型、推理优化、量化技术摘要：本文深入探讨了如何使用vllm框架实现高效的文本摘要功能。

Python编程之道·2025-05-19 10:31

p40上编译vllm0.8.6

目录前言编译内容前言编译内容(/data1/ai-llm/env/my-vllm-gpu)[root@localhostvllm-gpu]#TORCH_CUDA_ARCH_LIST="6.1;7.0;8.0

tianjun2012·2025-05-19 02:37

vLLM - 控制生成过程中返回对数概率信息 logprobs的输出和解释

vLLM-控制生成过程中返回对数概率信息logprobs的输出和解释flyfish在vLLM的代码中，logprobs是一个控制生成过程中返回对数概率信息的参数。

二分掌柜的·2025-05-18 16:32

DeepSeek HuggingFace 70B Llama 版本（DeepSeek-R1-Distill-Llama-70B）

简简单单Onlinezuozuo：本心、输入输出、结果文章目录DeepSeekHuggingFace70BLlama版本（DeepSeek-R1-Distill-Llama-70B）前言vllm方式在本地部署

简简单单OnlineZuozuo·2025-05-17 14:22

大型语言模型（LLM）推理框架的全面分析与选型指南（2025年版）

为帮助读者在繁多的框架中做出明智选择，本文将深入分析主流推理框架（如XInference、LiteLLM、LMDeploy、SGLang、vLLM等）的功能特性、性能表现、易用性及适用场景。

和老莫一起学AI·2025-05-16 15:12

VLLM快速部署大模型单卡/多卡

本人之前试过Xinference和Ollama，这两个遇到了因为其他软件不兼容或者无安装软件权限导致安装失败，vllm是python包，不需要安装软件所以更方便。

the_3rd_bomb·2025-05-12 13:04

开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM-Docker（二）

Qwen3-8B作为阿里云推出的混合推理模型，凭借80亿参数规模与128K超长上下文支持，展现了“快思考”与“慢思考”的协同能力，而vLLM框架则通过优化内存管理与并行计算，显著提升推理吞吐量。

开源技术探险家·2025-05-10 09:29

【 vLLM 学习】Audio Language

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-05-09 21:44

Ubuntu 单机多卡部署脚本： vLLM + DeepSeek 70B

#部署脚本：Ubuntu+vLLM+DeepSeek70B#执行前请确保：1.系统为Ubuntu20.04/22.042.拥有NVIDIA显卡(显存≥24G)#保存两个文件1init.sh初始化2、test.sh

谢平康·2025-05-08 23:14

大模型之大模型压缩（量化、剪枝、蒸馏、低秩分解），推理（vllm）

目录前言一、模型量化（quantization）1.量化概念2.模型量化优点3.什么情况下应该/不应该使用模型量化4.落地挑战5.量化方法5.1量化训练(QuantAwareTraining,QAT)原理[伪量化节点（fakequant）](https://blog.csdn.net/qq_51175703/article/details/138320834?spm=1001.2014.3001.

大模型八哥·2025-05-08 01:22

错误信息 ModuleNotFoundError: No module named ‘vllm._C‘解决方法（windows下暂未找到解决办法，待补充）

根据错误信息ModuleNotFoundError:Nomodulenamed'vllm._C'和你的环境日志，以下是分步骤解决方案：1.核心问题诊断vllm.

老兵发新帖·2025-05-07 13:09

【语音识别】vLLM 部署 Whisper 语音识别模型指南

本文将详细介绍如何使用vLLM（一个高效的大模型推理和服务框架）来部署Whisper-large-v3-turbo模型，构建一个可扩展的语音识别API服务。vLLM是专为大规模语言模型推理优

Encarta1993·2025-05-01 12:58

推荐频道

vLLM

使用vllm部署 Nanonets-OCR-s

VLLM：虚拟大型语言模型（Virtual Large Language Model）

LLM推理入门实践：基于 Hugging Face Transformers 和 vLLM

vLLM（Virtual Large Language Model） 框架：一个开源的高性能推理和服务的框架

开源新王MiniMax -M1 vLLM本地部署教程：百万级上下文支持成大模型领域新标杆！

【vLLM 学习】Disaggregated Prefill

vllm docker容器部署大语言模型

创建vllm的docker镜像和容器

vLLM专题（十三）-结构化输出（Structured Outputs）

大模型系列——VLLM 部署 当前最火大模型llama4

如何用cURL测试Ollama和vLLM的大模型服务运行状态

DeepSeek 大型 MoE 模型大规模部署压测学习

✨零基础手把手｜Docker+vLLM极速部署OpenAI风格API：5分钟4卡GPU推理+避坑指南+完整镜像配置

Ollama vs. vLLM

深入探究 Python 领域 vllm 的核心功能_副本

speculative decoding: SpecInfer

一文搞定离线环境下的RAG引擎部署

✨如何在 vLLM 中取消 Qwen3 的 Thinking 模式

【vLLM 学习】Data Parallel

Python调用大模型LLM时,借用局域网内的算力

qwen3使用VLLM启动：vllm docker运行命令

架构师炼丹炉 | 大语言模型引擎全解析：Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama

五大主流大模型推理引擎深度解析：llama.cpp、vLLM、SGLang、DeepSpeed和Unsloth的终极选择指南

【AI】大语言模型引擎全解析：Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama，最佳选择？

全面掌握 vLLM Serve：高性能 OpenAI API 兼容推理服务部署实战指南

DeepSeek-R1-0528-Qwen3-8B为底座微调领域大模型准备:制作领域专用数据集

【大模型入门指南 10】大模型推理部署：vLLM和llama.cpp

vLLM vs Ollama

# 使用 Micromamba 安装 vLLM 并运行最小模型（facebook/opt-125m）

Python 领域 vllm 流式推理实现原理

ImportError: /usr/local/app/.local/lib/python3.10/site-packages/flash_attn_2_cuda.cpython-310-x86_64

【大模型】情绪对话模型项目研发

通过vllm部署qwen3大模型以及基于 vLLM 的 OpenAI 兼容 API 接口调用方法总结

Vllm框架入门及本地私有化部署

SGLang和vllm比有什么优势？

JAVA请求vllm的api服务报错Unsupported upgrade request、 Invalid HTTP request received.

SGLang、Ollama、vLLM和LLaMA.cpp推理框架的对比及选型建议

讨论：单张4090能运行的最强开源大模型？

Python 领域 vllm 文本摘要功能实现

p40上编译vllm0.8.6

vLLM - 控制生成过程中返回对数概率信息 logprobs的输出和解释

DeepSeek HuggingFace 70B Llama 版本 （DeepSeek-R1-Distill-Llama-70B）

大型语言模型（LLM）推理框架的全面分析与选型指南（2025年版）

VLLM快速部署大模型 单卡/多卡

开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM-Docker（二）

【 vLLM 学习】Audio Language

Ubuntu 单机多卡部署脚本： vLLM + DeepSeek 70B

大模型之大模型压缩（量化、剪枝、蒸馏、低秩分解），推理（vllm）

错误信息 ModuleNotFoundError: No module named ‘vllm._C‘解决方法（windows下暂未找到解决办法，待补充）

【语音识别】vLLM 部署 Whisper 语音识别模型指南

vLLM（Virtual Large Language Model）框架：一个开源的高性能推理和服务的框架

大模型系列——VLLM 部署当前最火大模型llama4

DeepSeek HuggingFace 70B Llama 版本（DeepSeek-R1-Distill-Llama-70B）

VLLM快速部署大模型单卡/多卡