vllm 第2页

基于Ubuntu+vLLM+NVIDIA T4高效部署DeepSeek大模型实战指南

一、前言：拥抱vLLM与T4显卡的强强联合在探索人工智能的道路上，如何高效地部署和运行大型语言模型（LLMs）一直是一个核心挑战。尤其是当我们面对资源有限的环境时，这个问题变得更加突出。

来自于狂人·2025-03-05 02:01

探索vLLM Chat：作为OpenAI API替代方案的强大工具

vLLM是一款可以作为OpenAIAPI协议替代品的聊天模型服务器。它的设计允许您在应用中无缝替换OpenAIAPI，实现相似的功能和性能。

qq_37836323·2025-03-03 15:41

【模型部署】大模型部署工具对比：SGLang, Ollama, VLLM, LLaMA.cpp如何选择？

以下是对比分析：性能VLLM(VirtualTensorLanguage):VLLM是一个高性能的推理库，特别适用于长序列任务。

深度求索者·2025-03-02 08:19

【llm对话系统】 LLM 大模型推理python实现：vLLM 框架

为了解决这个问题，vLLM应运而生！vLLM是一个专为LLM设计的高吞吐、低延迟的推理和服务引擎，它能够显著提升LLM的推理速度，让你的应用如虎添翼！今天，我们就来一起探索vLLM的奥秘

kakaZhui·2025-03-02 06:06

Python vLLM 实战应用指南

文章目录1.vLLM简介2.安装vLLM3.快速开始3.1加载模型并生成文本3.2参数说明4.实战应用场景4.1构建聊天机器人示例对话：4.2文本补全输出示例：4.3自定义模型服务启动服务调用服务5.性能优化

ghostwritten·2025-03-02 06:34

【vLLM 学习】使用 Neuron 安装

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

HyperAI超神经·2025-03-01 14:47

2.9 部署模型-大模型ACP模拟题-真题

单选题使用vLLM启动模型服务的正确命令是？A.vllmserve"./model/qwen2_5-1_5b-instruct"--port8000B.vllmserve".

admin皮卡·2025-02-28 17:12

通过vLLM部署LLM模型到生产环境中

文章目录1使用vLLM部署模型2部署过程2.1准备GPU环境2.2安装vLLM依赖项3使用vLLM部署模型并启动服务3.1部署开源模型3.2部署微调模型4测试服务是否正常运行5评估服务性能1使用vLLM

MichaelIp·2025-02-28 01:04

本地部署 deepseek-r1 1.5B方法-ubuntu20.04 python3.10 pycharm虚拟环境

1.环境安装ubuntu20.04python3.10pycharm虚拟环境2.拉取代码虚拟环境下安装vllm：pipinstallvllmubuntu命令窗口安装sudoaptinstallgit-lfs

Terry Cao 漕河泾·2025-02-27 07:44

vLLM专题（十四）-自动前缀缓存

注意有关vLLM如何实现APC的技术细节，请参阅此处。二、在vLLM中启用APC在vLLM引擎中设置enable_prefix_caching=True以启用APC。

AI专题精讲·2025-02-26 10:02

开源模型应用落地-Qwen1.5-MoE-1/3的激活参数量达到7B模型的性能

但是目前只有HFtransformers和vLLM支持该模型。二、术语介绍2.1.混合专家(MoE)架构是一种机器学习模型的结构设计,它将一个复杂的任务分解成多个相对简单的子任务,

开源技术探险家·2025-02-25 07:55

vllm安装及总结

vllm的安装和使用，对torch、cuda、xformers等有较多的版本依赖，过程中有一些曲折，故整理记录如下。

赫连达·2025-02-23 04:19

什么是语料清洗、预训练、指令微调、强化学习、内容安全；什么是megatron，deepspeed，vllm推理加速框架

什么是语料清洗、预训练、指令微调、强化学习、内容安全目录什么是语料清洗、预训练、指令微调、强化学习、内容安全语料清洗预训练指令微调强化学习内容安全什么是megatron，deepspeed，vllm推理加速框架语料清洗语料清洗是对原始文本数据进行处理的过程

ZhangJiQun&MXP·2025-02-21 19:45

大模型工具大比拼：SGLang、Ollama、VLLM、LLaMA.cpp 如何选择？

本文将深入对比SGLang、Ollama、VLLM和LLaMA.cpp四款热门大模型工具，帮助您找到最契合需求的解决方案！工具概览在开始之前，先简单了解一下这四款工具的特点：SGLang：性能卓越的

X_taiyang18·2025-02-18 23:42

从表征视角看VLLM--总讲（万字专栏，持续更新）

BLIP系列：BLIP1.0、BLIP2.0从表征视角看VLLM（1）——BLIP系列模型-CSDN博客LLAVA系列：LLAVA1.0、LLAVA1.5、LL

仙人球小熊·2025-02-18 19:25

Docker安装分布式vLLM

Docker安装分布式vLLM1介绍vLLM是一个快速且易于使用的LLM推理和服务库，适合用于生产环境。单主机部署会遇到显存不足的问题，因此需要分布式部署。

MasonYyp·2025-02-18 13:49

【vLLM 学习】安装

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-02-16 23:25

使用vllm docker容器部署大语言模型

说明最近deepseek比较火，我在一台4卡4090的服务器上尝试部署了一下，记录下部署步骤。安装过程安卓docker和nvidia-container-toolkit安装19.03版本以上的docker-ce即可。安装步骤参考清华docker源上的安装步骤：DockerCE软件仓库为了在docker中使用够显卡，需要安卓nvidia-container-toolkit。在线安装请参考英伟达的官方

yuanlulu·2025-02-15 05:33

ubuntu系统vllm部署deepseek

配置：8张英伟达H800显卡，硬盘14T，内存2T；本次部署显卡驱动和Miniconda都已安装，所以直接从步骤4的创建虚拟环境开始；nvidia-smi命令查看显卡；1.系统更新和依赖安装#更新系统包sudoaptupdate&&sudoaptupgrade-y#安装基础依赖sudoaptinstall-ybuild-essentialpython3-pipcurlgitwget2.安装NVI

打工乞丐·2025-02-14 20:22

Ollama与Vllm使用对比与优劣

Ollama和vLLM是两个用于优化大型语言模型（LLM）推理的框架，它们在性能、资源利用率、部署复杂性等方面各有优劣。

魔王阿卡纳兹·2025-02-14 08:55

昇腾，Ascend，NPU，mindie，镜像，部署vllm：第4篇，尝试多模态大模型部署（Qwen2-vl）

（当然是在昇腾环境下）提示：需要把这篇文章先看一遍昇腾，mindie，镜像，部署vllm：第2篇，启动mindieservice_daemon服务，支持对Qwen2.5的7B版本的推理提示：本文章的撰写思路是

几道之旅·2025-02-12 10:36

华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版（一）

文章目录`重要提醒：MINDIE镜像已更新版本，官网相关文档直接被删除了，建议直接移步新版`[昇腾，mindie，镜像，部署vllm：第1篇，安装新的docker镜像](https://blog.csdn.net

几道之旅·2025-02-12 10:06

华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版（三）

文章目录`重要提醒：MINDIE镜像已更新版本，官网相关文档直接被删除了，建议直接移步新版`[昇腾，mindie，镜像，部署vllm：第1篇，安装新的docker镜像](https://blog.csdn.net

几道之旅·2025-02-12 10:06

LLM推理优化——PagedAttention初识篇（vLLM初识（二））

LLM推理优化——PagedAttention初识篇（vLLM初识（二））前言在LLM推理优化——KVCache篇（百倍提速）中，我们已经介绍了KVCache技术的原理，从中我们可以知道，KVCache

荼荼灰·2025-02-11 15:44

5分钟在本地PC上使用VLLM快速启动Valdemardi/DeepSeek-R1-Distill-Llama-70B-AWQ

5分钟在本地PC上使用VLLM快速启动Valdemardi/DeepSeek-R1-Distill-Llama-70B-AWQ前言环境准备所需工具创建虚拟环境安装VLLM及依赖库模型下载安装HuggingFaceCLI

engchina·2025-02-11 14:41

vLLM显存优化

在使用vLLM框架进行大模型推理时，为了最大程度地减少GPU显存的占用，可以从以下几个方面调整参数和配置：1.调整max_batch_size参数max_batch_size：这是批处理的最大大小。

xnuscd·2025-02-08 04:07

qwen vllm function_call

以下是基于给定内容编写的关于使用vLLM部署Qwen模型并实现工具调用的教程。教程：使用vLLM部署Qwen模型并实现工具调用前言vLLM是一个高效、易于使用的大型语言模型推理和部署库。

xnuscd·2025-02-08 04:07

【vLLM 学习】使用 CPU 安装

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-02-07 22:51

使用vLLM部署Qwen2.5-VL-7B-Instruct模型的详细指南

使用vLLM部署Qwen2.5-VL-7B-Instruct模型的详细指南引言环境搭建安装vLLM安装依赖库下载模型启动vLLM服务器总结参考引言近年来，随着大规模语言模型（LLM）的快速发展，如何高效地进行模型推理成为了一个热门话题

engchina·2025-02-06 03:40

开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势（一）

一、前言在当今人工智能技术迅猛发展的时代，各类人工智能模型如雨后春笋般不断涌现，其性能的优劣直接影响着应用的广度与深度。从自然语言处理到计算机视觉，从智能安防到医疗诊断，AI模型广泛应用于各个领域，人们对其准确性、稳定性和高效性的期望也与日俱增。在此背景下，DeepSeek模型的出现为行业带来了新的曙光。DeepSeek团队开发的DeepSeek-R1-Distill-Qwen-7B模型，利用蒸馏

开源技术探险家·2025-02-04 05:54

AI大模型部署：Ollama与vLLM部署对比：哪个更合适？

Ollama和vLLM作为两种流行的LLM部署工具，各有优劣。本文将深入比较Ollama和vLLM的部署方式，帮助选择最合适的方案。

大模型部署·2025-02-02 21:11

vLLM源码之分离式架构

一、vLLM分离式架构概述1.基本概念vLLM是一个用于高效地服务大语言模型（LLM）推理的库。其分离式架构是一种创新的设计理念，旨在优化LLM的运行效率。

Bj陈默·2025-01-30 17:38

轻松实现 vLLM Chat：用 LangChain 替代 OpenAI API

vLLM作为开源的语言模型实现，可以部署成一个模拟OpenAIAPI协议的服务器，方便成为应用中的替代方案。

ahdfwcevnhrtds·2025-01-28 21:26

开源模型应用落地-qwen模型小试-调用Qwen2-VL-7B-Instruct-更清晰地看世界-vLLM+Docker（七）

一、前言学习Qwen2-VL，为我们打开了一扇通往先进人工智能技术的大门。让我们能够深入了解当今最前沿的视觉语言模型的工作原理和强大能力。这不仅拓宽了我们的知识视野，更让我们站在科技发展的潮头，紧跟时代的步伐。Qwen2-VL具有卓越的图像和视频理解能力，以及多语言支持等特性。学习它可以提升我们处理复杂视觉信息的能力，无论是在学术研究中分析图像数据、解读视频内容，还是在实际工作中进行文档处理、解决

开源技术探险家·2025-01-27 20:51

【vLLM 学习】使用 OpenVINO 安装

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

HyperAI超神经·2025-01-27 11:21

vLLM-prefix浅析（System Prompt，大模型推理加速）

原文：vLLM-prefix浅析（SystemPrompt，大模型推理加速）简介本文浅析了在大模型推理加速方面一个非常优秀的项目vLLM的一个新特性Prefix。

javastart·2025-01-27 00:06

Qwen1.5：使用VLLM加速推理模型（包含：OpenAI如何调用）

如何安装和配置VLLM库在开始使用VLLM库之前，首先需要确保安装正确的版本。以下指南将帮助你完成安装和配置。安装VLLM库根据你的需求选择合适的版本进行安装。

写bug如流水·2025-01-27 00:06

深入解析vLLM：加速大模型推理的高效框架

深入解析vLLM：加速大模型推理的高效框架引言在现代深度学习应用中，大型语言模型（如GPT、GLM、LLaMA、Qwen等）的推理速度和资源利用率成为关键挑战。

秋声studio·2025-01-27 00:34

【vLLM 学习】使用 OpenVINO 安装

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-01-24 16:08

SGLang安装教程，部署你的大模型，性能比vllm好，实现张量并行，数据并行，加快推理速度，亲测效果好。

目前大模型部署工具主要是vllm，最近出现了SGLang，很多新开源大模型都支持SGLang的部署推理，例如deepseek-R1，Qwen2.5，Mistral，GLM-4，MiniCPM3，InternLM2

张登杰踩·2025-01-23 17:03

构建企业私有RAG大模型: (可商用)Qwen2.5开源模型vLLM部署及示例

在企业真实场景中，开发接口通常需要针对具体需求进行定制化处理，以更好地适配RAG应用系统的实际需求。相关代码后续会以Git仓库的形式分享。本章将继续探讨开源大模型的部署。在RAG系统的架构中，大模型扮演着至关重要的角色，是整个流程的“最后一环”。知识库的构建、检索，以及知识的排序与整合，都是为了为大模型提供准确、完整的上下文知识。这种知识支撑可以显著降低大模型生成过程中的幻觉问题（如生成不可靠或错

小敢摘葡萄·2025-01-22 16:17

极客说｜Phi-4 模型的 4 位量化与 vLLM 高速推理

作者：魏新宇-微软AI全球黑带高级技术专家「极客说」是一档专注AI时代开发者分享的专栏，我们邀请来自微软以及技术社区专家，带来最前沿的技术干货与实践经验。在这里，您将看到深度教程、最佳实践和创新解决方案。关注「极客说」，与行业顶尖专家一起探索科技的无限可能！Phi-4的模型参数量是14B，这使它在推理的时候比较耗费内存。因此如果我们想要在边缘端运行，需要对它进行量化。量化的手段很多，此前也介绍过，

·2025-01-22 16:00

大模型推理：vllm多机多卡分布式本地部署

文章目录1、vLLM分布式部署docker镜像构建通信环境配置2、其他大模型部署工具3、问题记录参考文献单台机器GPU资源不足以执行推理任务时，一个方法是模型蒸馏量化，结果就是会牺牲些效果。

m0_74824755·2025-01-21 08:20

实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）

一、简介VLLM是一种高效的深度学习推理库，通过PagedAttention算法有效管理大语言模型的注意力内存，其特点包括24倍的吞吐提升和3.5倍的TGI性能，无需修改模型结构，专门设计用于加速大规模语言模型

学术菜鸟小晨·2025-01-20 02:50

从零开始的 AI Infra 学习之路

学习之路文章目录从零开始的AIInfra学习之路一、概述二、AI算法应用2.1机器学习2.2深度学习2.3LLM三、AI开发体系3.1编程语言四、AI训练框架&推理引擎4.1PyTorch4.2llama.cpp4.3vLLM

SSS不知-道·2025-01-19 15:15

深入解析 Python 包调用原理与最佳实践

深入解析Pythonimport原理3.1实验一3.2实验二3.3实验三3.4实验四四、循环依赖问题4.1实验五4.2实验六五、动态加载对象六、总结七、参考资料一、引言写下这篇文章的起因，是最近我在参与vLLM

SSS不知-道·2025-01-19 15:15

安装指南：LLaMA Factory、AutoGPTQ 和 vllm

安装指南：LLaMAFactory、AutoGPTQ和vllm在本文中，我们将详细介绍如何安装LLaMAFactory、AutoGPTQ和vllm，这些工具在大型语言模型（LLMs）和视觉语言模型（VLMs

从零开始学习人工智能·2025-01-17 13:05

【vLLM 学习】安装

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-01-17 00:08

使用vllIm部署大语言模型

使用vllm部署大语言模型一般需要以下步骤：一、准备工作1.系统要求-操作系统：常见的Linux发行版（如Ubuntu、CentOS）或Windows（通过WSL）。

添砖JAVA的小墨·2024-09-14 12:18

vllm在线推理踩坑记

最近在《AI大模型全栈工程师》课程里看老师推荐使用vllm部署大模型，优点就不详细介绍了，这里摘抄一段来自于Qwen2上手指南对于它的简单介绍：它易于使用，且具有最先进的服务吞吐量、高效的注意力键值内存管理

懂点投资的码农·2024-09-14 12:14

推荐频道

vllm

基于Ubuntu+vLLM+NVIDIA T4高效部署DeepSeek大模型实战指南

探索vLLM Chat：作为OpenAI API替代方案的强大工具

【模型部署】大模型部署工具对比：SGLang, Ollama, VLLM, LLaMA.cpp如何选择？

【llm对话系统】 LLM 大模型推理python实现：vLLM 框架

Python vLLM 实战应用指南

【vLLM 学习】使用 Neuron 安装

2.9 部署模型-大模型ACP模拟题-真题

通过vLLM部署LLM模型到生产环境中

本地部署 deepseek-r1 1.5B方法-ubuntu20.04 python3.10 pycharm虚拟环境

vLLM专题（十四）-自动前缀缓存

开源模型应用落地-Qwen1.5-MoE-1/3的激活参数量达到7B模型的性能

vllm安装及总结

什么是语料清洗、预训练、指令微调、强化学习、内容安全； 什么是megatron，deepspeed，vllm推理加速框架

大模型工具大比拼：SGLang、Ollama、VLLM、LLaMA.cpp 如何选择？

从表征视角看VLLM--总讲（万字专栏，持续更新）

Docker安装分布式vLLM

【vLLM 学习】安装

使用vllm docker容器部署大语言模型

ubuntu系统vllm部署deepseek

Ollama与Vllm使用对比与优劣

昇腾，Ascend，NPU，mindie，镜像，部署vllm：第4篇，尝试多模态大模型部署（Qwen2-vl）

华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版（一）

华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版（三）

LLM推理优化——PagedAttention初识篇（vLLM初识（二））

5分钟在本地PC上使用VLLM快速启动Valdemardi/DeepSeek-R1-Distill-Llama-70B-AWQ

vLLM显存优化

qwen vllm function_call

【vLLM 学习】使用 CPU 安装

使用vLLM部署Qwen2.5-VL-7B-Instruct模型的详细指南

开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势（一）

AI大模型部署：Ollama与vLLM部署对比：哪个更合适？

vLLM源码之分离式架构

轻松实现 vLLM Chat：用 LangChain 替代 OpenAI API

开源模型应用落地-qwen模型小试-调用Qwen2-VL-7B-Instruct-更清晰地看世界-vLLM+Docker（七）

【vLLM 学习】使用 OpenVINO 安装

vLLM-prefix浅析（System Prompt，大模型推理加速）

Qwen1.5：使用VLLM加速推理模型（包含：OpenAI如何调用）

深入解析vLLM：加速大模型推理的高效框架

【vLLM 学习】使用 OpenVINO 安装

SGLang安装教程，部署你的大模型，性能比vllm好，实现张量并行，数据并行，加快推理速度，亲测效果好。

构建企业私有RAG大模型: (可商用)Qwen2.5开源模型vLLM部署及示例

极客说｜Phi-4 模型的 4 位量化与 vLLM 高速推理

大模型推理：vllm多机多卡分布式本地部署

实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）

从零开始的 AI Infra 学习之路

深入解析 Python 包调用原理与最佳实践

安装指南：LLaMA Factory、AutoGPTQ 和 vllm

【vLLM 学习】安装

使用vllIm部署大语言模型

vllm在线推理踩坑记

什么是语料清洗、预训练、指令微调、强化学习、内容安全；什么是megatron，deepspeed，vllm推理加速框架