E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
vLLM
使用
vllm
部署 Nanonets-OCR-s
使用
vLLM
部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型,结合
vLLM
的高效推理引擎可显著提升部署性能。
没刮胡子
·
2025-06-28 23:20
软件开发技术实战专栏
Linux服务器技术
人工智能AI
ocr
python
深度学习
VLLM
:虚拟大型语言模型(Virtual Large Language Model)
VLLM
:虚拟大型语言模型(VirtualLargeLanguageModel)
VLLM
指的是一种基于云计算的大型语言模型的虚拟实现。
大霸王龙
·
2025-06-27 17:57
语言模型
人工智能
自然语言处理
LLM推理入门实践:基于 Hugging Face Transformers 和
vLLM
文章目录1.HuggingFace模型下载2.HuggingFaceTransformers库模型推理3.关于prompt的组成:system、user、assistant4.
vLLM
模型推理
vLLM
的多卡推理踩坑
ctrl A_ctrl C_ctrl V
·
2025-06-27 17:57
#
大模型llm
python
自然语言处理
人工智能
vLLM
(Virtual Large Language Model) 框架:一个开源的高性能推理和服务的框架
vLLM
(VirtualLargeLanguageModel)是一个开源的高性能推理和服务的框架,专为大语言模型(LLM)设计,旨在优化推理速度、内存效率和吞吐量。
彬彬侠
·
2025-06-27 17:54
大模型
vLLM
高性能推理
PagedAttention
python
大模型
开源新王MiniMax -M1
vLLM
本地部署教程:百万级上下文支持成大模型领域新标杆!
一、模型介绍MiniMax-M1是由中国AI公司MiniMax于2025年6月17日推出的全球首个开源大规模混合架构推理模型,凭借其百万级上下文支持、超高效计算性能和突破性成本表现,成为大模型领域的新标杆。MiniMax-M1型号可以在配备8个H800或8个H20GPU的单个服务器上高效运行。在硬件配置方面,配备8个H800GPU的服务器可以处理多达200万个令牌的上下文输入,而配备8个H20GP
算家计算
·
2025-06-27 07:17
模型构建
开源
人工智能
MiniMax-M1
模型部署教程
算家云
【
vLLM
学习】Disaggregated Prefill
vLLM
是一款专为大语言模型推理加速而设计的框架,实现了KV缓存内存几乎零浪费,解决了内存管理瓶颈问题。
·
2025-06-25 16:27
vllm
docker容器部署大语言模型
什么是
VLLM
?
VLLM
(VeryLargeLanguageModelInference)是一个高性能、优化显存管理的大模型推理引擎。
zhangxiangweide
·
2025-06-25 07:15
docker
语言模型
容器
vllm
创建
vllm
的docker镜像和容器
dockerrun-dit--gpusall--ipc=host--namevLLM-p3001:80-v/mnt/d0/checkpoints:/modelspython:3.11在新建的容器内部安装
vllm
zhangxiangweide
·
2025-06-25 07:15
docker
容器
运维
vLLM
专题(十三)-结构化输出(Structured Outputs)
vLLM
支持使用outlines、lm-format-enforcer或xgrammar作为引导解码的后端来生成结构化输出。本文档展示了一些可用于生成结构化输出的不同选项示例。
AI专题精讲
·
2025-06-23 05:59
大模型专题系列
人工智能
大模型系列——
VLLM
部署 当前最火大模型llama4
大模型——
VLLM
部署当前最火大模型llama4最近llama4火车圈了,不愧是大模型界的当红炸子鸡,号称宇宙最强大模型,这里我们快速尝鲜,看看怎么快速部署,首先我们需要知道当前的llama4是没有办法用
猫猫姐
·
2025-06-22 22:41
大模型
人工智能
大模型
llama4
如何用cURL测试Ollama和
vLLM
的大模型服务运行状态
在部署大模型服务(如Ollama或
vLLM
)后,快速验证服务是否正常运行至关重要。cURL作为轻量级命令行工具,能直接发送HTTP请求到模型API,通过解析响应确认服务状态,无需编写额外代码。
Ven%
·
2025-06-21 09:16
简单说深度学习
网络
人工智能
神经网络
python
ollama
vllm
DeepSeek 大型 MoE 模型大规模部署压测学习
DeployingDeepSeekwithPDDisaggregationandLarge-ScaleExpertParallelismon96 H100GPUs》的中文总结,以及对您提到的几个术语(MLA、MoE、SGLang、
VLLM
andyguo
·
2025-06-18 12:14
学习
✨零基础手把手|Docker+
vLLM
极速部署OpenAI风格API:5分钟4卡GPU推理+避坑指南+完整镜像配置
查看镜像列表dockerimages#列出本地所有镜像二、镜像与容器操作镜像打包为.tar文件dockersave-o#将镜像导出为.tar文件#示例:dockersave-omy_image.tarvllm/
vllm
-openai
·
2025-06-17 18:16
Ollama vs.
vLLM
Ollama和
vLLM
并非竞争关系,而是满足不同需求的互补工具。Ollama极大地降低了大众接触和使用大模型的门槛,而
vLLM
则为严肃的、规模化的AI应用提供了坚实的性能基石。
frostmelody
·
2025-06-16 23:37
人工智能
深入探究 Python 领域
vllm
的核心功能_副本
深入探究Python领域
vLLM
的核心功能:让大模型推理像高铁一样高效关键词:
vLLM
、大语言模型推理、PagedAttention、连续批处理、GPU优化摘要:大语言模型(LLM)的推理效率一直是工业落地的
Python编程之道
·
2025-06-16 22:58
Python人工智能与大数据
Python编程之道
python
人工智能
开发语言
ai
speculative decoding: SpecInfer
speculativedecodinglookhead机制一、SpecInfer提出前的一些问题串行依赖:传统自回归解码必须逐token生成,GPU利用率不足30%内存墙:KV缓存占用显存,长文本场景下并发请求数锐减现有方案(如
vLLM
Jay Kay
·
2025-06-14 12:29
人工智能
自然语言处理
大模型推理
一文搞定离线环境下的RAG引擎部署
如何在这种严苛的环境下,完整、可靠地部署一套包含向量数据库、**高性能推理服务(
vLLM
)**和Python后台的复杂RAG系统呢?本文将为你提供
木鱼时刻
·
2025-06-14 08:05
大模型
python
人工智能
✨如何在
vLLM
中取消 Qwen3 的 Thinking 模式
如何在
vLLM
中取消Qwen3的Thinking模式在使用Qwen3模型与
vLLM
(VeryLargeLanguageModel)进行推理服务时,你可能会发现模型默认会输出类似“我正在思考……”的提示内容
杨靳言先
·
2025-06-14 00:15
人工智能
python
chatgpt
自然语言处理
pytorch
【
vLLM
学习】Data Parallel
vLLM
是一款专为大语言模型推理加速而设计的框架,实现了KV缓存内存几乎零浪费,解决了内存管理瓶颈问题。
·
2025-06-13 12:26
Python调用大模型LLM时,借用局域网内的算力
以下是具体实现方案及步骤:一、基础环境配置统一部署模型服务在每台局域网设备上部署大模型服务(如Ollama、
vLLM
等),并开放API接口。
Alex艾力的IT数字空间
·
2025-06-09 15:53
AI干中学~边实践边升级
python
开发语言
数据结构
中间件
架构
自然语言处理
数据分析
qwen3使用
VLLM
启动:
vllm
docker运行命令
1.停止大模型dockerstopvllm-qwen3-32b&&dockerrmvllm-qwen3-32b2.启动大模型dockerrun-d--gpusall--restartunless-stopped--networkmy_network--namevllm-qwen3-32b--shm-size=16g-v/home
Ven%
·
2025-06-08 08:12
简单说深度学习
docker
容器
运维
vllm
qwen3
架构师炼丹炉 | 大语言模型引擎全解析:Transformers、
vLLM
、Llama.cpp、SGLang、MLX 和 Ollama
原文链接:大语言模型引擎全解析:Transformers、
vLLM
、Llama.cpp、SGLang、MLX和Ollama本文将带你深入了解Transformers、
vLLM
、Llama.cpp、SGLang
双木的木
·
2025-06-07 18:39
Transformer专栏
深度学习拓展阅读
语言模型
人工智能
自然语言处理
transformer
llama
算法
chatgpt
五大主流大模型推理引擎深度解析:llama.cpp、
vLLM
、SGLang、DeepSpeed和Unsloth的终极选择指南
在人工智能的竞技场上,大模型推理框架就像是为超级跑车精心调校的引擎系统——选对了能让你的AI应用一骑绝尘,选错了可能连"停车场"都开不出去。这些框架的核心价值在于将训练好的"大脑"转化为实际可用的"肌肉记忆",而选择标准则需要像职业赛车手挑选装备般精准。在人工智能的竞技场上,大模型推理框架就像是为超级跑车精心调校的引擎系统——选对了能让你的AI应用一骑绝尘,选错了可能连"停车场"都开不出去。这些框
我就是全世界
·
2025-06-07 18:37
llama
python
大模型
人工智能
【AI】大语言模型引擎全解析:Transformers、
vLLM
、Llama.cpp、SGLang、MLX 和 Ollama,最佳选择?
本文将带你深入了解Transformers、
vLLM
、Llama.cpp、SGLang、MLX和Ollama这些引擎,帮助你找到最适合的工具,释放大语言模型的全部潜力!作为技术人员,不仅
厦门德仔
·
2025-06-07 12:02
AI
人工智能
语言模型
llama
全面掌握
vLLM
Serve:高性能 OpenAI API 兼容推理服务部署实战指南
vLLM
是一款专为高效推理设计的推理引擎,支持OpenAIAPI接口,具备极强的批处理能力和优秀的内存管理性能。一、什么是vLLMServe?
@程序员小袁
·
2025-06-05 19:16
开源项目
大模型
AI
人工智能
vllm
大模型
DeepSeek-R1-0528-Qwen3-8B为底座微调领域大模型准备:制作领域专用数据集
制作领域专用数据集这里制作的数据集格式为使用的aphaca格式的1.启动
vllm
服务python-mvllm.entrypoints.openai.api_server\--modelyour-model-path
Ven%
·
2025-06-05 17:33
简单说深度学习
微调
微调大模型
微调领域大模型
deepseek微调
数据集准备
【大模型入门指南 10】大模型推理部署:
vLLM
和llama.cpp
【大模型入门指南】系列文章:【大模型入门指南01】深度学习入门【大模型入门指南02】LLM大模型基础知识【大模型入门指南03】提示词工程【大模型入门指南04】Transformer结构【大模型入门指南05】LLM技术选型【大模型入门指南06】LLM数据预处理【大模型入门指南07】量化技术解析【大模型入门指南08】微调和分布式训练【大模型入门指南09】LLM和多模态模型高效推理实践【大模型入门指南1
青松ᵃⁱ
·
2025-06-05 06:18
LLM入门系列
llama
vLLM
vs Ollama
一、介绍
vLLM
:
VLLM
(超大型语言模型)是SKYPILOT开发的推理优化框架,主要用于提升大语言模型在GPU上的运行效率。
iranw
·
2025-06-04 22:49
人工智能
# 使用 Micromamba 安装
vLLM
并运行最小模型(facebook/opt-125m)
️环境准备系统:UbuntuPython版本:3.10包管理器:MicromambaGPU:NVIDIA(CUDA支持)创建环境并安装
vLLM
#创建micromamba环境micromambacreate-nvllmpython
老大白菜
·
2025-06-03 22:14
机器学习
人工智能
python
python
Python 领域
vllm
流式推理实现原理
Python领域
vllm
流式推理实现原理关键词:
vllm
、流式推理、大语言模型、推理优化、Python实现、KV缓存、注意力机制摘要:本文深入探讨了
vllm
(VectorizedLargeLanguageModel
Python编程之道
·
2025-06-02 11:05
python
开发语言
ai
ImportError: /usr/local/app/.local/lib/python3.10/site-packages/flash_attn_2_cuda.cpython-310-x86_64
情况描述环境:linuxtransformers4.39.0tokenizers0.15.2torch2.1.2+cu121flash-attn2.3.3在使用
vllm
运行xverse/XVERSE-13B
Cyril_KI
·
2025-06-02 11:03
LLM
llm
qwen
flash-attn
【大模型】情绪对话模型项目研发
一、使用框架:Qwen大模型后端+Open-webui前端实现使用LLamaFactory的STF微调数据集,
vllm
后端部署,二、框架安装下载千问大模型安装魔塔社区库文件pipinstall modelscopeDownload.py
SSH_5523
·
2025-05-31 14:16
大模型
python
语言模型
人工智能
通过
vllm
部署qwen3大模型以及基于
vLLM
的 OpenAI 兼容 API 接口调用方法总结
一,通过
vllm
部署qwen3模型。
Gq.xxu
·
2025-05-25 01:54
网络
linux
运维
llama
ai
人工智能
Vllm
框架入门及本地私有化部署
企业级大模型部署推理管理工具Part1.
Vllm
框架基础入门与本地私有化部署一、大模型部署框架的核心需求与主流方案对开源大模型而言,即使模型权重开源,仍需依赖框架实现运行与推理。
Zhong Yang
·
2025-05-22 20:28
Vllm部署框架
SGLang和
vllm
比有什么优势?
环境:SGLangvllm问题描述:SGLang和
vllm
比有什么优势?解决方案:SGLang和
vLLM
都是在大语言模型(LLM)推理和部署领域的开源项目或框架,它们各自有不同的设计目标和优势。
玩人工智能的辣条哥
·
2025-05-22 05:21
人工智能
大模型
推理框架
vllm
SGLang
JAVA请求
vllm
的api服务报错Unsupported upgrade request、 Invalid HTTP request received.
环境:
vllm
0.8.5java17Qwen3-32B-FP8问题描述:JAVA请求
vllm
的api服务报错Unsupportedupgraderequest、InvalidHTTPrequestreceived.WARNING
玩人工智能的辣条哥
·
2025-05-22 05:20
人工智能
JAVA
java
http
开发语言
vllm
Qwen3-32B-FP8
SGLang、Ollama、
vLLM
和LLaMA.cpp推理框架的对比及选型建议
SGLang、Ollama、
vLLM
和LLaMA.cpp推理框架的对比及选型建议一、核心维度对比二、多维度对比一览表三、选型建议SGLang、Ollama、
vLLM
和LLaMA.cpp四个大模型推理框架的对比及选型建议
看今朝·
·
2025-05-20 12:21
大模型工程化研究
llama
大模型
语言模型
推理
讨论:单张4090能运行的最强开源大模型?
对于运行大型模型的最佳推理引擎,并非是llama.cpp或
vllm
,而是闲鱼。如果你考虑将4090显卡出售,无论换成哪种显卡,其性
斯文by累
·
2025-05-19 17:42
AIGC
llama
人工智能
语言模型
ai
Python 领域
vllm
文本摘要功能实现
Python领域
vllm
文本摘要功能实现关键词:
vllm
、文本摘要、Python、自然语言处理、大语言模型、推理优化、量化技术摘要:本文深入探讨了如何使用
vllm
框架实现高效的文本摘要功能。
Python编程之道
·
2025-05-19 10:31
python
开发语言
ai
p40上编译
vllm
0.8.6
目录前言编译内容前言编译内容(/data1/ai-llm/env/my-
vllm
-gpu)[root@localhostvllm-gpu]#TORCH_CUDA_ARCH_LIST="6.1;7.0;8.0
tianjun2012
·
2025-05-19 02:37
机器学习
项目构建
python
python
人工智能
vLLM
- 控制生成过程中返回对数概率信息 logprobs的输出和解释
vLLM
-控制生成过程中返回对数概率信息logprobs的输出和解释flyfish在
vLLM
的代码中,logprobs是一个控制生成过程中返回对数概率信息的参数。
二分掌柜的
·
2025-05-18 16:32
大模型
vLLM
DeepSeek HuggingFace 70B Llama 版本 (DeepSeek-R1-Distill-Llama-70B)
简简单单Onlinezuozuo:本心、输入输出、结果文章目录DeepSeekHuggingFace70BLlama版本(DeepSeek-R1-Distill-Llama-70B)前言
vllm
方式在本地部署
简简单单OnlineZuozuo
·
2025-05-17 14:22
m1
Python
领域
m4
杂项
llama
DeepSeek
DeepSeek
R1
DeepSeek
V3
Ollama
大型语言模型(LLM)推理框架的全面分析与选型指南(2025年版)
为帮助读者在繁多的框架中做出明智选择,本文将深入分析主流推理框架(如XInference、LiteLLM、LMDeploy、SGLang、
vLLM
等)的功能特性、性能表现、易用性及适用场景。
和老莫一起学AI
·
2025-05-16 15:12
语言模型
人工智能
自然语言处理
神经网络
ai
大模型
学习
VLLM
快速部署大模型 单卡/多卡
本人之前试过Xinference和Ollama,这两个遇到了因为其他软件不兼容或者无安装软件权限导致安装失败,
vllm
是python包,不需要安装软件所以更方便。
the_3rd_bomb
·
2025-05-12 13:04
python
开发语言
开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-
vLLM
-Docker(二)
Qwen3-8B作为阿里云推出的混合推理模型,凭借80亿参数规模与128K超长上下文支持,展现了“快思考”与“慢思考”的协同能力,而
vLLM
框架则通过优化内存管理与并行计算,显著提升推理吞吐量。
开源技术探险家
·
2025-05-10 09:29
开源模型-实际应用落地
#
#
深度学习
自然语言处理
语言模型
开源
【
vLLM
学习】Audio Language
vLLM
是一款专为大语言模型推理加速而设计的框架,实现了KV缓存内存几乎零浪费,解决了内存管理瓶颈问题。
·
2025-05-09 21:44
人工智能深度学习机器学习算法
Ubuntu 单机多卡部署脚本:
vLLM
+ DeepSeek 70B
#部署脚本:Ubuntu+
vLLM
+DeepSeek70B#执行前请确保:1.系统为Ubuntu20.04/22.042.拥有NVIDIA显卡(显存≥24G)#保存两个文件1init.sh初始化2、test.sh
谢平康
·
2025-05-08 23:14
ai
gpu算力
vllm
AI压力测试
Deep
deepseek
大模型之大模型压缩(量化、剪枝、蒸馏、低秩分解),推理(
vllm
)
目录前言一、模型量化(quantization)1.量化概念2.模型量化优点3.什么情况下应该/不应该使用模型量化4.落地挑战5.量化方法5.1量化训练(QuantAwareTraining,QAT)原理[伪量化节点(fakequant)](https://blog.csdn.net/qq_51175703/article/details/138320834?spm=1001.2014.3001.
大模型八哥
·
2025-05-08 01:22
剪枝
算法
机器学习
人工智能
agi
ai
大模型
错误信息 ModuleNotFoundError: No module named ‘
vllm
._C‘解决方法(windows下暂未找到解决办法,待补充)
根据错误信息ModuleNotFoundError:Nomodulenamed'
vllm
._C'和你的环境日志,以下是分步骤解决方案:1.核心问题诊断
vllm
.
老兵发新帖
·
2025-05-07 13:09
windows
【语音识别】
vLLM
部署 Whisper 语音识别模型指南
本文将详细介绍如何使用
vLLM
(一个高效的大模型推理和服务框架)来部署Whisper-large-v3-turbo模型,构建一个可扩展的语音识别API服务。
vLLM
是专为大规模语言模型推理优
Encarta1993
·
2025-05-01 12:58
语音
语音识别
whisper
人工智能
上一页
1
2
3
4
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他