开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(二)

一、术语介绍

    1.1. Gunicorn

        一个用于运行Python Web应用程序的HTTP服务器。它是一个基于UNIX的预叉(pre-fork)服务器,专为在高并发环境中运行Python Web应用程序而设计。

    1.2. Flask

          一个轻量级的 Python Web 框架,用于构建Web应用程序。它被设计成简单易用且灵活的框架,提供了基本的功能和工具,同时保持了扩展性和可定制性。

    1.3. Supervisor

          一个用于进程管理的软件工具,通常用于在 Unix 或类 Unix 系统上监控和管理后台进程。它可以确保被管理的进程在意外退出或崩溃时能够自动重启,以保持系统的稳定性和可靠性。

    1.4. slb

         一种网络均衡服务

    1.5. Postman

        一个流行的API开发工具和协作平台,用于测试、调试和文档化API。它提供了一个用户友好的界面,使开发者能够轻松地构建和发送HTTP请求,并查看和分析服务器的响应。


二、部署架构

开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(二)_第1张图片


三、构建环境

    3.1. gunicorn安装

你可能感兴趣的:(开源大语言模型-实际应用落地,开源,交互)