深度学习-81-大语言模型LLM之基于litellm与langchain与ollama启动的模型交互

文章目录

  • 1 LiteLLM
    • 1.1 生成对话补全
    • 1.2 响应格式(OpenAI Format)
    • 1.3 异步调用
    • 1.4 流式生成对话补全
    • 1.5 支持的ollama模型
  • 2 langchain
    • 2.1 LangChain简介
    • 2.2 LangChain架构
    • 2.3 构建简单LLM应用程序(OllamaLLM)
      • 2.3.1 生成对话补全
      • 2.3.2 流式生成对话补全
    • 2.4 聊天模型(ChatOllama)
      • 2.4.1 Invoke调用
      • 2.4.2 stream流式
    • 2.5 简单的LLM链
      • 2.5.1 提示模板
      • 2.5.2 输出解析器
  • 3 参考附录

Ollama是建立在llama.cpp开源推理引擎基础上的大模型推理工具框架,Ollama能够在包括CPU、GPU在内的不同的硬件环境上,运行各种精度的GGUF格式大模型。
可以通过执行一个ollama run命令来运行Hugging Face上4.5万多个GGUF格式大模型,另外也可以直接加载运行ModelScope模型库上的GGUF模型。

GGUF(Georgl Gerganovs Universal Format)是一种专门为大型语言模型(LLM)设计的文件格式,由llama.cpp项目开发。这种格式的主要目标是提高模型的推理速度和优化内存占用,以适应资源受限的设备上部署大型语言模型的需求,它代表了对之前GGML(Georgl Gerganovs Machine Learning)格式的重要升级。

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于LLM推理和服务,可以和HuggingFace无缝集成。

1 LiteLLM

要求python版本3.9及以上。
Call all LLM APIs using the OpenAI format
深度学习-81-大语言模型LLM之基于litellm与langchain与ollama启动的模型交互_第1张图片

你可能感兴趣的:(深度学习,深度学习,语言模型,langchain)