git clone https://github.com/chatchat-space/langchain-ChatGLM.git
cd langchain-ChatGLM
启动webui:如果是ubuntu 可以直接运行命令
python webui.py
启动api接口:如果是ubuntu 可以直接运行命令
python api.py
多卡启动, 在命令前面指定CUDA_VISIBLE_DEVICES=0,1 类似这样 如:
CUDA_VISIBLE_DEVICES=0,1,2,3 python api.py
默认直接运行命令时,第一次将会从huggingface上下载模型,可能遇到网络连接的问题,解决方案如下:
重新运行,因为有断点重连,所以就不停的重新运行直到下完模型权重就行,默认地址为~/.cache/huggingface/hub/models–模型名称
打开huggingface,搜索要下载的模型,在Files and versions中将模型都下载到本地,目录结构为
.
└── 模型文件夹
├── added_tokens.json
├── config.json
├── configuration_codet5p_embedding.py
├── merges.txt
├── modeling_codet5p_embedding.py
├── pytorch_model.bin
├── special_tokens_map.json
├── tokenizer.json
├── tokenizer_config.json
└── vocab.json
然后在langchain-ChatGLM/config/model_config.py 中配置local_model_path 字段为 模型文件夹所在的路径
可以使用fastchat 部署做到 模型和api在不同的服务器(或相同服务器)
参考连接 https://github.com/lm-sys/FastChat/blob/main/docs/openai_api.md#restful-api-server