如何将HuggingFace 格式的模型文件转换成GGUF 并使用ollama运行

模型文件微调时只能使用HuggingFace格式的文件,微调完成后如果想使用ollama进行统一运行,则需要将HuggingFace格式的文件转换成GGUF格式,之后再进一步使用GGUF格式的文件和ollama的Model File完成ollama模型文件的加载。

第一部分:将HuggingFace文件转换成GGUF文件。

一、从国内开源平台gitee,下载llama.cpp的zip文件。

二、解压缩zip文件,进入llama.cpp主目录。

三、部署llama.cpp的运行环境,我的做法是重新构建了一个conda环境,命令为llama_cpp_env,进入新建的环境中,目录切换到llama.cpp主目录,使用命令安装需要的库文件。

pip install -r requirements.txt

四、环境部署完成后,就可以运行文件转换的命令。

QWen2.5-7B-Instruct_lora_sft文件是我微调后的文件夹名称,放到llama.cpp的主目录中,

QWen2.5-7B-Instruct_lora_sft_f16.gguf为转化后的文件名称,也是放到了llama.cpp的主目录中。

# 如果不量化,保留模型的效果
python convert_hf_to_gguf.py ./qwen2.5-7b-lora  --outtype f16 --verbose --outfile QWen2.5-7B-lora.gguf
# 如果需要量化(加速并有损效果),直接执行下面脚本就可以
python convert_hf_to_gguf.py ./QWen2.5-7B-Instruct_lora_sft  --outtype q8_0 --verbose --outfile QWen2.5-7B-Instruct_lo

你可能感兴趣的:(大语言模型,人工智能)