【Llama2 windows部署详细教程】第三节 Llama2 跑起来

        前面两节主要介绍了基础环境的准备,借下来就是对Llam2模型进行量化并运行起来,这个过程在实际的部署过程中也很容易出现问题。具体的部署如下:

【Llama2 windows部署详细教程】第三节 Llama2 跑起来_第1张图片

        一、下载模型

        目前大模型主要发布在Hugging Face上提供下载,无法在上面下载的小伙伴可以在国内的ModelScope网站上下载,模型文件比较大,下载过程中需要确保网络顺畅,下载方式如下:

git clone https://www.modelscope.cn/shakechen/Llama-2-7b.git

下载下来的模型文件如下:

【Llama2 windows部署详细教程】第三节 Llama2 跑起来_第2张图片

        二、模型量化

        为确保模型能够顺利在windows上运行,需要通过llama.cpp对模型进行量化,这里采用4bit量化的方式。

        1.复制模型到新的文件夹        

将模型复制一份,主要是为了不影像下载的模型文件。

        2.安装模型依赖

        CMD 命令cd到llama.cpp的根目录,然后执行python安装依赖包的命令:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

        3.转换成hungingface可以识别的文件

        这一步非常重要,很多小伙伴在做模型量化的时候,可能会出现缺少config.json的错误提示,这一步通过转换为hungingface可以识别的文件后,才能通过llama.cpp进行量化。具体如下:

python D:\Anaconda3\envs\llm\Lib\site-packages\transformers\models\llama\convert_llama_weights_to_hf.py --input_dir C:\work\llm\Llama-2-7b --model_size 7B  --output_dir C:\work\llm\7b-4bit

这里是通过 transformers的 convert_llama_weights_to_hf.py进行转换的,这个依赖模块是上述第二步进行安装的,只要找到安装成功后的目录,就可以找到这个文件。“C:\work\llm\Llama-2-7b”这个目录为下载的模型文件的原始目录,“C:\work\llm\7b-4bit”这个目录为新建的保存量化后的模型文件目录。

        4.安装accelerate模块

         在执行量化操作后可能会提示缺少accelerate模块,安装这个模块即可解决:

pip install accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

        5.模型转换

       同样CMD命令行cd到llama.cpp根目录,执行以下命令:

python convert.py C:\work\llm\7b-4bit

转换成功后的效果如下:

【Llama2 windows部署详细教程】第三节 Llama2 跑起来_第3张图片

        6.模型量化

        转换成功后,即可开始对模型文件进行量化。执行如下命令:

quantize.exe C:\work\llm\7b-4bit\ggml-model-f16.gguf  C:\work\llm\7b-4bit\ggml-model-q4_0.gguf q4_0

  量化成功后效果如下:      

【Llama2 windows部署详细教程】第三节 Llama2 跑起来_第4张图片

三、模型推理

模型量化成功后,即可开始推模型进行推理。本步骤同样需要在llama.cpp根目录下进行操作。

main.exe -m C:\work\llm\7b-4bit\ggml-model-q4_0.gguf --prompt "what is the weathermain.exe -m C:\work\llm\7b-4bit\ggml-model-q4_0.gguf --prompt "what is the weather today?" s the weather today?"

如果顺利出现以下内容,则表示正式运行成功。

【Llama2 windows部署详细教程】第三节 Llama2 跑起来_第5张图片

以上就是完整的步骤,小伙伴们可以动手尝试一下,如果出现问题可以在评论区交流! 

你可能感兴趣的:(windows,llama,python,AI编程,人工智能,自然语言处理)