llama.cpp 部署 llama-2-7b 测试 Llama 2

首先进入这里
https://github.com/facebookresearch/llama

llama.cpp 部署 llama-2-7b 测试 Llama 2_第1张图片

 点击下载

llama.cpp 部署 llama-2-7b 测试 Llama 2_第2张图片

填写注册信息

llama.cpp 部署 llama-2-7b 测试 Llama 2_第3张图片 接受后继续

llama.cpp 部署 llama-2-7b 测试 Llama 2_第4张图片 上面的按钮点击后,应该邮箱就收到链接了,几乎是很快的

把下面的链接复制后备用,注意24小时后会失效

提前先了解一下有3种模型

7b  13b  70b  

7b就是有70亿参数,文件夹里面有3个文件

其中最大的是模型文件有13G

llama.cpp 部署 llama-2-7b 测试 Llama 2_第5张图片

外面还有分词器清单和分词器模型文件

 如果下载全部的话体积特别大,注意啦354GB

 所以我只下载了7B,它占用磁盘13GB的空间

llama.cpp 部署 llama-2-7b 测试 Llama 2_第6张图片

 我们再把开头的仓库地址复制后克隆

llama.cpp 部署 llama-2-7b 测试 Llama 2_第7张图片

在ubuntu 20.04环境下面克隆llama仓库

git clone https://github.com/facebookresearch/llama.git

llama.cpp 部署 llama-2-7b 测试 Llama 2_第8张图片

 安装python依赖

pip install -e .

llama.cpp 部署 llama-2-7b 测试 Llama 2_第9张图片

 执行download.sh

注意要把刚刚复制的url贴上去

llama.cpp 部署 llama-2-7b 测试 Llama 2_第10张图片

第二步,看看下面帅气的男人,我们要再下载一个仓库啦llama.cpp 部署 llama-2-7b 测试 Llama 2_第11张图片

 就是llama.cpp

llama.cpp 部署 llama-2-7b 测试 Llama 2_第12张图片

执行命令  git clone https://github.com/ggerganov/llama.cpp.git

llama.cpp 部署 llama-2-7b 测试 Llama 2_第13张图片

在里面make -j

llama.cpp 部署 llama-2-7b 测试 Llama 2_第14张图片

 安装python依赖

llama.cpp 部署 llama-2-7b 测试 Llama 2_第15张图片

先在models文件夹里面创建7B的文件夹

 再拷贝模型文件,参考下面的命令   

llama.cpp 部署 llama-2-7b 测试 Llama 2_第16张图片

 使用python3 convert.py models/7B/

将7B模型转换为ggml FP32格式

llama.cpp 部署 llama-2-7b 测试 Llama 2_第17张图片

转换成功后变成了f32.bin文件  (ggml FP16格式)

它的大小是27GB

llama.cpp 部署 llama-2-7b 测试 Llama 2_第18张图片

 将模型量化为 4 位(使用 q4_0 方法)

./quantize ./models/7B/ggml-model-f32.bin ./models/7B/ggml-model-q4_0.bin q4_0

llama.cpp 部署 llama-2-7b 测试 Llama 2_第19张图片

 量化为 4 位之后模型就变小成4G了llama.cpp 部署 llama-2-7b 测试 Llama 2_第20张图片

 最后就可以推理了

./examples/chat.sh

llama.cpp 部署 llama-2-7b 测试 Llama 2_第21张图片

llama.cpp 部署 llama-2-7b 测试 Llama 2_第22张图片

你可能感兴趣的:(llama)