ChatGLM-6B 的部署与微调以及过程中涉及知识总结(7.26更新)

最近因为工作关系,接触到ChatGLM-6B,自己部署做了一些测试。
参考了网上很多优秀的资料,在此基础上,补充一些自己实践中发现的细节。

部署内容部分绝大部分来自:https://zhuanlan.zhihu.com/p/627168140
微调部分借鉴:https://zhuanlan.zhihu.com/p/625468667
细节问题参考:https://zhuanlan.zhihu.com/p/624918286
感谢作者分享,置顶推荐!!

一些知识扫盲(本人作为一个小白在学习过程中感觉需要了解的基础知识大部分文章上来就说怎么干,没说为什么,有些碎片化,不成体系,大家见谅):

预训练模型的特点:

使用大型数据集做训练,已经具备了提取浅层基础特征和深层抽象特征的能力
大模型(卷积神经网络)的核心:
1)浅层卷积层提取基础特征:比如边缘、轮廓等基础特征
2)深层卷积层提取抽象特征:比如整个脸型
3)全连接层根据特征组合进行评分评估

为什么做微调:

相对于从头训练可能带来问题:
1.需要大量数据、计算时间、计算资源
2.训练后模型不收敛,参数不够优化,准确度低,模型泛化程度低,容易过拟合(说白了就是自己训练完还不如原版)
微调后:
可以在确保原有模型能力的基础上,优化针对特定问题的求解结果

在什么情况下使用微调

1.要使用的数据集与预训练的数据集相似,如果不太相似,效果就没那么好了(比如预训练数据集是自然景物的图片,自己要做人脸识别,因数据提取特征就是不同,所以相应参数也大不相同,微调起不到效果)
2.自己搭建或使用的模型,正确率太低,自己能收集到数据集太小,或计算资源不足
因此在微调实践中,经常是用较少的数据进行训练(即反向传播)

RLHF 训练流程

1.SFT(Supervised Fine-Tuning):使用精选的人类回答来微调预训练的语言模型以应对各种查询(query),有监督微调,数据格式:[{“prompt”:“xxxxx”,“answer”:“yyyyyy”},{“prompt”:“xxxxx”,“answer”:“yyyyyy”},…]

2.RM (Reward Model):奖励模型,使用一个包含人类对同一查询(query)的多个答案打分的数据集来训练一个独立的(通常比 SFT 小的)奖励模型(RW),数据格式:1个相同问题,有多组答案
[
{“prompt”:“xxxxx”,“answer”:“yyyyyy1”,score:-1.0}
{“prompt”:“xxxxx”,“answer”:“yyyyyy2”,score:5.0}
{“prompt”:“xxxxx”,“answer”:“yyyyyy3”,score:8.0}

]

3.RL(Reinforcement Learning):强化学习,利用 Proximal Policy Optimization(PPO)算法,根据 RW 模型的奖励反馈进一步微调 SFT 模型。数据格式:也是一问一答跟SFT类似
参考资料:
第一阶段: 有监督的微调 (SFT)
第二阶段: 奖励模型微调
第三阶段: 人工反馈强化学习 (RLHF)
DeepSpeed Chat 训练详细说明

微调数据举例

{
    "instruction": "你现在是一个很厉害的阅读理解器,找到句子中的三元组信息并输出成json给我。",
    "input": "九玄珠是在纵横中文网连载的一部小说,作者是龙马。",
    "target": "```json\n[{\"predicate\": \"连载网站\", \"object_type\": \"网站\", \"subject_type\": \"网络小说\", \"object\": \"纵横中文网\", \"subject\": \"九玄珠\"}, {\"predicate\": \"作者\", \"object_type\": \"人物\", \"subject_type\": \"图书作品\", \"object\": \"龙马\", \"subject\": \"九玄珠\"}]\n```"
}
{
    "prompt": "Instruction: 你现在是一个很厉害的阅读理解器,找到句子中的三元组信息并输出成json给我:。\nInput: 九玄珠是在纵横中文网连载的一部小说,作者是龙马。\nAnswer: ", 
    "answer": "```json\n[{\"predicate\": \"连载网站\", \"object_type\": \"网站\", \"subject_type\": \"网络小说\", \"object\": \"纵横中文网\", \"subject\": \"九玄珠\"}, {\"predicate\": \"作者\", \"object_type\": \"人物\", \"subject_type\": \"图书作品\", \"object\": \"龙马\", \"subject\": \"九玄珠\"}]\n```"
}

Instruction:存放我们希望模型做的任务的指令
Input:存放我们喂给模型的任务数据
Target:存放模型的输出标签
一问一答的格式将Instruction 与 Input整合

微调过程过程一些注意事项

1.一般来说微调过程会冻结预训练模型的前几层,只调整最后一层网络,如果微调数据集足够大,可以适当加大调整的网络层数
2.使用较小的学习率训练网络,通常做法是微调的初试学习率比从头训练的初始学习率低10倍,就ChatGLM来说网上看到有人推荐使用lr(learning_rate 学习率)=2e-5或者更小
3.小样本(100条)微调,建议 num_train_epochs(最大迭代轮数) =20 才能稳定拟合任务要求
百度文心千帆推荐:100条数据时, Epoch为15,1000条数据时, Epoch为10,10000条数据时, Epoch为2。

2.微调数据集到底要多大合适,网上看了很多,都说要看具体情况选择数量(说的很对,然而没有任何帮助),具体一点的建议找到几条:
1)如果预训练和微调任务的数据分布是否一致;分布一致,100条就够,分布差异大就需要多些数据,千条或者万条以上为佳
2)应该选择多个有代表性的任务,每个任务实例数量不应太多(比如:数百个)否则可能会潜在地导致过拟合问题并影响模型性能 。同时,应该平衡不同任务的比例,并且限制整个数据集的容量(通常几千或几万),防止较大的数据集压倒整个分布。
综上所述,微调训练集单任务 几百条足够了,整体样本数不宜超过数万

3.微调不适合做的事情
最好不要期望通过微调注入新知识,因为微调数据集跟预训练数据集的数量差距巨大。以灌注领域知识的目的通过SFT去做微调容易把模型"弄傻"

数据集分类

分为训练集、验证集、测试集
如果当数据量不是很大的时候(万级别以下)的时候将训练集、验证集以及测试集划分为6:2:2;若是数据很大,可以将训练集、验证集、测试集比例调整为98:1:1;但是当可用的数据很少的情况下也可以使用一些高级的方法,比如留出方,K折交叉验证等。

输入数据可以无限长么

这里引用苏神(RoPE作者)在群里的回复。

限制在训练数据。理论上rope的llama可以处理无限长度,但问题是太长了效果不好啊,没训练过的长度效果通常不好。而想办法让没训练过的长度效果好,这个问题就叫做“长度外推性”问题。

所以接受2k的长度限制吧,长度越大训练资源占用,时间越长, ChatGLM最大限制2048
最新的 ChatGLM2 已经支持到32K,赞一个,真给力!!
如果非要支持输入超长文本,可以考虑 LangChain + ChatGLM-6B 来解决
本质就是通过LangChain 的mapreduce功能对长文本分片处理再聚合,具体我还没有研究,不过网上有示例
ChatGLM-6B + LangChain 实践

一些名词解释

RLHF :依据人类反馈的强化学习方式

LoRA :低秩自适应(一种微调模型的方案),它冻结预训练的模型权重,并将可训练的秩分解矩阵注入Transformer架构的每一层与之并行,从而大大减少了下游任务的可训练参数数量。微调就是一种LoRA

anaconda3:一个虚拟环境管理工具,用于在本地部署多个AI运行环境以避免冲突

ChatGLM-6B 部署

下载源码

git clone https://github.com/THUDM/ChatGLM-6B

git源加速

这里可能会卡,可以提前在命令行设置git学术资源加速
执行下面2条命令,设置git学术资源加速

git config --global http.proxy socks5h://172.16.16.39:8443
git config --global https.proxy socks5h://172.16.16.39:8443

后面的步骤中再执行git clone命令就不会卡住了。

要取消git学术加速也简单,执行下面的命令(所有步骤执行完后再取消哦~)
取消git学术资源加速

git config --global --unset https.proxy
git config --global --unset http.proxy

安装依赖

其中 transformers 库版本推荐为 4.27.1,但理论上不低于 4.23.1 即可

cd ChatGLM-6B
pip install -r requirements.txt

下载模型

这里我将下载的模型文件放到了本地的 chatglm-6b 目录下

git clone https://huggingface.co/THUDM/chatglm-6b /mnt/workspace/chatglm-6b(目录可以调整为自己本地的目录)

参数调整

因为前面改了模型默认下载地址,所以这里需要改下路径参数,加载本地模型
分别修改 web_demo.py、cli_demo.py、api.py 文件(在 ChatGLM-6B 下)

tokenizer = AutoTokenizer.from_pretrained("/mnt/workspace/chatglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("/mnt/workspace/chatglm-6b", trust_remote_code=True).half().cuda()

如果想要暴露在公网上,需要修改 web_demo.py 文件

demo.queue().launch(share=True, inbrowser=True, server_name='0.0.0.0', server_port=7860)

Web 模式启动

pip install gradio
python web_demo.py

API 模式启动

pip install fastapi uvicorn
python api.py

测试命令

curl -X POST "http://127.0.0.1:8000" -H 'Content-Type: application/json' -d '{"prompt": "你好", "history": []}'

命令行模式启动

python cli_demo.py

以上是 FP16(无量化)精度,INT8 与 INT4 精度的量化加载方式可以参考 Github README

基于 P-Tuning 微调 ChatGLM-6B

禁用 W&B

禁用 W&B,如果不禁用可能会中断微调训练,以防万一,还是禁了吧
transformers 4.12.5 版本使用的环境变量,在5.x版本中已经弃用

export WANDB_DISABLED=true

#### 准备数据集
格式:json key值可以自定义,多条数据直接换行,而不是组成json数组
```bash
{
    "content": "类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳",
    "summary": "这件衬衫的款式非常的宽松,利落的线条可以很好的隐藏身材上的小缺点,穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳,漂亮的绳结展现出了十足的个性,配合时尚的泡泡袖型,尽显女性甜美可爱的气息。"
}

需要准备三个数据集:即上面提到的训练集、验证集、测试集,样本不能重复,比例按照上面说的即可
PS:这里可能还会需要做一些泛化,交叉处理,不顾我还没琢磨明白。。。

修改 train.sh 和 evaluate.sh 中的 train_file、validation_file和test_file为你自己的 JSON 格式数据集路径,并将 prompt_column 和 response_column 改为 JSON 文件中输入文本和输出文本对应的 KEY。可能还需要增大 max_source_length 和 max_target_length 来匹配你自己的数据集中的最大输入输出长度。

P-Tuning-v2 方法会冻结全部的模型参数,可通过调整 quantization_bit 来被原始模型的量化等级,不加此选项则为 FP16 精度加载。训练前先备份原始预训练模型,省的训练失败还得重新下载

具体安装训练过程直接看官方文档即可:https://github.com/THUDM/ChatGLM-6B/tree/main/ptuning

微调过程中遇到的问题

cuda内存溢出

OutOfMemoryError: CUDA out of memory. Tried to allocate 5.16 GiB (GPU 0; 22.20 GiB total capacity; 15.09 GiB already allocated; 5.14 GiB free; 16.02 GiB reserved in
total by PyTorch)If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and
PYTORCH_CUDA_ALLOC_CONF

1.先尝试修改 环境变量的值,PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:$size
这个size可以设置为比 Tried to allocate 5.16 GiB 这个值小的一个2进制值(单位为MB),比如这里我们可以设置为:5120,这样可以降低内存碎片带来的损耗,能稍微提高一点内存可用率
具体方法可以修改train.sh 以及 evaluate.sh
在触发运行main.py 之前执行

export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:xxxx

原理参考:https://blog.csdn.net/MirageTanker/article/details/127998036

2.修改train.sh,evaluate.sh中的训练参数值

--max_source_length xxxx
--max_target_length xxxx

3.降低精度用8bit或4bit执行

降低训练时间(会影响训练效果)

1.如果非要要缩减训练时间,最直接办法是调整trian.sh中的训练参数值

 --max_steps 3000 \
 --save_steps 1000 \

只要减少训练步数,训练时间就会等比例减少,并且max_source_length 、max_target_length 也会影响训练所需要的时间,调整样本数量反而影响不大(除非降低数量级)

2.微调参数与运行参数要保持一致
微调过程中如果调整了,PRE_SEQ_LEN 参数,那么再运行微调后模型的时候,也需调整pre_seq_len参数保持长度一致

config = AutoConfig.from_pretrained("/mnt/data/chatglm2-6b", trust_remote_code=True, pre_seq_len=6000)

你可能感兴趣的:(经验记录,深度学习,神经网络,cnn,人工智能,语言模型)