【官方教程】ChatGLM-6B 微调:P-Tuning,LoRA,Full parameter_哔哩哔哩_bilibili我们详细介绍了GLM的技术背景,以及ChatGLM-6B的微调方案,包括P-tuning、LoRA、Full-Parameter等,并针对提问提供了详细的回复。报告文件下载链接: https://pan.baidu.com/s/1CKS5yBz6-GN_J7UB_wxguw?pwd=g26m 提取码: g26m, 视频播放量 48965、弹幕量 46、点赞数 2068、投硬币枚数 1378、收藏人数 5188、转发人数 883, 视频作者 ChatGLM, 作者简介 让机器像人一样思考,相关视频:ChatGLM 部署完体验,这效果真牛逼!—— 斯坦福大学大模型中心评测,GLM-130B 是亚洲唯一入选的大模型,LangChain + GLM =本地知识库,ChatGLM微调经验分享(基于lora),ChatGLM一站式微调整合包(基于lora),演示ChatGLM-6B加载本地知识库精确回答财税问题,Vicuna大语言模型部署 - 手把手教你搭建属于自己的ChatGPT(上),【Dora’s 学习】用LoRA和p-tuning微调chatglm6b|low rank adaptation |prompt tuning,【清华NLP】刘知远团队大模型公开课全网首发|带你从入门到实战,手把手教你体验langchain-ChatGLM,[LLMs 实践] 01 llama、alpaca、vicuna 整体介绍及 llama 推理过程https://www.bilibili.com/video/BV1fd4y1Z7Y5/?spm_id_from=333.788.recommend_more_video.1&vd_source=4aed82e35f26bb600bc5b46e65e25c22
2个position,一个表征句子,一个表征mask区域的顺序,前缀decoder先对mask掉的句子进行双向attention,从query角度看,x1可以看到x1到M,从mask decoder角度讲,x1作为query肯定看不到x1后面的,满阵表示可以看到整个序列,所以这部分是双向attention,后面的两者掩码是单向的decoder,是gpt。
全量微调的8卡RTX3090跑不起来,得8xA100(40G),4xA100(80G).