《从GLM-130B到ChatGLM:大模型预训练与微调》笔记

《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第1张图片

 第一部分

 100B参数的大模型开始出现智能涌现《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第2张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第3张图片

 在code数据集上训练,增强大模型的逻辑推理能力《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第4张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第5张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第6张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第7张图片

 第二部分

《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第8张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第9张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第10张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第11张图片

 GLM和LLaMA中采用RoPE旋转式编码 

《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第12张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第13张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第14张图片

 BF16牺牲了数据精度(表示由10位降到7位),但扩大了数据的表示范围(有研究表明数据表示范围比精度更重要)

LLaMA采用BF16训练的《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第15张图片

《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第16张图片

 大部分内存占用为激活函数

《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第17张图片

《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第18张图片

 有个参数服务器,模型参数在参数服务器上进行更新,然后所有节点pull模型参数《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第19张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第20张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第21张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第22张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第23张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第24张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第25张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第26张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第27张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第28张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第29张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第30张图片

 alpha取0.1,手动降低embedding层的梯度

《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第31张图片

《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第32张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第33张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第34张图片

 第三部分

《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第35张图片

《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第36张图片 

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第37张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第38张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第39张图片

《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第40张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第41张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第42张图片

 《从GLM-130B到ChatGLM:大模型预训练与微调》笔记_第43张图片

 

你可能感兴趣的:(自然语言处理,语言模型,自然语言处理,人工智能)