【LLM】大语言模型高效微调方案Lora||直击底层逻辑

大白话: 

DL的本质就是矩阵的乘法,就能实现LLM,

假设两个矩阵都很大,一个mxn,一个nxd的矩阵,m,n,d这几个数字可能几千甚至上万的场景,计算起来代价很大,如果我们可以small 这些数字,缩小到10甚至5这样的scenario,cost就非常的小。
【LLM】大语言模型高效微调方案Lora||直击底层逻辑_第1张图片

训练的时候只训练 右边橙色的AB矩阵

那么基于什么理论,我们可以这么搞呢? 

【LLM】大语言模型高效微调方案Lora||直击底层逻辑_第2张图片 

【LLM】大语言模型高效微调方案Lora||直击底层逻辑_第3张图片 

【LLM】大语言模型高效微调方案Lora||直击底层逻辑_第4张图片 

 

目前看到讲解最好的博客,难怪点赞数也很高,细节都在里面,比如为什么要low-rank,理论基础是什么,并且还有发散,数学上的内容也比较友好。

【OpenLLM 006】LoRA:大模型的低秩适配-最近大火的lora到底是什么东西?为啥stable diffusion和开源ChatGPT复现都在用? - 知乎 (zhihu.com) 

Reference

【LLM】大语言模型高效微调方案Lora||直击底层逻辑_第5张图片

【LLM】大语言模型高效微调方案Lora||直击底层逻辑_第6张图片

深入浅出剖析 LoRA 技术原理_lora csdn-CSDN博客

【OpenLLM 006】LoRA:大模型的低秩适配-最近大火的lora到底是什么东西?为啥stable diffusion和开源ChatGPT复现都在用? - 知乎 (zhihu.com)

PaperReading-“Intrinsic Dimension” - 知乎 (zhihu.com) //中科大少年班的孩子写的,挺不错的

你可能感兴趣的:(LLM,语言模型,人工智能,自然语言处理,Lora,高效微调,ChatGLm)