发表于论文:(2021) LoRA: Low-Rank Adaptation of Large Language Models
目的:大模型预训练+微调范式,微调成本高。LoRA只微调新增的小部分参数。
论文作者得益于前人的一些关于内在维度(intrinsic dimension)的发现:模型是过参数化的,它们有更小的内在维度,模型主要依赖于这个低的内在维度(low intrinsic dimension)去做任务适配(微调)。假设模型在任务适配过程中权重的改变量是低秩(low rank)的,由此提出低秩自适应(LoRA)方法,LoRA允许我们通过优化适应过程中密集层变化的秩分解矩阵来间接训练神经网络中的一些密集层,同时保持预先训练的权重不变。
LoRA原理很简单,冻结预训练模型的参数,并选择用A和B矩阵来替代,在下游任务时只更新A和B。
具体地:
w0是是预训练模型初始化的参数,ΔW就是需要更新的参数。LoRA的思想简单来说就是增加小参数矩阵去学习改变量ΔW。
Reference
[1] Hu E J, Shen Y, Wallis P, et al. Lora: Low-rank adaptation of large language models[J]. arXiv preprint arXiv:2106.09685, 2021.