QLORA: Efficient Finetuning of Quantized LLMs大模型论文讲解

主要是为了更好地理解Qlora如何利用量化较少训练内存,学习永无止境,紧随其后;

QLORA首次提出了量化4bit而没有任何性能的损失,作者提出了一种新的高精度技术来量化预训练模型参数到4bit,并且添加了一个小的可学习的低秩适配权重,他的参数更新通过反向传播梯度量化的权重;为LLM的每一层添加了少量的可训练参数(适配器),并冻结了所有原始参数。这样对于微调,只需要更新适配器权重,这可以显著减少内存占用。具体量化博客讲的不错(126条消息) 闲话模型压缩之量化(Quantization)篇_模型压缩量化_ariesjzj的博客-CSDN博客(126条消息) 模型压缩之量化入门笔记||量化基本公式的理解||量化过程可视化||LSQ公式理解_Bitterest的博客-CSDN博客(126条消息) 半精度(FP16),单精度(FP32),双精度(FP64)_我叫夏满满的博客-CSDN博客

你可能感兴趣的:(人工智能)