[BELLE] A comparative study between full-parameter and LoRA-based fine-tuning on chinese instruction

1.introduction

在模型训练领域,两种广泛使用的方法是全参数微调和参数高效微调。

2.experiments

选择了BELLE-0.6M,BELLM-2M,BELLE-4M三个数据集。通过结合这三个数据集,旨在研究不同数据规模对基于lora的调优性能的影响。评估集包含了1000个经过严格的人工筛选和处理的数据条目,涵盖9个类别,包括翻译、开放型问答、封闭性问答、生成以及其他。

[BELLE] A comparative study between full-parameter and LoRA-based fine-tuning on chinese instruction_第1张图片

[BELLE] A comparative study between full-parameter and LoRA-based fine-tuning on chinese instruction_第2张图片2.1 model settings

llama-7b和llama-13b,lora的秩=8,8xA100-40G。

[BELLE] A comparative study between full-parameter and LoRA-based fine-tuning on chinese instruction_第3张图片

[BELLE] A comparative study between full-parameter and LoRA-based fine-tuning on chinese instruction_第4张图片

2.2 Metrics

对于所有指令用chatgpt给出0-1之间的分数。

2.3 Comparison of base models and dataset scale for lora tuning

[BELLE] A comparative study between full-parameter and LoRA-based fine-tuning on chinese instruction_第5张图片

随着数据集变大,则lora调优的效果更好;参数量越高的模型,效果越好。

2.4 Comparsion between full-parameter and lora-based fine-tuning

全量微调效果更好,预训练的大语言模型是为生成下一个单词而进行训练的,而要转换为遵循指令的任务需要更复杂的学习过程。lora的学习方法只能改变相对少量的参数,与改变所有参数相比更具挑战性。不过与lora微调相比,使用全参数微调需要大约3-5倍的时间成本。

2.5 Performing lora tuning for specified task

在数学任务上表现不佳,为了验证lora在特定任务上的适应能力使用了增量0.25M的数学数据集math_0.25M,lora和增量微调在数学任务上都显示出了显著的改进。

你可能感兴趣的:(大模型,多模态和生成,BELLE,chatgpt)