InstructGPT高效实践——【DeepSpeed-Chat】源码详解(2/3):Supervised Finetuning、Reward Model Finetuning
目录前言1phase-1:SupervisedFinetuning1.1训练数据样例1.2训练过程1.3关键代码详解1.3.1基座模型结构1.3.2LoRA结构及其正向传播1.3.3phase1的指标评估1.4实例测试1.5相关拓展1.5.1多轮对话性能1.5.2本阶段训练更倾向过拟合1.6版块相关问题2phase-2:RewardModelFinetuning2.1训练数据样例2.2训练过程2.