Llama 2: Open Foundation and Fine-Tuned Chat Models
文章目录TL;DRIntroduction背景本文方案实现方式预训练预训练数据训练细节训练硬件支持预训练碳足迹微调SFTSFT训练细节RLHF人类偏好数据收集奖励模型迭代式微调(RLHF)拒绝采样(RejectionSampling)PPO多轮一致性的系统消息(SystemMessageforMulti-TurnConsistency)安全性预训练中的安全性讨论学习和观察基于上下文的温度系数缩放(