RLHF优化

LLM优化方向

  • 有益性:LLM 在需要时遵循说明、执行任务、提供答案,以实现对用户意图理解并提供有益帮助。
  • 真实性:LLM 提供真实、准确信息并承认其自身不确定性和局限性的能力。
  • 无害性:避免有毒的、有偏见的或冒犯性的反应并拒绝协助危险活动的特性。

RLHF的核心思想:
围绕训练奖励模型展开。 即利用人类反馈来生成人类偏好数据集,来训练代表特定任务所需结果的奖励函数。然后利用奖励模型,通过强化学习算法(如PPO)迭代地改进 SFT 模型,改变其内部文本分布以优先考虑人类喜欢的序列。 在这种意义上说,奖励模型是将“人类偏好偏差”引入 Baseline 模型的一种手段。

RLHF的问题
问题1:人工产生的偏好数据集成本较高,很难量产;
问题2:三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢;
问题3:PPO 的训练过程同时存在4个模型(2训练,2推理),对计算资源的要求较高。

改进方式一:AI 专家替代派
用来解决问题1或者问题3
使用AI模型来替换人工标注数据形成偏好,或者指导模型训练。
RLAIF
RRHF

改进方式二:微调数据优化派
该类方法的核心在于仅仅通过优质数据集的获取和产生,以训练得到一个效果较好的 SFT 模型,而无需进行 RM 和 PPO 的训练。
LIMA
MAYBE ONLY 0.5% DATA IS NEEDED

方式三:训练过程改造派
该类方法通常通过改造模型的训练方式(如只保留SFT和RM),以提高训练效率并减少训练成本。
RAFT
DPO

转载自:https://zhuanlan.zhihu.com/p/634707485?utm_id=0

LIMA
https://arxiv.org/pdf/2305.11206.pdf
Meta新模型LIMA,基于LLaMa-65B,精选1000个微调样本进行训练,对比GPT-4/Bard/DaVinci003,表现出强大的性能。
结果表明,大语言模型中的几乎所有知识都是在预训练过程中学习得到,在指令调整阶段,仅需要有限的多样化、高质量样本便可使模型生成结果得到提升。

增大数据量并不会提高数据生成质量,【figure6】
仅30个数据,就显著增强了效果【figure7】
训练step增加,PPL增加,过拟合【 figure9 appendix B 3trainingLIMA】
人类评估,在不同模型下,LIMA赢的百分比,【figure1】
Chatgpt的评估。GPT_4在19%下认为LIMA更好【figure2】
训练step增加,PPL增加,过拟合【 figure9 appendix B 3trainingLIMA】

MAYBE ONLY 0.5% DATA IS NEEDED
https://arxiv.org/pdf/2305.09246.pdf
本文主要从数据角度来探讨如何降低 LLM 训练阶段的成本,提高数据效率。为了实现该目的,作者通过从现有数据中识别出最有价值的核心样本来帮助模型获取下游任务的知识,并仅用少量数据来实现可比甚至更好的性能。
将每个句子编码成embedding向量,并进行均值池化和 L2 归一化的预处理。
在潜在空间中,将所有样本点聚类成几个类别。
从这些聚类样本中进行采样,找到原始分布中的核心样本。
使用这些检索到的样本来指导微调 LLM 并进行评估。

RLAIFRL from AI Feedback’ (RLAIF).
https://arxiv.org/pdf/2212.08073.pdf
该方法的核心在于通过AI 模型监督其他 AI 模型,即在SFT阶段,从初始模型中采样,然后生成自我批评和修正,然后根据修正后的反应微调原始模型。 在 RL 阶段,从微调模型中采样,使用一个模型来评估生成的样本,并从这个 AI 偏好数据集训练一个偏好模型。 然后使用偏好模型作为奖励信号对 RL 进行训练,即 RL from AI Feedback(RLAIF)
RLAIF 整过过程可分为监督训练阶段和强化学习阶段两部分。

阶段一:监督训练阶段,此阶段包括以下步骤:
获得 Helpful 模型对 red teaming提示的响应。 因此,在这些情况下,模型的响应可能是有害的。
在提供了一套应该遵守的原则,让 Helpful 模型据此评论自己的响应。
要求 Helpful 模型根据其提供的评论修改其先前的响应。
重复步骤 2 和 3 进行 n 次迭代。
针对来自所有有害提示的响应的所有修订版本微调预训练的 LLM,还包括有用的提示和响应的组合,以确保微调后的模型仍然有用,此模型即 Supervised Learning Constitutional AI (SL-CAI) 模型。

阶段二:强化学习阶段,此阶段包括以下步骤:
使用在上一步训练得到的 SL-CAI 模型生成针对有害提示的响应对。
使用具有一个原则和一对响应的反馈模型,去选择更无害的响应。
反馈模型的归一化对数概率用于训练偏好模型/奖励模型。

最后,利用上一步训练的偏好模型作为奖励函数,以 RLHF 方式训练 SL-CAI 模型,得到 Reinforcement Learning Constitutional AI (RL-CAI) 模型。
Constitutional AI: Harmlessness from AI Feedback

RRHF
RRHF算法可以有效地将语言模型输出概率与人类偏好对齐,其训练思路非常简单,训练完成的模型有几个特点:
仅需要1到2个模型,而PPO需要4个模型,因此RRHF算法更加简单高效。
监督微调(SFT)可以被看作是RRHF算法的一种特殊形式。
RRHF 算法可以同时被用作语言模型和奖励模型。
RRHF 算法可以在较低的训练难度下拟合奖励模型的偏好,达到PPO算法的效果,并且避免了PPO算法中的复杂性和不稳定性问题。

RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment

你可能感兴趣的:(入口集锦,深度学习,人工智能)