基于人类反馈的强化学习(RLHF)[译]

RLHF

  • RLHF:逐步了解
  • 预训练语言模型
  • 收益模型的训练
  • 使用强化学习来微调
  • RLHF的开源资源
  • RLHF的未来
  • Futher reading

一篇关于RLHF(Reinforcement Learning from Human Feedback)的介绍文章,翻过来以飨读者。
在过去几年里,语言模型已经展现了令人印象深刻的能力,它能够借助人的提示输入来生成多样化和引人入胜的文本。然而,从本质上定义什么构成“好”文本是很难的,因为它是主观的且具有前后语境依赖。有许多诸如此类的场景,比如需要创造性的故事写作,应该保持真实性的信息文档,或者是想要执行的代码片段。
构造一个损失函数来捕获此类属性似乎非常棘手,并且大部分语言模型仍然使用简单的下个词预测损失来训练(比如交叉熵)。为了弥补损失函数本身的缺陷,人们定义了专门设计的指标来更好地捕捉人类偏好,比如指标BLEU或者ROUGE。虽然这些指标在衡量性能方面比原损失函数更适合,但是由于其仅是简单地对比生成文本与简单规则的引用,导致它们也是受限的。如果我们使用人类对生成文本的反馈作为性能评估,或者甚至更进一步直接使用反馈作为损失来优化模型,难道不是更好么?这就是RLHF的想法。借助强化学习的方法来直接优化带有人类反馈的语言模型。RLHF能够使得语言模型经由通用的文本语料集训练之后效果对齐到复杂的人类效果。
RLHF最近的成功应用是在ChatGPT,鉴于ChatGPT令人印象深刻的效果,我们请它来给我们解释RLHF:
基于人类反馈的强化学习(RLHF)[译]_第1张图片
非常令人惊异是不,但是这并没有涵盖所有方面。我们将填补这些鸿沟。

RLHF:逐步了解

RLHF(也称作来自人类偏好的强化学习)是一个非常挑战性的概念,因为它涉及到了多个模型的训练过程以及部署的不同阶段。在此,我们将分解训练过程为一下3个关键步骤:

  1. 预训练一个语言模型(LM)
  2. 收集数据,训练一个收益模型
  3. 用强化学习微调上述的语言模型

开始啦,我们看下语言模型是如何被预训练的。

预训练语言模型

RLHF使用经典预训练的语言模型(博客有更多细节)作为初始点。 OpenAI使用GPT-3的精简版本作为第一代流行的RLHF模型,名为InstructGPT。Anthropic使用Transformer模型,从百亿参数到5200万参数,来训练它的任务。DeepMind使用他们自己的2.8亿参数模型Gopher。
初始模型也可以在额外的文本或者情况下做微调,但是并无必要。例如,OpenAI在人类生成文本上来微调更可取倾向,Anthropic基于“有助、诚信、无害”的上下文标准,在原始语言模型上蒸馏出一个初始化语言模型给RLHF。这些资源我都称之为昂贵的增强数据,但都不是理解RLHF的必要技术。
通常来讲,并无一个明确的答案关于哪个模型最适合于初始化RLHF。这也是这一博客的共同的主题,RLHF训练选项的设计空间没有被充分的探索。
下面,需要一个用来生成数据来训练收益模型的语言模型,同时将人类倾向嵌入到该系统中。
基于人类反馈的强化学习(RLHF)[译]_第2张图片

收益模型的训练

生成一个经由人类偏好校准的收益模型(也被称为是偏好模型),是相对较新的RLHF研究的起点。基本目标是获得一个模型或者系统,能够输入一个文本序列,然后返回一个标量值来数值化表示人类偏好度。这个系统可以是端到端的语言模型,也可以使是模块化的系统能够输出收益值(比如,一个模型对输出排序,排名转化为收益指)。这个输出的标量收益值,对现存的RL算法至关重要,也对稍后的RLHF过程可以无缝衔接。
针对收益模型化的语言模型,既可以是其他微调的语言模型,也可以是基于偏好数据从头训练的语言模型。例如,Anthropic对预训练模型(偏好模型预训练PMP)用特殊方法微调之后再用作初始化这些语言模型,他们发现这比微调有更高的采样效率,但是时至今日并没有一个收益模型的变种被明确认定是最好的选择。
收益模型的提示对训练集是通过从预定义的数据集中采样一组提示来生成的(Anthropic的数据主要是用亚马逊的聊天工具来生成的,Hub开源位置见此,OpenAI则使用用户在GPT-API上提交的提示)。这些提示语被喂给初始语言模型来生成新的文本。
人类注释用来给语言模型的生成文本排序。最开始可能认为人类应该给出一个标量值直接给每条文本,来生成收益模型,但实际上困难重重。人类价值观的差异会导致这些分值未校准且有噪声。因此,排序被用来比较多模型的输出,以产生更正则化的数据集。
有许多模型可以来给文本排序。一个有效的方式是让用户比较同样提示下两个语言模型的生成文本。通过面对面地对比模型输出,Elo系统能够用来生成模型和输出相对于彼此的排序。这些不同的排序方法被归一化为训练的标量收益信号。
这一过程的有个有意思的表现是,时至今日成功的RLHF系统可以使用不同尺寸的收益语言模型相比于文本生成(例如,OpenAI 用175B语言模型,6B收益模型;anthropic用的语言模型和收益模型,尺寸从10B到52B;DeepMind均使用70B大小尺寸的语言模型和收益模型)。直觉上理解,这些偏好模型需要有相似的能力来解列给定的文本,因为模型都需要理解后再生成所述文本。
此时的RLHF系统中,我们有了一个初始化语言模型来生成文本,一个偏好模型来接收任意文本并赋值给它来表示人类如何看待此文本。接下来,就要用强化学习根据收益模型来优化原始语言模型。
基于人类反馈的强化学习(RLHF)[译]_第3张图片

使用强化学习来微调

长期以来,处于工程和算法原因,人们认为使用强化学习训练语言模型是不可能的。多个组织似乎有效,通过微调部分或者全部的初始语言模型参数使用策略梯度强化算法(Proximal Policy Optimization PPO)。语言模型的参数被冻结由于微调整个10B或者100B+的参数是非常昂贵的(更多详见,低秩适应器LoRA,或者DeepMind的SparrowLM)。PPO已经存在了相当就的时间了,有各种手册来说明它是如何工作的。这种法法的相对成熟,使其成为扩展到RLHF分布式训练应用的更佳选择。许多RLHF的核心强化学习的提升,转变为弄清楚如何使用熟悉的算法来更新大模型。
我们先将这一微调任务定为强化学习任务。首先,策略部分指定为语言模型,能够输入提示然后返回文本序列或者只是文本的概率分布。策略的动作空间是对应于语言模型的词汇表的所有词(通常在50k词的量级),观测空间是可能的输入词序列,也非常大(词汇表^输入词规模)。收益函数是倾向模型和策略转变约束的混合体。
收益函数是系统将所有讨论过的模型组合成一个RLHF过程的地方。给定一个数据集中的提示 x x x,生成两个文本 y 1 和 y 2 y1和y2 y1y2,一个由初始语言模型生成,一个由微调策略的当前迭代生成。当前策略的文本喂给偏好模型,然后得到一个偏好的标量值 r θ r_\theta rθ。这个文本与初始模型的生成文本对比差距得到一个惩罚值。在多家公司的论文中,这个惩罚值 r K L r_{KL} rKL被设定为两个词序列分布的KL散度的缩放版。KL散度项惩罚强化策略使其大幅度原理初始预训练模型在大Batch训练时,这样有助于确保模型生成可解释的且连贯的文本片段。没有这个惩罚值的话,优化器会生成胡言乱语并会骗过收益模型来给其一个高收益分值。实践中,KL散度是通过从两个分部中采样来近似的(JohnSchulman解释)。最终的收益值给强化学习更新规则 r = r θ − λ r K L r=r_{\theta}-\lambda r_{KL} r=rθλrKL
有些RLHF系统给收益函数增加了些额外项。比如,OpenAI在InstructGPT上试验有效,通过增加一个额外的预训练梯度(来自人类注释集)到PPO的更新规则上。随着RLHF的进一步探索,收益函数的公式将会继续发展。
最终,更新规则是PPO的参数更新,是在当前数据batch上最大化收益指标(PPO是on-policy的,意味着参数只在当前提示生成对的Batch下更新)。PPO是个信任域优化算法,使用梯度上的约束来保证更新步骤不会破坏学习过程的稳定新。DeepMind的Gopher使用了类似的奖励机制,但是使用Synchronous Advantage Actor-Critic:A2C来优化梯度,虽然非常不同但并没有外部转载过。
基于人类反馈的强化学习(RLHF)[译]_第4张图片
另外,RLHF可以通过一起迭代更新收益模型和策略这一点来继续。当强化策略更新时,使用者可以继续将输出与更早版本的输出对比排序。大部分论文尚未讨论此操作,因为这种模式需要收集仅适用于对话代理的数据,而这些代理需能够访问参与的用户群。Anthropic讨论过这种情况,在论文线上迭代RLHF提及,策略迭代包含于扩模型的ELO排序系统中。引入复杂且动态的策略和收益模型的演进,代表着复杂且开放的研究课题。

RLHF的开源资源

第一批公开在语言模型上运行RLHF的代码是2019年OpenAI公司开源的Tensorflow代码。
现如今,有几个活跃的RLHF的PyTorch版的项目是据此产生的。其中主要的项目是Tansformers RL(TRL),TRLX是从TRL分支出来的,还有语言模型的强化模型RL4LMs。
TRL被设计用来对预训练语言模型做微调的,基于HuggingFace的生态和PPO算法。TRLX是TRL的拓展分支,由CarperAI创建来处理在线大模型和离线训练。目前,TRLX 有一个 API接口能提供可供生产的RLHF且满足LLM 部署所需的规模(330亿参数),该RLHF基于PPO 和隐式LQ-学习 ILQL。未来的TRLX版本将允许语言模型大至200B参数。因此,与TRLX的接口由富有此类规模经验的机器学习工程师来优化。
RL4LMs提供了构建模块,来微调和评估大语言模型通过各种各样的RL算法(PPO,NLPO,A2C,TRPO)和收益函数及指标。并且,这个库很容易定制化,允许训练各种编码-解码器 或者 编码Transformer的语言模型,在任意的用户指定的收益函数上。尤为突出的是,它是经过充分测试的,以广泛最近的工作任务为基准,高达2000次的试验凸显了其在数据预算比较(专家示范和收益模型)的几个使用见解,能处理收益漏洞,训练也稳定。RL4LMs最近的计划包括分布训练大模型和新的强化算法。
TRLX和RL4LMs都是未来发展的重点,所以很快就会出现更多功能特性。
这里是由Anthropic公开在Hub上的大数据集。

RLHF的未来

尽管上述技术非常有前景且具有重大影响,也获得了AI界内最大的研究实验室的关注,但仍然有明确的限制的。这些模型虽然很好,但仍然会毫无任何不确定地输出有害的或者事实上不准确的文本。这类不完美表示有长期的挑战和RLHF的动力源,在人类固有难题领域内操作意味着将永无一条明确的终点线可跨越来标记为模型所需的完整标签。
当用RLHF部署系统时,采集人类偏好数据是非常昂贵的,由于其强制性和深思熟虑的认为因素。RLHF的性能能最多只能跟人类注释一样好,这有两个变种:人工生成的文本,比如用初始语言模型InstructGPT做微调;模型输出之间的人类偏好标签。
生成回答特定提示且写得好的人类文本,其代价非常高,因为需要雇佣兼职工(而不能依赖产品用户或者众包)。幸运的是,用以训练大部分RLHF的收益模型的数据规模并不是多昂贵(~50k的标记偏好样本)。然而,这仍然还是较高代价相比于学术试验室能够负担地起的。目前,只存在一个大数据集用于RLHF在通用语言模型上(来源Anthropic),同时也有些小规模特定任务的数据集(比如,OpenAI的汇总数据集)。对于RLHF的第二个数据挑战是, 人类注释经常有分歧,给无事实训练数据带来了巨大的潜在变量。
尽管有这些限制,大量未开发的设计选项仍会带给RLHF长足的进步。许多属于改进强化学习优化器的领域。PPO是个相对较旧的算法,但是没有结构原因表明其他算法能够提供收益对现有的RLHF流程。微调LM策略的反馈部分的一大成本是,策略生成的每一个文本都要经由收益模型的评估(就像是在标准RL框架下环境的一部分)。为了避免这类大模型的高昂的前向传递,离线RL可以用作策略优化器。最近,新的算法已经出现,例如ILQL,CarperAI对其的相关介绍,特别适合这类的优化。RL过程中的其他核心trade-offs,比如探索-利用平衡,也没有被研究。探索这些方向,至少会加深对RLHF机理的理解,如果不能也会提供性能改进。
我们在 2022 年 12 月 13 日星期二举办了一场讲座,对这篇文章进行了扩展,你可以在这里观看。

Futher reading

Here is a list of the most prevalent papers on RLHF to date. The field was recently popularized with the emergence of DeepRL (around 2017) and has grown into a broader study of the applications of LLMs from many large technology companies. Here are some papers on RLHF that pre-date the LM focus:

  • TAMER: Training an Agent Manually via Evaluative Reinforcement (Knox and Stone 2008): Proposed a learned agent where humans provided scores on the actions taken iteratively to learn a reward model.
  • Interactive Learning from Policy-Dependent Human Feedback (MacGlashan et al. 2017): Proposed an actor-critic algorithm, COACH, where human feedback (both positive and negative) is used to tune the advantage function.
  • Deep Reinforcement Learning from Human Preferences (Christiano et al. 2017): RLHF applied on preferences between Atari trajectories.
  • Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces (Warnell et al. 2018): Extends the TAMER framework where a deep neural network is used to model the reward prediction.

And here is a snapshot of the growing set of “key” papers that show RLHF’s performance for LMs:

  • Fine-Tuning Language Models from Human Preferences (Zieglar et al. 2019): An early paper that studies the impact of reward learning on four specific tasks.
  • Learning to summarize with human feedback (Stiennon et al., 2020): RLHF applied to the task of summarizing text. Also, Recursively Summarizing Books with Human Feedback (OpenAI Alignment Team 2021), follow on work summarizing books.
  • WebGPT: Browser-assisted question-answering with human feedback (OpenAI, 2021): Using RLHF to train an agent to navigate the web.
  • InstructGPT: Training language models to follow instructions with human feedback (OpenAI Alignment Team 2022): RLHF applied to a general language model Blog post on InstructGPT.
  • GopherCite: Teaching language models to support answers with verified quotes (Menick et al. 2022): Train a LM with RLHF to return answers with specific citations.
  • Sparrow: Improving alignment of dialogue agents via targeted human judgements (Glaese et al. 2022): Fine-tuning a dialogue agent with RLHF
  • ChatGPT: Optimizing Language Models for Dialogue (OpenAI 2022): Training a LM with RLHF for suitable use as an all-purpose chat bot.
  • Scaling Laws for Reward Model Overoptimization (Gao et al. 2022): studies the scaling properties of the learned preference model in RLHF.
  • Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (Anthropic, 2022): A detailed documentation of training a LM assistant with RLHF.
  • Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned (Ganguli et al. 2022): A detailed documentation of efforts to “discover, measure, and attempt to reduce [language models] potentially harmful outputs.”
  • Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning (Cohen at al. 2022): Using RL to enhance the conversational skill of an open-ended dialogue agent.
  • Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization (Ramamurthy and Ammanabrolu et al. 2022): Discusses the design space of open-source tools in RLHF and proposes a new algorithm NLPO (Natural Language Policy Optimization) as an alternative to PPO.

The field is the convergence of multiple fields, so you can also find resources in other areas:

  • Continual learning of instructions (Kojima et al. 2021, Suhr and Artzi 2022) or bandit learning from user feedback (Sokolov et al. 2016, Gao et al. 2022)
  • Earlier history on using other RL algorithms for text generation (not all with human preferences), such as with recurrent neural networks (Ranzato et al. 2015), an actor-critic algorithm for text prediction (Bahdanau et al. 2016), or an early work adding human preferences to this framework (Nguyen et al. 2017).

Citation: If you found this useful for your academic work, please consider citing our work, in text:

Lambert, et al., “Illustrating Reinforcement Learning from Human Feedback (RLHF)”, Hugging Face Blog, 2022.

BibTeX citation:

@article{lambert2022illustrating,
author = {Lambert, Nathan and Castricato, Louis and von Werra, Leandro and Havrilla, Alex},
title = {Illustrating Reinforcement Learning from Human Feedback (RLHF)},
journal = {Hugging Face Blog},
year = {2022},
note = {https://huggingface.co/blog/rlhf},
}

Thanks to Robert Krik for fixing some factual errors regarding specific implementations of RLHF. Thanks to Peter Stone, Khanh X. Nguyen and Yoav Artzi for helping expand the related works further into history.

你可能感兴趣的:(技术博客,人工智能,深度学习,机器学习)