PERSONALIZED SOUPS: PERSONALIZED LARGE LANGUAGE MODEL ALIGNMENT VIA POST-HOC PARAMETER MERGING

本文是LLM系列文章,针对《PERSONALIZED SOUPS: PERSONALIZED LARGE LANGUAGE MODEL ALIGNMENT VIA POST-HOC PARAMETER MERGING》的翻译。

个性化汤:基于POST-HOC参数合并的个性化大语言模型对齐

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 从个性化的人类反馈中强化学习
  • 4 实验
  • 5 结论

摘要

虽然从人类反馈中强化学习(RLHF)将大型语言模型(LLM)与一般的、聚合的人类偏好相结合,但它对于学习多样化的个人观点来说是次优的。在这项工作中,我们研究了来自个性化人类反馈的强化学习(RLPHF)问题,其中LLM通过将对齐建模为多目标强化学习(MORL)问题来与多个(有时是冲突的)偏好对齐。与强大的单目标基线相比,我们表明,我们可以通过将偏好分解为多个维度来实现个性化对齐。这些维度是基于用户声明为所需的个性化来定义的。在这项工作中,我们证明了它们可以以分布式方式有效地独立训练,并通过参数合并在事后有效地组合。

1 引言

2 相关工作

3 从个性化的人类反馈中强化学习

4 实验

5 结论

先前的工作表明,将LLM与RLHF相适应有助于它们产生人类偏好的输出,而不是监督的微调对应物。然而,最近的工作也指出,简单地训练LLM遵守通用的偏好可能会导致忽视个人偏好和价值观。在这项工作中,我们提出将从个性化人类反馈中进行强化学习作为一个多目标问题,从而使LLM能够按照相互冲突的偏好进行调整,从而为解决这一问题提供了第一步。我们提出了一种很有前途的方法,称为P-SOUPS,它能够在推理过程中动态合成在单个目标上训练的模型。我们还强调了P-SOUPS的可扩展性,表明它在新偏好的数量方面呈线性扩展,而不是像MORL基线那样呈指数扩展,这是为个人用户提供真正个性化所必需的。

你可能感兴趣的:(LLM,语言模型,人工智能,自然语言处理)