Contrastive Preference Optimization Pushing the Boundaries of LLM Performance in Machine Translation

本文是LLM系列文章,针对《Contrastive Preference Optimization: Pushing the Boundaries of LLM
Performance in Machine Translation》的翻译。

对比偏好优化:突破机器翻译LLM性能的边界

  • 摘要
  • 1 引言
  • 2 镀金还是镀金?审查黄金参考质量
  • 3 对比偏好优化
  • 4 实验
  • 5 分析
  • 6 结论

摘要

中等大小的大型语言模型(LLM)——那些具有7B或13B参数的模型——表现出有希望的机器翻译(MT)性能。然而,即使是性能最好的基于13B LLM的翻译模型,如ALMA,也与现有技术的传统编码器-解码器翻译模型或更大规模LLM(如GPT4)的性能不匹配。在这项研究中,我们弥合了这一性能差距。我们首先评估了在MT任务中监督微调LLM的缺点,强调了参考数据中存在的质量问题,尽管这是人为产生的。然后,与模仿参考翻译的监督微调相比,我们引入了对比偏好优化(CPO),这是一种训练模型以避免生成足够但不完美的翻译的新方法。将CPO应用于只有22K个平行句子和0.1%参数的ALMA模型会产生显著的改进。由此产生的模型被称为ALMA-R,可以在WMT’21、WMT’22和WMT’23测试数据集上与WMT竞赛获胜者和GPT-4的性能相匹配或超过。

1 引言

2 镀金还是镀金?审查黄金参考质量

3 对比偏好优化

4 实验

5 分析

6 结论

在这项研究中,我们最初提出了机器翻译任务中黄金参考文献的潜在质量问题,强调了高级翻译模型优于这些参考文献的例子。这一发现挑战了黄金参考作为最佳标准的传统假设,不仅影响了模型训练(通常依赖于最小化预测token和黄金参考之间的差异),还可能使基于参考的评估指标的结果发生偏差。随后,我们介绍了对比偏好优化,这是DPO的一种更有效的变体。这种方法利用模型生成的数据和参考数据来指导模型避免近乎完美但有缺陷的翻译,并学习优秀的翻译。我们开发的模型ALMA-13B-R是第一个与GPT-4和WMT等尖端系统的性能相匹配,并在某些情况下超过其性能的基于LLM的中等规模翻译模型,标志着神经机器翻译领域的重大进步。

你可能感兴趣的:(LLM,机器翻译,人工智能,自然语言处理)