大模型论文速读DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning2025.1
全文摘要本文介绍了DeepSeek-R1及其两个版本:DeepSeek-R1-Zero和DeepSeek-R1。通过大规模强化学习(RL)训练的DeepSeek-R1-Zero具有出色的推理能力,并且自然地出现了许多强大的推理行为。然而,它也存在一些问题,如可读性差和语言混合等。为了解决这些问题并进一步提高推理性能,作者引入了DeepSeek-R1,该模型在多阶段训练和冷启动数据之前进行RL训练。