大模型强化微调GRPO——DeepSeekMath: Pushing the Limits of MathematicalReasoning in Open Language Models
1.概述大型语言模型(LLM)革新了人工智能领域的数学推理方法,在定量推理基准测试(Hendrycks等,2021年)和几何推理基准测试(Trinh等,2024年)方面取得了重大进展。此外,这些模型在帮助人类解决复杂的数学问题方面也发挥了重要作用(Yao,2023年)。然而,像GPT-4(OpenAI,2023年)和Gemini-Ultra(Anil等,2023年)这样的尖端模型并未公开,目前可获