DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

机器之心 2025年03月02日 11:54 北京

选自GitHub

作者:Andriy Burkov

机器之心编译

GRPO(Group Relative Policy Optimization)是 DeepSeek-R1 成功的基础技术之一,我们之前也多次报道过该技术,比如《DeepSeek 用的 GRPO 占用大量内存?有人给出了些破解方法》。

简单来说,GRPO 算法丢弃了

你可能感兴趣的:(大语言模型LLM,算法)