【DeepSeek】大模型强化学习训练GRPO算法,你学会了吗?

如果你还不知道GRPO,你可以先看这篇帖子:
【DeepSeek】一文详解GRPO算法——为什么能减少大模型训练资源?

看了论文跟没看一样?做两道题练练!

曾经最痛恨的应试教育,却能让你深深记住这知识点。

由ChatGPT o1 pro生成,o1 pro的输出token和写作能力比 DeepSeek R1 强。

GRPO原论文链接:https://arxiv.org/abs/2402.03300
GRPO中译文链接:https://blog.csdn.net/qq_38961840/article/details/145384346


一、单项选择题(20题)

说明:以下每题只有一个正确答案。每题 2 分,共 40 分。

  1. 以下关于 GRPO(Group Relative Policy Optimization) 的描述中,哪项是正确的?
    A. GRPO 依赖一个与策略同规模的价值网络来估计优势函数
    B. GRPO 采用分组内相互比较的方式来估计相对奖励
    C. GRPO 不需要任何参考模型(Reference Model)进行 KL 正则
    D. GRPO 无法与监督式微调(SFT)数据同时使用
    答案:B
    解析:GRPO 的核心思想是对同一个问题生成多条候选输出,并通过分组内比较来计算相对奖励,从而无需单独的大价值网络。选项 A 与 GRPO 无关(这是 PPO 的特点),C 错在“完全不需要参考模型”,GRPO 常常依赖参考模型做 KL 正则;D 则表述错误,GRPO 可以在已有 SFT 数据上进一步训练。
  2. 在强化学习中,近端策略优化(PPO)需要用到优势函数 A t A_t At 的主要目的是:
    A. 降低估计偏差以使训练稳定
    B. 增加价值网络的复杂度
    C. 仅用于在多智能体场景下做对比
    D. 在训练中对每个 token 做增量奖励
    答案:A
    解析:PPO 中使用优势函数 (Advantage Function) 主要是为了减小方差并提高训练稳定性,属于 Actor-Critic 框架的一部分。B 选项错误,价值网络的复杂度与此无关;C、D 都偏离了 PPO 主要目标。
  3. 以下哪一项不是 GRPO 与 PPO 相比带来的直接优势?
    A. 减少对大规模价值网络的需求
    B. 能够直接在分组内对候选答案进行比较
    C. 大幅提升了采样效率
    D. 使得训练时内存占用减少
    答案:C
    解析:A、B、D 都是 GRPO 的特点;C 中“大幅提升采样效率”并不一定成立,因为 GRPO 需要对同一个问题采样多条输出(分组 G 个),这可能在某些情况下增加推理开销。
  4. 在结果监督(Outcome Supervision)与过程监督(Process Supervision)两种场景下,GRPO 会如何分配奖励?
    A. 结果监督只在最后一个 token 发放奖励,过程监督在每个 token 都发放
    B. 结果监督和过程监督都把奖励平均分给所有 token
    C. 结果监督在序列末尾打分,过程监督可在中间步骤打分
    D. GRPO 不支持过程监督
    答案:C
    解析:结果监督只在序列末尾得到最终奖励 r r r;过程监督可以对每个关键推理步骤进行打分。GRPO 允许两种方式,只是分配方式不同。
  5. 在 GRPO 的分组优势计算中,下列哪一个公式最能体现“分组相对奖励”的核心?
    A. A t = Q ( s t , a t ) − V ( s t ) A_t = Q(s_t, a_t) - V(s_t) At=Q(st,at)V(st)
    B. r ^ ∗ i = r i − α ⋅ log ⁡ π ∗ θ ( o i , t ∣ q , o i , < t ) π r e f ( o i , t ∣ q , o i , < t ) \hat{r}*i = r_i - \alpha \cdot \log\frac{\pi*\theta(o_{i,t}\mid q,o_{i,r^i=riαlogπref(oi,tq,oi,<t)πθ(oi,tq,oi,<t)
    C. r ~ ∗ i = r i − m e a n ( r ) s t d ( r ) \tilde{r}*i = \dfrac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r})} r~i=std(r)rimean(r)
    D. A ∗ i , t = V ψ ( s i , t ) − V ψ ( s i , t − 1 ) A*{i,t} = V_{\psi}(s_{i,t}) - V_{\psi}(s_{i,t-1}) Ai,t=Vψ(si,t)Vψ(si,t1)
    答案:C
    解析:GRPO 中的核心在于先对同一问题采样的多条输出打分 r 1 , … , r G {r_1,\dots,r_G} r1,,rG,然后用分组平均值和标准差进行归一化,即 r ~ i = r i − m e a n ( r ) s t d ( r ) \tilde{r}_i = \frac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r})} r~i=std(r)rimean(r),得到相对奖励。
  6. 为了保证 GRPO 训练的稳定性,通常还会在损失函数中加入 KL 正则项,其主要目的是:
    A. 避免模型在单个问题上过拟合
    B. 减少与参考策略分布差异过大的风险
    C. 增大奖励值以保证训练效率
    D. 缩短序列长度
    答案:B
    解析:KL 正则(惩罚项)的目的是防止策略更新过于极端,从而与参考模型(如初始 SFT 模型)的分布相差太大,导致训练不稳定。
  7. 在多候选答案采样时,GRPO 相比“单条输出更新”更适合的场景是什么?
    A. 只要是序列生成就能使用多候选
    B. 需要分组内对比,且可接受多次推理的任务
    C. 只有在离线训练数据很少的情况下使用
    D. 主要适合非序列任务
    答案:B
    解析:GRPO 在同一问题上采样多条答案并进行分组对比才能发挥优势,因此适合可以多次推理且需要对输出进行精细比较的场景。
  8. DeepSeekMath 在数学推理中使用 GRPO 的关键原因是:
    A. 让模型只输出最短的答案
    B. 在每一步 token 采用复杂的价值网络
    C. 通过分组奖励减轻价值网络的负担
    D. 减少中文数据的覆盖
    答案:C
    解析:DeepSeekMath 等大模型在数学推理中采用 GRPO,主要是因为在大语言模型上训练一个价值网络过于昂贵,而分组相对方式能够有效减少对价值网络的依赖。
  9. 下列哪一项描述更符合结果监督(Outcome Supervision)的做法?
    A. 对序列每个 token 进行单独的奖励评估
    B. 在一段推理结束后给出一个最终得分
    C. 在生成每个步骤后立即给局部奖励
    D. 每个时间步都要计算累计回报
    答案:B
    解析:结果监督只在最终完成输出后给一个整体分数;过程监督才会对每个步骤或中间时刻单独给分。
  10. 以下关于 A ^ i , t \hat{A}_{i,t} A^i,t 的说法中,哪一项属于 GRPO 对优势函数的处理?
    A. 使用 PPO 方式,对每个 token 独立进行 GAE
    B. A i , t = ∑ τ = t T γ τ − t r τ A_{i,t} = \sum_{\tau=t}^T \gamma^{\tau - t} r_\tau Ai,t=τ=tTγτtrτ
    C. 在分组内对所有输出进行比较,得到相对奖励,然后赋给序列内所有 token
    D. 将价值函数 V ψ V_\psi Vψ Q ϕ Q_\phi Qϕ 相减得到优势
    答案:C
    解析:GRPO 不采用传统价值函数来逐步计算优势,而是通过分组相对奖励来给整个序列打同一个相对分数。
  11. 如果希望在 GRPO 中增强模型对错误答案的惩罚力度,下列哪一种操作最有效?
    A. 提高学习率
    B. 增大 KL 正则系数 β \beta β
    C. 采用更高的温度参数进行多样性采样
    D. 进行分组归一化时将奖励差值放大
    答案:D
    解析:为了在分组中更严重地惩罚得分低的输出,可以在归一化时放大分数差值;KL 系数是用来控制与参考策略的差异度,而不是直接对正确/错误答案区别对待。
  12. 在 GRPO 中,若我们令分组大小 G = 1 G=1 G=1,则此时与 PPO 最接近的情况会是:
    A. 仍然不需要任何价值网络,直接更新
    B. 变为传统的返回奖励方式,但需要离线数据
    C. 退化为只有一条输出无法进行分组对比,需另行处理
    D. 以上都不准确
    答案:C
    解析:GRPO 之所以能免价值网络的一个关键是对同一问题多输出进行对比。当 G = 1 G=1 G=1 时,就无法做分组比较。此时 GRPO 的相对奖励思路就失效了,需要用别的方法(价值网络或外部 baseline)来估计优势。
  13. 对于大型语言模型做强化学习,如果我们不引入分组概念,而使用价值网络 Critic,会导致的最主要问题是:
    A. 会使得模型更新方向更准确
    B. 大幅提高内存和计算开销
    C. 无法再进行多轮对话
    D. 无法做无监督训练
    答案:B
    解析:使用价值网络 Critic,需要一个与 Actor 同规模的模型,导致内存与算力消耗大,尤其在大型语言模型场景中。
  14. 在 GRPO 的训练中,如果奖励模型(RM)本身带有一定噪声或错误,会有什么影响?
    A. 无法进行梯度更新
    B. 依然能保证模型收敛到全局最优
    C. 相对奖励可能被扭曲,需要更大的分组规模或更准确的 RM
    D. 与过程监督无关
    答案:C
    解析:奖励模型不准确会直接影响到分组内的相对排序,因此需要更大分组规模减少噪声,或者优化奖励模型的准确度。
  15. 使用 GRPO 与监督式微调(SFT)相结合时,下列说法正确的是:
    A. 只能先做 GRPO,再做 SFT
    B. GRPO 的数据来源可来自 SFT 的训练集,但进行在线采样
    C. 两者完全冲突,二者不可结合
    D. GRPO 不支持参考 SFT 模型
    答案:B
    解析:在强化学习阶段,问题集往往与 SFT 数据相同或相似,但会使用策略模型在线采样候选答案。SFT 模型可用于初始化策略或参考模型。
  16. 下列哪一项不是 GRPO 的典型应用场景?
    A. 数学解题中通过分组比较不同的解法质量
    B. 翻译任务中比较不同译文的优劣
    C. 机器人关节控制中的连续动作价值评估
    D. 代码补全中根据最终执行结果对比正确性
    答案:C
    解析:C 中的场景更常见于连续动作空间的传统 Actor-Critic 场景,不那么适合以“分组输出”的方式来处理;A、B、D 都可以通过分组多候选对比。
  17. GRPO 中“分组”主要指的是什么?
    A. 同一批训练样本中的所有问题
    B. 对同一个问题生成的多条候选序列
    C. 不同问题的奖励
    D. 任何随机分组,不需要特定语义
    答案:B
    解析:GRPO 中“分组”指的是针对同一个问题 q 采样多条输出 o 1 , o 2 , … , o G o_1,o_2,\dots,o_G o1,o2,,oG,并进行分组内对比。
  18. 在算法实现角度,如果在 GRPO 中将分组大小 G G G 设置过大,可能会带来的问题是:
    A. 过拟合严重
    B. 提高了采样开销与推理成本
    C. 模型完全无法收敛
    D. 无法进行归一化
    答案:B
    解析:分组大小过大虽然可能带来更准确的排名和相对奖励,但同时也会成倍增加推理与计算成本。A、C、D 并非必然。
  19. GRPO 的梯度计算里,gradient coefficient 的来源是:
    A. 由价值网络 V ψ V_\psi Vψ 计算的优势
    B. 由参考模型的概率比率
    C. 由分组相对奖励 r ~ i \tilde{r}_i r~i 以及 ratio
    D. 由监督微调的人工标签
    答案:C
    解析:GRPO 的梯度系数即分组后的相对奖励与该 token 概率比率结合的形式,而非价值网络或人工标签。
  20. 为了应对分布外(Out-of-distribution)问题时奖励模型不准确的现象,有研究采用迭代式 RLHF + 回放机制。这种做法的动机是:
    A. 强行减少训练步数
    B. 维持价值网络大小不变
    C. 随着策略变强,不断更新奖励模型,让 RM 保持对新分布的监督能力
    D. 改用最短路径搜索
    答案:C
    解析:迭代式训练就是不断用新策略生成的数据来更新奖励模型,并结合回放数据防止遗忘,保证 RM 随着策略的变化保持可靠性。

二、填空题(20题)

说明:每空 1 分,共 20 分。本题主要考查同学们对概念和关键公式的理解。

  1. GRPO 中的分组采样指的是在**______**采样多条输出序列,然后在组内进行对比。 答案:同一个问题(Prompt)
    解析:在 GRPO 里,每个问题 q 会采样多条候选答案并比较。

  2. 相对于使用价值网络,GRPO 的优势是通过**______**来估计,而无需显式训练一个 Critic。 答案:分组相对奖励(或分组内相对比较)
    解析:这是 GRPO 的核心思想。

  3. 在结果监督场景下,GRPO 通常会将一个问题的整条序列的所有 token 共享同一个**______**值。 答案:奖励/优势(Reward/Advantage)
    解析:因只在序列末端获得一个分数,该分数会被赋予序列每个 token。

  4. GRPO 的 KL 正则项一般形如 β ⋅ K L [ π θ   ∥   π r e f ] \beta \cdot \mathrm{KL}\bigl[\pi_\theta \,\|\, \pi_{\mathrm{ref}}\bigr] βKL[πθπref] ,其中 β \beta β 是控制更新幅度的**______**。 答案:系数/超参数
    解析:KL 项用来限制策略与参考策略的差异。

  5. 在过程监督(Process Supervision)中,可针对每个步骤产生奖励,从而在 GRPO 中把奖励分配到**______**对应的位置。 答案:中间步骤 / 相应 token
    解析:过程监督可将奖励分配到多个 step,让 GRPO 得到更细粒度信息。

  6. GRPO 在应用于数学推理时常配合**______**模型对每条输出进行评分。 答案:奖励(Reward)
    解析:GRPO 通常需要一个奖励模型对输出质量进行评估和打分。

  7. 当分组大小 G G G 增大时,GRPO 的分组对比能更稳定,但会显著增加**______**的开销。 答案:推理(或计算)
    解析:要生成 G 条答案,自然要多做 G 倍推理。

  8. 在公式中, r ~ ∗ i = r i − m e a n ( r ) s t d ( r ) \tilde{r}*i = \frac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r})} r~i=std(r)rimean(r) 表示的就是***_____**。 答案:相对奖励 / 归一化奖励
    解析:这是分组内奖励的归一化。

  9. PPO 的核心思想是通过 ______(clip) 使策略更新不会过猛。 答案:截断 / 裁剪
    解析:PPO 提出的 clip 方法限制了概率比率变化范围。

  10. 如果奖励模型不准确,那么 GRPO 的相对比较也可能出现**______**排序。 答案:错误 / 噪声 / 混乱
    解析:奖励模型不准确会让分组比较不可靠。

  11. GRPO 与 Online RFT 的差异之一,在于前者根据**______**区分强化或惩罚的幅度,而后者没有此机制。 答案:奖励模型输出的分数 / 不同回答得分的幅度
    解析:Online RFT 只区分正确或错误,缺少细粒度得分。

  12. 在计算梯度时,GRPO 中的**______**会和 log ⁡ π θ ( o t ∣ q , o < t ) \log \pi_\theta(o_t\mid q,o_{logπθ(otq,o<t) 一起出现,用来决定最终更新方向。 答案 A ^ ∗ i , t \hat{A}*{i,t} A^i,t / 优势函数
    解析:这是常见的策略梯度表达式: ( A ^ ∗ i , t ∇ θ log ⁡ π θ ( ⋅ ) ) (\hat{A}*{i,t} \nabla_{\theta}\log \pi_\theta(\cdot)) (A^i,tθlogπθ())

  13. GRPO 中每个分组的基线(baseline)由分组内**______**决定,无需像 PPO 一样去学习一个价值函数。 答案:平均奖励 / 平均分数
    解析:通过分组均值作为基线来计算相对奖励。

  14. GRPO 的训练目标可写作 J G R P O ( θ ) = E [ … min ⁡  ⁣ ( π θ π θ o l d A ^ , clip ( π θ π θ o l d , 1 − ε , 1 + ε ) A ^ ) ] − β   K L [ …   ] \mathcal{J}^{\mathrm{GRPO}}(\theta)=\mathbb{E} \biggl[\dots \min\!\Bigl(\dfrac{\pi_{\theta}}{\pi_{\theta_{\mathrm{old}}}}\hat{A}, \text{clip}\bigl(\dfrac{\pi_{\theta}}{\pi_{\theta_{\mathrm{old}}}},1-\varepsilon,1+\varepsilon\bigr)\hat{A}\Bigr)\biggr] - \beta \,\mathrm{KL}[\dots] JGRPO(θ)=E[min(πθoldπθA^,clip(πθoldπθ,1ε,1+ε)A^)]βKL[] ,其中**______**项控制与旧策略的比率限制。 答案 min ⁡ ( ⋅ , ⋅ ) \min(\cdot,\cdot) min(,) / clip
    解析:与 PPO 一样,GRPO 也可保留 clip 操作。

  15. 采用**______**的学习率可以防止 GRPO 训练过程中数值爆炸。 答案:较小 / 适当
    解析:一般 RL 微调阶段学习率不宜过大。

  16. 为了让 GRPO 在迭代训练时不断得到新分布的数据,需要**______**的策略模型生成样本。 答案:实时 / 在线
    解析:这与 offline RFT 不同,GRPO 常在在线策略下进行采样。

  17. “过程监督”在数理推理中可以帮助模型更快捕捉到**______**的得失,从而加速训练。 答案:中间步骤 / 思维过程
    解析:过程监督对中间步骤提供奖励/惩罚。

  18. 如果不进行任何**______**,模型可能会过度利用奖励模型的小缺陷从而导致训练崩溃。 答案:正则化 / KL 惩罚
    解析:没有正则会让策略过度偏离初始分布。

  19. 在 DeepSeekMath 的数学推理中,GRPO 可以避免在每个 token 上拟合**______**,从而节省大量内存。 答案:价值网络(value network)
    解析:这是 GRPO 的主要优点之一。

  20. 当分组规模 G = 64 G=64 G=64 时,意味着对同一个问题需要采样**______**个候选答案做比较。 答案:64
    解析:分组规模与采样条数一致。


三、计算题(10题)

说明:每题 4 分,共 40 分。需写出必要的计算过程或说明原理。

  1. 分组归一化
    设在一个问题 q q q 上,采样得到 4 条输出,奖励分别是 r 1 = 2.1 , r 2 = 1.2 , r 3 = 3.0 , r 4 = 0.9 r_1=2.1, r_2=1.2, r_3=3.0, r_4=0.9 r1=2.1,r2=1.2,r3=3.0,r4=0.9

    • 计算它们的平均值 m e a n ( r ) \mathrm{mean}(\mathbf{r}) mean(r) 和标准差 s t d ( r ) \mathrm{std}(\mathbf{r}) std(r)
    • 再给出每个 r i r_i ri 的归一化相对奖励 r ~ i \tilde{r}_i r~i
      参考答案
    • m e a n ( r ) = 2.1 + 1.2 + 3.0 + 0.9 4 = 1.8 \mathrm{mean}(\mathbf{r}) = \dfrac{2.1+1.2+3.0+0.9}{4} = 1.8 mean(r)=42.1+1.2+3.0+0.9=1.8
    • s t d ( r ) = ( 2.1 − 1.8 ) 2 + ( 1.2 − 1.8 ) 2 + ( 3.0 − 1.8 ) 2 + ( 0.9 − 1.8 ) 2 4 = 0. 3 2 + ( − 0.6 ) 2 + 1. 2 2 + ( − 0.9 ) 2 4 = 0.09 + 0.36 + 1.44 + 0.81 4 = 2.7 4 = 0.675 ≈ 0.82 \mathrm{std}(\mathbf{r}) = \sqrt{\dfrac{(2.1-1.8)^2+(1.2-1.8)^2+(3.0-1.8)^2+(0.9-1.8)^2}{4}} = \sqrt{\dfrac{0.3^2+(-0.6)^2+1.2^2+(-0.9)^2}{4}} = \sqrt{\dfrac{0.09+0.36+1.44+0.81}{4}} = \sqrt{\dfrac{2.7}{4}} = \sqrt{0.675} \approx 0.82 std(r)=4(2.11.8)2+(1.21.8)2+(3.01.8)2+(0.91.8)2 =40.32+(0.6)2+1.22+(0.9)2 =40.09+0.36+1.44+0.81 =42.7 =0.675 0.82
    • r ~ 1 = 2.1 − 1.8 0.82 ≈ 0.37 , r ~ 2 ≈ − 0.73 , r ~ 3 ≈ 1.46 , r ~ 4 ≈ − 1.10 \tilde{r}_1 = \dfrac{2.1-1.8}{0.82}\approx 0.37, \tilde{r}_2\approx -0.73, \tilde{r}_3\approx 1.46, \tilde{r}_4\approx -1.10 r~1=0.822.11.80.37,r~20.73,r~31.46,r~41.10
  2. KL 正则项计算
    已知某个 token 的策略概率 π θ ( o t ) = 0.2 \pi_\theta(o_t) = 0.2 πθ(ot)=0.2,参考策略 π r e f ( o t ) = 0.1 \pi_{\mathrm{ref}}(o_t) = 0.1 πref(ot)=0.1,试计算两者的 KL 散度 K L [ π θ ∣ π r e f ] \mathrm{KL}[\pi_{\theta}|\pi_{\mathrm{ref}}] KL[πθπref] 对于该 token 的贡献(假设只这一种 action,下同)。
    参考答案
    K L [ π θ ∥ π r e f ] = π θ ( o t ) log ⁡ π θ ( o t ) π r e f ( o t ) = 0.2 ⋅ log ⁡ 0.2 0.1 = 0.2 ⋅ log ⁡ ( 2 ) ≈ 0.2 ⋅ 0.6931 = 0.1386 \mathrm{KL}[\pi_\theta\|\pi_{\mathrm{ref}}] = \pi_\theta(o_t) \log \frac{\pi_\theta(o_t)}{\pi_{\mathrm{ref}}(o_t)} = 0.2 \cdot \log \frac{0.2}{0.1} = 0.2 \cdot \log(2) \approx 0.2 \cdot 0.6931 = 0.1386 KL[πθπref]=πθ(ot)logπref(ot)πθ(ot)=0.2log0.10.2=0.2log(2)0.20.6931=0.1386

  3. 奖励差值放大
    如果在分组归一化时,想将奖励差值额外放大 2 倍,可将公式
    r ~ i = r i − m e a n ( r ) s t d ( r ) \tilde{r}_i = \dfrac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r})} r~i=std(r)rimean(r)
    改为
    r ^ i = 2 × r i − m e a n ( r ) s t d ( r ) . \hat{r}_i = 2 \times \dfrac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r})}. r^i=2×std(r)rimean(r).
    请给出若 r i − m e a n ( r ) = 0.5 r_i - \mathrm{mean}(\mathbf{r})=0.5 rimean(r)=0.5,而 s t d ( r ) = 0.25 \mathrm{std}(\mathbf{r})=0.25 std(r)=0.25 时, r ^ i \hat{r}_i r^i 的数值是多少?
    参考答案
    r ^ i = 2 × 0.5 0.25 = 2 × 2 = 4. \hat{r}_i = 2 \times \dfrac{0.5}{0.25} = 2 \times 2 = 4. r^i=2×0.250.5=2×2=4.

  4. PPO ratio 裁剪
    在 PPO 或 GRPO 中,我们有
    r t = π θ ( o t ∣ q , o < t ) π θ o l d ( o t ∣ q , o < t ) . r_t = \dfrac{\pi_{\theta}(o_t\mid q,o_{rt=πθold(otq,o<t)πθ(otq,o<t).
    ε = 0.2 \varepsilon=0.2 ε=0.2, π θ ( o t ) = 0.4 \pi_\theta(o_t) = 0.4 πθ(ot)=0.4, π θ o l d ( o t ) = 0.3 \pi_{\theta_{\mathrm{old}}}(o_t)=0.3 πθold(ot)=0.3,则 r t r_t rt 的裁剪结果是多少?
    参考答案

    • r t = 0.4 / 0.3 ≈ 1.3333 r_t = 0.4/0.3 \approx 1.3333 rt=0.4/0.31.3333
    • 1 − ε = 0.8 , 1 + ε = 1.2 1 - \varepsilon = 0.8, 1 + \varepsilon = 1.2 1ε=0.8,1+ε=1.2.
    • r t r_t rt 超过了 1.2 1.2 1.2,因此被 clip 到 1.2 1.2 1.2.
  5. 多步过程监督累加奖励
    设过程奖励如下:在第 3 步给 +2,第 5 步给 -1,其余步骤奖励 0。如果整条序列长度为 6, γ = 1 \gamma=1 γ=1,请计算第 2 步开始时的总回报。
    参考答案

    • 第 2 步之后,还要经历第 3 步(+2)和第 5 步(-1)。
    • 故总回报 R 2 = 2 + ( − 1 ) = 1 R_2 = 2 + (-1) = 1 R2=2+(1)=1.
  6. 在线采样批量计算
    若在一次训练循环中,batch 大小 B = 8 B=8 B=8,分组大小 G = 4 G=4 G=4,则共需要生成多少条序列?
    参考答案

    • 总序列数 = B × G = 8 × 4 = 32 B \times G = 8 \times 4 = 32 B×G=8×4=32.
  7. 分组奖励平均值为 0
    证明如果对每个分组计算
    r ~ i = r i − m e a n ( r ) s t d ( r ) , \tilde{r}_i = \dfrac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r})}, r~i=std(r)rimean(r),
    则分组内 r ~ i \tilde{r}_i r~i 的平均值一定为 0。
    参考答案

    • ∑ i ( r i − m e a n ( r ) ) = 0 \sum_i (r_i - \mathrm{mean}(\mathbf{r})) = 0 i(rimean(r))=0,所以 ∑ i ( r ~ i ) = 1 s t d ( r ) ∑ i ( r i − m e a n ( r ) ) = 0 \sum_i ( \tilde{r}_i ) = \frac{1}{\mathrm{std}(\mathbf{r})} \sum_i (r_i - \mathrm{mean}(\mathbf{r})) = 0 i(r~i)=std(r)1i(rimean(r))=0.
  8. KL 项无偏估计
    在 GRPO 中常用无偏估计,公式为
    D K L [ π θ ∥ π r e f ] = π r e f ( o t ) π θ ( o t ) − log ⁡ π r e f ( o t ) π θ ( o t ) − 1. \mathbb{D}_{KL}[\pi_\theta\|\pi_{\mathrm{ref}}] = \dfrac{\pi_{\mathrm{ref}}(o_t)}{\pi_{\theta}(o_t)} - \log \dfrac{\pi_{\mathrm{ref}}(o_t)}{\pi_{\theta}(o_t)} - 1. DKL[πθπref]=πθ(ot)πref(ot)logπθ(ot)πref(ot)1.
    π θ ( o t ) = 0.25 , π r e f ( o t ) = 0.5 \pi_\theta(o_t)=0.25, \pi_{\mathrm{ref}}(o_t)=0.5 πθ(ot)=0.25,πref(ot)=0.5,计算该 KL 值。
    参考答案
    D K L [ π θ ∥ π r e f ] = 0.5 0.25 − log ⁡ 0.5 0.25 − 1 = 2 − log ⁡ ( 2 ) − 1 = 1 − 0.6931 ≈ 0.3069 \mathbb{D}_{KL}[\pi_\theta\|\pi_{\mathrm{ref}}] = \dfrac{0.5}{0.25} - \log \dfrac{0.5}{0.25} - 1 = 2 - \log(2) - 1 = 1 - 0.6931 \approx 0.3069 DKL[πθπref]=0.250.5log0.250.51=2log(2)1=10.69310.3069

  9. 校正后的梯度系数
    若一个分组内奖励 r ~ i \tilde{r}_i r~i 分别为 0.8 , − 0.3 , 1.2 {0.8, -0.3, 1.2} 0.8,0.3,1.2,对应的 ratio 分别为 1.1 , 0.9 , 1.6 {1.1, 0.9, 1.6} 1.1,0.9,1.6,如果 clip 区间是 [ 0.8 , 1.2 ] [0.8, 1.2] [0.8,1.2],求裁剪后对应的 ratio。
    参考答案

    • 第一个 ratio 1.1 在区间 [0.8,1.2] 内,不变。
    • 第二个 ratio 0.9 在区间 [0.8,1.2] 内,不变。
    • 第三个 ratio 1.6 超过上限,clip 为 1.2.
  10. 计算采样效率
    假设传统 PPO 每次只需对同一问题采样 1 个序列,而 GRPO 要对同一问题采样 6 个序列,若问题数量相同,则 GRPO 在推理阶段的计算量是 PPO 的几倍?
    参考答案

  • GRPO 推理量约为 PPO 的 6 倍(因为同一问题采样 6 条序列)。

四、简答题(5题)

说明:每题 6 分,共 30 分。要求简洁明了地阐述概念或原理,可适当使用公式或示意图。

  1. 简述 GRPO 与传统 Actor-Critic 方法相比的主要区别。
    参考答案要点
    • 传统 Actor-Critic 需维护与策略同规模的价值网络,计算优势函数。
    • GRPO 采用分组相对奖励,无需价值网络。
    • GRPO 在采样和相对比较阶段增加了开销,但大大减小了内存需求。
    • 对策略分布的更新方式也类似 PPO,包含 ratio、clip、KL 正则等。
  2. 在 GRPO 中,为什么需要对分组奖励进行减均值除标准差的归一化?
    参考答案要点
    • 防止奖励量级过大或过小,导致梯度不稳定。
    • 使得分组内更容易区分输出之间的相对好坏。
    • 均值 0、标准差 1 的相对评分可以更好地表达“高于/低于平均水平多少”。
  3. 什么是过程监督(Process Supervision),在 GRPO 中如何实现?
    参考答案要点
    • 过程监督指在序列生成过程中,不只在最终答案,而是在中间步骤也进行奖励或惩罚。
    • 在 GRPO 实现时,需要对每个关键步骤都有相应 reward,然后可将这些步骤的收益累加或分段赋给对应 token,再在分组内进行对比。
    • 可以得到更细粒度的反馈,提升收敛速度。
  4. GRPO 如何与离线数据集相结合进行训练?
    参考答案要点
    • 若已有离线数据集,其中每个问题都包含多个候选输出及其奖励,可以直接在组内做相对比较。
    • 但无法产生新的探索输出,可能会限制模型能力。
    • 在线采样更符合 GRPO 的优势,但离线也可用作初始训练或辅助。
  5. 说明 GRPO 在大语言模型对齐(RLHF)中的典型流程。
    参考答案要点
    • 先使用 SFT 或初始模型 π θ o l d \pi_{\theta_{\mathrm{old}}} πθold,然后在线采样每个问题多条回答。
    • 用奖励模型 RM 对每条回答打分,并在分组内进行相对归一化,得到 r ~ i \tilde{r}_i r~i
    • 结合 ratio 和 clip 等技术,更新策略 π θ \pi_\theta πθ;同时保持 KL 正则避免过度偏离参考分布。
    • 可迭代进行,并在必要时更新奖励模型。

你可能感兴趣的:(DeepSeek,R1,算法)