FF-Studio

【DeepSeek】大模型强化学习训练GRPO算法，你学会了吗？

如果你还不知道GRPO，你可以先看这篇帖子：
【DeepSeek】一文详解GRPO算法——为什么能减少大模型训练资源？

看了论文跟没看一样？做两道题练练！

曾经最痛恨的应试教育，却能让你深深记住这知识点。

由ChatGPT o1 pro生成，o1 pro的输出token和写作能力比 DeepSeek R1 强。

GRPO原论文链接：https://arxiv.org/abs/2402.03300
GRPO中译文链接：https://blog.csdn.net/qq_38961840/article/details/145384346

一、单项选择题（20题）

说明：以下每题只有一个正确答案。每题 2 分，共 40 分。

以下关于 GRPO（Group Relative Policy Optimization）的描述中，哪项是正确的？
A. GRPO 依赖一个与策略同规模的价值网络来估计优势函数
B. GRPO 采用分组内相互比较的方式来估计相对奖励
C. GRPO 不需要任何参考模型（Reference Model）进行 KL 正则
D. GRPO 无法与监督式微调（SFT）数据同时使用
答案：B
解析：GRPO 的核心思想是对同一个问题生成多条候选输出，并通过分组内比较来计算相对奖励，从而无需单独的大价值网络。选项 A 与 GRPO 无关（这是 PPO 的特点），C 错在“完全不需要参考模型”，GRPO 常常依赖参考模型做 KL 正则；D 则表述错误，GRPO 可以在已有 SFT 数据上进一步训练。
在强化学习中，近端策略优化（PPO）需要用到优势函数 $A_t$ 的主要目的是：
A. 降低估计偏差以使训练稳定
B. 增加价值网络的复杂度
C. 仅用于在多智能体场景下做对比
D. 在训练中对每个 token 做增量奖励
答案：A
解析：PPO 中使用优势函数 (Advantage Function) 主要是为了减小方差并提高训练稳定性，属于 Actor-Critic 框架的一部分。B 选项错误，价值网络的复杂度与此无关；C、D 都偏离了 PPO 主要目标。
以下哪一项不是 GRPO 与 PPO 相比带来的直接优势？
A. 减少对大规模价值网络的需求
B. 能够直接在分组内对候选答案进行比较
C. 大幅提升了采样效率
D. 使得训练时内存占用减少
答案：C
解析：A、B、D 都是 GRPO 的特点；C 中“大幅提升采样效率”并不一定成立，因为 GRPO 需要对同一个问题采样多条输出（分组 G 个），这可能在某些情况下增加推理开销。
在结果监督（Outcome Supervision）与过程监督（Process Supervision）两种场景下，GRPO 会如何分配奖励？
A. 结果监督只在最后一个 token 发放奖励，过程监督在每个 token 都发放
B. 结果监督和过程监督都把奖励平均分给所有 token
C. 结果监督在序列末尾打分，过程监督可在中间步骤打分
D. GRPO 不支持过程监督
答案：C
解析：结果监督只在序列末尾得到最终奖励 $r$ ；过程监督可以对每个关键推理步骤进行打分。GRPO 允许两种方式，只是分配方式不同。
在 GRPO 的分组优势计算中，下列哪一个公式最能体现“分组相对奖励”的核心？
A. $A_t = Q(s_t, a_t) - V(s_t)$
B. $\hat{r}*i = r_i - \alpha \cdot \log\frac{\pi*\theta(o_{i,t}\mid q,o_{i,r^∗i=ri−α⋅logπref(oi,t∣q,oi,<t)π∗θ(oi,t∣q,oi,<t)$
为了保证 GRPO 训练的稳定性，通常还会在损失函数中加入 KL 正则项，其主要目的是：
A. 避免模型在单个问题上过拟合
B. 减少与参考策略分布差异过大的风险
C. 增大奖励值以保证训练效率
D. 缩短序列长度
答案：B
解析：KL 正则(惩罚项)的目的是防止策略更新过于极端，从而与参考模型（如初始 SFT 模型）的分布相差太大，导致训练不稳定。
在多候选答案采样时，GRPO 相比“单条输出更新”更适合的场景是什么？
A. 只要是序列生成就能使用多候选
B. 需要分组内对比，且可接受多次推理的任务
C. 只有在离线训练数据很少的情况下使用
D. 主要适合非序列任务
答案：B
解析：GRPO 在同一问题上采样多条答案并进行分组对比才能发挥优势，因此适合可以多次推理且需要对输出进行精细比较的场景。
DeepSeekMath 在数学推理中使用 GRPO 的关键原因是：
A. 让模型只输出最短的答案
B. 在每一步 token 采用复杂的价值网络
C. 通过分组奖励减轻价值网络的负担
D. 减少中文数据的覆盖
答案：C
解析：DeepSeekMath 等大模型在数学推理中采用 GRPO，主要是因为在大语言模型上训练一个价值网络过于昂贵，而分组相对方式能够有效减少对价值网络的依赖。
下列哪一项描述更符合结果监督（Outcome Supervision）的做法？
A. 对序列每个 token 进行单独的奖励评估
B. 在一段推理结束后给出一个最终得分
C. 在生成每个步骤后立即给局部奖励
D. 每个时间步都要计算累计回报
答案：B
解析：结果监督只在最终完成输出后给一个整体分数；过程监督才会对每个步骤或中间时刻单独给分。
以下关于 $\hat{A}_{i,t}$ 的说法中，哪一项属于 GRPO 对优势函数的处理？
A. 使用 PPO 方式，对每个 token 独立进行 GAE
B. $A_{i,t} = \sum_{\tau=t}^T \gamma^{\tau - t} r_\tau$
C. 在分组内对所有输出进行比较，得到相对奖励，然后赋给序列内所有 token
D. 将价值函数 $V_\psi$ 与 $Q_\phi$ 相减得到优势
答案：C
解析：GRPO 不采用传统价值函数来逐步计算优势，而是通过分组相对奖励来给整个序列打同一个相对分数。
如果希望在 GRPO 中增强模型对错误答案的惩罚力度，下列哪一种操作最有效？
A. 提高学习率
B. 增大 KL 正则系数 $\beta$
C. 采用更高的温度参数进行多样性采样
D. 进行分组归一化时将奖励差值放大
答案：D
解析：为了在分组中更严重地惩罚得分低的输出，可以在归一化时放大分数差值；KL 系数是用来控制与参考策略的差异度，而不是直接对正确/错误答案区别对待。
在 GRPO 中，若我们令分组大小 $G = 1$ ，则此时与 PPO 最接近的情况会是：
A. 仍然不需要任何价值网络，直接更新
B. 变为传统的返回奖励方式，但需要离线数据
C. 退化为只有一条输出无法进行分组对比，需另行处理
D. 以上都不准确
答案：C
解析：GRPO 之所以能免价值网络的一个关键是对同一问题多输出进行对比。当 $G = 1$ 时，就无法做分组比较。此时 GRPO 的相对奖励思路就失效了，需要用别的方法（价值网络或外部 baseline）来估计优势。
对于大型语言模型做强化学习，如果我们不引入分组概念，而使用价值网络 Critic，会导致的最主要问题是：
A. 会使得模型更新方向更准确
B. 大幅提高内存和计算开销
C. 无法再进行多轮对话
D. 无法做无监督训练
答案：B
解析：使用价值网络 Critic，需要一个与 Actor 同规模的模型，导致内存与算力消耗大，尤其在大型语言模型场景中。
在 GRPO 的训练中，如果奖励模型（RM）本身带有一定噪声或错误，会有什么影响？
A. 无法进行梯度更新
B. 依然能保证模型收敛到全局最优
C. 相对奖励可能被扭曲，需要更大的分组规模或更准确的 RM
D. 与过程监督无关
答案：C
解析：奖励模型不准确会直接影响到分组内的相对排序，因此需要更大分组规模减少噪声，或者优化奖励模型的准确度。
使用 GRPO 与监督式微调（SFT）相结合时，下列说法正确的是：
A. 只能先做 GRPO，再做 SFT
B. GRPO 的数据来源可来自 SFT 的训练集，但进行在线采样
C. 两者完全冲突，二者不可结合
D. GRPO 不支持参考 SFT 模型
答案：B
解析：在强化学习阶段，问题集往往与 SFT 数据相同或相似，但会使用策略模型在线采样候选答案。SFT 模型可用于初始化策略或参考模型。
下列哪一项不是 GRPO 的典型应用场景？
A. 数学解题中通过分组比较不同的解法质量
B. 翻译任务中比较不同译文的优劣
C. 机器人关节控制中的连续动作价值评估
D. 代码补全中根据最终执行结果对比正确性
答案：C
解析：C 中的场景更常见于连续动作空间的传统 Actor-Critic 场景，不那么适合以“分组输出”的方式来处理；A、B、D 都可以通过分组多候选对比。
GRPO 中“分组”主要指的是什么？
A. 同一批训练样本中的所有问题
B. 对同一个问题生成的多条候选序列
C. 不同问题的奖励
D. 任何随机分组，不需要特定语义
答案：B
解析：GRPO 中“分组”指的是针对同一个问题 q 采样多条输出 $o_1,o_2,\dots,o_G$ ，并进行分组内对比。
在算法实现角度，如果在 GRPO 中将分组大小 $G$ 设置过大，可能会带来的问题是：
A. 过拟合严重
B. 提高了采样开销与推理成本
C. 模型完全无法收敛
D. 无法进行归一化
答案：B
解析：分组大小过大虽然可能带来更准确的排名和相对奖励，但同时也会成倍增加推理与计算成本。A、C、D 并非必然。
GRPO 的梯度计算里，gradient coefficient 的来源是：
A. 由价值网络 $V_\psi$ 计算的优势
B. 由参考模型的概率比率
C. 由分组相对奖励 $\tilde{r}_i$ 以及 ratio
D. 由监督微调的人工标签
答案：C
解析：GRPO 的梯度系数即分组后的相对奖励与该 token 概率比率结合的形式，而非价值网络或人工标签。
为了应对分布外（Out-of-distribution）问题时奖励模型不准确的现象，有研究采用迭代式 RLHF + 回放机制。这种做法的动机是：
A. 强行减少训练步数
B. 维持价值网络大小不变
C. 随着策略变强，不断更新奖励模型，让 RM 保持对新分布的监督能力
D. 改用最短路径搜索
答案：C
解析：迭代式训练就是不断用新策略生成的数据来更新奖励模型，并结合回放数据防止遗忘，保证 RM 随着策略的变化保持可靠性。

二、填空题（20题）

说明：每空 1 分，共 20 分。本题主要考查同学们对概念和关键公式的理解。

GRPO 中的分组采样指的是在**______**采样多条输出序列，然后在组内进行对比。答案：同一个问题（Prompt）
解析：在 GRPO 里，每个问题 q 会采样多条候选答案并比较。
相对于使用价值网络，GRPO 的优势是通过**______**来估计，而无需显式训练一个 Critic。答案：分组相对奖励（或分组内相对比较）
解析：这是 GRPO 的核心思想。
在结果监督场景下，GRPO 通常会将一个问题的整条序列的所有 token 共享同一个**______**值。答案：奖励/优势（Reward/Advantage）
解析：因只在序列末端获得一个分数，该分数会被赋予序列每个 token。
GRPO 的 KL 正则项一般形如 $\beta \cdot \mathrm{KL}\bigl[\pi_\theta \,\|\, \pi_{\mathrm{ref}}\bigr]$ ，其中 $\beta$ 是控制更新幅度的**______**。答案：系数/超参数
解析：KL 项用来限制策略与参考策略的差异。
在过程监督（Process Supervision）中，可针对每个步骤产生奖励，从而在 GRPO 中把奖励分配到**______**对应的位置。答案：中间步骤 / 相应 token
解析：过程监督可将奖励分配到多个 step，让 GRPO 得到更细粒度信息。
GRPO 在应用于数学推理时常配合**______**模型对每条输出进行评分。答案：奖励（Reward）
解析：GRPO 通常需要一个奖励模型对输出质量进行评估和打分。
当分组大小 $G$ 增大时，GRPO 的分组对比能更稳定，但会显著增加**______**的开销。答案：推理（或计算）
解析：要生成 G 条答案，自然要多做 G 倍推理。
在公式中， $\tilde{r}*i = \frac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r})}$ 表示的就是***_____**。答案：相对奖励 / 归一化奖励
解析：这是分组内奖励的归一化。
PPO 的核心思想是通过 ______(clip) 使策略更新不会过猛。答案：截断 / 裁剪
解析：PPO 提出的 clip 方法限制了概率比率变化范围。
如果奖励模型不准确，那么 GRPO 的相对比较也可能出现**______**排序。答案：错误 / 噪声 / 混乱
解析：奖励模型不准确会让分组比较不可靠。
GRPO 与 Online RFT 的差异之一，在于前者根据**______**区分强化或惩罚的幅度，而后者没有此机制。答案：奖励模型输出的分数 / 不同回答得分的幅度
解析：Online RFT 只区分正确或错误，缺少细粒度得分。
在计算梯度时，GRPO 中的**______**会和 $\log \pi_\theta(o_t\mid q,o_{logπθ(ot∣q,o<t)$
GRPO 中每个分组的基线（baseline）由分组内**______**决定，无需像 PPO 一样去学习一个价值函数。答案：平均奖励 / 平均分数
解析：通过分组均值作为基线来计算相对奖励。
GRPO 的训练目标可写作 $\mathcal{J}^{\mathrm{GRPO}}(\theta)=\mathbb{E} \biggl[\dots \min\!\Bigl(\dfrac{\pi_{\theta}}{\pi_{\theta_{\mathrm{old}}}}\hat{A}, \text{clip}\bigl(\dfrac{\pi_{\theta}}{\pi_{\theta_{\mathrm{old}}}},1-\varepsilon,1+\varepsilon\bigr)\hat{A}\Bigr)\biggr] - \beta \,\mathrm{KL}[\dots]$ ，其中**______**项控制与旧策略的比率限制。答案： $\min(\cdot,\cdot)$ / clip
解析：与 PPO 一样，GRPO 也可保留 clip 操作。
采用**______**的学习率可以防止 GRPO 训练过程中数值爆炸。答案：较小 / 适当
解析：一般 RL 微调阶段学习率不宜过大。
为了让 GRPO 在迭代训练时不断得到新分布的数据，需要**______**的策略模型生成样本。答案：实时 / 在线
解析：这与 offline RFT 不同，GRPO 常在在线策略下进行采样。
“过程监督”在数理推理中可以帮助模型更快捕捉到**______**的得失，从而加速训练。答案：中间步骤 / 思维过程
解析：过程监督对中间步骤提供奖励/惩罚。
如果不进行任何**______**，模型可能会过度利用奖励模型的小缺陷从而导致训练崩溃。答案：正则化 / KL 惩罚
解析：没有正则会让策略过度偏离初始分布。
在 DeepSeekMath 的数学推理中，GRPO 可以避免在每个 token 上拟合**______**，从而节省大量内存。答案：价值网络（value network）
解析：这是 GRPO 的主要优点之一。
当分组规模 $G = 64$ 时，意味着对同一个问题需要采样**______**个候选答案做比较。答案：64
解析：分组规模与采样条数一致。

三、计算题（10题）

说明：每题 4 分，共 40 分。需写出必要的计算过程或说明原理。

分组归一化
设在一个问题 $q$ 上，采样得到 4 条输出，奖励分别是 $r_1=2.1, r_2=1.2, r_3=3.0, r_4=0.9$ 。
- 计算它们的平均值 $\mathrm{mean}(\mathbf{r})$ 和标准差 $\mathrm{std}(\mathbf{r})$ 。
- 再给出每个 $r_i$ 的归一化相对奖励 $\tilde{r}_i$ 。
  参考答案：
- $\mathrm{mean}(\mathbf{r}) = \dfrac{2.1+1.2+3.0+0.9}{4} = 1.8$
- $\mathrm{std}(\mathbf{r}) = \sqrt{\dfrac{(2.1-1.8)^2+(1.2-1.8)^2+(3.0-1.8)^2+(0.9-1.8)^2}{4}} = \sqrt{\dfrac{0.3^2+(-0.6)^2+1.2^2+(-0.9)^2}{4}} = \sqrt{\dfrac{0.09+0.36+1.44+0.81}{4}} = \sqrt{\dfrac{2.7}{4}} = \sqrt{0.675} \approx 0.82$
- $\tilde{r}_1 = \dfrac{2.1-1.8}{0.82}\approx 0.37, \tilde{r}_2\approx -0.73, \tilde{r}_3\approx 1.46, \tilde{r}_4\approx -1.10$
KL 正则项计算
已知某个 token 的策略概率 $\pi_\theta(o_t) = 0.2$ ，参考策略 $\pi_{\mathrm{ref}}(o_t) = 0.1$ ，试计算两者的 KL 散度 $\mathrm{KL}[\pi_{\theta}|\pi_{\mathrm{ref}}]$ 对于该 token 的贡献（假设只这一种 action，下同）。
参考答案：
$\mathrm{KL}[\pi_\theta\|\pi_{\mathrm{ref}}] = \pi_\theta(o_t) \log \frac{\pi_\theta(o_t)}{\pi_{\mathrm{ref}}(o_t)} = 0.2 \cdot \log \frac{0.2}{0.1} = 0.2 \cdot \log(2) \approx 0.2 \cdot 0.6931 = 0.1386$
奖励差值放大
如果在分组归一化时，想将奖励差值额外放大 2 倍，可将公式
$\tilde{r}_i = \dfrac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r})}$
改为
$\hat{r}_i = 2 \times \dfrac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r})}.$
请给出若 $r_i - \mathrm{mean}(\mathbf{r})=0.5$ ，而 $\mathrm{std}(\mathbf{r})=0.25$ 时， $\hat{r}_i$ 的数值是多少？
参考答案：
$\hat{r}_i = 2 \times \dfrac{0.5}{0.25} = 2 \times 2 = 4.$
PPO ratio 裁剪
在 PPO 或 GRPO 中，我们有
$r_t = \dfrac{\pi_{\theta}(o_t\mid q,o_{rt=πθold(ot∣q,o<t)πθ(ot∣q,o<t).$
- $r_t = 0.4/0.3 \approx 1.3333$
- $\varepsilon = 0.8, 1 + \varepsilon = 1.2$ .
- $r_t$ 超过了 $1.2$ ，因此被 clip 到 $1.2$ .
多步过程监督累加奖励
设过程奖励如下：在第 3 步给 +2，第 5 步给 -1，其余步骤奖励 0。如果整条序列长度为 6， $\gamma=1$ ，请计算第 2 步开始时的总回报。
参考答案：
- 第 2 步之后，还要经历第 3 步(+2)和第 5 步(-1)。
- 故总回报 $R_2 = 2 + (-1) = 1$ .
在线采样批量计算
若在一次训练循环中，batch 大小 $B = 8$ ，分组大小 $G = 4$ ，则共需要生成多少条序列？
参考答案：
- 总序列数 = $\times G = 8 \times 4 = 32$ .
分组奖励平均值为 0
证明如果对每个分组计算
$\tilde{r}_i = \dfrac{r_i - \mathrm{mean}(\mathbf{r})}{\mathrm{std}(\mathbf{r})},$
则分组内 $\tilde{r}_i$ 的平均值一定为 0。
参考答案：
- $\sum_i (r_i - \mathrm{mean}(\mathbf{r})) = 0$ ，所以 $\sum_i ( \tilde{r}_i ) = \frac{1}{\mathrm{std}(\mathbf{r})} \sum_i (r_i - \mathrm{mean}(\mathbf{r})) = 0$ .
KL 项无偏估计
在 GRPO 中常用无偏估计，公式为
$\mathbb{D}_{KL}[\pi_\theta\|\pi_{\mathrm{ref}}] = \dfrac{\pi_{\mathrm{ref}}(o_t)}{\pi_{\theta}(o_t)} - \log \dfrac{\pi_{\mathrm{ref}}(o_t)}{\pi_{\theta}(o_t)} - 1.$
当 $\pi_\theta(o_t)=0.25, \pi_{\mathrm{ref}}(o_t)=0.5$ ，计算该 KL 值。
参考答案：
$\mathbb{D}_{KL}[\pi_\theta\|\pi_{\mathrm{ref}}] = \dfrac{0.5}{0.25} - \log \dfrac{0.5}{0.25} - 1 = 2 - \log(2) - 1 = 1 - 0.6931 \approx 0.3069$
校正后的梯度系数
若一个分组内奖励 $\tilde{r}_i$ 分别为 ${0.8, -0.3, 1.2}$ ，对应的 ratio 分别为 ${1.1, 0.9, 1.6}$ ，如果 clip 区间是 $[0.8, 1.2]$ ，求裁剪后对应的 ratio。
参考答案：
- 第一个 ratio 1.1 在区间 [0.8,1.2] 内，不变。
- 第二个 ratio 0.9 在区间 [0.8,1.2] 内，不变。
- 第三个 ratio 1.6 超过上限，clip 为 1.2.
计算采样效率
假设传统 PPO 每次只需对同一问题采样 1 个序列，而 GRPO 要对同一问题采样 6 个序列，若问题数量相同，则 GRPO 在推理阶段的计算量是 PPO 的几倍？
参考答案：

GRPO 推理量约为 PPO 的 6 倍（因为同一问题采样 6 条序列）。

四、简答题（5题）

说明：每题 6 分，共 30 分。要求简洁明了地阐述概念或原理，可适当使用公式或示意图。

简述 GRPO 与传统 Actor-Critic 方法相比的主要区别。
参考答案要点：
- 传统 Actor-Critic 需维护与策略同规模的价值网络，计算优势函数。
- GRPO 采用分组相对奖励，无需价值网络。
- GRPO 在采样和相对比较阶段增加了开销，但大大减小了内存需求。
- 对策略分布的更新方式也类似 PPO，包含 ratio、clip、KL 正则等。
在 GRPO 中，为什么需要对分组奖励进行减均值除标准差的归一化？
参考答案要点：
- 防止奖励量级过大或过小，导致梯度不稳定。
- 使得分组内更容易区分输出之间的相对好坏。
- 均值 0、标准差 1 的相对评分可以更好地表达“高于/低于平均水平多少”。
什么是过程监督（Process Supervision），在 GRPO 中如何实现？
参考答案要点：
- 过程监督指在序列生成过程中，不只在最终答案，而是在中间步骤也进行奖励或惩罚。
- 在 GRPO 实现时，需要对每个关键步骤都有相应 reward，然后可将这些步骤的收益累加或分段赋给对应 token，再在分组内进行对比。
- 可以得到更细粒度的反馈，提升收敛速度。
GRPO 如何与离线数据集相结合进行训练？
参考答案要点：
- 若已有离线数据集，其中每个问题都包含多个候选输出及其奖励，可以直接在组内做相对比较。
- 但无法产生新的探索输出，可能会限制模型能力。
- 在线采样更符合 GRPO 的优势，但离线也可用作初始训练或辅助。
说明 GRPO 在大语言模型对齐（RLHF）中的典型流程。
参考答案要点：
- 先使用 SFT 或初始模型 $\pi_{\theta_{\mathrm{old}}}$ ，然后在线采样每个问题多条回答。
- 用奖励模型 RM 对每条回答打分，并在分组内进行相对归一化，得到 $\tilde{r}_i$ 。
- 结合 ratio 和 clip 等技术，更新策略 $\pi_\theta$ ；同时保持 KL 正则避免过度偏离参考分布。
- 可迭代进行，并在必要时更新奖励模型。

C++自研游戏引擎-碰撞检测组件-八叉树AABB检测算法实现千年奇葩三维引擎 c++人工智能算法八叉树
八叉树碰撞检测是一种在三维空间中高效处理物体碰撞检测的算法，其原理可以类比为一个管理三维空间物体的智能系统。这个示例包含两个部分：八叉树部分用于宏观检测，AABB用于微观检测。AABB可以更换为均值或节点检测来提高检测精度。八叉树的构建确定根节点范围首先要为整个碰撞检测系统确定一个初始范围，这就像是为所有参与碰撞检测的物体划定一个“活动区域”。这个范围是一个能够完全容纳所有待检测物体的三维立方体空
清华发布:DeepSeek学习教程ppt 104页完整版免费分享 2501_90649720 人工智能学习
最近国产DeepSeek火出圈，其出色的性能和巨大的潜力引得各路资本巨头蜂蛹而入，纷纷与其合作。红遍世界。在DeepSeek火遍世界时，清华大学的博士后团队默默出品了一份名为《DeepSeek:从入门到精通》的ai教学课程。课程一经发布，就引得各个自媒体ai博主的疯传，一度冲上热搜。我专门去看了一下这个教程，确实够硬，够专业，够全面！完整版教程资源我已经帮大家整理好放下面了，大家自行领取。资源链接
DeepSeek 混合专家（MoE）架构技术原理剖析计算机学长通用大语言模型人工智能架构
DeepSeek混合专家（MoE）架构技术原理剖析在人工智能快速发展的当下，大规模语言模型不断突破创新，DeepSeek混合专家（MoE）架构脱颖而出，成为业内关注焦点。本文将深入剖析其技术原理，为大家揭开它的神秘面纱。一、MoE架构概述（一）基本概念混合专家（MixtureofExperts，MoE）架构，简单来说，就像是一个专家团队。在这个团队里，每个专家都是一个小型神经网络，各自擅长处理特定
本地搭建deepseek并提供给其它人使用（最全，完整可用）唐大帅 deepseek deepseek本地化
最近deepseek非常火，可以称得上是国人的骄傲了。也导致他的网站和api都比较卡。因为是开源的，我们可以很方便的架设其蒸馏模型到自己的主机上。PS：虽然也可以Cpu运行模型，但是如果没有8G以上的显存卡的话，只能搭建7B以下的模型，体验效果并不太好。一、安装Ollama1.1在线安装（推荐方式，需要科学上网）在Ubuntu终端中直接执行下面的命令，下载安装脚本会自动下载适合你系统架构的Olla
本地部署 DeepSeek：环境准备 + 详细步骤 + 高级部署方案 + 可视化工具集成 + 故障排除手册 + 性能优化建议 Katie。人工智能技术发展 ai deepseek 人工智能人工智能大模型
前言随着人工智能技术的迅猛发展，大语言模型（LLM）在多个行业中的应用日益广泛，从自然语言处理、内容生成到智能客服、医疗诊断等领域，AI正在深刻改变传统的工作方式和业务流程。DeepSeek作为一家新兴的AI公司，凭借其高效的AI模型和开源的优势，迅速在竞争激烈的AI市场中脱颖而出。其模型不仅在性能上表现出色，还通过开源策略吸引了大量开发者和企业的关注，形成了一个活跃的社区生态。然而，随着AI技术
数字内容体验未来趋势：五大平台横向对比与深度解析清风徐徐de来其他
内容概要当前，企业数字化转型的核心战场正逐步向数字内容体验的精细化运营转移。随着用户行为碎片化与需求多元化趋势加剧，AI驱动的智能推荐系统、基于数据决策的动态优化能力，以及跨渠道的品牌一致性维护，已成为衡量内容平台竞争力的三大核心维度。本文将围绕这三大支柱，通过横向对比主流平台的技术架构与落地实践，揭示未来数字内容体验的演进方向。首先，AI驱动不仅改变了内容分发的效率，更通过深度学习算法实现用户行
DeepSeek底层揭秘——多头潜在注意力MLA 9命怪猫 AI ai 人工智能大模型
目录1.多头潜在注意力（MLA）2.核心功能3.技术要素4.难点挑战暨含解决方案5.技术路径6.应用场景7.实际案例：DeepSeek8.最新研究与技术进展9.未来趋势猫哥说1.多头潜在注意力（MLA）(1)定义“多头潜在注意力（Multi-HeadLatentAttention,MLA）”是一种基于注意力机制的深度学习方法，旨在通过多个注意力头（Multi-HeadAttention）对潜在空间
共享内存的数据结构 ——循环队列+信息量 ——互斥锁、多进程的消费者模型源码模型测试代码 C++ sevenysq 数据结构 c++centos linux
前言：简单来说，共享内存不能自动扩展，申请多少就是多少，而且只能用C++内置的数据类型。也不能用STL容器，例如vector会自动扩展，容易造成内存泄漏，越界等问题。移动语义也不能用。要想实现多进程的生产/消费者模型只能采用循环队列。循环队列类值得一提的是这里面头尾指针的移动算法：（指针+1）取最大长度的余数。其他都很简单。#include#include#include#include#incl
linux内网部署deepseek大模型（ollama+anythingllm） wukurua 大模型 linux 大模型人工智能 docker
一、安装ollama来源：ollama/docs/linux.mdatmain·ollama/ollama·GitHub1.下载安装包ollama下载链接：https://ollama.com/download/ollama-linux-amd64.tgz，下载后放在用户目录下2.运行脚本#!/bin/sh#ThisscriptinstallsOllamaonLinux.#Itdetectsthe
众英达赏聘：人才与机会的完美交汇点 xjxijd 招聘
在信息化高速发展的今天，无论是企业还是求职者，都渴望能够在一个高效、便捷、精准的平台上找到彼此。众英达赏聘，正是这样一个致力于连接人才与机会的综合性招聘平台。众英达赏聘凭借其独特的算法和精准匹配技术，能够迅速分析用户的需求和特点，为企业和求职者提供个性化的推荐服务。无论是正在寻找优秀团队的企业，还是正在寻找理想工作岗位的求职者，都能在众英达赏聘上找到满意的选择。一个以企业招聘为主并融合本地生活出行
DeepSeek大模型本地化部署与实践指南星辰@Sea 人工智能人工智能 DeepSeek AI nlp
前言在数据隐私要求严苛或网络环境受限的场景中，本地化部署大模型成为企业AI落地的关键需求。本文将手把手教你如何实现DeepSeek大模型的本地化部署，并提供完整的实践案例代码。部署准备硬件要求配置项推荐规格最低要求GPUNVIDIAA10080Gx4RTX309024GCPUIntelXeonSilver4314i7-12700K内存512GBDDR464GBDDR4存储2TBNVMeSSD512
基于DeepSeek-R1的高效推理优化实战：从API封装到动态批处理竹木有心人工智能
引言在LLM（大语言模型）应用中，推理延迟和计算资源消耗是核心痛点。本文以DeepSeek-R1-7B模型为例，通过动态批处理、模型量化和异步推理三大技术，将单次推理耗时从2.3s降至0.4s，吞吐量提升6倍。所有代码均通过PyTorch2.1+验证。一、环境准备与模型加载优化1.1硬件感知的模型加载通过device_map自动分配计算资源，避免显存溢出fromtransformersimport
使用DeepSeek建立一个智能聊天机器人0.1 yehaiwz python 机器人开发语言
我对代码进行进一步的完善，增加更多的节点连接及功能运用，并确保配置文件config.json的内容更加丰富和详细。以下是完善后的代码和config.json文件内容。完善后的代码importtkinterastkfromtkinterimportscrolledtext,filedialog,messageboximportrequestsimportosimportthreadingimport
2025年智算中心的建设成本及优化策略，以DeepSeek为鉴数据中心运维高级工程师运维大数据 ai 大数据
引言近期DeepSeek的爆火引发了行业对智算中心建设的重新思考。据行业数据显示，目前国内智算中心的机房出租率普遍较低，算力资源过剩现象严重。在这种背景下，如何在控制成本的同时，实现智算中心的高效建设和可持续运营，成为行业亟待解决的问题。本文将详细探讨智算中心的建设成本及优化策略，涵盖适用范围、遵循标准、智算中心定义、成本关键组成部分、影响成本的因素、2025年建设A智算中心的成本估算及优化策略，
中烟创新为千行百业客户免费部署DeepSeek，让AI应用遍地开花人工智能
北京中烟创新科技有限公司（简称：中烟创新）自今日起为千行百业的客户免费部署DeepSeek提供技术服务。此次免费部署面向所有行业的客户，将根据企业的具体需求，提供定制化的DeepSeek部署方案。中烟创新免费部署DeepSeek提供技术服务，这一决策从多维度考量，对企业自身和行业发展影响深远。提升数据处理洞察：当下是数据驱动时代，数据是企业核心资产。DeepSeek能整合内外部数据，深度分析，打破
算法刷题--哈希表--字母异位词和两个数组的交集 Bruce Jue LeetCode刷题算法散列表哈希算法
哈希表概念哈希表是根据关键码的值而直接进行访问的数据结构。直白来讲数组就是一种哈希表。那么哈希表能解决什么问题呢，一般哈希表都是用来快速判断一个元素是否出现集合里。那么一般都是将一个集合里面的元素映射为哈希表的索引。那么设计哈希表的时候需要考虑以下原则：均匀性，尽可能让不同key均匀分布到哈希表中；高效性；覆盖性，确保所有key都能映射到哈希表范围内。当多个元素映射到同一个索引时，这种现象叫做哈希
DeepSeek 引领的 AI 范式转变与存储架构的演进星辰@Sea 人工智能其他人工智能
引言在过去的几十年中，人工智能（AI）技术经历了翻天覆地的变化，从最初的符号主义到连接主义，再到现在的深度学习，每一次技术革新都推动了AI能力的显著提升。而在这场变革中，DeepSeek作为一股不可忽视的力量，正在引领AI范式的转变，并深刻影响着存储架构的发展。在这篇博客中，我们将深入探讨DeepSeek如何推动AI范式的转变，以及这种转变对存储架构带来的深远影响。通过分析当前AI技术的发展趋势，
【合集】Java进阶——Java深入学习的笔记汇总 & 再论面向对象、数据结构和算法、JVM底层、多线程、类加载、 web_15534274656 面试学习路线阿里巴巴 java 学习笔记
前言spring作为主流的JavaWeb开发的开源框架，是Java世界最为成功的框架，持续不断深入认识spring框架是Java程序员不变的追求；而spring的底层其实就是Java，因此，深入学习Spring和深入学习Java是硬币的正反面，两者相辅相成，相互促进。本篇博客是一篇不定期持续更新的博客，是一些Java深入学习的笔记汇总。目录前言面向对象专题再论面向对象封装和关键字private，t
深度优先搜索DFS 顾北辰20 Java数据结构算法数据结构 java
目录类`GraphDFS`的定义深度优先搜索方法`dfs`访问顺序的获取`order`深度优先搜索（DFS,Depth-FirstSearch）算法。深度优先搜索是一种用于遍历或搜索树或图的算法，其特点是从某个起始顶点出发，首先访问这个顶点，然后递归地访问与这个顶点直接相连的一个未访问过的顶点，再从这个顶点出发，继续访问它的未访问过的邻接顶点，如此重复，直到不能再深入为止，再回溯，直到所有能到达的
【Py/Java/C++/C/JS/Go六种语言OD独家2024E卷真题】20天拿下华为OD笔试之【前缀和】2024E-分割数组的最大差值【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #前缀和 java c++c语言华为od javascript 算法 python
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例输入输出说明解题思路代码pythonjavaC++CNodejavaScriptGo时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关推荐阅读【华为OD机考】2024E+D卷最全真题【完全原创题解|详细考点分类|不断更新
【Py/Java/C++/C/JS/Go六种语言OD独家2024E卷真题】20天拿下华为OD笔试之【排序】2024E-热点网站统计【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #模拟 java c++c语言华为od golang 算法 leetcode
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例一输入输出示例二输入输出解题思路代码pythonjavacppCNodejavaScriptGo时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关推荐阅读【华为OD机考】2024E+D卷最全真题【完全原创题解|详细考点分
【Py/Java/C++/C/JS/Go六种语言OD独家2024E卷真题】20天拿下华为OD笔试之【前缀和】2024E-环中最长子串2【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #前缀和 #哈希表算法 java c++leetcode javascript c语言华为od
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例输入输出说明解题思路考虑非环字符串通过前缀确定任意连续字串的情况只考奇偶性而非具体数量三个差值均为偶数的情况将奇偶性状态压缩为数字状态压缩为后的前缀和数组的构建根据前缀和数组找到最长子字符串考虑环形字符串原字符串自身拼接储存下标
【Py/Java/C++/C/JS/Go六种语言OD独家2024E卷真题】20天拿下华为OD笔试之【BFS】2024E-狼羊过河【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #BFS #模拟算法 java c++华为od c语言 javascript leetcode
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述补充说明示例输入输出说明解题思路转化为搜索状态树最小层数问题节点的设计以及更新重复状态的排除代入BFS代码框架代码pythonJavaC++CNodeJavaScriptGo时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关
【Py/Java/C++/C/JS/Go六种语言OD独家2024E卷真题】20天拿下华为OD笔试之【模拟】2024E-找终点【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #模拟 java c++c语言 leetcode golang 华为od
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例一输入输出说明示例二输入输出解题思路代码pythonjavaC++CNodejavaScriptGo时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关推荐阅读【华为OD机考】2024E+D卷最全真题【完全原创题解|详细考
【Py/Java/C++/C/JS/Go六种语言OD独家2024E卷真题】20天拿下华为OD笔试之【DFS/BFS】2024E-战场索敌【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #BFS #DFS 算法 java c++c语言 leetcode 华为od javascript
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例输入输出解题思路代码解法一：BFSpythonjavacppCNodejavaScriptGo解法二：DFSpythonjavacppCNodejavaScriptGo时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关推
【Py/Java/C++/C/JS/Go六种语言OD独家2024E卷真题】20天拿下华为OD笔试之【贪心】2024E-用户调度问题【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #贪心 java c++c语言 leetcode 华为od javascript python
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例输入输出说明解题思路代码pythonjavacppCNodejavaScriptGo时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关推荐阅读【华为OD机考】2024E+D卷最全真题【完全原创题解|详细考点分类|不断更新
【Py/Java/C++/C/JS/Go六种语言OD独家2024E卷真题】20天拿下华为OD笔试之【贪心】2024E-静态代码扫描服务【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #贪心 java c++c语言华为od python 算法 javascript
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例一输入输出说明示例二输入输出解题思路题意理解贪心策略代码pythonjavacppCNodejavaScriptgo时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关推荐阅读【华为OD机考】2024E+D卷最全真题【完全
【Py/Java/C++/C/JS/Go六种语言OD独家2024E卷真题】20天拿下华为OD笔试之【二分查找】2024E-部门人力分配【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #二分查找 #贪心 java c++华为od leetcode 算法 python
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例输入输出说明解题思路代码pythonjavacppCNodejavaScriptgo时空复杂度本题易错点左指针初始化问题华为OD算法/大厂面试高频题算法练习冲刺训练相关推荐阅读【华为OD机考】2024E+D卷最全真题【完全原创题
【Py/Java/C++三种语言OD独家2024E卷真题】20天拿下华为OD笔试之【二分查找】2024E-平均像素值【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #二分查找算法 java c++华为od leetcode python
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述补充说明示例一输入输出说明示例二输入输出解题思路代码pythonjavacpp时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关推荐阅读【华为OD机考】2024D+E卷最全真题【完全原创题解|详细考点分类|不断更新题目】【华
【Py/Java/C++三种语言OD独家2024E卷真题】20天拿下华为OD笔试之【二分查找】2024E-孙悟空吃蟠桃【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #二分查找 java c++华为od python 算法 leetcode
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例一输入输出示例二输入输出解题思路代码pythonjavacpp时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关推荐阅读【华为OD机考】2024D+E卷最全真题【完全原创题解|详细考点分类|不断更新题目】【华为OD笔试】
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16]root@192.168.11.10:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

【DeepSeek】大模型强化学习训练GRPO算法，你学会了吗？

一、单项选择题（20题）

二、填空题（20题）

三、计算题（10题）

四、简答题（5题）

你可能感兴趣的:(DeepSeek,R1,算法)