Python算法实战

拆解大语言模型 RLHF 中的PPO算法

为什么大多数介绍大语言模型 RLHF 的文章，一讲到 PPO 算法的细节就戛然而止了呢？要么直接略过，要么就只扔出一个 PPO 的链接。然而 LLM x PPO 跟传统的 PPO 还是有些不同的呀。

其实在 ChatGPT 推出后的相当一段时间内，我一直在等一篇能给我讲得明明白白的文章，但是一直未能如愿。我想大概是能写的人都没时间写吧。

前几个月，自己在工作中遇到要用到 PPO 的场景了。我心想，干脆自己啃算了。

于是我找到了 InstructGPT 引用的 OpenAI 自家的大语言模型 RLHF 论文《fine-tuning language models from human preferences》和《learning to summarize from human feedback》的源码，逐行阅读。然后用近似但不完全相同的风格复现了一遍。后来又和同事一起把自己的实现和微软的 DeepSpeed-Chat 的实现相互印证，才算是理解了。

既然已经有了一些经验，为何不将它分享出来呢？就当是抛砖引玉吧。万一写的不对，也欢迎大家一起交流讨论。

由于本文以大语言模型 RLHF 的 PPO 算法为主，所以希望你在阅读前先弄明白大语言模型 RLHF 的前两步，即 SFT Model 和 Reward Model 的训练过程。另外因为本文不是纯讲强化学习的文章，所以我在叙述的时候不会假设你已经非常了解强化学习了。只是如果完全没有了解过，你可能会觉得有些操作看上去没有那么显然。但只要你非常了解语言模型和深度学习，应该不会影响你把整个流程给捋顺。

接下来，我会把大语言模型 RLHF 中的 PPO 分成三部分逐一介绍。这三部分分别是采样、反馈和学习。

技术交流

建了技术交流群！想要进交流群、获取如下原版资料的同学，可以直接加微信号：dkl88194。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

方式①、添加微信号：dkl88194，备注：来自CSDN + 技术交流
方式②、微信搜索公众号：Python学习与数据挖掘，后台回复：加群

资料1

资料2

在开始之前，我先用一段伪代码把三部分的关系简要说明一下（先建立一个印象，看不懂也没关系，后面自然会看懂）：

policy_model = load_model()

for k in range(20000):
    # 采样（生成答案）
    prompts = sample_prompt()
    data = respond(policy_model, prompts)

    # 反馈（计算奖励）
    rewards = reward_func(reward_model, data)

    # 学习（更新参数）
    for epoch in range(4):
        policy_model = train(policy_model, prompts, data, rewards)

对于其中的每部分我都会用计算图来辅助描述，然后还会根据我的描述更新这段伪代码。

好了，让我们开始这趟旅程吧～

大语言模型的 RLHF，实际上是模型先试错再学习的过程。

我们扮演着老师的角色，给出有趣的问题，而模型则会像小学生一样，不断尝试给出答案。模型会对着黑板写下它的答案，有时候是正确的，有时候会有错误。我们会仔细检查每一个答案，如果它表现得好，就会给予它高声赞扬；如果它表现不佳，我们则会给予它耐心的指导和反馈，帮助它不断改进，直到达到令人满意的水平。

采样

采样就是学生回答问题的过程，是模型根据提示（prompt）输出回答（response）的过程，或者说是模型自行生产训练数据的过程。

例如：

PPO 在这一部分做了什么呢？

先明确一个概念——策略（policy），它就是 RLHF 中的“学生”。policy 由两个模型组成，一个叫做演员模型（Actor），另一个叫做评论家模型（Critic）。它们就像是学生大脑中的两种意识，一个负责决策，一个负责总结得失。

其中演员就是我们想要训练出来的大模型。在用 PPO 训练它之前，它就是 RLHF 的第一步训练出来的 SFT (Supervised Fine-Tuning) model。输入一段上下文，它将输出下一个 token 的概率分布 context 。评论家是强化学习的辅助模型，输入一段上下文，它将输出下一个 token 的“收益"。

什么是“收益”呢？简单来说就是从下一个 token 开始，模型能够获得的总奖励（浮点数标量）。这里说的奖励包括 Reward Model 给出的奖励。奖励是怎么给的，以及收益有什么用，这些内容我们后面会详细介绍。

▲ policy模型结构

从实现上说，评论家就是将演员模型的倒数第二层连接到一个新的全连接层上。除了这个全连接层之外，演员和评论家的参数都是共享的（如上图）。

上面提到的模型结构是较早期的版本，后续不共享参数的实现方式也有很多。

现在我们来看看 PPO 的采样过程中有哪些模型和变量。如下图，矩形表示模型，椭圆表示变量。

▲ 采样流程（转载须引用）

图中的“old_policy”矩形就是刚刚说的 policy（为啥有个“old”前缀呢？后面我会详细解释）。

采样指的是 old_policy 从 prompt 池中抽出 M 个 prompt 后，对每个 prompt 进行语言模型的 token 采样：

计算 response 的第 1 个 token 的概率分布，然后从概率分布中采样出第 1 个 token
根据第 1 个 token，计算 response 的第 2 个 token 的概率分布，然后从概率分布中采样出第 2 个 token
……
根据前 N-1 个 token，计算 response 的第 N 个 token 的概率分布，然后从概率分布中采样出第 N 个 token

▲ 语言模型的token采样

然后就得到了三个输出。假设对每个 prompt，policy 生成的 token 的个数为 N，那么这三个输出分别是：

response：M 个字符串，每个字符串包含 N 个 token
old_log_probs：演员输出的 M × N 的张量，包含了 response 中 token 的对数概率 log(p(token|context))
old_values：评论家输出的 M × N 的张量，包含了每次生成 token 时评论家预估的收益

得到这三个输出后，采样阶段就就结束了。这三个输出都是后续阶段重要的输入数据。

我们先将采样部分的伪代码更新一下：

# 采样
prompts = sample_prompt()
responses, old_log_probs, old_values = respond(policy_model, prompts)

就像是一场考试，学生已经完成了答题环节，他们在黑板上留下了答案。但这只是整个学习过程的一个环节，接下来是关键的反馈步骤。

反馈

反馈就是老师检查答案的过程，是奖励模型（Reward Model）给 response 打分的过程，或者说是奖励模型给训练数据 X 标上 Y 值的过程。

打出的分数衡量了 response 的正确性，它也可以被视为 prompt 和 response 的匹配程度。

例如：

Reward Model 可以被比作班级里成绩最好的学生，他能够辅助老师批改作业。就像老师先教会这个学生如何批改作业，之后这个学生就能独立完成作业批改一样，Reward Model 通过学习和训练，也能够独立地完成任务并给出正确的答案。

网上有很多资料介绍 Reward Model 的训练过程，这也不是本文的重点，我就不再赘述了。

PPO 拿训练好的 Reward Mode 做了什么呢？我们接着看图说话：

▲ 奖励流程（转载须引用）

从图中我们可以看出，左上角的绿色矩形 reward model 拿到 prompt 和 response，然后输出了分数 score。实际上发生的事情是，prompt 和 response 被拼接成一个字符串，接着被送入到 reward model 中，最后 reward model 计算出了匹配分数。

你也许发现了，在图中，score 并不是最终的奖励。它和最终的奖励 rewards 之间还隔着一个 reward function 函数。

这是因为 score 只能衡量结果的对错，不能衡量过程的合理性。怎么衡量过程的合理性呢？一种简单粗暴的方法是：循规蹈矩，即为合理。

当年爱因斯坦的相对论理论首次发表时，遭遇了许多质疑。后来，该理论被证明并得到了应有的认可。大家的目光可能都聚焦于爱因斯坦是如何坚定不移地坚持自己的理念并获得成功的。

然而，你有没有想过，那些反对和质疑其实也是必要的。

在相对论理论出现之前，已经有一个相对完整的物理系统。当时，一个年轻人突然出现挑战这个系统。在不知道他的路数的情况下，有必要基于现有的经验给予适当的质疑。因为并非每个人都是伟人啊。如果他的理论真的得到验证，那么就是给予肯定和荣誉的时候了。

语言模型也是一样，在我们给予最终奖励之前，最好也对它的“标新立异”给予少量的惩罚（即刚刚说的质疑）。

怎么做呢？我们给它立一个规矩，只要它按照这个规矩来，就能获得少量奖励。而这个规矩就是我们在 SFT 阶段已经训练好的语言模型 ref_policy（图中右下角的绿色矩形），或者说是完全还没经过强化学习训练的语言模型。

过程合理性奖励的计算方式是这样的。ref_policy 拿到 prompt，然后给 old_policy 生成的 response 的每个 token 计算对数概率，得到一个张量 ref_log_prob。现在假设 old_policy 的演员模型生成了第 i 个 token，此时它应该获得的奖励为：

来理解一下这个式子：

ref_log_prob[i] 越高，ref_policy 越认可 old_policy 的输出，说明 old_policy 更守规矩，因此应该获得更高的奖励；
old_log_prob[i] 越高，old_policy 获得的奖励反而更低。old_log_prob[i] 作为正则项，可以保证概率分布的多样性。

有了这两个直觉上的解释，我们说式 (1) 是比较合理的。顺便说一句，熟悉信息论的人也许注意到了，式 (1) 是 KL 散度的简化版本。实际上式 (1) 完全可以改成计算两个 token 的概率分布的 KL 散度。这是另一个话题，就不延伸了。

最终，我们将过程合理性奖励和结果正确性奖励合并起来，就得到了最终奖励的计算方式。

注意，我们只在最后一个 token 上应用结果正确性奖励（reward_model 的输出）。也就是说，第 i 个 token 的奖励的计算方式为：

式 (2) 就是图中“reward function”的计算内容。

通俗来说，整个 reward function 的计算逻辑是典型的霸总逻辑：除非你能拿到好的结果，否则你就得给我守规矩。

注意，我们只对 response 计算奖励。另外在整个反馈阶段，reward_model 和 ref_policy 是不更新参数的。

一旦给出 reward，就完成了反馈阶段。现在我们将反馈部分的伪代码更新一下：

# 采样
prompts = sample_prompt()
responses, old_log_probs, old_values = respond(policy_model, prompts)

# policy_model的副本，不更新参数
ref_policy_model = policy_model.copy()

# 反馈
scores = reward_model(prompts, responses)
ref_log_probs = analyze_responses(ref_policy_model, prompts, responses)
rewards = reward_func(reward_model, scores, old_log_probs, ref_log_probs)

这就像是老师在检查学生的答案并给出评价后，学生们就可以了解他们的表现如何，并从中学习和进步。然而，获得反馈并不是结束，而是新的开始。正如学生需要用这些反馈来进行复习和改进一样，模型也需要通过学习阶段来优化其性能和预测能力。

学习

“学习”就是学生根据反馈总结得失并自我改进的过程，或者说是强化优势动作的过程。

如果说前两步分别是在收集数据 X，以及给数据打上标签 Y。那么这一步就是在利用数据 (X, Y) 训练模型。

"强化优势动作"是 PPO 学习阶段的焦点。在深入探讨之前，我们首先要明确一个关键概念——优势。

此处，我们将优势定义为“实际获得的收益超出预期的程度”。

为了解释这个概念，请允许我举一个例子。假设一个高中生小明，他在高一时数学考试的平均分为 100 分，在此之后，大家对他的数学成绩的预期就是 100 分了。到了高二，他的数学平均分提升到了 130 分。在这个学期，小明的数学成绩显然是超出大家的预期的。

表现是可用分数量化的，故表现超出预期的程度也是可以用分数差来量化的。我们可以认为，在高二阶段，小明超出预期的程度为 30 分（130 - 100）。根据优势的定义我们可以说，在高二阶段，小明相对于预期获得了 30 分的优势。

在这个例子中，实际已经给出了 PPO 计算优势的方法：优势 = 实际收益 - 预期收益。

对于语言模型而言，生成第 i 个 token 的实际收益就是：从生成第 i 个 token 开始到生成第 N 个 token 为止，所能获得的所有奖励的总和。我们用 return 来表示实际收益，它的计算方式如下：

* 写给熟悉 RL 的人：简单起见，在这里我们既不考虑贴现也不计算广义优势估计 GAE

预期收益又该如何计算呢? 记得我们在“采样”阶段提到过，policy 包含演员模型和评论家模型，其中后者是用来预估收益的。其实，当时说的收益 old_values 就是现在我们想要计算的预期收益。评论家会为 response 中的每个 token 计算一个预期收益，第个预期收益记为 values[i] (它预估的是刚才提到的 )。

现在，我们可以这样计算生成第 i 个 token 的优势 a（这里我们使用采样阶段计算出来的 old_values）：

好的，我们已经理解了优势的含义了。现在终于可以揭开这个关键主题的面纱——在 PPO 学习阶段，究竟什么是"强化优势动作"。

所谓“强化优势动作”，即强化那些展现出显著优势的动作。

在上面的小明的例子中，这意味着在高三阶段，小明应该持续使用高二的学习方法，因为在高二阶段，他的学习策略展示出了显著的优势。

在语言模型中，根据上下文生成一个 token 就是所谓的“动作”。"强化优势动作"表示：如果在上下文（context）中生成了某个 token，并且这个动作的优势很高，那么我们应该增加生成该 token 的概率，即增加 p(token|context) 的值。

由于 policy 中的演员模型建模了 p(token|context)，所以我们可以给演员模型设计一个损失函数，通过优化损失函数来实现“强化优势动作”：

其中：

当优势大于 0 时，概率越大，loss 越小；因此优化器会通过增大概率（即强化优势动作）来减小 loss
当优势小于 0 时，概率越小，loss 越小；因此优化器会通过减小概率（即弱化劣势动作）来减小 loss

这很像巴浦洛夫的狗不是吗？

▲ 巴浦洛夫的狗

另外还有两个点值得注意：

优势的绝对值越大，loss 的绝对值也就越大
优势是不接收梯度回传的

实际上，式 5 只是一个雏形。PPO 真正使用的演员的损失函数是这样的：

* 写给熟悉 RL 的人：简单起见，在这里我们既不考虑损失的截断，也不考虑优势的白化。

式子 6 相比式 5 子多了一个分母。在式子 6 里，表示的一个较老的版本。因为它不接收梯度回传，所以我们可以将当作常量，或者说，把它当成的学习率的一部分。我们来分析一下它的作用。以优势大于 0 的情况为例，对任意，当有较大的值的时候，的参数的学习率更小。

直观来说，当生成某个 token 的概率已经很大了的时候，即便这个动作的优势很大，也不要再使劲增大概率了。或者更通俗地说，就是步子不要迈得太大。

现在的问题就是，我们应该使用 p 的哪个老版本。还记得我们在本文开头时给出的伪代码吗（后来在介绍“采样”和“反馈”阶段时又各更新了一次），我们对着代码来解释：

policy_model = load_model()
ref_policy_model = policy_model.copy()

for k in range(20000):
    # 采样（已更新）
    prompts = sample_prompt()
    responses, old_log_probs, old_values = respond(policy_model, prompts)

    # 反馈（已更新）
    scores = reward_model(prompts, responses)
    ref_log_probs = analyze_responses(ref_policy_model, prompts, responses)
    rewards = reward_func(reward_model, scores, old_log_probs, ref_log_probs)

    # 学习
    for epoch in range(4):
        policy_model = train(policy_model, prompts, responses, old_log_probs, old_values, rewards)

简单来说，这段代码做的事情是：迭代 2 万次。在每次迭代中，通过采样和反馈得到一份数据，然后在学习阶段使用数据微调语言模型。每份数据我们都拿来训练 4 个 epoch。

那使用 2 万次迭代开始之前的演员模型的参数可以吗？不行，那个版本过于老了（实际上就是 SFT，我们已经在奖励阶段中的 ref_policy 中用过了）。不妨使用同一次迭代的还未进入学习阶段的演员模型吧。如果是这样的话，仔细一看，不就是采样阶段得到的 old_log_probs 吗？只是少了一个对数而已。

这就是为什么我们在采样阶段，对所有的模型和参数都使用“old”前缀，就是为了区分模型和变量的版本。

（补充：前面提到的 old_policy 指的是上面伪代码中采样出 old_log_probs 的那个时刻的 policy_model）

而对于我们可以使用实时的演员模型的参数计算出来，然后用 log_prob 来表示它。于是，我们可以将式子 6 改写成以下形式：

至此，我们完整地描述了 PPO 的学习阶段中“强化优势动作”的方法。就像下面的计算图展示的那样（policy 与前面的图中的 old_policy 不一样，是实时版本的模型）。

▲ 学习流程（转载须引用）

等等，似乎还没完。图中还有一个叫 critic_loss 的没提到过的东西。

当然了，负责决策的演员需要学习，难道总结得失的评论家就不需要学习了？评论家也是需要与时俱进的嘛，否则画评家难道不怕再次错过梵高那样的天才？

前面我们提到过，评论家会为 response 中的每个 token 计算一个预期收益，第个预期收益记为 values[i]，它预估的是。

既然如此，就设计一个损失函数来衡量评论家预期收益和真实收益之间的差距。

PPO 用的是均方差损失（MSE）：

* 写给熟悉 RL 的人：由于我们不考虑 GAE，所以 returns 的计算也做了相应的简化。

最终优化 policy 时用的 loss 是演员和评论家的 loss 的加权和：

这才算是真正完事儿了。现在我们将整个 PPO 的伪代码都更新一下：

policy_model = load_model()
ref_policy_model = policy_model.copy()

for k in range(20000):
    # 采样
    prompts = sample_prompt()
    responses, old_log_probs, old_values = respond(policy_model, prompts)

    # 反馈
    scores = reward_model(prompts, responses)
    ref_log_probs, _ = analyze_responses(ref_policy_model, prompts, responses)
    rewards = reward_func(reward_model, scores, old_log_probs, ref_log_probs)

    # 学习
    for epoch in range(4):
        log_probs, values = analyze_responses(policy_model, prompts, responses)
        advantages = advantage_func(rewards, old_values)
        actor_loss = actor_loss_func(advantages, old_log_probs, log_probs)
        critic_loss = critic_loss_func(rewards, values)
        loss = actor_loss + 0.1 * critic_loss
        train(loss, policy_model.parameters())

总结

到这里，大语言模型 RLHF 中 PPO 算法的完整细节就算介绍完了。掌握这些细节之后，我们可以做的有趣的事情就变多了。例如：

你可以照着伪代码从头到尾自己实现一遍，以加深理解。相信我，这是非常有趣且快乐的过程
你可以以此为契机，把强化学习知识系统性地学一遍。你会发现很多强化学习的概念一下变得具象化了
你可以在你的产品或者研究方向中思考 PPO 是否可以落地
你也许会发现 PPO 算法的不合理之处，那么就深入研究下去，直到做出自己的改进
你可以跟周围不熟悉 PPO 的小伙伴吹牛，顺便嘲讽对方**（大误）**

总之，希望我们都因为掌握了知识变得更加充实和快乐～

Python实现布林带策略完整代码程序化交易助手量化软件 Python 程序化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
Python实现布林带策略完整代码布林带是个啥玩意儿？我见过太多新手一上来就问"布林带能不能赚钱"，这问题就跟问"菜刀能不能切菜"一样。布林带就是个工具，关键看你怎么用。简单来说，它就是在均线上下画两条通道线，股价大部分时间都在这个通道里晃悠。记得去年有个客户，拿着布林带当圣杯，结果亏得妈都不认识。后来我给他看了我的Python策略代码，这哥们才明白原来工具要配合仓位管理和止损。现在他账户已经翻倍
从亏损到盈利：用Python实现WVAD策略，量价结合更靠谱程序化交易助手量化软件 Python 程序化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
从亏损到盈利：用Python实现WVAD策略，量价结合更靠谱那个让我夜不能寐的亏损账户去年有个客户老张来找我，50万本金半年亏了15万。他红着眼睛问我："为什么我跟着大V买卖还是亏？"我看了他的交易记录就明白了——全是凭感觉操作，涨了追，跌了割，完全被市场情绪牵着鼻子走。这让我想起自己刚入行时，盯着分时图眼睛发酸的日子。直到有天看到营业部老总桌上那本《量化交易入门》，才恍然大悟：原来职业玩家都在用
python分支语句_python入门基础教程10 python的分支语句 weixin_39604280 python分支语句
if分支语句分支语句的作用是在某些条件控制下有选择的执行实现一定功能语句块。if分支语句则是当if后的条件满足时，if下的语句块被执行，语法格式如下所示：if:statements让我们看看代码吧。>>>sex='male'>>>ifsex=='male':print'Man!'#此处有两次回车键Man!>>>ifsex=='female':print'Woman'#此处有两次回车键>>>if_e
《王者荣耀》游戏优化的AI革命：从性能提升到生态治理 AI编程员 001AI传统＆编程语言 002AI编程工具汇总 003AI编程作品汇总人工智能笔记学习深度学习游戏
目录：AI技术进化历程：使用时间轴和表格介绍“绝悟”AI从基础操作到职业水平的成长过程，以及“开悟”平台的技术外溢效应。性能优化策略：通过终端适配方案表格，分析预计算烘焙、多线程优化等技术如何解决亿级用户的设备兼容问题。游戏环境治理：列举AI接管、违规检测等机制如何应对挂机、摆烂等破坏公平性的行为。产业技术外溢：说明游戏AI如何向智能制造、自动驾驶等领域输出协作决策模型。伦理争议：探讨“超规格能力
Oracle数据库对象与模式设计
关键词：Oracle数据库设计、表结构、约束、索引优化、视图、序列、分区表✅摘要在企业级数据库开发中，良好的数据库对象设计和模式规划是构建高性能、可维护系统的基础。Oracle提供了丰富的数据库对象支持复杂业务场景，包括：表结构与完整性约束索引类型选择与性能调优视图、序列、同义词等辅助对象分区表提升查询效率一、表结构与约束1.创建表（CREATETABLE）与数据类型Oracle支持多种数据类型，
多核CPU如何实现数据共享与通信你一身傲骨怎能输操作系统多核通信机制
文章摘要多核CPU中core1和core2通过共享内存和缓存一致性协议实现数据共享，通过读写同一内存区域交换数据，并使用MESI等协议保证缓存一致性。操作系统提供的同步原语（如锁）和核间中断（IPI）辅助协调核心间的通信与同步。这些机制共同确保了多核之间的高效数据共享和通信。多核CPU中，core1和core2之间间接实现数据共享和通信的主要机制有：1.共享内存（SharedMemory）多个核心
游戏可观测性：如何打造稳定高效的后台服务你一身傲骨怎能输游戏开发技术专栏可观测性
游戏服务可观测性能力建设摘要游戏服务的可观测性建设是保障稳定运营和高效排障的关键。现代游戏采用分布式架构，需要通过指标(Metrics)、日志(Logs)、追踪(Traces)三大支柱实现系统监控。核心能力包括：指标监控：系统资源、服务性能、业务数据日志分析：访问日志、业务日志、异常日志链路追踪：跨服务调用追踪和业务流程跟踪告警与可视化：实时告警、仪表盘、根因分析技术方案建议：指标采集：Prome
《街头霸王6》性能优化全攻略：七大解决方案终结卡顿闪退
《街头霸王6》性能优化全攻略：七大解决方案终结卡顿闪退作为格斗游戏领域的标杆之作，《街头霸王6》凭借精良的制作和爽快的打击感征服了全球玩家。然而，部分用户在畅享格斗盛宴时遭遇了程序闪退、画面卡顿等性能问题。本文将深入剖析这些问题的根源，并提供经过验证的系统级优化方案，助你重返流畅的格斗战场。一、DirectX版本适配：底层兼容性调优游戏引擎与图形接口的兼容性问题往往是性能异常的元凶。通过以下步骤可
Yuzu模拟器Vulkan模式配置指南与性能优化实战 mmoo_python 性能优化 windows
Yuzu模拟器Vulkan模式配置指南与性能优化实战前言：VulkanAPI为何成为模拟器性能突破口作为当前最热门的Switch模拟器，Yuzu团队近期向全体用户开放了VulkanAPI支持功能。这项技术革新不仅解决了长期困扰AMD显卡用户的兼容性问题，更通过底层渲染架构的革新，为复杂3D游戏带来显著性能提升。本文将深度解析Vulkan模式的配置流程，结合实际测试数据揭示性能优化秘诀，助力玩家畅玩
Python 分支语句，分支语句嵌套，三目运算龙技术 Python语法 python
1、分支语句单一条件判断if条件：条件成立时执行的代码#格式:'''if条件:条件成立时执行的代码'''age=int(input('请输入你的年龄:'))#上网ifage>=18:print('小帅哥快来玩啊')print('回家睡觉')对立条件判断if条件：条件成立时执行的代码else：条件不成立时执行的代码#if...else...'''if条件:条件成立时执行的代码else:条件不成立时执
十五天Python系统学习教程第十五天
Day15详细学习计划：Python综合项目实战与学习路径规划学习目标✅综合运用前14天知识完成完整项目开发✅掌握生产级项目架构设计与优化技巧✅制定后续学习计划与技能提升方案✅理解Python工程化开发最佳实践一、实战项目：企业级任务管理系统1.1项目需求核心功能：用户认证（JWT令牌）任务CRUD与状态流转（待办/进行中/已完成）任务分类与优先级管理数据统计可视化（任务完成率/耗时分析）邮件通知
算法堆与堆排序
堆的定义与分类堆是一种特殊的完全二叉树，通常分为两种类型：大顶堆（大根堆）：每个节点的值都大于或等于其子节点的值。小顶堆（小根堆）：每个节点的值都小于或等于其子节点的值。堆的性质结构性：堆是一棵完全二叉树，即除了最后一层外，其他层的节点都是满的，且最后一层的节点从左到右填充。有序性：堆中每个节点的值都满足特定的顺序关系（大于或小于子节点）。堆的存储数组索引0通常作为堆的根节点。对于索引为i的节点，
Python分支语句注意事项乔代码嘚 python 开发语言 github
一、单分支语句：if语句1.语法:if：语句块2.注意事项:1）if语句首先判断的结果值，如果结果为True，则执行语句块里的语句序列。如果结果为False，语句块里的语句会被跳过；2）语句块是if条件满足后执行的一个或多个语句序列；3）语句块中语句通过与if所在行形成缩进表达包含关系。4）if判断语句还可以简写：iftag:print("True")当x为0、0.0、0j、None或者空的字符串
python函数
四、函数定义P.1函数定义把一段实现某个功能的完整代码，用一个函数封装，后期可以通过调用函数名，实现依次编写，多次调用的目的函数，可以等价于我们初高中学过的f(x)，f是运算法则，也就是代码函数中对应的代码执行块，每有一个x对应经过f运算之后得到一个值，如f(x)对应的是让x乘3加2，每有一个x进入f中便会得到一个值。高中对应的函数三要素是，定义域、运算法则、值域，而编程中的函数也有三要素，分别为
一秒四次！高频Tick五档期货Level2分析
一秒四次！高频Tick五档期货Level2分析国内期货level2高频数据（一秒四次）下载链接:https://pan.baidu.com/s/144ewl4T0dQvrAedhLz8uJw?pwd=c33h提取码:c33h通过历史Level2一秒四次高频数据深层次分析交易可以分析出比较活跃的品种一：m2505(1)在11:12:36.158的瞬间，一笔引人注目的大单投入市场，3606份订单被安排
前端开发常见问题（从布局到性能优化）白仑色前端系列前端开发 HTML CSS JavaScript 性能优化响应式布局跨域
前端开发作为连接用户与产品的重要桥梁，涉及HTML、CSS和JavaScript的综合运用。但在实际开发过程中，开发者常常会遇到各种“坑”，比如页面布局异常、跨域请求失败、性能瓶颈、浏览器兼容性差等问题。本文将围绕前端开发中常见的十大问题展开讲解：页面布局相关问题（盒模型、浮动、Flex布局）CSS样式冲突与继承JavaScript异步处理（Promise、async/await）跨域问题及解决方
使用 C++/Faiss 加速海量 MFCC 特征的相似性搜索 whoarethenext c++faiss 开发语言
使用C++/Faiss加速海量MFCC特征的相似性搜索引言在现代音频处理应用中，例如大规模声纹识别(SpeakerRecognition)、音乐信息检索(MusicInformationRetrieval)或音频事件检测(AudioEventDetection)，我们通常需要从海量的音频库中快速找到与给定查询音频最相似的样本。这个过程的核心技术是对音频内容进行特征提取和高效的相似性搜索。MFCC(
sql USING 简化 JOIN 操作 best_virtuoso sql sql 数据库
在SQL中，USING是一种用于简化JOIN操作的语法糖，它允许你明确指定连接表时所依据的列名。与传统的ON子句相比，USING提供了更简洁的语法1.基本语法与作用table1JOINtable2USING(column_name);将table1和table2中column_name值相同的行连接在一起例：假设有两个表：Orders（包含order_id,cust_id）和OrderItems（
【机器学习笔记 Ⅲ】3 异常检测算法巴伦是只猫机器学习机器学习笔记算法
异常检测算法（AnomalyDetection）详解异常检测是识别数据中显著偏离正常模式的样本（离群点）的技术，广泛应用于欺诈检测、故障诊断、网络安全等领域。以下是系统化的解析：1.异常类型类型描述示例点异常单个样本明显异常信用卡交易中的天价消费上下文异常在特定上下文中异常（如时间序列）夏季气温突降至零下集体异常一组相关样本联合表现为异常网络流量中突然的DDOS攻击流量2.常用算法(1)基于统计的
【机器学习笔记 Ⅲ】4 特征选择巴伦是只猫机器学习机器学习笔记人工智能
特征选择（FeatureSelection）系统指南特征选择是机器学习中优化模型性能的关键步骤，通过筛选最相关、信息量最大的特征，提高模型精度、降低过拟合风险并加速训练。以下是完整的特征选择方法论：1.特征选择的核心目标提升模型性能：去除噪声和冗余特征，增强泛化能力。降低计算成本：减少训练和预测时间。增强可解释性：简化模型，便于业务理解。2.特征选择方法分类(1)过滤法（FilterMethods
LangChain核心组件全解析北辰alk AI langchain
文章目录一、核心架构组件1.模型I/O(ModelI/O)2.检索(Retrieval)3.记忆(Memory)4.链(Chains)5.代理(Agents)二、关键支持组件1.回调系统(Callbacks)2.文档加载器(DocumentLoaders)3.文本分割器(TextSplitters)4.向量存储(VectorStores)三、高级架构组件1.工具集成(Tools)2.工作流(Wor
机器学习笔记二-回归
回归是统计学和机器学习中的一种基本方法，用于建模变量之间的关系，特别是用一个或多个自变量（输入变量）来预测一个因变量（输出变量）的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的性质，可以使用不同类型的回归方法。1.回归的基本概念：自变量（IndependentVariable）:也称为预测变量、解释变量，是模型中的输入变量，用于预测或解释因变量的变化。因变量（Dependent
OpenHarmony解读之设备认证：Pake协议详解与实战陈乔布斯鸿蒙开发 HarmonyOS OpenHarmony harmonyos 分布式鸿蒙开发软总线 openHarmony 嵌入式硬件
往期推文全新看点（文中附带最新·鸿蒙全栈学习笔记）①鸿蒙应用开发与鸿蒙系统开发哪个更有前景？②嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~③对于大前端开发来说，转鸿蒙开发究竟是福还是祸？④鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？⑤记录一场鸿蒙开发岗位面试经历~⑥持续更新中……一、概述在设备认证过程中，pake协议用于认证会话密钥协商，基于该会话密钥，双方可以安全地交换各自的
AI LLM架构与原理 - 预训练模型深度解析陈乔布斯 AI 人工智能大模型人工智能架构机器学习深度学习大模型 Python AI
一、引言在人工智能领域，大型语言模型（LLM）的发展日新月异，预训练模型作为LLM的核心技术，为模型的强大性能奠定了基础。预训练模型通过在大规模无标注数据上进行学习，能够捕捉语言的通用模式和语义信息，从而在各种自然语言处理任务中展现出卓越的能力。本文将深入探讨AILLM架构与原理中预训练模型的方法论和技术，结合图解、代码解析和实际案例，为读者呈现一个全面且易懂的预训练模型图景。二、预训练模型的基本
Linux Vim 如何使用 BACKLS gradle vim
LinuxVim最全面教程目录介绍安装Vim基本操作启动与退出插入模式移动光标删除、复制和粘贴撤销与重做高级操作查找与替换多文件编辑宏与自动化插件管理配置Vim编辑vimrc常用配置示例总结介绍Vim是一个高度可配置的文本编辑器，适用于从日常文本编辑到复杂的编程任务。它的前身是vi编辑器，具有强大的文本处理能力和灵活的扩展性。安装Vim在不同的Linux发行版上安装Vim的方法略有不同。以下是一些
Python程序员如何制定学习计划？提高编写代码的能力
在工作和生活压力之下，如何提升自己的技能和能力？这是许多人都面临的问题。如果你也有这样的问题，那么首先要明确的是，要想提升自己的能力，必须要有一个清晰的计划和方向。这个计划可以是长期的，也可以是短期的，但必须要有一个大的方向性。接下来，我们来看看如何制定一个有效的计划。如果你不知道如何制定计划，其实很简单。你可以闭上眼睛，想一想自己哪些方面比较薄弱，比如多线程锁、Spring的一些核心技术源码、分
单片机：实现国密SM2算法（附完整源码）源代码大师单片机实战教程单片机算法嵌入式硬件
单片机：实现国密SM2算法主要功能模块1.定义椭圆曲线参数2.大数运算（示例：大数比较）3.椭圆曲线点定义4.密钥生成5.加密与解密注意事项实现国密SM2算法在单片机上的完整源码涉及多个模块，包括椭圆曲线运算、SM3哈希函数、密钥生成、加密解密以及签名验证等。以下是一个基于C语言的简化版SM2实现示例，适用于资源有限的单片机环境。请注意，实际应用中可能需要根据具体单片机的性能和资源进行优化。主要功
[创业之路-484]：企业经营层 - 职场人如何识别积极的工作环境：信任机制：从「分工协作」到「全能防御」；目标聚焦：从「价值创造」到「风险规避」；系统进化：从「熵减秩序」到「熵增混乱」。
前言：在一个分工明确安全可靠公平化的系统中，每个人只需要认真完成自己的目标，把其他环节交给受信任的队友，技术人只要关注技术，不需要防范被别人算计和坑害或吃亏。在一个不可靠不安全人治危机四伏的系统中，每个人不仅需要完成自己的目标，还需要把自己变成全才，以避免自己的付出在脱节的环节被淹没，还要关注各种无关的隐情，以避免在信息不对称时别忽悠，技术人员不仅仅要关注技术，还要人事，以防止一不小心暗算与坑害。
[创业之路-475]：企业经营层 - 苏超的火爆与小米成功背后的商业模式共同性观察文火冰糖的硅基工坊创业之路重构创业业务经营
苏超的火爆与小米成功背后的商业模式共同性在于二者均通过“群众参与+生态联动+文化赋能”构建了可持续的商业循环，具体体现在以下三个层面：一、群众参与：从“小众狂欢”到“全民共创”苏超的草根基因非职业化参赛：每支队伍职业运动员不超过3人，500余名球员来自各行各业（如公司职员、教师、大学生），年龄跨度16-40岁，彻底打破“专业壁垒”，让足球回归大众运动本质。低门槛观赛：票价亲民，第五轮场均现场观战人
【前端开发】Uniapp分页器：新增输入框跳转功能
基于UniApp官方扩展组件库uni-ui中的uni-pagination分页器组件，针对大数据量场景进行优化主要优化以下内容：新增输入框跳转功能：在原有分页器基础上，新增了一个输入框区域，允许用户直接输入目标页码进行跳转双向页码绑定优化：实现了输入框与当前页码的双向绑定机制。当用户通过其他方式（如点击上一页、下一页、页码按钮）切换页面时，输入框会自动更新显示当前页码。同时，当用户在输入框中输入页
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

拆解大语言模型 RLHF 中的PPO算法

技术交流

采样

反馈

学习

总结

你可能感兴趣的:(大模型理论与实战,大模型,语言模型,算法,人工智能,python,深度学习,自然语言处理)