ReEchooo

强化学习之图解PPO算法和TD3算法

强化学习之图解PPO和TD3算法

0. 引言
1. PPO算法
- 1.1 网络结构
- 1.2 产生experience的过程
- 1.3 Actor网络的更新流程
- 1.4 Critic网络的更新流程
2. TD3算法
- 2.1 网络结构
- 2.2 产生experience的过程
- 2.3 Actor网络的更新流程
- 2.4 Critic网络的更新流程
- 2.5 总结

0. 引言

关于on-policy和off-policy的定义，网上有很多不同的讨论，我认为，on-policy和off-policy的差异在于训练目标策略所用到的数据 $(s, a, r, s^{'})$ （有时候也表现为数据 $(s, a, r, s^{'}, a^{'})$ ）是不是当前目标策略（此时还没开始训练）得到的，如果是目标策略得到的，那么就是on-policy，如果不是，那么就是off-policy。

比如在SARSA算法中，目标策略（即更新Q表的动作 $a^{'}$ ）是基于Q表的 $\epsilon$ -贪婪策略，它会成为下一条数据 $(s, a, r, s^{'}, a^{'})$ 的 $a$ （或者说当前数据 $(s, a, r, s^{'}, a^{'})$ 的 $a^{'}$ ），因此为on-policy算法。

在Q-learning算法中，目标策略（即更新Q表的那个动作 $a^{'}$ ）是基于Q表的完全贪婪策略，但它并不会成为下一条数据 $(s, a, r, s^{'})$ 的 $a$ ，而数据 $(s, a, r, s^{'})$ 中的 $a$ 是基于Q表的 $\epsilon$ -贪婪策略，因此为off-policy算法。

（注：以上两张截图摘自：https://www.zhihu.com/question/57159315）

PPO算法因为在buffer里使用的数据都是由目标策略 $\pi_{\theta_{old}}$ 得到，只是会多更新几次 $\pi_{\theta_{old}}$ ，将 $\theta_{old}$ 更新之后得到 $\theta$ ，那么buffer里的数据都不能再用了，需要清空buffer，因此是on-policy算法.（其实因为PPO存在一个buffer多更新几次的情况，所以说它的off-policy也有一定道理，但它总体上还是on-policy）

DDPG算法和TD3算法思路相同，就放在一起讲了，可以看到目标策略更新之后，buffer里的数据并不会清空，会夹杂着旧的数据一起采样训练，所以他们都是off-policy算法。

1. PPO算法

邻近策略优化（Proximal Policy Optimization，PPO）算法的网络结构有两个。PPO算法解决的问题是离散动作空间和连续动作空间的强化学习问题，是on-policy的强化学习算法。论文原文见《Proximal Policy Optimization Algorithms》。

1.1 网络结构

一个actor网络，一个critic网络。

actor网络的输入为状态，输出为动作概率 $\pi(a_t|s_t)$ （对于离散动作空间而言）或者动作概率分布参数（对于连续动作空间而言）

critic网络的输入为状态，输出为状态的价值。

显然，如果actor网络输出的动作越能够使优势（优势的定义等下给出）变大，那么就越好。如果critic网络输出的状态价值越准确，那么就越好。

1.2 产生experience的过程

已知一个状态 $s_0$ ，通过 actor网络 得到所有动作的概率（图中以三个动作：a,b,c为例），然后依概率采样得到动作 $a_0$ ，然后将 $a_0$ 输入到环境中，得到 $s_1$ 和 $r_1$ 。状态价值 $v(s_0)$ 是通过critic网络输出得到的，这样就得到一个experience: $s_0, a_0, r_1, v(s_0), log P(a_0|s_0))$ ，然后将experience放入经验池中（当然之后还会计算 $A(s_0,a_0)$ 以及 $G_0$ ，经验池中也存了这两个信息）。

（注：虽然 $v(s_0)$ 可以用一条轨迹的折扣回报得到，即： $v(s_0)=r_1+\gamma r_2 + \dots + \gamma^{T}r_{T+1}+\gamma^{T+1}v(s_{T+1})$ ，但是轨迹末状态的下一状态 $s_{T+1}$ 的 $v(s_{T+1})$ 还是需要critic网络来估计，当然如果 $s_{T+1}$ 是正常游戏结束，而不是达到了最大步长，那么令 $v(s_{T+1})=0$ 。与其这样，还不如用critic网络直接估计 $v(s_0)$ ，而且值得注意的是， $v(s_0)=r_1+\gamma r_2 + \dots + \gamma^{T}r_{T+1}+\gamma^{T+1}v(s_{T+1})$ 正是我们critic网络作为监督学习的真值）

以上是离散动作的情况，如果是连续动作，就输出概率分布的参数（比如高斯分布的均值和方差），然后按照概率分布去采样得到动作 $a_0$ .

经验池 存在的意义是为了，更加方便地计算，一条轨迹上状态的累积折扣回报 $v(s_t)$ 以及优势 $A(s_t,a_t)$ ，而不是消除experience的相关性。

1.3 Actor网络的更新流程

首先来看优势函数 $A$ 的定义（论文中使用的符号为 $\hat{A_t}$ ，注：论文中的 $r_t$ 为笔者文章的 $r_{t+1}$ ）：

因为Actor网络需要输出的动作优势尽可能地大，所以它的训练需要用以下表达式作为Loss函数

其中：

值得注意的是： 和TD3算法的单步TD不同，PPO算法使用多步TD，因此它需要跑完一条轨迹后，才开始计算各个状态的累积回报和动作的优势。具体而言，状态价值 $v(s_0)，v(s_1)$ 是通过critic网络输出得到的，动作优势 $A(s_0,a_0)$ 是通过首先计算 $\delta_0 = r_1+v(s_1)-v(s_0)$ ，然后用 $\gamma \lambda$ 作为折扣因子去计算动作优势 $A(s_0,a_0)$ ，具体可以看公式（11）。

因此训练actor网络的时候需要，将经验池中的所有数据都拿出来，计算loss，然后用梯度上升法，多更新几步梯度。更新完成后即将经验池清空，等待下一个新的actor网络与环境互动去收集数据。

pytorch代码如下：

        # train actor net
        all_pi_tensor = self.actor_net(state_tensor)
        pi_tensor = all_pi_tensor.gather(1, action_tensor.unsqueeze(1)).squeeze(1)
        surrogate_advantage_tensor = (pi_tensor / old_pi_tensor) *                 advantage_tensor
        clip_times_advantage_tensor = 0.1 * surrogate_advantage_tensor
        max_surrogate_advantage_tensor = advantage_tensor +                 torch.where(advantage_tensor > 0.,
                clip_times_advantage_tensor, -clip_times_advantage_tensor)
        clipped_surrogate_advantage_tensor = torch.min(
                surrogate_advantage_tensor, max_surrogate_advantage_tensor)
        actor_loss_tensor = -clipped_surrogate_advantage_tensor.mean()
        self.actor_optimizer.zero_grad()
        actor_loss_tensor.backward()
        self.actor_optimizer.step()

1.4 Critic网络的更新流程

Actor网络更新后，接着拿从经验池buffer中采出的数据进行Critic网络的更新（数据已经计算了状态价值，折扣回报 $G_t$ 的计算是基于多步TD的方法，从那个状态开始，用每一步环境返回的奖励 $R$ 与折扣因子相乘后累加，即： $G_t=r_{t+1} + \gamma r_{t+2} + \cdot\cdot\cdot + \gamma^{T-t} r_{T+1}+ \gamma^{T+1-t} v(s_{T+1})$ ），其中 $v(s_{T+1})$ 为网络的估计值，更新方式即为：计算好的折扣回报 $G_t$ 与Critic网络预测当前状态价值 $v(s_t)$ 做差，用MSEloss作为Loss函数，对神经网络进行训练。

pytorch代码如下：

        # train critic net
        pred_tensor = self.critic_net(state_tensor)
        critic_loss_tensor = self.critic_loss(pred_tensor, return_tensor)
        self.critic_optimizer.zero_grad()
        critic_loss_tensor.backward()
        self.critic_optimizer.step()

2. TD3算法

双重延迟深度确定性策略梯度（Twin Delayed Deep Deterministic Policy Gradient，TD3）算法的网络结构有六个。TD3算法解决的问题是连续动作空间的强化学习问题，是off-policy的强化学习算法。论文原文见《Addressing Function Approximation Error in Actor-Critic Methods》。

2.1 网络结构

作为对比，首先来看深度确定性策略梯度（DDPG）的网络结构，有四个，分别如下所示：

TD3算法的网络结构为以下六个：

Actor网络和Critic网络的作用和DDPG完全一致（DDPG的内容可以参考：图解DQN，DDQN，DDPG网络），即：

Actor网络输入是状态，输出是动作。Critic网络输入是状态和动作，输出是对应的Q值。

Actor网络的目的是根据状态 $s_t$ ，能够输出使得 $Q(s_t,a_t)$ 最大的动作 $a_t$ ，这个 $a_t$ 越能使 $Q(s_t,a_t)$ 大，就说明网络训练地越好。

Critic网络的目的是根据状态动作对 $s_t,a_t)$ 能够输出其action value $Q(s_t,a_t)$ ，这个 $Q$ 值越精确，就说明网络训练地越好。

Actor网络和Target Actor网络的区别是，Actor网络是每步都会在经验池中更新，而Target Actor网络是隔一段时间将Actor的网络参数拷贝到Target Actor网络中，实现Target Actor网络的更新。这种“滞后”更新是为了保证在训练Actor网络时训练的稳定性。Critic网络和Target Critic网络也是一样。

2.2 产生experience的过程

已知一个状态 $s_0$ ，通过 actor网络 得到动作 $a'_0$ ，然后再加噪声 $N$ 得到动作 $a_0=a'_0+N$ （噪声是为了保证一定的探索，且噪声是ornstein uhlenbeck过程），然后将 $a_0$ 输入到环境中，得到 $s_1$ 和 $r_1$ ，这样就得到一个experience: $s_0, a_0, s_1, r_1)$ ，然后将experience放入经验池中。

经验池 存在的意义是为了消除experience的相关性，因为强化学习中前后动作通常是强相关的，而将它们打散，放入经验池中，然后在训练神经网络时，随机地从经验池中选出一批experience，这样能够使神经网络训练地更好。

2.3 Actor网络的更新流程

从经验池中取出一批experience，这里以一个experience： $s_0, a_0, s_1, r_1)$ 为例讲述训练神经网络的过程。

其中：红色字母代表已知项。

结合2.1中对Actor网络的描述可知，Actor网络的loss函数就是-Q，-Q越小越好。这个-Q需要由Critic0网络（用Critic1网络也是完全可行的）得到，如上图所示。

将experience中的 $s_0$ 输入到Actor网络中，得到预测的动作 $a_{0\_predict}$ ，这里不加噪声了，直接将 $s_0$ 和 $a_{0\_predict}$ 输入到Critic0网络中，得到Q值，然后将-Q作为loss函数，修正Actor网络。

pytorch代码示意如下，其中actor_evaluate_net即为actor网络，critic0_evaluate_net即为critic0网络：

        pred_action_tensor = self.actor_evaluate_net(state_tensor)
        pred_action_tensor = pred_action_tensor.clamp(self.action_low, self.action_high)
        pred_state_action_tensor = torch.cat([state_tensor, pred_action_tensor], 1)
        critic_pred_tensor = self.critic0_evaluate_net(pred_state_action_tensor)
        actor_loss_tensor = -critic_pred_tensor.mean()
        self.actor_optimizer.zero_grad()
        actor_loss_tensor.backward()
        self.actor_optimizer.step()

值得注意的是，Actor网络是最重要的，因为它直接决定了我们采取策略的好坏（从2.2小节中也可以看出，与环境互动的网络只有Actor网络），而想要训练出一个好的Actor网络，需要一个准确的Critic网络来评价它，因此TD3的剩下5个网络都是为了创造出一个尽可能精确的Critic网络（而DDPG是用3个网络创造出一个尽可能精确的Critic网络，TD3是DDPG的改进版）

2.4 Critic网络的更新流程

接着上述experience： $s_0, a_0, s_1, r_1)$ 为例讲述训练Critic网络的过程

其中：红色字母代表已知项。

结合2.1中对Critic网络的描述可知，Critic网络需要使预测的Q值越精确越好，原本的DDPG算法只是借助Target Actor网络和Target Critic网络对Critic网络进行修正，其中Target Actor网络的目的是为了让Critic网络更容易稳定收敛，如果用频繁更新的Actor网络做下一步动作的预测，会导致Critic网络很难收敛，Target Critic网络的目的与Target Actor网络的目的相同，也是想用一个更新不频繁的网络让Critic网络稳定收敛。

TD3算法用了两个Target Critic网络是考虑到在实际的应用中，Critic网络总是过高的估计Q值，它借鉴了DDQN的思想，采用两个网络对Q值进行估计，然后选择较小的那个，这样尽可能地避免过高地估计Q值。（DDQN是两个估计价值Q的网络一个网络负责找动作，一个网络负责找动作对应的Q值）

也正是因为用了两个Target Critic网络，所以频繁更新的Critic网络也需要采用两个，用 $r_1+\gamma * min\{Q_0(s_1,a_{1N}), Q_1(s_1,a_{1N})\}$ 来更新两个Critic网络，即用 $r_1+\gamma * min\{Q_0(s_1,a_{1N}), Q_1(s_1,a_{1N})\}$ 分别与 $Q_0(s_0,a_{0})$ 和 $Q_0(s_0,a_{0})$ 做均方差，然后作为loss对Critic网络进行梯度下降。

此外，还要注意TD3的一个小trick，它给Target Actor网络的预测动作 $a_{1\_predict}$ 加了一个噪声 $N$ ，变为动作 $a_{1N}$ 之后，才作为两个Target Critic网络的输入，文章认为这样做能够鼓励探索，从而让下一步的Q值更精确。（但是DDPG并没有这样做）

当然最后当时机合适时（这个通常是自己设置迭代次数），需要将Critic网络的参数更新到Target Critic网络参数中，将Actor网络的参数更新到Target Actor网络参数中，通常采用软更新的方式，即延迟软更新。

pytorch代码示意如下：

        next_action_tensor = self.actor_target_net(next_state_tensor)
        noise_tensor = (0.2 * torch.randn_like(action_tensor, dtype=torch.float))
        noisy_next_action_tensor = (next_action_tensor + noise_tensor
                    ).clamp(self.action_low, self.action_high)
        next_state_action_tensor = torch.cat([next_state_tensor, noisy_next_action_tensor], 1)
        next_q0_tensor = self.critic0_target_net(next_state_action_tensor).squeeze(1)
        next_q1_tensor = self.critic1_target_net(next_state_action_tensor).squeeze(1)
        next_q_tensor = torch.min(next_q0_tensor, next_q1_tensor)
        critic_target_tensor = reward_tensor + (1. - done_tensor) * self.gamma * next_q_tensor
        critic_target_tensor = critic_target_tensor.detach()

        state_action_tensor = torch.cat([state_tensor, action_tensor], 1)
        critic_pred0_tensor = self.critic0_evaluate_net(state_action_tensor).squeeze(1)
        critic0_loss_tensor = self.critic0_loss(critic_pred0_tensor, critic_target_tensor)
        self.critic0_optimizer.zero_grad()
        critic0_loss_tensor.backward()
        self.critic0_optimizer.step()

        critic_pred1_tensor = self.critic1_evaluate_net(state_action_tensor).squeeze(1)
        critic1_loss_tensor = self.critic1_loss(critic_pred1_tensor, critic_target_tensor)
        self.critic1_optimizer.zero_grad()
        critic1_loss_tensor.backward()
        self.critic1_optimizer.step()

2.5 总结

TD3的伪代码如下所示，TD3相比于DDPG有三个改进的地方：

一是将一个Target Critic网络变为两个Target Critic网络，取两者较小的作为下一状态的Q值，从而避免Q值过高地被估计。

二是对Target Actor 网络的输出进行了加噪声处理，从而使得Target Critic网络的预测输出Q值尽可能精确。

三是采用了延迟软更新的方式去更新一个Target Actor 网络、两个Target Critic网络，以及采用延迟更新的方式更新Actor网络。这样做的好处可以参考什么是TD3算法？（附代码及代码分析）

莫队算法 —— 将暴力玩出花秒啦算法
莫队算法——将暴力玩出花一、为什么需要莫队？——暴力法的瓶颈我们已经学会了用分块处理一些在线的区间问题。现在，我们来看一类特殊的离线区间查询问题。“离线”意味着我们可以把所有查询先读进来，再按我们喜欢的顺序去处理它们。思考一个问题：给定一个长度为N的数组，M次询问。每次询问一个区间[l,r]，问区间内有多少种数字至少出现了2次？那我们回到最朴素的暴力。纯暴力：对于每个询问(l,r)，都for一遍，
Web3前沿科技：开启数字资产交易新征程 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 web3 科技 ai
Web3前沿科技：开启数字资产交易新征程关键词：Web3、数字资产交易、区块链、智能合约、去中心化金融摘要：本文聚焦于Web3前沿科技在数字资产交易领域的应用与发展。详细阐述了Web3的核心概念、相关技术原理，包括区块链、智能合约等。通过具体的算法原理和Python代码示例，深入剖析了数字资产交易在Web3环境下的运行机制。同时，结合实际项目案例，讲解了开发环境搭建、代码实现与解读。探讨了Web3
高斯混合模型GMM&K均值（十三-1）——K均值是高斯混合模型的特例 phoenix@Capricornus 模式识别与机器学习均值算法机器学习算法
EM算法与K均值算法的关系K均值可以看成是高斯混合模型的特例。对K均值算法与EM算法进行比较后，可以发现它们之间有很大的相似性。K均值算法将数据点硬（hard）分配到聚类中，每个数据点唯一地与一个聚类相关联，而EM算法基于后验概率进行软（soft）分配。事实上，可以从EM算法推导出K均值算法。考虑一个高斯混合模型，其中混合分量的协方差矩阵由σ2I{\sigma^2}Iσ2I给出，其中σ2{\sig
Practical TLA+ 项目中的Dekker算法形式化验证焦习娜Samantha
PracticalTLA+项目中的Dekker算法形式化验证practical-tla-plusSourceCodefor'PracticalTLA+'byHillelWayne项目地址:https://gitcode.com/gh_mirrors/pr/practical-tla-plus概述本文分析PracticalTLA+项目中关于Dekker互斥算法的形式化规范。Dekker算法是解决多线
【C++算法竞赛】前缀和+桶数组 YLCHUP C++算法技巧算法 c++开发语言数据结构哈希算法 c语言笔记
文章目录1.前缀和基础2.算法原理3.例题讲解[P1114“非常男女”计划](https://www.luogu.com.cn/problem/P1114)[P11965[GESP202503七级]等价消除](https://www.luogu.com.cn/problem/P11965)[P10724[GESP202406七级]区间乘积](https://www.luogu.com.cn/pro
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
提示词编程语言设计艺术探索 AI天才研究院计算 AI人工智能与大数据 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《提示词编程语言设计艺术探索》关键词：提示词编程语言，设计艺术，编程语言设计，核心算法，实例分析，项目实战摘要：本文旨在深入探讨提示词编程语言的设计艺术，从基础概念到核心算法，再到实际应用和未来趋势，全面解析这一领域的关键技术和设计理念。通过具体的实例分析和项目实战，帮助读者更好地理解和掌握提示词编程语言的设计与实现。引言与概述1.1提示词编程语言的背景和重要性提示词编程语言（Prompt-Bas
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
C++ Lambda表达式详解：从入门到精通 Jay_515 c++Lambda
Lambda表达式是C11引入的最重要特性之一，它彻底改变了我们在C中编写函数对象的方式。本文将带你全面掌握Lambda表达式的使用技巧！1.什么是Lambda表达式？Lambda表达式是C++11引入的一种匿名函数对象，它允许我们在需要函数的地方内联定义函数，无需单独命名。Lambda的出现极大简化了代码，特别是在使用STL算法时。为什么需要Lambda？简化代码：避免为简单操作单独编写函数对象
Tiktok App 登录账号、密码、验证码 XOR 加密算法
抖音App登录账号、密码、验证码XOR加密算法%E9n+z,\&R1a4b.^流程分析登录TiktokAPP时，通过抓包发现账号密码是非明文传输的。getUserProfile($userId,$secUid);echo"\n\n视频列表：\n";echo$tiktok->getMixList($userId);//示例：加密后的密码hex字符串$encrypted_hex="7472607771
mongodb和redis的区别： huangbfeng mongodb redis 数据库
1、内存管理机制Redis数据全部存在内存，定期写入磁盘，当内存不够时，可以选择指定的LRU算法删除数据。MongoDB数据存在内存，由linux系统mmap实现，当内存不够时，只将热点数据放入内存，其他数据存在磁盘。2、支持的数据结构Redis支持的数据结构丰富，包括hash、set、list等。MongoDB数据结构比较单一，但是支持丰富的数据表达，索引，最类似关系型数据库，支持的查询语言非常
数据库系统工程师简要概括笔记 Mint_Datazzh 数据库系统工程师数据库笔记数据库系统工程师
文章内容仅为粗略总结知识，便于个人复习思考原文链接:数据库系统工程师简要概括笔记–笔墨云烟数据库系统工程师—1.1计算机硬件基础知识数据库系统工程师—1.2计算机体系结构与存储系统数据库系统工程师—1.3安全性、可靠性与系统性能评测基础知识数据库系统工程师—2.程序语言基础知识数据库系统工程师—3.1~3.4线性结构、数组和矩阵、树和二叉树、图数据库系统工程师—3.5排序算法数据库系统工程师—3.
结构化数据增强的生成式算法案例：客户交易数据增强 python游乐园数据深度学习大数据算法学习
1基础信息1.1案例背景这是一个用于增强结构化客户交易数据的生成式算法。这种类型的数据增强在金融、电子商务等领域非常有用，可以帮助解决数据不平衡问题或在小数据集上提高模型性能。1.2问题定义给定原始交易数据集D={x₁,x₂,...,xₙ}，其中每条记录包含：交易金额交易时间客户年龄客户收入水平交易类别地理位置是否为欺诈交易(标签)目标：生成与原始数据分布相似但多样化的新样本，同时保持字段间的合理
LLMs基础学习（八）强化学习专题（7）汤姆和佩琦 NLP 学习 Actor-Critic 算法
LLMs基础学习（八）强化学习专题（7）文章目录LLMs基础学习（八）强化学习专题（7）Actor-Critic算法基础原理算法流程细节算法优缺点分析算法核心总结视频链接：https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c
【基数排序介绍】 wdwc2 算法设计算法数据结构排序算法
文章目录前言一、基数排序是什么？二、基数排序的步骤（LSD低位优先）1.找出最大数的位数2.对每一位进行排序（从最低位到最高位）三、C++实现1.主函数：基数排序实现四、时间复杂度分析五、基数排序的适用场景六、与其他排序算法对比七、扩展：处理负数的思路总结前言在处理大规模整数排序问题时，比较类排序（如快速排序）可能无法发挥最优性能。本篇博客将详细介绍一种非比较类排序算法：基数排序（RadixSor
强化学习-双臂老虎机 transuperb 强化学习人工智能
本篇文章模拟AI玩两个老虎机，AI需要判断出哪个老虎机收益更大，然后根据反馈调整对于不同老虎机的价值判断，如果把这个看作一个简单的强化学习的话，那么AI就是agent，两个老虎机就是environment，AI首先会对两台老虎机有一个预测值Q，预测哪一个的价值高，然后AI通过策略函数判断应该选择哪个老虎机，进行Action后根据Reward更新每个老虎机的价值Value，然后再进行下一次判断，直到
前端开发者必看：Node.js实战技巧大揭秘大厂前端小白菜前端开发实战 node.js vim 编辑器 ai
前端开发者必看：Node.js实战技巧大揭秘关键词：前端开发者、Node.js、实战技巧、模块化开发、性能优化、Express框架、Webpack摘要：本文专为前端开发者打造，旨在深入揭秘Node.js的实战技巧。首先介绍了Node.js的背景和对前端开发的重要性，接着详细阐述了Node.js的核心概念与联系、核心算法原理及具体操作步骤，通过数学模型和公式进一步加深理解。然后结合实际案例，从开发环
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
实现并查集数据结构的技术指南一键难忘数据结构算法并查集
本文收录于专栏：算法之翼https://blog.csdn.net/weixin_52908342/category_10943144.html订阅后本专栏全部文章可见。实现并查集数据结构的技术指南并查集（DisjointSetUnion，简称并查集）是一种常用的数据结构，用于管理元素之间的等价关系。它主要支持两种操作：合并（Union）和查找（Find）。并查集通常用于解决各种问题，如图论中的连
MATLAB实现WOA-BP鲸鱼优化算法优化BP神经网络多输入单输出回归预测（含模型描述及示例代码） nantangyuxi MATLAB 含模型描述及示例代码算法 matlab 神经网络大数据人工智能深度学习机器学习
目录MATLAB实现WOA-BP鲸鱼优化算法优化BP神经网络多输入单输出回归预测（多指标，多图）1项目背景介绍...1项目目标与意义...2项目挑战...3项目特点与创新...5<
华为OD机试 2025 B卷 - 抢7游戏 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为OD机考2025B卷
抢7游戏华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述A、B两个人玩抢7游戏，游戏规则为：A先报一个起始数字X（10≤起始数字≤10000），B报下一个数字Y（X-Y<3），A再报一个数字Z（Y-Z<3），以此类推，直到其中一个抢到7，抢到7即为胜者；在B赢得比赛的情况下，一共有多少种组合？输入描述起始数字M。
C#推箱子游戏源代码解析与实践指南 Boa波雅
本文还有配套的精品资源，点击获取简介：C#推箱子游戏是一个经典的益智游戏，适合编程初学者学习C#语言和游戏开发的基础知识。本篇文章将深入探讨使用C#语言开发推箱子游戏的源代码，涉及面向对象编程、图形用户界面(GUI)、事件驱动编程、数据结构与算法、状态管理、错误检查与边界条件、游戏逻辑以及调试技巧。通过学习本课程，初学者将能够掌握C#编程的基础和游戏逻辑的实现，并能够创建用户友好的界面。1.面向对
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
【华为od刷题（C++）】HJ11 数字颠倒 m0_64866459 算法 c++开发语言
我的代码：#include#include#include//引入算法库，提供常见的算法，比如排序、查找、反转等,这里使用了reverse函数来反转字符串usingnamespacestd;intmain(){strings;getline(cin,s);reverse(s.begin(),s.end());/*reverse函数反转字符串的字符顺序s.begin()和s.end()分别表示字符串
策略模式与工厂模式的黄金组合：从设计到实战
策略模式和工厂模式是软件开发中最常用的两种设计模式，当它们结合使用时，能产生1+1>2的效果。本文将通过实际案例，阐述这两种模式的协同应用，让代码架构更优雅、可维护性更强。一、为什么需要组合使用？单独使用的痛点策略模式：客户端需要知道所有策略类，并手动创建策略实例工厂模式：单独使用时主要解决对象创建问题，不涉及算法切换组合后的优势彻底解耦：客户端无需知道策略类的存在和创建方式一键切换：通过工厂统一
算法题刷多少道就可以应付面试手撕了 cpp辅导的阿甘 c++
前言周五晚上答疑，有同学问算法题刷到什么地步就行了。接下来针对刷算法题，说下我的看法哈。分两种：一是社招的同学二是校招的同学针对社招的同学，其实对算法的要求不会那么高了，工作的久其实也不怎么会考察算法了。所以社招同学跳槽，一般就是在你打算找工作的前一两个月把hot100刷一刷一般就可以了。毕竟刷算法，对你工作，解bug一点作用也没有针对校招的同学，对算法的考察要求相对高一些，主要根本还是现在供大于
Java进阶-查找算法晚风烟火 JavaSE笔记 java 算法数据结构
常见的七种查找算法：1.基本查找也叫做顺序查找说明：顺序查找适合于存储结构为数组或者链表。基本思想：顺序查找也称为线形查找，属于无序查找算法。从数据结构线的一端开始，顺序扫描，依次将遍历到的结点与要查找的值相比较，若相等则表示查找成功；若遍历结束仍没有找到相同的，表示查找失败。示例代码：publicclassA01_BasicSearchDemo1{publicstaticvoidmain(Str
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比