OneLonelyTree

[归纳]强化学习导论 - 第十章：基于拟合器的on-policy控制

文章目录

1.本章内容概要
2.episodic半梯度控制
3.半梯度n-step Sarsa
4.平均回报：针对连续任务一种新的回报形式
5.连续任务中不要再用折扣回报了
6.微分半梯度n-step Sarsa
7.总结
参考文献

1.本章内容概要

这一章，我们回到control问题，并结合参数化的动作值的拟合函数 $\hat{q}(s, a, \mathbf{w}) \approx q_{*}(s, a),$ where $\mathbf{w} \in \mathbb{R}^{d}$ 开展。我们主要着眼于on-policy方法，off-policy方法在下一章讨论。这一章将着重关注半梯度Sarsa算法，是从我们上一章介绍的半梯度TD(0)拓展而来的。对于episodic任务，半梯度Sarsa是很自然的，但是对于continuing任务，则需要重新回到折扣化的最优策略定义重新分析，实际上，对于函数拟合而言，我们需要去掉折扣因子，并定义平均回报的形式。

我们首先从episodic任务入手，首先把上一章的状态值形式延伸的动作值形式；然后讨论基于GPI和 $\varepsilon$ -greedy的控制方法。然后将n-step线性Sarsa在Mountain Car问题上进行了测试；最后，扩展到continuing任务。

2.episodic半梯度控制

可以很直接地将上一章介绍的半梯度预测方法从状态值函数扩展到动作值函数，我们用以 $\mathbf{w}$ 为参数的函数拟合动作值函数 $\hat{q} \approx q_{\pi}$ ，并以 $S_{t}, A_{t} \mapsto U_{t}$ 作为训练样本，其中的更新目标 $U_{t}$ 可以用我们前面一些章节介绍的任何方法计算，例如MC方法、n-step Sarsa等。

此时SGD更新公式为：
$\mathbf{w}_{t+1} \doteq \mathbf{w}_{t}+\alpha\left[U_{t}-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right)\right] \nabla \hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right)$

特殊地，对于one-step Sarsa，则更新公式为(周期性半梯度one-step Sarsa)：
$\mathbf{w}_{t+1} \doteq \mathbf{w}_{t}+\alpha\left[R_{t+1}+\gamma \hat{q}\left(S_{t+1}, A_{t+1}, \mathbf{w}_{t}\right)-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right)\right] \nabla \hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right)$
对于固定的策略，这个算法的收敛界限与上一章介绍的TD(0)一样。

我们现在研究如何把值估计和策略提升结合来构造control算法，但是需要注意，如果希望处理连续的动作或者很大的离散动作空间，这是目前一个还在研究的问题，没有明确的解决方案。如果动作集合是离散的，且不是很大，我们直接用以前介绍过的一些技巧即可。也就是在状态 $S_t$ 下，计算所有可能的 $\hat{q}\left(S_{t}, a, \mathbf{w}_{t}\right)$ ，然后选择贪婪(实际上采用soft greedy的)的动作 $A_{t}^{*}=\arg \max _{a} \hat{q}\left(S_{t}, a, \mathbf{w}_{t}\right)$ ，这样就通过值迭代的思路将策略提升融入到了值估计中，注意这里我们估计的策略与行动的策略是一致的(on-policy)：

[归纳]强化学习导论 - 第十章：基于拟合器的on-policy控制_第1张图片

example 10.1 Mountain Car Task
一个小车要爬上一个高坡，由于动力不足，无法直接加速爬上去，必须先向对面一个较矮的坡攀爬积累能量，然后等小车达到对面最高点后，再借助重力势能向高坡加速。这个问题用经典的控制方法很难解决，因为必须要先让车先远离目标积累能量，然后再向目标前进，属于欠动力问题。

只要不到达目标，每个step的回报都是-1，到达目标后episode结束。动作则有三种可选：正向油门，反向油门，无油门，记为 ${-1, 1, 0\}$ 。小车的运动学和动力学方程为：
$x_{t+1} \doteq b o u n d\left[x_{t}+\dot{x}_{t+1}\right]$
$\dot{x}_{t+1} \doteq b o u n d\left[\dot{x}_{t}+0.001 A_{t}-0.0025 \cos \left(3 x_{t}\right)\right]$
bound函数保证 $\leq x_{t+1} \leq 0.5$ and $\leq \dot{x}_{t+1} \leq 0.07$ 。此外，当 $x_{t+1}$ 到达左边界， $\dot{x}_{t+1}$ 设置为0；到达右边界则episode结束。每个episode从随机位置开始： $x_{t} \in[-0.6,-0.4)$ ，且初始速度是0。
采用 $8\times 8$ 均匀分割的的8个tilings做特征表示，并用上一章介绍的随机偏移方法。然后针对特征向量 $\mathbf{x}(s, a)$ 构建线性拟合函数：
$\hat{q}(s, a, \mathbf{w}) \doteq \mathbf{w}^{\top} \mathbf{x}(s, a)=\sum_{i=1}^{d} w_{i} \cdot x_{i}(s, a)$
上图中的几个曲面绘制的是cost-to-go函数，也就是代价函数，取值函数的相反数。学习初始时，所有动作值都是0，因此都是乐观的，有利于探索，因此从图中可以看到，算法从状态空间的中心附近向外扩展地逐步探索，而不是陷在中心不动。下图给出每个episode中steps数目的收敛曲线。

3.半梯度n-step Sarsa

使用n-step return，结合上一小节的内容，可以得到episodic半梯度Sarsa的n-step版本。n-step return的形式为：

$G_{t : t+n} \doteq R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{n-1} R_{t+n}+\gamma^{n} \hat{q}\left(S_{t+n}, A_{t+n}, \mathbf{w}_{t+n-1}\right), \quad t+n<T$

当 $\geq T$ ，取 $G_{t : t+n} \doteq G_{t}$ 。n-step更新公式为：

$\mathbf{w}_{t+n} \doteq \mathbf{w}_{t+n-1}+\alpha\left[G_{t : t+n}-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t+n-1}\right)\right] \nabla \hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t+n-1}\right), \qquad 0 \leq t<T$

结合两个公式，可以得到算法的伪代码：

当选择适当的n时，n-step方法效果是最好的。对于上一节介绍的Mountain Car问题，选取n=8时，可以看到算法收敛速度加快了，且收敛到了更好的结果。

[归纳]强化学习导论 - 第十章：基于拟合器的on-policy控制_第5张图片

[归纳]强化学习导论 - 第十章：基于拟合器的on-policy控制_第6张图片

4.平均回报：针对连续任务一种新的回报形式

对于continuing任务，我们需要定义一种新的MDPs的值函数 — 平均回报。平均回报是没有折扣因子的，因此所有的后续回报对当前状态的值都有等价值的影响。实际上，平均回报是古典的动态规划理论最常用的值函数定义，而在RL中使用还是比较少的。在下个小节，我们将讨论为什么折扣的累积回报在带拟合器的方法中是不合适的，而平均回报则表现不错。

平均回报的定义如下：
$\begin{aligned} r(\pi) & \doteq \lim _{h \rightarrow \infty} \frac{1}{h} \sum_{t=1}^{h} \mathbb{E}\left[R_{t} | S_{0}, A_{0 : t-1} \sim \pi\right] \\ &=\lim _{t \rightarrow \infty} \mathbb{E}\left[R_{t} | S_{0}, A_{0 : t-1} \sim \pi\right] \\ &=\sum_{s} \mu_{\pi}(s) \sum_{a} \pi(a | s) \sum_{s^{\prime}, r} p\left(s^{\prime}, r | s, a\right) r \end{aligned}$

其中， $\mu_{\pi}(s) \doteq \lim _{t \rightarrow \infty} \operatorname{Pr}\left\{S_{t}=s | A_{0 : t-1} \sim \pi\right\}$ ，是continuing任务的稳态分布，该分布与策略 $\pi$ 有关，与初始状态 $S_{0}$ 无关(需要保证MDP具有遍历性)。第二个等号之所以成立，也是因为MDP最终能收敛到稳态分布。还应该注意，这个定义与当前状态 $S_t$ 无关。那么，如何定义最优策略呢？我们可以认为所有策略中，使得 $r(\pi)$ 最大的就是最优策略。此外，我们还应该注意到稳态状态分布的性质：

$\sum_{s} \mu_{\pi}(s) \sum_{a} \pi(a | s) p\left(s^{\prime} | s, a\right)=\mu_{\pi}\left(s^{\prime}\right)$

对于平均回报，return的定义应该为：

$G_{t} \doteq R_{t+1}-r(\pi)+R_{t+2}-r(\pi)+R_{t+3}-r(\pi)+\cdots$

这叫做微分return，而与之对应的值函数就是微分值函数： $v_{\pi}(s) \doteq \mathbb{E}_{\pi}\left[G_{t} | S_{t}=s\right]$ 和 $q_{\pi}(s, a) \doteq\mathbb{E}_{\pi}\left[G_{t} | S_{t}=s, A_{t}=a\right]$ ，对于 $v^*$ 和 $q^*$ 也是类似的。微分值函数也有Bellman方程(首先分析 $G_t$ 的迭代形式，容易得出)：

$v_{\pi}(s)=\sum_{a} \pi(a | s) \sum_{r, s^{\prime}} p\left(s^{\prime}, r | s, a\right)\left[r-r(\pi)+v_{\pi}\left(s^{\prime}\right)\right]$
$q_{\pi}(s, a)=\sum_{r, s^{\prime}} p\left(s^{\prime}, r | s, a\right)\left[r-r(\pi)+\sum_{a^{\prime}} \pi\left(a^{\prime} | s^{\prime}\right) q_{\pi}\left(s^{\prime}, a^{\prime}\right)\right]$
$v_{*}(s)=\max _{a} \sum_{r, s^{\prime}} p\left(s^{\prime}, r | s, a\right)\left[r-\max _{\pi} r(\pi)+v_{*}\left(s^{\prime}\right)\right],$ 和
$q_{*}(s, a)=\sum_{r, s^{\prime}} p\left(s^{\prime}, r | s, a\right)\left[r-\max _{\pi} r(\pi)+\max _{a^{\prime}} q_{*}\left(s^{\prime}, a^{\prime}\right)\right]$

我们可以比较容易地写出TD形式的更新公式，然后基于此，可以写出微分TD误差：
$\delta_{t} \doteq R_{t+1}-\overline{R}_{t+1}+\hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)$
$\delta_{t} \doteq R_{t+1}-\overline{R}_{t+1}+\hat{q}\left(S_{t+1}, A_{t+1}, \mathbf{w}_{t}\right)-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right)$

$\overline{R}_{t}$ 是在时刻t估计的 $r(\pi)$ 。基于这些式子，我们前面介绍的各种方法都能改成平均回报的形式。例如半梯度Sarsa(参考上一章 $\overline{\mathrm{VE}}$ 的定义和梯度更新公式的推导)：
$\mathbf{w}_{t+1} \doteq \mathbf{w}_{t}+\alpha \delta_{t} \nabla \hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right)$

注意以下伪代码中 $\overline{R}_{t}$ 的求法。

[归纳]强化学习导论 - 第十章：基于拟合器的on-policy控制_第7张图片

example 10.2 An Access-Control Queuing Task
服务器调度问题。共10台服务器，请求有四种优先级，到达后就存储在一个队列中，如果访问了一个服务器，则用户付出1， 2， 4， 8的回报给该服务器，回报的数字由优先级决定，高优先级付出的回报就多。在每个时间步，队列头的那个请求要么被接受(直接从队列移除，按照优先级回报)，要么被拒绝(直接从队列移除，回报0)；下个时间步则考虑队列中下一个请求。队列永远不为空，且请求的优先级是均匀分布的，如果每个服务器都被占用了，那么就不可能接受该请求。每个工作的服务器在每个时间步以概率 $p = 0.06$ 结束任务。每个时间步，我们根据需要被处理任务的优先级，以及空闲服务器的数量决策。目标是最大化累积回报，注意没有折扣。
设置参数 $\alpha=0.01, \beta=0.01,$ and $\varepsilon=0.1$ ，使用微分半梯度Sarsa算法，可以得到如下结果：

如果 $G_t$ 当t趋近无穷时不收敛，可以修改值函数的定义为：

$v_{\pi}(s) \doteq \lim _{\gamma \rightarrow 1} \lim _{h \rightarrow \infty} \sum_{t=0}^{h} \gamma^{t}\left(\mathbb{E}_{\pi}\left[R_{t+1} | S_{0}=s\right]-r(\pi)\right)$

[这一节的练习题有一点难度，留着有机会分析下]

5.连续任务中不要再用折扣回报了

对于表格化的问题，以前介绍的折扣的方法是很好的，但是当我们决定使用拟合器的时候，这种办法则会出现一些问题。我们考虑一个没有始终的无穷序列，也没有明确定义的状态，状态只使用特征向量表示，我们假设特征向量一直是不变的(或者说只有一个状态)。我们需要只利用回报序列和动作序列评价好坏。由于我们没有状态，因此实际上无法给出各个状态的值，我们只好计算从当前时刻起很长区间的折扣累积回报，但是不同的时刻累积折扣回报是不同的，有的大有的小，所以我们可以算不同时刻的累积折扣回报的均值作为该序列好快的衡量。这种做法实际上等价于上一节介绍的平均回报方法，且得到的结果是： $r(\pi) /(1-\gamma)$ [证明见下表]。因此，折扣因子实际上是没什么意义的。

The Futility of Discounting in Continuing Problems
$\begin{aligned} J(\pi) &=\sum_{s} \mu_{\pi}(s) v_{\pi}^{\gamma}(s) \\ &=\sum_{s} \mu_{\pi}(s) \sum_{a} \pi(a | s) \sum_{s^{\prime}} \sum_{r} p\left(s^{\prime}, r | s, a\right)\left[r+\gamma v_{\pi}^{\gamma}\left(s^{\prime}\right)\right] \\ &=r(\pi)+\sum_{s} \mu_{\pi}(s) \sum_{a} \pi(a | s) \sum_{s^{\prime}} \sum_{r} p\left(s^{\prime}, r | s, a\right) \gamma v_{\pi}^{\gamma}\left(s^{\prime}\right) \text { (def of average return) } \\ &=r(\pi)+\gamma \sum_{s^{\prime}} v_{\pi}^{\gamma}\left(s^{\prime}\right) \sum_{s} \mu_{\pi}(s) \sum_{a} \pi(a | s) p\left(s^{\prime} | s, a\right) \\ &=r(\pi)+\gamma \sum_{s^{\prime}} v_{\pi}^{\gamma}\left(s^{\prime}\right) \mu_{\pi}(s) \\ &=r(\pi)+\gamma J(\pi) \\ &=r(\pi)+\gamma r(\pi)+\gamma^{2} J(\pi) \\ &=\frac{1}{1-\gamma} r(\pi) \end{aligned}$

对于拟合器方法，由于我们计算的是 $\overline{\mathrm{V} \mathrm{E}}$ 关于参数的导数，也就是我们关注的是策略整体的性能好坏，是所有状态的值函数的加权均值，因此就如这里的讨论，折扣因子并不影响策略的相对好坏，因而对于连续任务，拟合器类的方法使用平均回报实际上就比较好了。但是我们最初一些章节的表格化方法，针对每个状态下的策略是单独考虑的，不会互相影响，不必看成一个整体，因此就可以使用折扣类的值函数定义。

如果从理论上分析，则是拟合器的引入导致策略提升定理失效，因此单个状态值函数的提高不能导致整体的提高了，因为单个状态值函数的变化在拟合器上也会影响其它状态。

实际上，即使对于episodic任务，使用平均回报，仍然无法保证策略提升。因此拟合器类的方法在理论上是没有保证的，这目前还是开放的问题。我们在第十三章会介绍策略梯度理论，该理论类似于策略提升，在该理论下是可以保证策略的改善的。

6.微分半梯度n-step Sarsa

为了泛化n-step自举，我们需要n-step版本的TD误差，其微分形式为：

$G_{t : t+n} \doteq R_{t+1}-\overline{R}_{t+1}+R_{t+2}-\overline{R}_{t+2}+\cdots+R_{t+n}-\overline{R}_{t+n}+\hat{q}\left(S_{t+n}, A_{t+n}, \mathbf{w}_{t+n-1}\right)$

$\overline{R_t}$ 是不同时刻 $r(\pi)$ 的估计； $\geq 1$ ； $t + n < T$ ；当 $\geq T$ 时，令 $G_{t : t+n} \doteq G_{t}$ ，n-step TD误差定义为：

$\delta_{t} \doteq G_{t : t+n}-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}\right)$

基于此，得到微分半梯度n-step Sarsa：

[归纳]强化学习导论 - 第十章：基于拟合器的on-policy控制_第9张图片

$\beta$ 参数应该设得小一些，但是这样会导致初始化值造成很长期的偏差；我们也可以不这样，直接用所有R的均值，但是由于策略在逐渐改善，因此这个估计就不是很准确，虽然是渐进无偏的，但是拖慢了收敛速度。这里可以采用第二章Optimistic Initial Values一节引入的Unbiased Constant-Step-Size技巧[暂时没写这个技巧，因为还没分析清其原理，后续补上，如果有兴趣可以自行阅读下图]。

[归纳]强化学习导论 - 第十章：基于拟合器的on-policy控制_第10张图片

7.总结

本节把prediction采用的思路扩展到了control过程。对于episodic任务，可以直接简单的扩展；对于continuing任务则需要重新定义值函数，然后在此基础上扩展。

平均回报。
各种式子的微分形式。
拟合器的引入导致折扣失效的原因：策略提升失效。

参考文献

[1].(张文知乎)https://zhuanlan.zhihu.com/c_1060499676423471104

深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
反思的魔力：用语言的力量强化AI智能体步子哥人工智能机器学习
在浩瀚的代码海洋中，AI智能体就像初出茅庐的航海家，渴望探索未知的宝藏。然而，面对复杂的编程任务，他们常常迷失方向。今天，就让我们跟随“反思”的灯塔，见证AI智能体如何通过语言的力量，点亮智慧的明灯，成为代码世界的征服者！智能体的困境近年来，大型语言模型（LLM）在与外部环境（如游戏、编译器、API）交互的领域中大放异彩，化身为目标驱动的智能体。然而，传统的强化学习方法如同一位严苛的训练师，需要大
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍微学AI 大模型的实践应用语言模型人工智能自然语言处理 RLHF
大家好，我是微学AI，今天给大家介绍一下大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍。在当今人工智能发展的浪潮中，大语言模型（LargeLanguageModels,LLMs）凭借其强大的语言理解和生成能力，成为了研究与应用的热点。而在这股浪潮中，一种名为“基于人类反馈的强化学习”的方法脱颖而出，为大语言模型的优化和应用开辟了新的路径。本文首部分将深入浅出地介
坚定理想信念，锤炼党性修养知涵知
理想信念是中国共产党人的政治灵魂，是共产党人精神上的“钙”，没有理想信念，理想信念不坚定，精神上就会“缺钙”，就会得“软骨病”。党员干部只有坚定理想信念，强化责任担当，锤炼道德操守，提升党性修养，才能切实做到为党分忧、为国尽责、为民奉献。坚定理想信念，就要强化学习精神、自律精神、担当精神。思想理论上的坚定清醒是政治上坚定的前提，党员干部要始终把理论学习作为政治责任、事业需要和精神追求，积极参加组织
python 物理引擎_在 Gym 上构建会动的人工智障1（python） weixin_39542608 python 物理引擎
背景说明作者最近使用processing的一个重要目标就是为学生的编程学习设计具体的应用场景，最近突然发现有一个包已经提供了部分功能，所以探索一下。这个包就是我们今天的主人公：Gym。Gym是用于开发和比较强化学习算法的python包，但是我们也完全可以使用它来作为我们自己程序的应用背景，并提供可视化。简单的说，就是我们使用自己写的小程序，而不是强化学习算法，来尝试完成其中的任务，并把完成任务的过
强化学习（二）----- 马尔可夫决策过程MDP Duckie-duckie 机器学习数据数据分析数据挖掘机器学习算法
1.马尔可夫模型的几类子模型大家应该还记得马尔科夫链(MarkovChain)，了解机器学习的也都知道隐马尔可夫模型(HiddenMarkovModel，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可夫决策过程(MarkovDecisionProcess,MDP)也具有马尔可夫性，与上面不同的是MDP考虑了动作
Python强化学习，基于gym的马尔可夫决策过程MDP，动态规划求解，体现序贯决策 baozouxiaoxian python gym qlearning python 强化学习 mdp 动态规划求解马尔科夫决策过程
决策的过程分为单阶段和多阶段的。单阶段决策也就是单次决策，这个很简单。而序贯决策指按时间序列的发生，按顺序连续不断地作出决策，即多阶段决策，决策是分前后顺序的。序贯决策是前一阶段决策方案的选择，会影响到后一阶段决策方案的选择，后一阶段决策方案的选择是取决于前一阶段决策方案的结果。强化学习过程中最典型的例子就是非线性二级摆系统，有4个关键值，小车受力，受力方向，摆速度，摆角，每个状态下都需要决策车的
强化学习分类 0penuel0
Model-free:Qlearning,Sarsa,PolicyGradientsModel-based:能通过想象来预判断接下来将要发生的所有情况.然后选择这些想象情况中最好的那种基于概率：PolicyGradients基于价值：Qlearning,Sarsa两者融合：Actor-Critic回合更新：Monte-carlolearning，基础版的policygradients单步更新：Ql
7. 深度强化学习：智能体的学习与决策 Network_Engineer 机器学习学习机器学习深度学习神经网络 python 算法
引言深度强化学习结合了强化学习与深度学习的优势，通过智能体与环境的交互，使得智能体能够学习最优的决策策略。深度强化学习在自动驾驶、游戏AI、机器人控制等领域表现出色，推动了人工智能的快速发展。本篇博文将深入探讨深度强化学习的基本框架、经典算法（如DQN、策略梯度法），以及其在实际应用中的成功案例。1.强化学习的基本框架强化学习是机器学习的一个分支，专注于智能体在与环境的交互过程中，学习如何通过最大
深度强化学习之DQN-深度学习与强化学习的成功结合 CristianoC
目录概念深度学习与强化学习结合的问题DQN解决结合出现问题的办法DQN算法流程总结一、概念原因：在普通的Q-Learning中，当状态和动作空间是离散且维数不高的时候可以使用Q-Table来存储每个状态动作对应的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。一是因为当问题复杂后状态太多，所需内存太大；二是在这么大的表格中查询对应的状态也是一件很耗时的事情。image通常的做法是把
一对一包教会脑电教学服务茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★最近有不少人留言“脑电该怎么学习？想强化学习脑电某个内容版块可以吗？...”，也有小伙伴联系我们，咨询脑电相关内容能
基于时序差分的无模型强化学习：Q-learning 算法详解晓shuo 算法强化学习
目录一、无模型强化学习中的时序差分方法与Q-learning1.1时序差分法1.2Q-learning算法状态-动作值函数（Q函数）Q-learning的更新公式Q-learning算法流程Q-learning的特点1.3总结一、无模型强化学习中的时序差分方法与Q-learning 动态规划算法依赖于已知的马尔可夫决策过程（MDP），在环境的状态转移概率和奖励函数完全明确的情况下，智能体无需与环
（18-1）基于深度强化学习的股票交易模型：项目介绍+准备环境码农三叔强化学习从入门到实践人工智能深度学习股票交易模型 DRL Double DQN Dueling DQN
在本章的这个项目中，实现了一个用于股票交易的DRL模型，旨在展示DRL在金融领域的潜力，提供其在股票交易中应用的实际例子。希望通过本章内容的学习，能够为那些对金融与机器学习交叉领域感兴趣的人士提供有益的参考。1.1项目介绍在金融市场中，股票交易是一项充满挑战的任务，需要在高度波动和复杂的市场环境中做出快速且精准的决策。传统的交易策略通常依赖于经验、基本面分析或技术分析。然而，这些方法往往无法在快速
深度学习算法——Transformer fw菜菜数学建模深度学习 transformer 人工智能数学建模 python pytorch
参考教材：动手学pytorch一、模型介绍Transformer模型完全基于注意力机制，没有任何卷积层或循环神经网络层。尽管Transformer最初是应用于在文本数据上的序列到序列学习，但现在已经推广到各种现代的深度学习中，例如语言、视觉、语音和强化学习领域。Transformer作为编码器－解码器架构的一个实例，其整体架构图在下图中展示。正如所见到的，Trans‐former是由编码器和解码器
sumo carla 自动驾驶联合仿真安装配置教程开发驾驶模拟强化学习 jZhUeZPQZw 自动驾驶人工智能机器学习
sumocarla自动驾驶联合仿真安装配置教程开发驾驶模拟强化学习轨迹预测轨迹规划标题：基于SUMO和CARLA的自动驾驶联合仿真系统安装与配置：教程与开发探索摘要：随着自动驾驶技术的迅猛发展，仿真环境在自动驾驶系统的评估、训练和验证中扮演着重要的角色。本文介绍了基于SUMO（SimulationofUrbanMObility）和CARLA（CarLearningtoAct）的自动驾驶联合仿真系统
Python知识点：如何使用Python实现强化学习机器人杰哥在此 Python系列 python 机器人开发语言编程面试
实现一个强化学习机器人涉及多个步骤，包括定义环境、状态和动作，选择适当的强化学习算法，并训练模型。下面是一个简单的例子，使用Python和经典的Q-learning算法来实现一个强化学习机器人，目标是通过OpenAIGym提供的FrozenLake环境训练机器人学会如何在冰面上移动以找到目标。1.安装必要的库首先，需要安装OpenAIGym和Numpy。你可以使用以下命令安装它们：pipinsta
机器学习在医学中的应用听忆. 机器学习人工智能
边走、边悟迟早会好机器学习在医学中的应用是一个广泛且复杂的领域，涵盖了从基础研究到临床应用的多个方面。以下是一个万字总结的结构性思路，分章节深入探讨不同应用场景、技术方法、挑战与未来展望。1.引言背景与发展：介绍医学领域的数字化转型以及机器学习的兴起，探讨其在医学中的潜力。机器学习的基本概念：简要介绍机器学习的基本原理、分类（监督学习、非监督学习、强化学习等）和常用算法（如神经网络、支持向量机、随
人工智能&机器学习&深度学习 AA杂货铺111
机器学习：一切通过优化方法挖掘数据中规律的学科。深度学习：一切运用了神经网络作为参数结构进行优化的机器学习算法。强化学习：不仅能利用现有数据，还可以通过对环境的探索获得新数据，并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索，而探索是为了获取数据进行更好的学习。深度强化学习：一切运用了神经网络作为参数结构进行优化的强化学习算法。人工智能定义与分类人工智能（Art
学习日志6 Simon#0209 学习
关于量子强化学习：论文Variational_Quantum_Circuits_for_Deep_Reinforcement_Learning：变分量子电路在深度强化学习中的应用论文主要内容：将经典深度强化学习算法（如经验重放和目标网络）重塑为变分量子电路的表示摘要当前最先进的机器学习方法基于经典冯·诺伊曼计算架构，并在许多工业和学术领域得到广泛应用。随着量子计算的发展，研究人员和技术巨头们试图为
【科技前沿】用深度强化学习优化电网，让电力调度更聪明！风清扬雨人工智能人工智能 python 智能电网深度强化学习
Hey小伙伴们，今天我要跟大家分享一个超级酷炫的技术应用——深度强化学习在电网优化中的典型案例！如果你对机器学习感兴趣，或是正寻找如何用AI技术解决实际问题的方法，这篇分享绝对不容错过！‍✨开场白大家好，我是你们的技术小助手！今天我们要聊的是如何利用深度强化学习（DRL）来优化电网的调度，让电力系统变得更智能、更高效。引入话题想象一下，如果你能够通过一种先进的技术手段，自动调整电网中的能源分配，不
大模型对齐方法笔记一：DPO及其变种IPO、KTO、CPO chencjiajy 深度学习笔记机器学习人工智能
DPODPO(DirectPreferenceOptimization)出自2023年5月的斯坦福大学研究院的论文《DirectPreferenceOptimization:YourLanguageModelisSecretlyaRewardModel》，大概是2023-2024年最广为人知的RLHF的替代对齐方法了。DPO的主要思想是在强化学习的目标函数中建立决策函数与奖励函数之间的关系，以规避
多智能体环境设计（二） AI-星辰强化学习自定义环境 python 机器学习
多智能体环境设计：接口设计与实现目录引言PettingZoo框架概述核心接口方法详解3.1reset()方法3.2step(action)方法3.3observe(agent)方法3.4render()方法空间定义4.1观察空间4.2动作空间高级特性5.1并行环境5.2智能体通信5.3动态环境性能优化测试和调试实际应用示例最佳实践和常见陷阱1.引言多智能体环境是强化学习和人工智能研究中的一个重要领
【伤寒强化学习训练】打卡第四十五天一期90天 A卐炏澬焚
3.5.2麻黄汤续讲与大、小青龙汤麻黄九禁【7.18】脉浮紧者，法当汗出而解。若身重心悸者，不可发汗，须自汗出乃愈。所以然者，尺中脉微，此里虚也。须里实，津液自和，便自汗出愈。【7.19】脉浮紧者，法当身疼痛，宜以汗解之。假令尺中迟者，不可发汗。所以然者，以荣气不足，血弱故也。【7.18】：脉浮紧的人照理说要发汗，如果身体重、心悸是不可以发汗；发汗，不一定用麻黄汤，大青龙汤也可以感冒很多人身体都是
从自动驾驶看无人驾驶叉车的技术落地和应用电气_空空自动驾驶自动驾驶机器人人工智能毕设
摘要｜介绍无人驾驶叉车在自动驾驶技术中的应用，分析其关键技术，如环境感知、定位、路径规划等，并讨论机器学习算法和强化学习算法的应用以提高无人叉车的运行效率和准确性。无人叉车在封闭结构化环境、机器学习、有效数据集等方法的助力下，可有效推动叉车无人驾驶关键技术的发展。关键词：无人叉车；自动驾驶；机器学习；数据集随着人工智能技术的持续进步，无人叉车领域的供给与需求均呈现迅猛增长态势。它们不仅正在逐步替代
强化学习自定义环境基础知识 AI-星辰强化学习自定义环境 python 机器学习
1.引言本文旨在全面介绍OpenAIGym自定义环境的创建过程，重点解析其接口、关键属性和函数。本指南适合初学者深入了解强化学习环境的构建原理和实践方法。2.OpenAIGym环境基础OpenAIGym提供了一个标准化的接口，用于创建和使用强化学习环境。了解这个接口的核心组件是创建自定义环境的基础。2.1Env类所有Gym环境都继承自gym.Env类。这个基类定义了环境应该具有的基本结构和方法。i
【《伤寒论》强化学习训练】打卡第32天，一期目标90天最闪亮的那颗星_b02d
一、桂枝加葛根汤和葛根汤不能通用，因为葛根汤里有麻黄，会散阳气。太阳传到阳明时血分受邪，要用麻黄从血分把邪气发出来，所以用葛根汤治燥热感冒。桂枝汤治营卫不调的出汗或桂枝加附子汤治阳虚自汗，不能一开始就用黄芪，黄芪会让桂枝汤发挥不了通营卫的效果，汗止不了。人体表面的能量不足的时候，身体不能收摄自己身体的水分，桂枝加附子汤里有附子，可治阳虚自汗。玉屏风散治表虚的汗有效；桂枝加附子汤治虚汗有效，但是两个
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin