界限不存在的

强化学习知识总结

概览

之前学习了李宏毅老师深度学习中，关于深度强化学习的相关知识，感觉虽然推导公式基本都已经了解了，但是印象却不是十分深刻，因此，在这里写下来用作复习。
本次内容主要关注的是model-free的部分，对于model-base的内容，在这次就不进行深入的探讨了。这个博客会首先从policy-base的方法开始讲起，然后过渡到value-base的方法。最后再讲讲比较著名的A3C是如何将两者结合起来进行使用的。值得注意的是老师在课程的最后向同学们介绍了模仿学习(imitation learning)，但是在这篇文章中我们不会探讨这个问题，我之后会专门开一个新的系列来讲一讲我认识中的模仿学习以及其中的反向强化学习（inverse reinforcement learning）
补充：在全部写完之后，补充一下on-policy 和 off-policy 两种不同的训练方法（参数更新）

强化学习的基本分类

model-based approach: 在这个方法下面，机器会对环境有一个详细的认知，也就是可以在不打开游戏的环境下进行模拟，我们称之为simulator
model-free approach: policy-base 用奖励梯度来表示策略梯度，直接更新策略 $\pi$; value-base 不直接更新策略 $\pi$ ，而是更新未来预期函数Q来间接影响策略 $\pi$

Policy based approach

1.基本定义

$a=\pi(s)$
$\pi$ 表示策略， $\theta$ 是这个策略的参数（如果线形表示的话，那么实际上 $a=\theta s$ ），它的输入是状态s，输出是动作a
$\pi(s,a)=\pi(a|s)=P(a|s)$
在状态s下进行动作a的概率也可以表示称这种形式
$R_\theta=\sum_{t=1}^{T}r_t$
我们将从游戏从开始到结束，agent得到的奖励成为total reward
$\tau=\{s_1,a_1,r_1.......,s_T,a_T,r_T\}$
我们将这个有序列表称为trajectory
$P(\tau|\theta)=P(s_1)\prod_{t=1}^{T}p(a_t|s_t,\theta)p(r_t,s_{t+1}|s_t,a_t)$
在策略 $\theta$ 下选择路径 $\tau$ 的概率不难理解可以表示为左边的等式，但是值得注意的是，这个公式的第一项和第三项都和你的actor无关，都是只取决于environment的。
$\bar{R_\theta}=\sum_{\tau}R(\tau)P(\tau|\theta)\approx{\frac{1}{N}\sum_{n=1}^{N}R(\tau)}$
我们将这个称为策略 $\theta$ 的奖励期望，也是我们在求奖励梯度时会着重使用的公式
on-policy:真正进行学习的agent和与环境互动的agent是同一个agent
off-policy:真正进行学习的agent和与环境互动的agent不是同一个agent

我们现在来深入思考一下为什么会有off-policy的存在。on-policy需要我们在每一次 $\theta$ 更新之后，重新进行采样，这样的话算法效率过低，因此我们引入off-policy来解决这个问题。

2.主要方法

我们主要通过求上面奖励期望对 $\theta$ 微分来表示我们的策略梯度，然后我们对这个进行梯度上升（gradient ascent），用这个方法不断逼近理想中的最佳策略 $\theta$ ，而在深度学习当中，我们会把这个 $\theta$ 写成一个神经网络的形式。

2.1公式推导

problem statement: $\theta^*=argmax\bar{R_\theta}$
gradient ascent: $\theta_{new}=\theta_{old}+\eta\nabla\bar{R_{\theta_{old}}}$
calculate about the gradient $\nabla\bar{R_{\theta}}$ :
$\nabla\bar{R_{\theta}}=\sum_{\tau}R(\tau)\nabla P(\tau|\theta)$
$\space\space\space\space\space\space\space\space=\sum_{\tau}R(\tau)P(\tau|\theta) \frac{\nabla P(\tau|\theta)}{P(\tau|\theta) }$
$\space\space\space\space\space\space\space\space=\sum_{\tau}R(\tau)\nabla log(P(\tau|\theta))$
$\space\space\space\space\space\space\space\space\approx\frac{1}{N}\sum_{n=1}^{N}R(\tau^n)\nabla log(P(\tau|\theta))$
然后在这里我们将微分算符后面的内容展开，表示形式如下：
$log(P(\tau|\theta))=log(p(s_1))+\sum_{t=1}^{T}(log(p(a_t|s_t,\theta))+p(r_t,s_{t+1}|s_t,a_t))$

观察这个式子我们不难发现，第一项和第三项军事由environment决定的，也就是说不包含我们的微分对象 $\theta$ ，所以在微分后就会消失，由此我们可以将策略梯度表示成如下的形式：
$\nabla\bar{R_{\theta}}=\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T^n}R(\tau^n)\nabla log(P(a_t^n|s_t^n,\theta))$

那么我们不妨在这个位置，理解一下策略梯度的具体含义，从这个式子我们不难看出，当我们的一条路径收获正向的奖励的时候，我们进行这个路径中的行为的概率就会被增加，这种增加会表现在参数 $\theta$ 的增加上面。

甚至，我们可以再进一步的思考一下，深度强化学习种的policy based方法和图像的classfication究竟有什么样的相似之处。通过观察两者的梯度公式，我们不难发现，其实a就是我们的图像分类中的标签，而奖励不过只是一种我们添加上的权重而已。

但是，这时候我们会发现，这个更新的方法似乎存在一个问题，那就是在一个得到正向奖励的路径当中，所有的行为进行的概率都会增加，但是事实上，正向奖励的路径中并不一定所有的动作都具有正向的奖励。同时，当环境所有的奖励都是正向的时候，而且如果我们在进行更新的时候采样不足的话，那就可能会出现一种情况，我们大量采样了那些不算十分成功的动作，从而导致了更好动作发生的概率相对来说发生了下降。（但是之后我们会介绍一种算法来解决这个问题）

2.2PPO

PPO全称是proximal policy optimization，是目前openAI的baseline的重要算法，其实就是在原先的策略梯度上面加上了KL散度。但是在正式开始之前，我们需要先解决上面公式推导中所提出的问题(两个小tips)，之后在解释我们是如何把KL散度加上去的。

Tip one:add a baseline

$\nabla\bar{R_{\theta}}=\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T^n}(R(\tau^n)-b)\nabla log(P(a_t^n|s_t^n,\theta))$
$b=E(R(\tau))$

Tip two:assign a suitable credit to replace $R(\tau^n)$

$\nabla\bar{R_{\theta}}=\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T^n}(\sum_{t^,=t}^{T^n}\gamma^{t^,-t}r_t^n-b)\nabla log(P(a_t^n|s_t^n,\theta))$

$A^\theta(s_t,a_t)=\sum_{t^,=t}^{T^n}\gamma^{t^,-t}r_t^n-b)$

这时我们将定义一个新的函数 $A^\theta(s_t,a_t)$ 。这个函数会告诉我们在 $s_t$ 的情况下，采取行动 $a_t$ 究竟和其他动作相比，是好还是坏, $\gamma$ 是折扣系数（0< $\gamma$ <1）。

2.2.1如何导出PPO

我们想要在策略梯度的原函数上添加KL散度来帮助我们改善原本的性能不足，那么我们首先就需要推导，如何能得出策略梯度的原函数。那么我们这里就不得不介绍一下一个重要的采样方式（importance sampling）,同时由于PPO本身是off-policy的，我们还需推导一下on-policy究竟是如何变成off-policy

importance sampling

假设存在一个问题，要求我们求解函数f(x)在未知分布P上的期望，那么我们就可以引入一个已知的分布Q来“映射到”分布P上来解决这个问题（即x采样自分布q）。
$E_{x\sim p}[f(x)]=\int f(x)p(x)dx=\int f(x)\frac{p(x)}{q(x)}q(x)dx=E_{x\sim p}[f(x)\frac{p(x)}{q(x)}]$
但是我们需要注意的是，虽然这两个分布这样计算的时候，他们的期望是一样的，但是事实上，他们两者的方差只有在sample的数量足够多的情况下才相等，感兴趣的话可以用方差的定义自行推导一下，这里就不赘述了

From gradient to Primitive

$gradient=E_{(st,at)\sim \pi_{\theta^,}[A^\theta(s_t,a_t)\nabla log(P_\theta(a_t^n|s_t^n))]}$
$\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space =E_{(st,at)\sim \pi_{\theta^,}[A^{\theta^,}(s_t,a_t)\frac{p_\theta(s_t^n , a_t^n)}{p_{\theta^,}(s_t^n , a_t^n)}\nabla log(P_\theta(a_t^n|s_t^n))]}$
$\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space =E_{(st,at)\sim \pi_{\theta^,}[A^{\theta^,}(s_t,a_t)\frac{p_\theta(a_t^n|s_t^n)p_\theta(s_t^n)}{p_{\theta^,}(a_t^n | s_t^n)p_{\theta^,}(s_t^n)}\nabla log(P_\theta(a_t^n|s_t^n))]}$
$\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space =E_{(st,at)\sim \pi_{\theta^,}[A^{\theta^,}(s_t,a_t)\frac{p_\theta(a_t^n|s_t^n)}{p_{\theta^,}(a_t^n | s_t^n)}\nabla log(P_\theta(a_t^n|s_t^n))]}$

这里我们将 $p_\theta(s_t^n)$ 和 $p_{\theta^,}(s_t^n)$ 同时去掉的原因，老师只从很直观的角度进行了解释，具体的解释应该恨数学，我们这里就不谈了。从直观的角度来看，因为从MP过程的角度来看，你进入这个状态的概率和你采取什么样的策略无关，因此两者在这个地方其实是相同的，因此可以同时消去。

根据 $\nabla f(x)=f(x)\nabla logf(x)$ ,我们可以得到原函数(object function)：

$J^{\theta^,}(\theta)=E_{(s_t,a_t)\sim\pi_{\theta^,}}[A^{\theta^,}(s_t,a_t)\frac{p_\theta(a_t^n|s_t^n)}{p_{\theta^,}(a_t^n | s_t^n)}]$

而对于PPO而言，这里用一个折扣系数乘上KL散度，来作为全新的原函数（object function）：

$J_{ppo}^{\theta^,}(\theta)=J^{\theta^,}(\theta)-\beta KL(\theta,\theta^,)$

$\left\{ \begin{aligned} if\space\space KL(\theta,\theta^,) > KL_{max} \upharpoonleft \beta \\ if\space\space KL(\theta,\theta^,) > KL_{max} \downharpoonleft \beta \end{aligned} \right.$

值得注意的是，这里面 $\theta$ 和 $\theta^,$ 的KL散度不是两个参数分布上的差异，而指的是以state为横轴，action为纵轴的分布之间的距离。而当KL散度过大时，说明目标分布和我们已知道预设分布差异较大，说明这个惩罚项效果不明显，因此应该加大 $\beta$ ，但是当KL散度较小的时候，说明目标分布和和我们已知道的预设分布差异较小，说明效果过强，因此需要减少 $\beta$ 。

补充：PPO2

老师在最后，介绍了PPO的简化实现版本，效果不错，也比较好理解，这里就不详细来写了，感兴趣的话可以点这个链接进去了解（原文地址）

value based approach

1.基本定义

Critic:评价者并不会真的决定采取什么样的action，我们会在一个给定的actor（换言之，一个给定的策略）下面来评估这个actor的好坏程度。
state-value function( $V^\pi(s)$ ):在一个给定的actor $\pi$ 的情况下，我们在观察到状态s之后，累积的期望奖励就是我们的 $V^\pi(s)$ 。
state-action value function( $Q^\pi(s,a)$ ):当我们使用actor $\pi$ 的时候,在观察到s，并给定动作a的情况下累积预期奖励的值（scalar）就是 $Q^\pi(s,a)$ 。

2.如何估计 $V^\pi(s)$ ：

1）monte-carlo based approach:
critic观察actor游玩这个游戏的全过程，在输入一个一个状态s之后，输出的是预计的累积奖励( $V^\pi(s)\leftrightarrow G_a$ )。

值函数的神经网络

2)Temporal difference(TD) approach:
这个方法主要用在一个难以结束的游戏上面，比如模拟人类的行走等任务。我们在这种情况下，智能获得一部分的互动过程,表示如下：
$V^\pi(s_t)=r_t+V^\pi(s_{t+1})$

值函数的神经网络

V_t-V_t+1

St+1

值函数的神经网络

DQN

1.基本的Q学习流程

$\pi^,(s)=argmax_a Q^\pi(s,a)$

我们可以这样理解这个式子，Q会对所有当前的（s,a）给出一个Q值，选择可以使得这个Q值最大的动作，而这个动作也就是我们的策略所会在这个state下选择的action。

并且 $\pi^,$ 不会含有额外的参数，它完全依赖于Q。且不适用于连续情况，因为Q矩阵的大小是有限的。

2.Target network

我们现在知道了要求解Q(s,a)的最大值，但是具体求解流程还不是十分明晰，这里以一张图片的形式来介绍我们具体训练的方法。

目标网络和训练网络是不同的Q网络，这个网络的参数是固定的，因此给出的target的也是固定的，可以让regression的时候label固定，更加稳定。因此在实际训练的过程当中，（最开始的时候是一样的两个网络）我们一般都是训练几次之后更新一次目标网络，之后继续训练，在一段时间之后再更新目标网络。

3.Exploration

我们都知道Q学习的基本操作方法是 $\pi^,(s)=argmax_a Q^\pi(s,a)$ ，但是事实上这并不是一个对数据很好的方法，因为我们得到的情况动作组合会十分有限，无法遇到足够多的特殊情况，从而导致agent的性能并不是十分很好，因此我们需要有一种方法可以让我们的agent进行一些对环境空间的探索。

$\left\{ \begin{aligned} argmaxQ(s,a) \space\space\space with\space probability\space 1-\epsilon\\ random \space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space with\space probability\space \epsilon \end{aligned} \right.$

但是上面的这种基本的探索方法存在一个问题，就是探索并不会基于当前的state和action给出，是完全随机的，从一般思维的角度来看，其实还是用类似于GA那种轮盘赌方法来选择探索会效果更佳，我们在这里称之为Boltzmann Exploration:

$p(a|s)=\frac{exp(Q(s,a)}{\sum_a(Q(s,a))}$

4.Reply Buffer

我们会把每次和环境互动的记录存放在一个经验回放的buffer里面，每次我们都会从中随机选出一部分数据，用来进行训练，更新我们的Q网络。经验回放会存放不同policy留下的经验，但是当buffer充满的时候，我们会丢弃最老的经验。

5.Typical DQN

注：因为这个算法中的Q是一个神经网络，因此这其实是一个DQN的算法

6.DQN存在的问题

我们观察目标网络会发现，每一次我们的目标值实际上都是我们猜测出来的，并且因为TD的关系，我们每次都会取最大值，这就会导致实际上我们的估测目标值永远偏大，导致结果不好，因此我们会有很多方法解决这个问题（double-DQN,duel-DQN等等，这里感兴趣的话可以自行查询）
同时我们应该注意到我们目前的DQN无法应对动作连续的情况，因此我们在这里特别给出解决连续动作问题的DQN。

DQN for continuous action

这里面除了 $\sum(s)$ 都十分好理解其含义，且教授并没有解释 $\sum(s)$ ，因此这里就当它是一个matrix，不管含义的直接用好了。

Actor-Critic

当我们将policy based和 value based结合起来之后，就是最近几年比较流行的算法A3C(Asynchronous advantage actor critic)了。

Advantage actor critic

上面这个是A2C，比较好理解的是，原本的策略梯度下降当中的baseline和累积奖励，变成了V的形式。但对于A3C来说，会像鸣人影分身修行一样，不同的子网络各自训练，但是都会更新在一个全局网络上（gobal network）

注：微分算符写错了

Pathwise Deviate Policy Gradient

网络结构如图所示，我们在训练的时候，先训练后半部分的Q网络，之后固定住这个网络，再训练我们的actor。在某种程度上，这个和GAN有些类似，但是GAN在训练的时候是同时的，而这个网络的训练是异步的。

Sparse reward and imitation learning

老师在这里简单介绍了四个小tips来解决稀疏奖励的问题，imitation learning可以用来解决甚至是完全无法获得奖励的任务。由于我的目前的研究防线是模仿学习下的反向强化学习，因此在未来我还会结合代码来认真分析一下反向强化学习的结构和原理。

reward shaping
curiosity(intrinsic curiosity module)
curriculum learning and reverse curriculum generation.
Hierarchical reinforcement learning

future work

接下来，我会试着结合代码谈一谈反向强化学习，以及GAIL等比较新的模仿学习的模仿学习领域的算法以督促自己好好读论文写代码。

强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
C/C++ 知识总结灿烂阳光g 后端
目录C/C++STL数据结构算法Problems操作系统计算机网络网络编程数据库设计模式链接装载库海量数据处理音视频其他书籍复习刷题网站招聘时间岗位面试题目经验C/C++const作用修饰变量，说明该变量不可以被改变；修饰指针，分为指向常量的指针和指针常量；常量引用，经常用于形参类型，即避免了拷贝，又避免了函数对值的修改；修饰成员函数，说明该成员函数内不能修改成员变量。使用const使用stati
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
四、Actor-Critic Methods 沈夢昂志 DRL深度强化学习 python 深度学习
由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明，非常推荐B站“王树森老师的DRL强化学习”本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。目录A.书接上回1、Reinforce算法B.State-ValueFunctionC.PolicyNetWork（Actor）D.ActionValueNetwork(Critic)E.TraintheNeur
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
CSS基础知识总结复习天山小雏菊知识总结复习 css css3 前端
一、CSS定义CSS是用来定义页面元素的样式设置字体与颜色设置位置和大小添加动画效果二、CSS基本规则的结构h1{/*选择器h1(给页面所有的h1定义样式)*/color:white;/*属性color:属性值white*/font-size:14px;/*属性:属性值就是一个声明*/}三、在页面中使用CSS的方法外链嵌入p{margin:2px;}内联hello四、选择器选择元素的方式按照标签名
算法设计与分析知识总结 vortex5 算法
一、算法基础算法是对特定问题求解步骤的描述，是指令的有限序列，具有输入、输出、有穷性、确定性和可行性五个性质。程序则是算法用某种编程语言的具体实现。优秀的算法应具备正确性、健壮性、可理解性、抽象分级和高效性，其中时间复杂度是衡量算法效率的重要标准。常用的时间复杂度符号包括O（上界）、Ω（下界）和Θ（紧确界）。1.1时间复杂度分析非递归算法以嵌套循环为例，分析以下代码的时间复杂度：for(i=1;i
【零基础学AI】第33讲：强化学习基础 - 游戏AI智能体 1989 0基础学AI 人工智能游戏 transformer 分类深度学习神经网络
本节课你将学到理解强化学习的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium(原OpenAIGym)NumPyMatplotlib推荐使用JupyterNotebook进行实验前置知识Python基础编程（第1-8讲）基本数学概念（函数、导数）神经网络基础（第23讲
在Carla上应用深度强化学习实现自动驾驶（一）寒霜似karry 自动驾驶人工智能机器学习
carla环境下基于强化学习的自动驾驶_哔哩哔哩_bilibili本篇文章是小编在pycharm上自己手敲代码学习自动驾驶的第一篇文章，主要讲述如何在Carla中控制我们自己生成的汽车并且使用rgb摄像头传感器获取图像数据。以下代码参考自：（如有侵权，请联系我将立即删除）使用Carla和Python的自动驾驶汽车第2部分——控制汽车并获取传感器数据-CSDN博客1、导入carla（其中的路径根据自
【AI论文】Skywork-Reward-V2：通过人机协同实现偏好数据整理的规模化扩展
摘要：尽管奖励模型（RewardModels，RMs）在基于人类反馈的强化学习（ReinforcementLearningfromHumanFeedback，RLHF）中发挥着关键作用，但当前最先进的开源奖励模型在大多数现有评估基准上表现欠佳，无法捕捉人类复杂且微妙的偏好谱系。即便采用先进训练技术的方法也未能显著提升性能。我们推测，这种脆弱性主要源于偏好数据集的局限性——这些数据集往往范围狭窄、标
多智能体深度强化学习：一项综述 Multi-agent deep reinforcement learning: a survey 资源存储库笔记
Abstract抽象Theadvancesinreinforcementlearninghaverecordedsublimesuccessinvariousdomains.Althoughthemulti-agentdomainhasbeenovershadowedbyitssingle-agentcounterpartduringthisprogress,multi-agentreinforc
r语言改变数据框列名_数据决定离线强化学习将如何改变我们的语言习惯杨_明 python 大数据人工智能 java 机器学习
r语言改变数据框列名重点(Tophighlight)Aridesharingcompanycollectsadatasetofpricinganddiscountdecisionswithcorrespondingchangesincustomeranddriverbehavior,inordertooptimizeadynamicpricingstrategy.Anonlinevendorrec
ReAct (Reason and Act) OR 强化学习（Reinforcement Learning, RL） SugarPPig 人工智能人工智能
这个问题触及了现代AI智能体（Agent）构建的两种核心思想。简单来说，ReAct是一种“调用专家”的模式，而强化学习(RL)是一种“从零试错”的模式。为了让你更清晰地理解，我们从一个生动的比喻开始，然后进行详细的对比。一个生动的比喻想象一下你要完成一项复杂的任务，比如“策划一场完美的生日派对”。ReAct的方式（像一位经验丰富的活动策划师）你是一位知识渊博的专家（大语言模型LLM）。你首先会思考
【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理东临碣石82 人工智能
摘要：我们推出GLM-4.1V-Thinking这一视觉语言模型（VLM），该模型旨在推动通用多模态推理的发展。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型，可以说该模型为最终性能设定了上限。随后，借助课程采样强化学习（ReinforcementLearningwithCurriculumSampling，R
Java NIO 核心知识总结
NIO简介在传统的JavaI/O模型（BIO）中，I/O操作是以阻塞的方式进行的。也就是说，当一个线程执行一个I/O操作时，它会被阻塞直到操作完成。这种阻塞模型在处理多个并发连接时可能会导致性能瓶颈，因为需要为每个连接创建一个线程，而线程的创建和切换都是有开销的。为了解决这个问题，在Java1.4版本引入了一种新的I/O模型—NIO（NewIO，也称为Non-blockingIO）。NIO弥补了同
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南许泽宇的技术分享人工智能
“RAG不准？RL来救场！”——一位被RAG气哭的AI工程师前言：RAG的烦恼与AI炼丹师的自我修养在AI圈混久了，大家都知道RAG（Retrieval-AugmentedGeneration，检索增强生成）是大模型落地的“万金油”方案。无论是企业知识库、智能问答，还是搜索引擎升级，RAG都能插上一脚。但你用过RAG就知道，理想很丰满，现实很骨感。明明知识库里啥都有，问个“量子比特的数学表达式”，
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
策略梯度在网络安全中的应用：AI如何防御网络攻击 AI智能探索者 web安全人工智能安全 ai
策略梯度在网络安全中的应用：AI如何防御网络攻击关键词：策略梯度、网络安全、AI防御、强化学习、网络攻击、入侵检测、自适应防御摘要：本文将探讨策略梯度这一强化学习算法在网络安全领域的创新应用。我们将从基础概念出发，逐步揭示AI如何通过学习网络攻击模式来构建自适应防御系统，分析其核心算法原理，并通过实际代码示例展示实现过程。文章还将讨论当前应用场景、工具资源以及未来发展趋势，为读者提供对这一前沿技术
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！一、背景介绍在返利佣金软件中，动态佣金算法是提升用户活跃度和平台收益的关键技术。传统的佣金算法通常是静态的，无法根据用户的实时行为和市场动态进行调整。为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通
农业物联网平台中的灌溉系统研究 sj52abcd 农业物联网和人工智能物联网数据分析 python 大数据毕业设计
研究目的本研究旨在开发一个基于Python语言的农业物联网平台，整合土壤墒情监测与精准灌溉系统，通过现代信息技术手段实现农业生产的智能化管理。系统将采用Python作为主要开发语言，结合MySQL数据库进行数据存储与管理，利用ECharts.js实现数据可视化展示，并引入机器学习和强化学习算法优化灌溉决策。具体目标包括：1)构建实时土壤墒情监测网络，通过物联网传感器采集土壤温湿度、电导率等关键参数
用于人形机器人强化学习运动的神经网络架构分析
1.引言：人形机器人运动强化学习中的架构探索人形机器人具备在多样化环境中自主运行的巨大潜力，有望缓解工厂劳动力短缺、协助居家养老以及探索新星球等问题。其拟人化的特性使其在执行类人操作任务（如运动和操纵）方面具有独特优势。深度强化学习（DRL）作为一种前景广阔的无模型方法，能够有效控制双足运动，实现复杂行为的自主学习，而无需显式动力学模型。1.1人形机器人运动强化学习的机遇与挑战尽管DRL取得了显著
人形机器人运动控制技术演进：从强化学习到神经微分方程的前沿解析
1.引言：人形运动控制的挑战与范式迁移人形机器人需在非结构化环境中实现双足行走、跑步、跳跃等复杂动作，其核心问题可归结为高维连续状态-动作空间的实时优化。传统方法（如基于模型的预测控制MPC）依赖精确的动力学建模，但在实际系统中面临以下瓶颈：模型失配：复杂接触动力学（如足-地交互）难以显式建模；计算瓶颈：高维非线性优化难以满足实时性需求；环境扰动敏感：传统控制器对未知干扰的鲁棒性不足。近年来，以强
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

强化学习知识总结

概览

强化学习的基本分类

Policy based approach

1.基本定义

2.主要方法

2.1公式推导

2.2PPO

Tip one:add a baseline

Tip two:assign a suitable credit to replace R ( τ n ) R(\tau^n) R(τn)

2.2.1如何导出PPO

importance sampling

From gradient to Primitive

补充：PPO2

value based approach

1.基本定义

2.如何估计 V π ( s ) V^\pi(s) Vπ(s)：

DQN

1.基本的Q学习流程

2.Target network

3.Exploration

4.Reply Buffer

5.Typical DQN

6.DQN存在的问题

DQN for continuous action

Actor-Critic

Advantage actor critic

Pathwise Deviate Policy Gradient

Sparse reward and imitation learning

future work

你可能感兴趣的:(强化学习知识总结)

Tip two:assign a suitable credit to replace $R(\tau^n)$

2.如何估计 $V^\pi(s)$ ：