Angel濠梁之上

David Silver强化学习公开课自学笔记——Lec2马尔科夫决策过程

本笔记摘自知乎博主旺财的搬砖历险记和叶强，仅用于自学

0.数学规范

大写字母表示随机变量： $S, A, R$ 等
小写字母表示具体的值： $s, a, r$ 等
空心字母表示统计运算符： $\mathbb{E},\mathbb{P}$ 等
花体字母表示集合或函数： $\mathcal{S},\mathcal{A},\mathcal{P}$ 等

1.马尔科夫过程

（1）MDPs的介绍

在强化学习中，MDP对完全可观测的环境进行描述
即观察到的状态内容完整的决定了决策需要的特征
几乎所有强化学习的问题都可以转化为MDP
- 最优控制问题 $\longleftrightarrow$ 连续MDPs
- 部分观测环境的问题 $\longleftrightarrow$ POMDPs
- 赌博机问题 $\longleftrightarrow$ 只有一个状态的MDPs

（2）马尔科夫性

“The future is independent of the past given the present”
当且仅当 $t$ 时刻的状态 $S_t$ 满足 $\mathbb{P}[S_{t+1}\vert S_t]=\mathbb{P}[S_{t+1}\vert S_1,S_2,\ldots, S_t]$ 时，这个状态才称为马尔科夫状态，即该状态满足马尔科夫性

状态包含了所有的历史相关信息
一旦状态 $S_t$ 已知，则历史信息 $S_1,S_2,\ldots, S_{t-1}]$ 可以抛弃
状态是将来的充分统计量。因此这里要求环境全观测。

（3）状态转移矩阵

状态转移概率
- 指从一个马尔科夫状态 $s$ 跳转到后继状态 $s^{\prime}$ 的状态转移的概率： $\mathcal{P} _{SS^{\prime}}=\mathbb{P}[S_{t+1}=s^{\prime}\vert S_t=s]$
状态转移矩阵
- 定义了从所有状态 $s$ 跳转到所有后继状态 $s^{\prime}$ 的概率
  - 当状态数量无穷大（连续状态）时，更适合使用状态转移函数： $\int_{S^{\prime}}\mathcal{P}(s^{\prime}\vert s)=1$
  - $n$ 为状态数量，矩阵中每一行元素和为1： $\sum_{S^{\prime}}\mathcal{P}(s^{\prime}\vert s)=1$

$\mathcal{P}=\begin{bmatrix} P_{11} & \dots & P_{1n}\\ \vdots & & \vdots\\ P_{n1} &\dots & P_{nn} \end{bmatrix}$

（4）片段episode

在RL中，从初始状态 $S_1$ 到终止状态 $S_T$ 的一个序列过程被称为一个episode： $S_1,S_2,\ldots,S_T$

如果一个任务总以终止状态结束，这个任务称为片段任务episodic task
如果一个任务没有终止状态，无限执行，称为连续性任务continuing task

（5）马尔科夫过程

又叫马尔科夫链(Markov Chain)，是一个无记忆的随机过程，可以用一个元组 $\langle{\mathcal{S}},{\mathcal{P}}\rangle$ 表示。
⭐ $\mathcal{S}$ 是有限数量的状态集合
⭐ $\mathcal{P}$ 是状态转移矩阵 $\mathcal{P}_{SS^{\prime}}=\mathbb{P}[S_{t+1}=s^{\prime}\vert S_t=s]$

马尔科夫链其实是状态空间为可数集的马尔科夫过程。
注意：

一般情况下我们不知道 $\mathcal{P}$ 的具体值，但通常假设 $\mathcal{P}$ 是稳定存在的
当 $\mathcal{P}$ 不稳定时，就是不稳定环境，需要在线学习

一个 $n$ 阶马尔科夫过程是状态间的转移仅依赖于前n个状态的过程。

2.马尔科夫奖励过程MRPs

（1）定义

马尔科夫奖励过程是带有values的马尔科夫链

马尔科夫奖励过程是是一个元组 $\langle{\mathcal{S}},\mathcal{P}, {\mathcal{R}},{\mathcal{\gamma}}\rangle$
⭐ $\mathcal{S}$ 是有限状态集合
⭐ $\mathcal{P}$ 是状态转移矩阵 $\mathcal{P}_{SS^{\prime}}=\mathbb{P}[S_{t+1}=s^{\prime}\vert S_t=s]$
⭐ $\mathcal{R}$ 是奖励函数， $\mathcal{R}_s=\mathbb{E}[R_{t+1}\vert S_t=s]$ ，描述了在状态 $s$ 的标量奖励（ $R_{t+1}$ 是具体的奖励值， $\mathcal{R}_s$ 是函数）
⭐ $\gamma$ 是折扣因子/衰减系数

（2）回报Return

回报 $G_t$ 是从时刻 $t$ 开始所有的折扣奖励：
连续性任务： $G_t=R_{t+1}+\gamma R_{t+2}+\ldots=\sum_{k=0}^\infty\gamma ^kR_{t+k+1}$
片段性任务： $G_t=R_{t+1}+\gamma R_{t+2}+\ldots+\gamma^{T-t-1}R_T=\sum_{k=0}^{T-t-1}\gamma ^kR_{t+k+1}$
⭐ $\gamma \in [0,1]$ ，代表未来回报对于现在的价值
⭐奖励 $R$ 在第 $k + 1$ 步后为 $\gamma^kR$
⭐即时奖励高于延迟奖励。 $\gamma$ 趋于0表示更青睐眼前利益， $\gamma$ 趋于1表示更有远见

✅如果将终止状态的自身转移概率为1、奖励为0，则连续性任务也可以表示成 $G_t=\sum_{k=0}^{T-t-1}\gamma ^kR_{t+k+1}$

注意：奖励是针对状态的，回报是针对片段的

大部分马尔科夫奖励和决策过程都是折扣的：

从数学上讲很方便
避免陷入循环马尔科夫过程的无限奖励
未来的回报有一定的不确定性
如果奖励是经济学上的，即时奖励会比延迟奖励获得更多利益
动物/人类的行为表现出对即时奖励的偏爱
有时也用未折扣的马尔科夫奖励过程（ $\gamma=1$ ），如果所有的序列都终止

（3）价值函数

值函数 $v (s)$ 给出了状态 $s$ 的长期回报。

状态价值函数 $v (s)$ 是从状态 $s$ 开始的期望回报： $v(s)=\mathbb{E}[G_t\vert S_t=s]$

（4）马尔可夫奖励过程的贝尔曼方程

价值函数可以被分解为两部分： $v(s)=\mathbb{E}[R_{t+1}+\gamma v(S_{t+1})\vert S_t=s]$

立即回报 $R_{t+1}$
后续状态的折扣函数 $\gamma v(S_{t+1})$
证明： $\mathbb{E}[G_t\vert S_t=s] = \mathbb{E}[R_{t+1}+\gamma G_{t+1}\vert S_t=s] = \mathbb{E}[R_{t+1}+\gamma v(S_{t+1})\vert S_t=s]$
注意：
对 $R_{t+1}$ 和 $G_{t+1}$ 求期望，和的期望等于期望的和
这里用大写的 $S_{t+1}$ 因为 $S_t=s$ 的下一个状态是随机的

则贝尔曼方程： $v(s)=R_s+\gamma \sum_{s^{\prime}\in \mathcal{S}}\mathcal{P}_{SS^{\prime}}v(s^{\prime})$
证明： $\mathbb{E}[R_{t+1}+\gamma v(S_{t+1})\vert S_t=s] = \mathbb{E}[R_{t+1}\vert S_t=s] + \mathbb{E}[\gamma v(S_{t+1})\vert S_t=s] = R_s+\gamma \sum_{s^{\prime}\in \mathcal{S}}\mathcal{P}_{SS^{\prime}}v(s^{\prime})$
注意：

已知状态转移矩阵 $\mathcal{P}$
随机变量求期望参考下面的定义

对于大范围的MRPs，有许多迭代理论来计算状态价值函数，如动态规划、蒙特卡洛估计、时间差分学习

数学期望：
离散型的随机变量 $X$ 有概率函数 $P(X=x_k)=P_k(k=1,2,\ldots)$ ，若级数 $\sum_{k=1}^\infty x_kp_k$ 绝对收敛，则称这个级数为 $X$ 的数学期望

（5）贝尔曼方程的矩阵形式和求解

1)矩阵形式

贝尔曼方程可以写成如下的矩阵形式： $v=\mathcal{R}+\gamma \mathcal{P}v$
其中， $v$ 是一个列向量，每个状态只有一个分量。
假设状态集合 $\mathcal{S}=\{s_1,s_2,\ldots,s_n\}$ ，则贝尔曼方程可以展开写成：

2)求解

贝尔曼方程本质是一个线性方程，可以直接解： $(1-\gamma \mathcal{P})v =\mathcal{R}，v= (1-\gamma \mathcal{P})^{-1}\mathcal{R}$
注意：

这里的1是单位矩阵

3.马尔科夫决策过程MDPs

（1）定义

马尔可夫决策过程是带有决策的马尔科夫奖励过程

马尔科夫决策过程是是一个元组 $\langle{\mathcal{S}},\mathcal{A}, \mathcal{P}, {\mathcal{R}},{\mathcal{\gamma}}\rangle$
⭐ $\mathcal{S}$ 是有限状态集合
⭐ $\mathcal{A}$ 是有限动作集合
⭐ $\mathcal{P}$ 是状态转移矩阵， $\mathcal{P}_{SS^{\prime}}^a=\mathbb{P}[S_{t+1}=s^{\prime}\vert S_t=s,A_t=a]$
⭐ $\mathcal{R}$ 是奖励函数， $\mathcal{R}_s^a=\mathbb{E}[R_{t+1}\vert S_t=s,A_t=a]$ ，描述了在状态 $s$ 的标量奖励（ $R_{t+1}$ 是具体的奖励值， $\mathcal{R}_s$ 是函数）
⭐ $\gamma$ 是折扣因子/衰减系数

注意：
这里的 $\mathcal{P}$ 和 $\mathcal{R}$ 和具体的行为 $a$ 对应，而马尔科夫奖励过程的 $\mathcal{P}$ 和 $\mathcal{R}$ 只与状态有关

（2）策略

策略 $\pi$ 是给定状态的行为概率分布： $\pi(a\vert s)=\mathbb{P}[A_t=a\vert S_t=s]$

一个策略完全定义了agent的行为方式，包含agent在各个状态下的各种可能的行为方式及其概率大小
MDP的策略仅和当前状态有关，与历史信息无关
策略是静态的，与时间无关，但agent可以随着时间更新策略 $A_t\sim \pi(\cdot \vert S_t),for \ all \ t > 0$
如果策略的概率分布输出是one-hot的，则该策略为确定性策略；否则该策略为随机策略

one-hot：
一个向量里，只有一个元素为1，其余均为0

给定一个MDP $\mathcal{M}=\langle{\mathcal{S}},\mathcal{A}, \mathcal{P}, {\mathcal{R}},{\mathcal{\gamma}}\rangle$ 和一个策略 $\pi$ ，那么：

状态序列 $S_1,S_2,\ldots$ 是一个马尔科夫过程 $\langle{\mathcal{S}}, \mathcal{P}^\pi\rangle$
状态和奖励序列 $S_1,R_1,S_2,R_2,\ldots$ 是一个马尔科夫奖励过程 $\langle{\mathcal{S}}, \mathcal{P}^\pi, \mathcal{R}^\pi,\gamma\rangle$
- 在执行策略 $\pi$ 时，状态从 $s$ 转移到 $s^{\prime}$ 的概率等于一系列概率的和，这一系列概率指在执行当前策略时，执行某一行为的概率×该行为能使得状态从 $s$ 转移到 $s^{\prime}$ 的概率： $\mathcal{P}^\pi_{S,S^{\prime}}=\sum \limits_{a\in\mathcal{A}}\pi(a\vert s)\mathcal{P}^a_{SS^{\prime}}$
- 在执行策略 $\pi$ 时，得到的即时奖励是，该策略下执行所有可能行为得到的奖励×该行为的概率： $\mathcal{R}^\pi_{S}=\sum \limits_{a\in\mathcal{A}}\pi(a\vert s)\mathcal{R}^a_{S}$
  补充说明
策略在MDP中的作用：相当于agent可以在某一个状态做出选择，从而有形成各种马尔科夫过程的可能
基于策略产生的每一个马尔科夫过程是一个马尔科夫奖励过程，各过程之间的差别是不同选择产生了不同的后续状态、对应不同的奖励

（3）基于策略 $\pi$ 的价值函数

状态价值函数 $v_\pi(s)$ 是MDP下基于策略 $\pi$ 从状态 $s$ 获得的期望回报，衡量agent在状态 $s$ 时的价值大小 $v_\pi(s)=\mathbb{E}[G_t\vert S_t=s]$
动作价值函数 $q_\pi(s,a)$ 是MDP下基于策略 $\pi$ 选择动作 $a$ 后，从状态 $s$ 获得的期望回报，衡量状态 $s$ 时执行动作 $a$ 的价值大小 $q_\pi(s,a)=\mathbb{E}[G_t\vert S_t=s,A_t=a]$

注意：

策略是静态的，不随状态改变而改变
变化的是，在某一个状态时，根据策略可能产生的具体行为，因为具体行为有一定概率
策略就是用来描述各个不同状态下执行各个不同行为的概率
行为价值函数一般是与某一特定的状态相对应的，即状态行为对价值函数。

（4）Bellman期望方程（Bellman Expectation Equation）

1)状态-价值与行为-价值函数

状态-价值函数可以继续分解为即时奖励➕后续状态的折扣价值： $v_\pi(s)=\mathbb{E}[R_{t+1}+\gamma v_\pi(S_{t+1})\vert S_t=s]$
行为-价值函数也可以同样分解： $q_\pi(s,a)=\mathbb{E}[R_{t+1}+\gamma q_\pi(S_{t+1},A_{t+1})\vert S_t=s,A_t=a]$

2)价值函数分解

在遵循策略 $\pi$ 时，状态 $s$ 的价值体现为在该状态下采取可能行为的价值与发生概率的求和： $v_\pi(s)=\sum_{a\in\mathcal{A}}\pi(a\vert s)q_\pi(s,a)$
类似的，行为-价值函数也可以分成离开这个状态的价值➕所有进入新的状态的价值与其转移概率成绩的和，表示成：
$q_\pi(s,a)=\mathcal{R}_s^a+\gamma \sum_{s^{\prime}\in S}\mathcal{P}_{SS^{\prime}}^av_\pi(s^{\prime})$

3)价值函数重组

组合起来可以得到： $v_\pi(s)=\sum_{a\in\mathcal{A}}\pi(a\vert s)q_\pi(s,a)=\sum_{a\in\mathcal{A}}\pi(a\vert s)(\mathcal{R}_s^a+\gamma \sum_{s\in S^{\prime}}\mathcal{P}_{SS^{\prime}}^av_\pi(s^{\prime}))$
本质上等价于 $v_\pi(s)=\mathbb{E}[R_{t+1}+\gamma v_\pi(S_{t+1})\vert S_t=s]$
将 $v_\pi(s^{\prime})$ 继续拆开：
$q_\pi(s,a)=\mathcal{R}_s^a+\gamma \sum_{s\in S^{\prime}}\mathcal{P}_{SS^{\prime}}^av_\pi(s^{\prime})=\mathcal{R}_s^a+\gamma \sum_{s\in S^{\prime}}\mathcal{P}_{SS^{\prime}}^a\sum_ {a^{\prime}\in\mathcal{A}}\pi(a^{\prime}\vert s^{\prime})q_\pi(s^{\prime},a^{\prime})$
本质上等价于 $q_\pi(s,a)=\mathbb{E}[R_{t+1}+\gamma q_\pi(S_{t+1},A_{t+1})\vert S_t=s,A_t=a]$

（5）Bellman期望方程矩阵形式

Bellman期望方程可以用MRP简明地表示
$v_\pi=\mathcal{R}^{\pi}+\gamma \mathcal{P^{\pi}}v_\pi$
则解得 $v_\pi=(1-\gamma \mathcal{P^{\pi}})^{-1}\mathcal{R}^{\pi}$

（6）最优价值函数

最优状态价值函数 $v_*(s)$ 是所有策略产生的状态价值函数中，最大的状态价值： $v_*(s)=\max \limits_\pi v_\pi(s)$ 最优动作价值函数 $q_*(s,a)$ 是从所有策略产生的动作价值函数中，最大的动作价值： $q_*(s,a)=\max \limits_\pi q_\pi(s,a)$

最优价值函数明确了MDP的最优可能表现
当我们知道了最优价值函数，也就知道了每个状态的最优价值，MDP就已经解决了

（7）最优策略

对于任何状态 $s$ ，遵循策略 $\pi$ 的价值不小于遵循策略 $\pi^{\prime}$ 的价值，则策略 $\pi$ 优于 $\pi^{\prime}$ ： $\pi\geq \pi^{\prime} \ if\ v_\pi(s) \geq v_{\pi^{\prime}}(s),\forall s$

对于任意MDP，有：
⭐存在一个最优策略，比其他策略更好至少相等 $\pi_*\geq\pi,\forall \pi$
⭐所有的最优策略都有相同的最优价值函数 $v_{\pi_*}(s)=v_*(s)$
⭐所有的最优策略都有相同的最优动作价值函数 $q_{\pi_*}(s,a)=q_*(s,a)$

❗寻找最优策略
可以通过最大化最优动作价值函数 $q_*(s,a)$ 来寻找最优策略

对于任何MDP问题，总存在一个确定性的最优策略
如果我们直到最有动作价值函数 $q_*(s,a)$ ，我们就找到了最优策略

（8）Bellman最优方程

1)最优状态价值函数

一个状态的最优价值（最优状态价值），等于从该状态出发，采取的所有动作的动作价值中最大的一个的动作价值： $v_*(s)=\max_aq_*(s,a)$
由下式可知 $v_\pi(s)=\sum_ {a\in\mathcal{A}}\pi(a\vert s)q_\pi(s,a)$
假设最优策略是确定性的策略，则 ${\pi_*}(s,a)$ 是one-hot的形式，只需取最大的 $q_{\pi_*}(s,a)$ ，且所有的最优策略有相同的动作价值函数，即 $q_{\pi_*}(s,a)=q_*(s,a)$ ：
$v_*(s)=v_{\pi_*}(s)=\sum_ {a\in\mathcal{A}}{\pi_*}(a\vert s)q_{\pi_*}(s,a)=\max _aq_{\pi_*}(s,a)=\max \limits_aq_*(s,a)$

2)最优价值函数拆解

在某个状态下，采取某个行为的最优价值＝离开该状态的即时奖励➕所有能到达的新的状态的最优价值按出现概率求和： $q_*(s,a)=\mathcal{R}_s^a+\gamma \sum \limits_{s^{\prime}\in \mathcal{S}}\mathcal{P}_{SS^{\prime}}^av_*(s^{\prime})$

与 $v_*(s)=\max \limits_aq_*(s,a)$ 组合起来，有： $v_*(s)=\max \limits_a(\mathcal{R}_s^a+\gamma \sum \limits_{s^{\prime}\in \mathcal{S}}\mathcal{P}_{SS^{\prime}}^av_*(s^{\prime}))$

针对 $q_*(s,a)$ ，有： $q_*(s,a)=\mathcal{R}_s^a+\gamma \sum \limits_{s^{\prime}\in \mathcal{S}}\mathcal{P}_{SS^{\prime}}^a\max \limits_aq_*(s^{\prime},a^{\prime})$

3)贝尔曼最优方程和贝尔曼方程的关系

贝尔曼最优方程利用了 $\pi_*$ 的特点，将求期望的算子转化成了 $max_a$
在贝尔曼期望方程中， $\pi$ 是已知的，但是在贝尔曼最优方程中， $\pi_*$ 未知
解贝尔曼期望的方程对应了评价，解贝尔曼最优方程的过程对应了优化

4)贝尔曼最优方程求解

Bellman最优方程是非线性的
没有固定的解决方案
有很多迭代方法可以解决:
- 值迭代
- 策略迭代
- Q-learning
- Sarsa

4.MDP扩展

（1）无穷和连续MDPs

考虑到动作空间或状态空间的连续性，MDP有几下几种扩展：

动作空间或状态空间的大小为无穷可数
- 直接求取
动作空间或状态空无限不可数（连续）
- 在线性最小二乘（LQR）模式中有闭式解
时间连续（参考《Adaptive optimal control for continuous-time linear systems based on policy iteration》）
- 需要偏微分方程
- HJB方程（Hamilton-Jacobi-Bellman）
- Bellman方程在时间步长趋近于0的极限情况

（2）部分可观测的MDPs（POMDPs）

对于复杂的系统来说，难以获得系统的精确状态，POMDPs是更接近真实世界的模型。
部分可观察马尔可夫决策过程是一种具有隐藏状态的MDP。它是一个带有动作的隐马尔可夫模型。
除了前提是部分可观测外，POMDPs也基于MDP类似的假设，采用最大化期望奖励的方法

一个POMDP是一个元组 $\langle{\mathcal{S}},\mathcal{A}, \mathcal{O},\mathcal{P}, {\mathcal{R}},\mathcal{Z},{\mathcal{\gamma}}\rangle$
⭐ $\mathcal{S}$ 是有限状态集合
⭐ $\mathcal{A}$ 是有限动作集合
⭐ $\mathcal{O}$ 是有限的观测集合
⭐ $\mathcal{P}$ 是状态转移矩阵， $\mathcal{P}_{SS^{\prime}}^a=\mathbb{P}[S_{t+1}=s^{\prime}\vert S_t=s,A_t=a]$
⭐ $\mathcal{R}$ 是奖励函数， $\mathcal{R}_s^a=\mathbb{E}[R_{t+1}\vert S_t=s,A_t=a]$ ，描述了在状态 $s$ 的标量奖励（ $R_{t+1}$ 是具体的奖励值， $\mathcal{R}_s$ 是函数）
⭐ $\mathcal{Z}$ 是观察函数，表明状态和观察值之间的关系 $\mathcal{Z}_{S^{\prime}o}^a=\mathbb{P}[O_{t+1}=o\vert S_{t+1}=s^{\prime},A_t=a]$
⭐ $\gamma$ 是折扣因子/衰减系数

在POMDP中，agent不能确定自己处于哪个状态，因此对于下一步动作的选择的决策基础是当前所处状态的概率（最有可能处于哪个状态）。因此，agent需要通过传感器收集环境信息，来更新对自己当前所处状态的可信度。这里不是直接把agent导向目标点，而是选择一个缓冲一般让agent先运动到邻近位置，在这个邻近位置收集到的环境信息加大了对自己所处状态的可信度。在确信自己所处的状态后，agent做出的动作决策才是更有效的。

历史 $H_t$ 是 $t$ 时刻观察、动作和奖励的序列： $H_t=A_0,O_1,R_1,\ldots,A_{t-1},O_t,R_t$

这种存储方式会消耗大量存储空间，可以采用较短的历史代替所有的观察和行为。Astrom提出用状态上的概率，引入信念状态 $b (h)$ 的概念，来表示agent对自己所处状态的可信度。

一个信念状态 $b (h)$ 是一个状态的概率分布，以历史h为条件： $b(h)=(\mathbb{P}[S_t=s^1\vert H_t=h],\ldots,\mathbb{P}[S_t=s^n\vert H_t=h])$

信念状态 $b (h)$ 是对历史 $H_t$ 的充分估计，所有状态上维护一个概率分布可以与维护一个完整历史提供同样的信息。以前解决POMDP问题时，需要知道历史动作才能决定当前的操作，这种解决方案是非马尔科夫链。引入信念状态后，POMDP问题可以转化为基于信念空间的马尔科夫链来求解，即把POMDP问题转化为求解信念状态函数和策略的问题。

历史 $H_t$ 满足Markov性质
信念状态 $b (h)$ 也满足Markov性质
因此，一个POMDP可以简化为一个无限的历史树，从而简化为一个无限的信念状态树

（3）非折扣的、平均奖励的MDPs

1)遍历马尔科夫过程

马尔科夫链的遍历性可以理解为任意取一个时间段，所有状态都有出现的可能。遍历马尔可夫链是非周期的平稳的马尔科夫链，有长时间尺度下的稳定行为，是被广泛研究应用的马尔科夫链。遍历马尔可夫过程具有：

周期性:每个状态被访问无限次。
非周期性:每个状态被访问时没有任何系统周期

遍历马尔科夫过程有以下性质的极限平稳分布 $d^\pi(s)$ ： $d^\pi(s)=\sum \limits _{s^\prime}d^\pi(s^\prime)\mathcal{P}_{S^\prime S}$
如果任何策略引起的马尔科夫链都是遍历的，则MDP是遍历的。

对于任何策略 $\pi$ ，一个遍历MDP的每个时间步长 $\rho^\pi$ 的平均奖励与开始状态无关

2)平均奖励的值函数

一个未折现的、遍历的MDP的价值函数可以用平均奖励表示。
$\tilde{v}_\pi(s)$ 是从状态 $s$ 开始的额外奖励： $\tilde{v}_\pi(s)=\mathbb{E}_\pi[\sum_{k=1}^\infty(R_{t+k}-\rho^\pi)\vert S_t=s]$
有着相应的平均奖励贝尔曼方程： $\tilde{v}_\pi(s)=\mathbb{E}_\pi[(R_{t+1}-\rho^\pi)+\sum_{k=1}^\infty((R_{t+k+1}-\rho^\pi))\vert S_t=s] =\mathbb{E}_\pi[(R_{t+1}-\rho^\pi)+\tilde{v}_\pi(S_{t+1})\vert S_t=s]$

5.举例

（1）马尔科夫过程

解释：

圆圈表示学生所处状态
方格Sleep为终止状态，或者可以描述为一个自循环的状态，即Sleep状态的下一个状态一定是自己
箭头上的数字表示当前转移的概率
注：
终止状态的定义有两种，状态终止和时间终止

（2）状态转移矩阵

（3）马尔科夫奖励过程

1）图示

在马尔科夫过程的基础上增加了针对每个状态的奖励。（不包括衰减系数）

2）计算表：

第二行对应各状态的即时奖励值（该奖励只与状态本身有关，与从何而来无关）；中间区域的数字为状态转移概率，即所在行状态转移到所在列状态的概率

3）计算示例

计算公式 $G_1=R2+\gamma R_3+\ldots+\gamma^{T-2}R_T$ ，这里 $\gamma = \frac{1}{2}$

C1-FB-FB-C1-C2-Sleep $v_1=(-2)+(-1)\times\frac{1}{2}+(-1)\times(\frac{1}{2})^2+(-2)\times(\frac{1}{2})^3+(-2)\times(\frac{1}{2})^4+0=-3.125$
C1-C2-C3-Pass-Sleep $v_1=(-2)+(-2)\times\frac{1}{2}+(-2)\times(\frac{1}{2})^2+10\times(\frac{1}{2})^3+0=-2.25$
虽然都是从相同的初始状态开始，但是不同的episode有不同的回报值，值函数则是它们的期望值

4） $\gamma$ 的影响

注：图中圆圈内的数字为该状态的价值，圈外的 $R = - 2$ 为该状态的即时奖励

$\gamma=0$ 时，各状态的价值与该状态的即时奖励相同
$\gamma\neq0$ 时，各状态的价值需要计算得到
- $\gamma=0.9$
- $\gamma=1$
  - $v_{C3} =R_{C3}+ \gamma P_{C3Pass} \times v_{pass} + (P_{C3Pub} \times v_{Pub}) = -2+1\times (0.6\times 10+0.4 \times 0.8) = 4.3$

（4）贝尔曼方程求解

$\gamma = 1$
则

运用python求解

# coding:utf-8
import numpy as np
np.set_printoptions(precision=3, threshold=np.inf, linewidth=400, suppress=True)
gamma = 1.0
E = np.eye(7)
P = np.array([[0, 0.5, 0, 0, 0, 0.5, 0], 
	      [0, 0, 0.8, 0, 0, 0, 0.2],
              [0, 0, 0, 0.6, 0.4, 0, 0],
	      [0, 0, 0, 0, 0, 0, 1],
              [0.2, 0.4, 0.4, 0, 0, 0, 0], 
	      [0.1, 0, 0, 0, 0, 0.9, 0],
              [0, 0, 0, 0, 0, 0, 1]])
R = np.array([-2, -2, -2, 10, 1, -1, 0]).T
# print(np.linalg.det(E-gamma*P))
# np.linalg.det(E-gamma*P) = 0.0 --> E-gamma*P是奇异矩阵
# 给矩阵主对角线每一个元素加一个很小的量，如1e-6，使其强制可逆
# print(np.linalg.det(E*1e-6 + E-gamma*P))
# np.linalg.det(E*1e-6 + E-gamma*P)=3.2401e-08
# print(np.linalg.inv(E*1e-6+E-gamma*P))
v = np.dot(np.linalg.inv(E*1e-6+E-gamma*P), R)
print("v={}".format(v))
# 输出 v=[-12.543   1.457   4.321  10.      0.803 -22.543   0.   ]

❗❗❗问题：

使用这种求逆的计算复杂度是 $O(n^3)$
直接求解只适用于小规模的MRPs
大规模的MRPs的求解通常使用迭代法
- 动态规划（Dynamic Programming,DP）
- 蒙特卡洛评估（Monte-Carlo evaluation）
- 时序差分学习（Temporal-Difference,TD）

（5）马尔科夫决策过程

这里箭头上的文字表示采取的行为，而不是之前的状态名。
即时奖励与行为对应，同一状态下采取不同行为得到的即时奖励不同，即针对 $\langle{\mathcal{S}}\rangle$ 的奖励变成了针对 $\langle{\mathcal{S}},{\mathcal{A}}\rangle$ 的奖励
为了避免混淆，此图没有给出各状态的名称，只给了各行为的名称。
当选择“查阅文献”这一动作时，主动进入了一个临时状态（实心黑点），此时环境按照动力学分配到另外三个状态，agent无权决定

（6）状态价值函数

（7）Bellman期望方程

1)求状态价值函数

这里取 $\pi(a\vert s)=0.5,\gamma=1$

对于终点位置：没有下一个状态，也没有当前状态下的动作，因此状态价值函数为0

对于状态S1,S2,S3,S4，依次定义价值为 $v_1,v_2,v_3,v_4$ ，根据 $KaTeX parse error: Expected group after '_' at position 14: v_\pi(s)=\sum_̲\limits {a\in\m…$ 可以计算得到：

状态S1： $v_1 =\pi(Study\vert S1)\times (R_{S1}^{Study}+\gamma v_2)+\pi(Facebook\vert S1)\times(R_{S1}^{Facebook}+\gamma v_4) = 0.5\times (-2+1\times v_2)+0.5\times (-1+1\times v_4) = -1.5 + 0.5v_2+0.5v_4$
状态S2 $v_2 =\pi(Study\vert S2)\times (R_{S2}^{Study}+\gamma v_3)+\pi(Sleep\vert S2)\times(R_{S2}^{Sleep}+\gamma v_{end}) = 0.5\times (-2+1\times v_3)+0.5\times (0+1\times 0) = 0.5v_3 - 1$
状态S3 $v_3 =\pi(Study\vert S3)\times (R_{S3}^{Study}+\gamma v_1)+\pi(Pub\vert S3)\times(R_{S3}^{Pub}+\gamma (0.2\times v_1+0.4\times v_2 + 0.4\times v_3)) = 0.5\times (10+1\times 0)+0.5\times (1+1\times (0.2\times v_1+0.4\times v_2 + 0.4\times v_3)) =5.5+0.1v1+0.2v2+0.2v3$
状态S4 $v_4 =\pi(Quit\vert S4)\times (R_{S4}^{Quit}+\gamma v_3)+\pi(Facebook\vert S4)\times(R_{S4}^{Facebook}+\gamma v_4) = 0.5\times (0+1\times v_1)+0.5\times (-1+1\times v_4) = 0.5v_1 + 0.5v_4 - 0.5$
可以得到关于 $v_1,v_2,v_3,v_4$ 的方程组：

运用python求解该方程：

# coding:utf-8
import numpy as np
np.set_printoptions(precision=3, threshold=np.inf, linewidth=400, suppress=True)
a = np.array([[-1,0.5,0,0.5],[0,-1,0.5,0],[0.1,0.2,-0.8,0],[0.5,0,0,-0.5]])
b = np.array([[1.5],[1.0],[-5.5],[0.5]])
c = np.dot(np.linalg.inv(a), b)
print("c=\n{}".format(c))   # c=[[-1.308] [ 2.692] [ 7.385] [-2.308]]

求解得到 $v_1=-1.3,v_2=2.7,v_3=7.4,v_4=-2.3$

2)求解动作价值函数

利用公式 $KaTeX parse error: Expected group after '_' at position 39: …s^a+\gamma \sum_̲\limits {s\in S…$
$q_\pi(S1,Study)=\mathcal{R}_{S1}^{Study}+\gamma \mathcal{P}_{S1S2}^{Study}v_\pi(S2)=-2+2.7=0.7$
$q_\pi(S1,Facebook)=\mathcal{R}_{S1}^{Facebook}+\gamma \mathcal{P}_{S1S4}^{Facebook}v_\pi(S4)=-1-2.3=-3.3$
$q_\pi(S2,Sleep)=\mathcal{R}_{S2}^{Sleep}+\gamma \mathcal{P}_{S2end}^{Sleep}v_\pi(end)=0+0=0$
$q_\pi(S2,Study)=\mathcal{R}_{S2}^{Study}+\gamma \mathcal{P}_{S2S3}^{Study}v_\pi(S3)=-2+7.4=5.4$
$q_\pi(S3,Study)=\mathcal{R}_{S3}^{Study}+\gamma \mathcal{P}_{S3end}^{Study}v_\pi(end)=10+0=10$
$q_\pi(S3,Pub)=\mathcal{R}_{S3}^{Pub}+\gamma \sum \limits _{s^{\prime}\in \mathcal{S}}\mathcal{P}_{S3\cdot}^{Pub}v\pi(\cdot)=1+0.2\times (-1.3)+0.4\times (2.7)+0.2\times (7.4)=4.78$
$q_\pi(S4,Facebook)=\mathcal{R}_{S4}^{Facebook}+\gamma \mathcal{P}_{S4S4}^{Facebook}v_\pi(S4)=-1+(-2.3)=-3.3$
$q_\pi(S4,Quit)=\mathcal{R}_{S4}^{Quit}+\gamma \mathcal{P}_{S4S1}^{Quit}v_\pi(S1)=0+(-1.3)=-1.3$

（8）用矩阵形式求解

这里取 $\pi(a\vert s)=0.5,\gamma=1$

用python求解该方程：

# coding:utf-8
import numpy as np
np.set_printoptions(precision=3, threshold=np.inf, linewidth=400, suppress=True)
gamma = 1.0
E = np.eye(5)
P = np.array(
   [[0,0.5,0,0.5,0],
    [0,0,0.5,0,0.5],
    [0.1,0.2,0.2,0,0.5],
    [0.5,0,0,0.5,0],
    [0,0,0,0,1]])
R = np.array([[-1.5],[-1],[5.5],[-0.5],[0]])
# print(np.linalg.det(E-gamma*P))
# np.linalg.det(E-gamma*P)=0.0 --> E-gamma*P是奇异矩阵
# 给矩阵主对角线每一个元素加一个很小的量，如1e-6，使其强制可逆
# print(np.linalg.det(E*1e-6+E-gamma*P))
# np.linalg.det(E*1e-6+E-gamma*P)=1.6250e-07
v = np.dot(np.linalg.inv(E*1e-6+E-gamma*P), R)
	print("v=\n{}".format(v)) # v=[[-1.308] [ 2.692] [ 7.385] [-2.308] [ 0.   ]]

（9）最优价值函数

最优状态价值：

最优动作价值：

（10）最优策略

（11）贝尔曼最优方程求解

已知 $KaTeX parse error: Expected group after '_' at position 39: …s^a+\gamma \sum_̲\limits {s\in S…$ $q_*(s,a)=\max \limits_\pi q_\pi(s,a)$

求解： $q_*(S1,Study)=\mathcal{R}_{S1}^{Study}+\gamma \mathcal{P}_{S1S2}^{Study}\max \limits_{a^{\prime}}q_*(S2,a^{\prime}) \\ =\mathcal{R}_{S1}^{Study}+\gamma \mathcal{P}_{S1S2}^{Study}\max (q_*(S2,Sleep),q_*(S2,Study)) \\ = -2+max(0,q_*(S2,Study))$
$q_*(S1,Facebook)=\mathcal{R}_{S1}^{Facebook}+\gamma \mathcal{P}_{S1S4}^{Facebook}\max \limits_{a^{\prime}}q_*(S4,a^{\prime}) \\ =\mathcal{R}_{S1}^{Facebook}+\gamma \mathcal{P}_{S1S4}^{Facebook}\max (q_*(S4,Facebook),q_*(S4,Quit)) \\ = -1+\max (q_*(S4,Facebook),q_*(S4,Quit))$
$q_*(S2,Study)=\mathcal{R}_{S1}^{Study}+\gamma \mathcal{P}_{S2S3}^{Study}\max \limits_{a^{\prime}}q_*(S3,a^{\prime}) \\ =\mathcal{R}_{S1}^{Study}+\gamma \mathcal{P}_{S2S3}^{Study}\max (q_*(S3,Study),q_*(S3,Pub)) \\ = -2+\max (q_*(S3,Study),q_*(S3,Pub))$
$q_*(S2,Sleep)=\mathcal{R}_{S2}^{Sleep}+\gamma \mathcal{P}_{S2end}^{Sleep}v(end)=0+0=0$
$q_*(S3,Study)=\mathcal{R}_{S3}^{Study}+\gamma \mathcal{P}_{S3end}^{Study}v(end)=10+0=10$
$q_*(S3,Pub)=\mathcal{R}_{S3}^{Pub}+\gamma \mathcal{P}_{S3\cdot}^{Pub}\max \limits_{a^{\prime}}q_*(\cdot,a^{\prime}) \\ =\mathcal{R}_{S3}^{Pub}+\gamma (\mathcal{P}_{\cdot S1}^{a1}\max (q_*(S1,Facebook),q_*(S1,Study))+\mathcal{P}_{\cdot S2}^{a2}\max (q_*(S2,Sleep),q_*(S2,Study)) + \mathcal{P}_{\cdot S3}^{a3}\max (q_*(S3,Pub),q_*(S3,Study)))\\ = 1+0.2\times\max ((q_*(S1,Study),q_*(S1,Facebook))+0.4\times\max ((q_*(S2,Sleep),q_*(S2,Study))+0.4\times\max ((q_*(S3,Pub),q_*(S3,Study)) \\$
$q_*(S4,Facebook)=\mathcal{R}_{S4}^{Facebook}+\gamma \mathcal{P}_{S4S4}^{Facebook}\max \limits_{a^{\prime}}q_*(S4,a^{\prime}) \\ =\mathcal{R}_{S4}^{Facebook}+\gamma \mathcal{P}_{S4S4}^{Facebook}\max (q_*(S4,Facebook),q_*(S4,Quit)) \\ = -1+\max (q_*(S4,Facebook),q_*(S4,Quit))$
$q_*(S4,Quit)=\mathcal{R}_{S4}^{Quit}+\gamma \mathcal{P}_{S4S1}^{Quit}\max \limits_{a^{\prime}}q_*(S1,a^{\prime}) \\ =\mathcal{R}_{S4}^{Quit}+\gamma \mathcal{P}_{S4S1}^{Quit}\max (q_*(S1,Study),q_*(S1,Facebook)) \\ = 0+\max (q_*(S1,Study),q_*(S1,Facebook))$
整理可得：
$q_*(S1,Study) = -2+max(0,q_*(S2,Study))\\ q_*(S1,Facebook)=-1+\max (q_*(S4,Facebook),q_*(S4,Quit))\\ q_*(S2,Sleep) = 0\\ q_*(S2,Study) = -2+\max (10,q_*(S3,Pub)) \\ q_*(S3,Study) = 10\\ q_*(S3,Pub)=1+0.2\times\max ((q_*(S1,Study),q_*(S1,Facebook))+0.4\times\max (0,q_*(S2,Study))+0.4\times\max ((q_*(S3,Pub),10)\\ q_*(S4,Facebook)=-1+\max (q_*(S4,Facebook),q_*(S4,Quit))\\ q_*(S4,Quit)= 0+\max (q_*(S1,Study),q_*(S1,Facebook))$

简单观察可得： $q_*(S2,Study) \geq 8 \\ q_*(S1,Study) \geq 6\\ q_*(S3,Pub) = 1+0.2\times\max ((q_*(S1,Study),q_*(S1,Facebook))+0.4\times q_*(S2,Study)+0.4\times\max ((q_*(S3,Pub),10)\\$
观察 $q_*(S4,Facebook)=-1+\max (q_*(S4,Facebook),q_*(S4,Quit))$ ，显然 $q_*(S4,Facebook)=-1+q_*(S4,Quit)$
则 $q_*(S1,Facebook)=-1+q_*(S4,Quit)\\ q_*(S4,Quit)= 0+\max (q_*(S1,Study),-1+q_*(S4,Quit))=q_*(S1,Study)\\ q_*(S3,Pub)=1+0.2\times\max ((q_*(S1,Study),q_*(S1,Facebook))+0.4\times q_*(S2,Study)+0.4\times\max ((q_*(S3,Pub),10)\\ =1+0.2\times\max ((q_*(S4,Quit),-1+q_*(S4,Quit))+0.4\times q_*(S2,Study)+0.4\times\max ((q_*(S3,Pub),10) \\ =1+0.2\times q_*(S4,Quit)+0.4\times q_*(S2,Study)+0.4\times\max ((q_*(S3,Pub),10)\\ =1+0.2\times q_*(S1,Study)+0.4\times q_*(S2,Study)+0.4\times\max ((q_*(S3,Pub),10)\\ =1+0.2\times (-2+q_*(S2,Study))+0.4\times q_*(S2,Study)+0.4\times\max ((q_*(S3,Pub),10)\\ = 0.6+0.6\times q_*(S2,Study)+0.4\times\max ((q_*(S3,Pub),10) \ \ \ (note:q_*(S2,Study) \geq 8))\\ = 0.6+0.6\times q_*(S2,Study)+0.4\times 10\\ = 0.6\times q_*(S2,Study) + 4.6$

你可能感兴趣的:(David,Silver强化学习公开课,python,开发语言)

《AI大模型趣味实战》第8集：多端适配个人新闻头条基于大模型和RSS聚合打造个人新闻电台(Flask WEB版) 2 带娃的IT创业者 AI大模型趣味实战人工智能 flask 前端
《AI大模型趣味实战》第8集：多端适配个人新闻头条基于大模型和RSS聚合打造个人新闻电台(FlaskWEB版)2摘要本文末尾介绍了如何实现新闻智能体的方法。在信息爆炸的时代，如何高效获取和筛选感兴趣的新闻内容成为一个现实问题。本文将带领读者通过Python和Flask框架，结合大模型的强大能力，构建一个个性化的新闻聚合平台，不仅能够自动收集整理各类RSS源的新闻，还能以语音播报的形式提供"新闻电台
LeetCode剑指offer题目记录3 t.y.Tang LeetCode记录学语言 c++leetcode 哈希算法
leetcode刷题开始啦,每天记录几道题.目录剑指offer05.替换空格题目描述思路pythonC++剑指offer06.从尾到头打印链表题目描述思路1python思路2pythonC++剑指offer05.替换空格题目描述让我们实现一个函数,把字符串s中的每个空格替换为%20.思路这个题目我只能想到遍历,在空间控制上应该有原地修改的办法会省一些.python如果用python,那直接用spl
Python 中的 Iterable、Iterator 与生成器 CavenWang python python 开发语言
Python中的Iterable、Iterator与生成器Iterable（可迭代对象）Iterator（迭代器）生成器（Generator）Iterable、Iterator与生成器的关系实际应用生成器的高级用法（send()）总结在Python中，Iterable、Iterator和生成器是三个密切相关的概念，它们都与迭代操作有关，但各自扮演不同的角色。本文将深入探讨它们的定义、区别以及实际应
Python Lambda 函数详解 2201_75491841 python 开发语言 lambda函数
一、引言在Python编程中，我们经常会遇到一些简单的函数，这些函数可能只在某个特定的地方使用一次，而且逻辑非常简单。如果为了这些简单的功能定义一个常规的函数，不仅会增加代码的冗余，还会使代码结构变得不够简洁。这时，lambda函数就派上用场了。lambda函数也被称为匿名函数，它为我们提供了一种简洁的方式来定义小型的、一次性使用的函数。在本文中，我们将深入探讨Python中的lambda函数，包
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
python processpoolexecutor_Python多进程解决方案multiprocessing ProcessPoolExecutor weixin_39599046 python
大多数编程语言都会有多线程和多进程的概念，至于线程和进程的概念，大家可以百度一下。作为一门胶水语言，Python毫不意外，也可以利用多线程和多进程处理并发问题，但是多线程由于GIL的存在，起作用范围大打折扣，仅限于在IO等场景可以发挥点作用。所以，今天要跟大家分享的是Python多进程方案，更好地利用系统多核，从而提升性能。基础方案一：利用Process新建一个子进程，在子进程执行任务。我们写一个
python processpoolexecutor_Python线程和进程池并行编程三千香蕉三千 python
Python3.2版本之后发布了concurrent.futures模块，用以支持和管理并发编程，内容涵盖了进程和线程池(ThreadandProcessPooling)、非确定性执行流(NondeterministicExecutionFlows)以及进程和线程同步。本文通过将带有可选参数的任务提交(Submit)给执行器(Executor)来实例化futures对象。执行器是线程或者进程执行池
python 底层原理processpoolexecutor_Python 并发编程：PoolExecutor 篇风投小虾 python
个人笔记，如有疏漏，还请指正。使用多线程(threading)和多进程(multiprocessing)完成常规的并发需求，在启动的时候start、join等步骤不能省，复杂的需要还要用1-2个队列。随着需求越来越复杂，如果没有良好的设计和抽象这部分的功能层次，代码量越多调试的难度就越大。对于需要并发执行、但是对实时性要求不高的任务，我们可以使用concurrent.futures包中的PoolE
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
conda篇----在已有conda环境的基础上升级python包心惠天意 conda python jvm
conda篇----在已有conda环境的基础上升级python包原先的python版本第一步：condaupdate--all(py11)[xxx@aivrs01xxx]$condaupdate--allCollectingpackagemetadata(current_repodata.json):doneSolvingenvironment:done==>WARNING:Anewervers
conda：一个当下最流行的Python虚拟环境工具 Wang_AI
点击上方“AI派”，选择“设为星标”最新分享，第一时间送达！作者：LeonWang，现为中科院特别研究助理(博士后)，在AI、数据科学和科学计算等方面相关的工程实践上积累了丰富的经验。编辑：王老湿前面的文章中，为大家介绍过Python下的虚拟环境和包管理。在实际中，更为流行的是用Conda来管理Python环境。今天这篇文章就为大家介绍这方面的相关内容。Conda环境Conda简介Conda是目前
轻松上手：Matplotlib的基本用法全知道大数据方向陪跑私教 python
《轻松上手：Matplotlib的基本用法全知道》嗨，小伙伴们！之前咱们了解了好多厉害的Python包，今天咱们来好好讲讲Matplotlib这个在数据可视化方面超棒的包。**Matplotlib到底该怎么用呢？**这就像是探索一个新的游乐场，每个功能都是一样好玩的项目。一、安装Matplotlib在开始使用Matplotlib之前，得先把它安装好。如果你已经安装了Python的包管理工具pip，
Python 高手编程系列一千七百零八：在事件循环中使用 executors 杨琴1 python 开发语言
Executor.submit()方法返回的Future类实例在概念上非常接近异步编程中使用的协程。这就是为什么我们可以使用执行器在协同多任务和多进程或多线程之间进行混合。此解决方法的核心是事件循环类的BaseEventLoop.run_in_executor(executor,func,*args)方法。它会在进程池或线程池中调度执行由executor参数表示的func函数。这个方法最重要的是它
conda将python低版本环境升级到高版本 dkgee conda python 开发语言
conda将python低版本环境3.7.16升级到高版本3.81.激活你的Conda环境2.升级Python版本3.验证升级4.处理依赖问题5.测试环境注意事项可以将Conda环境中的Python版本从3.7.16升级到3.8。以下是具体步骤：1.激活你的Conda环境首先，你需要激活你想要升级Python版本的环境。假设你的环境名为myenv，你可以使用以下命令激活它：condaactivat
python 爬取某乎某选全部内容路笑笑
在发布了python爬取知乎盐选文章内容后，没想到居然这么快就要更新新的内容了。在下午思考第一篇python爬取知乎盐选文章内容的时候，其实就把自动爬取目录内的其他内容的方法想出来了，但是本来没想这么快更新的，哈哈。不过思来想去还是发出来吧，毕竟要不哪天就忘了。fromDecryptLoginimportloginfrombs4importBeautifulSoupimportreimportba
（含import）两行代码，将ppt的每一页幻灯片保存为图片。（如果你没装office，只装了WPS也可以，只不过更麻烦一些）几道之旅人工智能智能体及数字员工 powerpoint wps
文章目录第一步:安装包第二步：写代码，运行第三步：如果你是Office，现在已经搞定了。但我是WPS，会报错：第四步：直接去包里改代码第五步：保存对包中代码的修改，重新运行咱最开头的代码第六步：成功了第一步:安装包pipinstallpython-office第二步：写代码，运行#安装库：pipinstallpython-officeimportoffice#单页转图片office.ppt.ppt
Python知识分享第十四天闵少搞AI python 开发语言
“”"1.面向对象相关概述概述面向对象是一种编程思想强调的是以对象为基础完成的各种操作它是基于面向过程的扩展Python中是同时支持面向对象和面向过程这两种编程思想的思想特点更符合人们的思考习惯把复杂的问题简单化把人们(程序员)从执行者变成了指挥者2.面向对象三大特征介绍封装继承多态封装概述封装就是隐藏对象的属性和实现细节仅对外提供公共的访问方式举例:插板电脑手机好处提高代码的安全性弊端代码量增加
pythontype函数使用_Python astype(np.float)函数使用方法解析 weixin_39870238 pythontype函数使用
Pythonastype(np.float)函数使用方法解析我的数据库如图结构我取了其中的nameagenr，做成array，只要所取数据存在str型，那么取出的数据，全部转化为str型，也就是array阵列的元素全是str，不管数据库定义的是不是int型。那么问题来了，取出的数据代入公式进行计算的时候，就会类型不符，这是就用到astype(np.float)代码如下importpymysqlim
conda install 和 pip install 的区别不知江月待何人.. 深度学习
condainstall和pipinstall是两个常用的包安装命令，但它们在很多方面存在差异。1.所属管理系统不同1.1condainstallcondainstall是Anaconda和Miniconda发行版自带的包管理工具conda的安装命令。conda是一个跨平台的开源包管理系统和环境管理系统，它不仅可以管理Python包，还能管理其他语言（如R、C++等）的包。conda更侧重于数据科
蓝桥杯备赛计划 laitywgx 蓝桥杯职场和发展
1-2小时的蓝桥杯PythonB组冲刺日程表（持续1个月，聚焦高频考点）：第一周：核心算法突破Day1（周一）学习重点：动态规划（01背包问题）学习资源：AcWing《蓝桥杯辅导课》第8讲（背包问题模板）代码模板速记：#一维01背包模板n,V=map(int,input().split())dp=[0]*(V+1)for_inrange(n):w,v=map(int,input().split()
Conda常用命令汇总（持续更新中） X-future426 conda linux 运维
原文章：安装和使用Miniconda来管理Python环境-CSDN博客一、Miniconda的使用Miniconda没有GUI界面，只能通过conda命令对Python环境和软件包进行管理，所以这里主要介绍一下conda的常用命令。1.Conda相关(1)查询conda版本conda--version(2)更新conda版本condaupdateconda2.环境管理(1)查询已创建的虚拟环境c
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
Python 常用函数全解析，轻松提升编码效率 jiajia651304 python 开发语言 windows
Python常用函数全解析，轻松提升编码效率Python常用函数全解析，轻松提升编码效率1.基础内置函数1.1`print()`与`input()`1.2`len()`、`type()`与`isinstance()`2.数学与数值处理函数2.1`abs()`、`round()`与`pow()`2.2`divmod()`与`max()/min()`3.序列与迭代相关函数3.1`range()`与`e
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
新手如何使用 Milvus 巴依老爷coder 数据库 milvus 向量数据库数据库
一文带你入门Milvus：详细指南新手如何使用Milvus：详细指南一、Milvus简介主要特点应用领域二、安装Milvus安装DockerCompose基于DockerCompose安装Milvus服务端安装attu-可视化界面工具三、快速入门安装PythonSDK连接数据库方式1方式2（方式1的封装）数据库操作核心概念集合操作数据操作插入数据精准查询数据-get条件查询数据-query查询数据
nginx-部署Python网站项目 skyQAQLinux python linux nginx 服务器
一、部署Python网站项目实验要求配置Nginx使其可以将动态访问转交给uWSGI安装Python工具及依赖1)拷贝软件到proxy主机[root@server1~]#scp-r/linux-soft/s2/wk/python/192.168.99.5:/root2)安装python依赖软件[root@proxy~]#yum-yinstallgccmakepython3python3-devel
Python 3.6.8 64位独立安装程序霍娴果Myrtle
Python3.6.864位独立安装程序【下载地址】Python3.6.864位独立安装程序Python3.6.864位独立安装程序欢迎使用Python3.6.64位版安装包！本资源专门针对需要在64位操作系统上进行Python环境搭建的用户项目地址:https://gitcode.com/open-source-toolkit/98d19欢迎使用Python3.6.64位版安装包！本资源专门针对
Python 3.6.8 安装包下载何盼思Kit
Python3.6.8安装包下载【下载地址】Python3.6.8安装包下载Python3.6.8安装包下载本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构项目地址:https://gitcode.com/open-source-toolkit/d9647本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构。Pyt
Python匿名函数Lambda，不止是省略函数名这么简单橙色小博 python的学习之旅 python 开发语言
目录1.前言2.Lambda函数的基本用法3.关于Lambda函数的应用3.1与map函数结合3.2lambda与if-else语句3.3多参数lambda3.4嵌套lambda3.5字典与lambda（也是我本人最喜欢的用法）3.6lambda其他用法4.总结：Lambda的编程哲学1.前言在Python的广阔天地里，Lambda函数宛如一颗璀璨的明珠，以其简洁优雅的姿态，为代码增添了一份独特的
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

David Silver强化学习公开课自学笔记——Lec2马尔科夫决策过程

0.数学规范

1.马尔科夫过程

（1）MDPs的介绍

（2）马尔科夫性

（3）状态转移矩阵

（4）片段episode

（5）马尔科夫过程

2.马尔科夫奖励过程MRPs

（1）定义

（2）回报Return

（3）价值函数

（4）马尔可夫奖励过程的贝尔曼方程

（5）贝尔曼方程的矩阵形式和求解

1)矩阵形式

2)求解

3.马尔科夫决策过程MDPs

（1）定义

（2）策略

（3）基于策略 π \pi π的价值函数

（4）Bellman期望方程（Bellman Expectation Equation）

1)状态-价值与行为-价值函数

2)价值函数分解

3)价值函数重组

（5）Bellman期望方程矩阵形式

（6）最优价值函数

（7）最优策略

（8）Bellman最优方程

1)最优状态价值函数

2)最优价值函数拆解

3)贝尔曼最优方程和贝尔曼方程的关系

4)贝尔曼最优方程求解

4.MDP扩展

（1）无穷和连续MDPs

（2）部分可观测的MDPs（POMDPs）

（3）非折扣的、平均奖励的MDPs

1)遍历马尔科夫过程

2)平均奖励的值函数

5.举例

（1）马尔科夫过程

（2）状态转移矩阵

（3）马尔科夫奖励过程

1）图示

2）计算表：

3）计算示例

4） γ \gamma γ的影响

（4）贝尔曼方程求解

（5）马尔科夫决策过程

（6）状态价值函数

（7）Bellman期望方程

1)求状态价值函数

2)求解动作价值函数

（8）用矩阵形式求解

（9）最优价值函数

（10）最优策略

（11）贝尔曼最优方程求解

你可能感兴趣的:(David,Silver强化学习公开课,python,开发语言)

（3）基于策略 $\pi$ 的价值函数

4） $\gamma$ 的影响