FlorianFang

强化学习笔记

本文（不断更新）是学习以下课程/文献的笔记：

课程：UCL Cource on RL http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html
课程：Berkeley cs188 http://inst.eecs.berkeley.edu/~cs188/fa18/
书籍：Reinforcement learning: An Introduction https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf

1. 强化学习是什么

强化学习是机器学习的一种，它要解决的是“在某种状态下，应该做什么”的时序决策（sequential decision making）问题。
强化学习和监督学习的差别在于：监督学习需要利用标注数据集进行训练，训练出一个模型后在进行判断；强化学习也要训练，但不需要标注数据集，而是通过不断“尝试-试错”的模式进行学习。
对于一个智能体（agent）来说，它要在环境（environment）中达到某种目标。为了达到目标，它会观察到环境中的某些信息，然后做出某项动作（action），这个动作会作用到环境中，然后环境会给智能体一个激励/奖赏（reward）：智能体做出正确的动作则有正奖赏，反之则是负奖赏（即惩罚）。智能体就是在这种奖赏机制下学到正确的动作，即为强化学习。

强化学习的几个要素

状态（state）
状态可以理解为关于agent和环境的信息，比如某个地点、agent所处的位置、agent自身的速度等。状态是需要agent去获取的。因为强化学习是一个时序决策的问题，即存在 $S_0$ , $S_1$ ,… $S_t$ , $S_{t+1}$ 个状态，如果”下一个状态只与当前状态有关，而与更早之前的状态无关”，即条件概率满足：
$P(S_{t+1}|S_t)=P(S_{t+1}|S_t,S_{t-1},...,S_0)$
那么我们说该问题具有马尔科夫性，我们的强化学习问题也变成马尔科夫决策问题（MDP）.
动作（action）
即agent的动作
策略（policy）
策略就是状态到动作的映射：处在某一状态下应该做什么动作
目标（goal）
在一个问题中agent要达到的目标，比如是从迷宫中达到出口。目标可以用激励来量化表示
激励（reward）
这是环境给agent的反馈，agent的终极目标就是要把累积的reward最大化. 需要注意的是，当下行为会得到一个即时的reward，但其真正的价值，可能要等到一定时间后才体现，正所谓“不是不报，时候未到”
值函数（value function）
激励表示对动作的即时奖惩，而值函数表示某个策略的终极价值

2. Markov Decision Process (MDP)

强化学习往往可以由马尔科夫决策过程（MDP）来描述。MDP是一个时序问题，在每个时刻 $t$ 它都被这样一个元组 $\langle S, A, P, R, \gamma \rangle$ 所定义, 其中：

$S$ 为有限的state组成的状态空间
$A$ 为有限的action组成的动作空间
$P$ 是状态转移概率矩阵，即在状态 $s$ 时，采取 $a$ 动作，状态转移到 $s^{\prime}$ 的概率：
$P_{s,s^{\prime}}^a = P[S_{t+1} = s^{\prime} | S_{t} = s, A = a]$
为什么从一个状态到另一个状态是概率性的呢？例如一个机器人在A点（ $s$ ）决定采取动作"跳"转移到B点（ $s^{\prime}$ ），但由于控制的bug等原因，它有可能只有90%的可能性成功到达B点，而有10%的可能性停留在A点。
$R$ 是激励函数，即在状态 $s$ 时，采取 $a$ 动作，能够得到的期望奖励（任何实数）：
$R_{s}^a = \mathbb{E}[R_{t+1} | S_t = s, A = a]$
这个奖励跟 $t + 1$ 时刻的状态没关系，比如上面说的机器人，只要它在A点采取“跳”这个动作了，那么就会有一个奖励。
$\gamma$ 是discount factor，这个是用来表述总回报（returns） $G_t$ 的：
$G_t = R_{t+1} + \gamma R_{t+2} +\gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}, (\gamma \in [0, 1])$
从 $t$ 时刻开始，之后的每个 $t + k + 1$ 时刻会有激励 $R_{t+k+1}$ ，但是总的回报不是所有 $R_{t+k+1}$ 的直接加和，而是会把离 $t$ 越远的的激励discount掉越多、再加和，这么做有两个理由：一是，这比较符合生物智能的特点——一般生物都是考虑眼前好处，而缺乏长远目光；二是数学上有助于后面我们求解收敛，因为：
$\begin{aligned} G_t &= R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} +...\\ &\leq R_{max}\sum_{k=0}^{\infty}\gamma^k \\ &=\frac{R_{max}}{1-\gamma} \end{aligned}$
只要 $\gamma$ 小于1，回报 $G_t$ ,是收敛的，即使时间无限长。

下图是一个MDP的例子：每个圆圈或者正方形表示一个状态；每个红色字体表示一个动作，每个箭头表示采取该动作将使状态转移；每个R表示激励

在MDP中，智能体从一个状态转移到另一个状态，上面说了可以由转移概率分布来描述，而实际上这种转移由具体动作来实现。在某个状态时采取某种行动，我们称之为策略（policy），记为 $\pi$ :
$\pi(a|s) = Prob[A_t = a|S_t = s]$
$\pi$ 是一个概率分布，就是说某个状态下有可能采取不同的动作。考虑下面这个状态转移例子：空心圆圈表示状态，实心黑点表示动作。从最上面的状态 $s$ 出发，我们有一定的概率分布 $\pi$ 可以采取3种不同的动作 $a$ . 而采取某一个动作后，我们即会获得激励 $r$ , 并且有一定转移概率 $p$ 会使状态转移到下一个 $s^{\prime}$ . 本例子中最下层空心圆圈表示，某个动作后都有两种新的状态的可能性。

2.1 状态值函数（state value function）

好了，现在在MDP中，状态之间可以通过策略函数 $\pi$ 和转移函数 $P$ 函数联系起来。并且，在某一个状态采取某一动作时，智能体会得到一个激励（不管是正的还是负的）。我们说强化学习的终极目标是获得最大化的累积的激励，而不是当下的激励；有可能这一步走出去捡到个宝，获得不错的即时激励，可是却走向了错误的方向，导致长期的累积激励不高。
为了衡量在某个状态时的长期累积激励，我们定义状态值函数 $V_{\pi}(s)$ 为在策略概率分布和转移概率分布下的长期回报:
$\begin{aligned} V_{\pi}(s) &= \mathbb{E}_{\pi}[G_t|S_t = s]\\ &= \mathbb{E}_{\pi}[R_{t+1} + \gamma R_{t+2} +\gamma^2R_{t+3}...|S_t = s]\\ \end{aligned}$
发现 $V_{\pi}(s)$ 具有递归关系：
$\begin{aligned} V_{\pi}(s) &= \mathbb{E}_{\pi}[R_{t+1} + \gamma (R_{t+2} +\gamma R_{t+3}...)|S_t = s]\\ &=\mathbb{E}_{\pi}[R_{t+1}+\gamma V_{\pi}(S_{t+1})|S_t = s] \\ &= \mathbb{E}_{\pi}[R_{t+1}|S_t = s]+E_{\pi}[\gamma V_{\pi}(S_{t+1})|S_t = s]\\ &= \sum_{a\in A}\pi(a|s)R(s,a) + \sum_{a \in A} \pi(a|s) \gamma \sum_{s^{\prime}\in S}P(s^{\prime}|s,a)V_{\pi}(s^{\prime})\\ &= \sum_{a\in A}\pi(a|s)(R(s,a)+\gamma \sum_{s^{\prime}\in S}P(s^{\prime}|s,a)V_{\pi}(s^{\prime})) \\ &= R^{\pi} + \gamma P^{\pi} V_{\pi} (S_{t+1}) \end{aligned}$
可见， $s$ 状态下的回报，可以从转移到的下一个状态的 $S_{t+1}$ 计算/更新而来。这点对于后面的迭代求最优解很重要。

2.2 动作值函数（action value function / Q-value）

和状态值函数类似，我们还可以定义动作值函数：衡量某一状态下采取某个动作的长期累积回报：
$\begin{aligned} q_{\pi}(s,a) &= \mathbb{E}_{\pi}[R_{t+1} + \gamma R_{t+2} +\gamma^2R_{t+3}...|S_t = s, A_t = a]\\ &= \mathbb{E}_{\pi}[R_{t+1}+\gamma q_{\pi}(S_{t+1})|S_t = s, A_t = a] \\ &= R(s,a)+\gamma \sum_{s^{\prime}\in S}P(s^{\prime}|s,a)V_{\pi}(s^{\prime}) \\ \end{aligned}$
以上状态值函数和动作值函数都具有递归性质，两者都统称为贝尔曼方程（Bellman equation）.可以看到，状态值函数和动作值函数的关系为：
$V_{\pi}(s) = \sum_{a\in A}\pi(a|s) q_{\pi}(s,a)$

2.3 最优的值函数（optimal value function）

强化学习是为了达到某种目标，比如机器人找到迷宫出口。“目标”我们可以用激励来量化体现，比如当机器人在迷宫出口位置时激励远远大于在其它位置上的。而出口位置往往不是一蹴而就的，而是要经过一段时间的“动作-状态转移”过程才能到达的。于是，我们的问题就变成最优（大）化累积激励，也就是最优化值函数：包括状态值函数和动作值函数。
最优状态值函数 $V_{\star}(s)$ :
$V_{\star}(s) = \underset{\pi}{max} \ V_{\pi}(s)$
最优动作值函数 $q_{\star}(s)$ :
$q_{\star}(s,a) = \underset{\pi}{max} \ q_{\pi}(s,a)$
得到最优值函数也就意味了找到了最优策略（optimal policy） $\pi_{\star}$ :
$\pi_{\star} = \underset{\pi} {argmax} \ V_{\pi}(s) = \underset{\pi} {argmax} \ q_{\pi}(s,a)$
那么如何找到最优值函数呢？

2.4 MDP类型

求最优解之前，先明确一下MDP的两种形式：

model-based
即关于环境的所有信息都是已知的，即对于智能体来说，MDP的模型 $\langle S,A,P,R,\gamma \rangle$ 是已知的，智能体要做的事情叫做规划（planning）.
model-free
即MDP的模型是不完全清楚的，比如状态转移概率未知等。这时智能体要做的就是学习（learning），强化学习的算法也主要是这一块。

不管是planning还是learning，都有两种问题：

预测（prediction）
给智能体一个的策略 $\pi$ . 计算出值函数 $V_{\pi}$ .
控制（control)
控制的意思其实就是优化。这时智能体没有明确的策略，而是要在所有策略分布中找出最优的值函数 $V_{\star}$ 和最优策略 $\pi_{\star}$ .

根据MDP是model-based或model-free、问题是planning还是learning，强化学习算法有如下分类：

	model-based	model-free
prediction	policy evalution	Monte-Carlo; TD
control	policy iteration; value iteration	Q-learning Sarsa

3. 策略迭代（policy iteration）和值迭代（value iteration）

这一部分是关于求解model-based的MDP问题的策略迭代和值迭代算法。策略迭代和值迭代都是为了求MDP的最优策略：每一状态对应的最优动作，两者是等价的。只不过策略迭代算完就完了，最优策略也就有了；而值迭代算完之后还需要进行一步最优策略的提取，当然这很简单，就是根据状态值函数求动作值函数而已。
在说求最优策略之前，先说怎么评估一个策略的优劣。一个策略越好，状态值函数越大。

3.1 策略评估（policy evaluation）

给定一个策略 $\pi$ ，求状态值函数，根据状态函数的贝尔曼方程，我们有：
$\begin{aligned} V_{\pi}(s) &= \mathbb{E}_{\pi}[R_{t+1}+\gamma q_{\pi}(S_{t+1})|S_t = s, A_t = a] \\ &= \sum_a\pi(a|s) \sum_{s^{\prime}, r}p(s^{\prime},r|s,a) [r + \gamma V_{\pi}(s^{\prime})]\\ \end{aligned}$
这里 $p$ 是转移概率函数，需要注意的是这里激励 $r$ 和下一个状态 $s^{\prime}$ 联系在一起，所以条件概率函数放在了中括号 $\ ]$ 外面。
我们有 $∣ S ∣$ 个状态，因此可以写出含有 $∣ S ∣$ 个未知数的线性方程组，然后直接解方程组得到所有 $V_{\pi}(s)$ . 这不失为一种简单的方法，但是计算消耗较大。另一种方法就是迭代法，即初始时随便给 $V_0(s)$ 一个值，然后在每个迭代步 $k$ , 根据贝尔曼方程迭代:
$\begin{aligned} V_{k+1}(s) \leftarrow \sum_a\pi(a|s) \sum_{s^{\prime},r}p(s^{\prime},r|s,a) [r + \gamma V_{k}(s^{\prime})]\\ \end{aligned}$
第 $k + 1$ 步状态 $s$ ，由上一步 $k$ 的、 $s$ 的下一个状态 $s^{\prime}$ 计算得来。可以证明，当 $k\rightarrow \infty$ 时 $V_{k+1}(s)$ 趋于 $V_{\pi}(s)$ . 循环迭代的终止条件是 $V_{k+1}(s)$ 和 $V_{k}(s)$ 的差别小于某个设定的误差阈值。

3.2 策略改善（policy improvement）

既然我们能够评估一个策略，计算出策略对应的状态值函数，那么一个直接的想法就是怎么对策略进行改善。把原有策略 $\pi$ 改善成 $\pi^{\prime}$ 的方法是找到令状态值函数最大的那个动作：
$\begin{aligned} \pi^{\prime} &= \underset{a}{argmax} \ V_{\pi}(s,a)\\ &= \underset{a}{argmax} \sum_{s^{\prime},r}p(s^{\prime},r|s,a) \lbrack r + \gamma V_{k}(s^{\prime})]\\ \end{aligned}$

3.3 策略迭代

有了上面的策略评估和策略改善，就可以很自然地进行策略迭代：先随便给个策略，计算状态值函数（策略评估）；然后根据状态值函数更新/改善策略（策略改善）；再由改善了的策略进行新的策略评估；接着又是策略改善…如此循环，直到这一步更新得到的策略已经和上一步的一样为止。

3.4 值迭代

策略迭代是不断地进行 “评估（值函数计算）- 改善（更新策略）”，而值迭代则是只进行值函数更新，直到值函数已经是最大化的时候，才一次性地提取出最优策略出来。值函数的更新还是贝尔曼方程，只不过这里不是取期望的状态值函数，而是取最大值的：
$\begin{aligned} V_{k+1}(s) \leftarrow \underset{a}{max} \sum_{s^{\prime},r}p(s^{\prime},r|s,a) [r + \gamma V_{k}(s^{\prime})]\\ \end{aligned}$

3.5 一个例子

(代码)

4. model-free prediction: MC & TD

4.1 MC

在model-based的MDP问题里，由一个策略计算状态值函数可以通过贝尔曼方程：
$\begin{aligned} V_{\pi}(s) &= \mathbb{E}_{\pi}[G_t|S_t = s]\\ &= \sum_{a\in A}\pi(a|s)(R(s,a)+\gamma \sum_{s^{\prime}\in S}P(s^{\prime}|s,a)V_{\pi}(s^{\prime})) \\ \end{aligned}$
但在model-free的MDP里转移概率是未知的。我们可以先进行一系列实验通过统计来估计一个转移概率分布，这有点像机器学习。但这里我们通过另一种方法：蒙特卡洛（MC）来直接近似地求值函数。
MC想法很简单，就是不断地重复实验（episodes），只要在实验中状态 $s$ 被访问到了，就记录该次实验 $s$ 的回报，最后用所有回报的平均值当作状态 $s$ 的状态值。也就是说，我们不再计算状态 $s$ 的期望回报（因为不知道概率分布），而是计算所有实验样本的平均回报：
$\begin{aligned} &V_{\pi}(s) = \lim\limits_{N(s)\rightarrow \infty} \frac{S(s)}{N(s)} \\ \text{where } &\text{episode number } N(s) \leftarrow N(s)+1\\ &\text{total return } S(s) \leftarrow S(s)+1 \end{aligned}$
上面这种计算方法是得到了所有回报之后再求平均值，事实上还有一种动态的方法。考虑计算 ${ x_j \}$ 的平均值 $\mu_k$ :
$\begin{aligned} \mu_k &= \frac{1}{k} \sum_{j=1}^k x_j \\ &= \frac{1}{k} (x_k + \sum_{j=1}^{k-1} x_j)\\ &= \frac{1}{k} (x_k + (k-1)\mu_{k-1})\\ &= \mu_{k-1} + \frac{1}{k}(x_k - \mu_{k-1}) \end{aligned}$
若状态 $S_t$ 的回报是 $G_t$ ，则 $V(S_t)$ 可以通过下式的更新逼近平均值：
$\begin{aligned} N(S_t) &\leftarrow N(S_t)+1\\ V(S_t) &\leftarrow V(S_t) + \frac{1}{N(S_t)}(G_t-V(S_t)) \end{aligned}$
利用这种方法迭代，每一次实验更新一次，就可以把更早之前的那些状态值都抛弃掉了。
这里我们可以把 $\frac{1}{N(S_t)}$ 用 $\alpha$ 替代:
$\begin{aligned} V(S_t) &\leftarrow V(S_t) + \alpha(G_t-V(S_t)) \end{aligned}$
$\alpha$ 表示值更新的步长。迭代开始前可以给 $V(S_t)$ 一个随机值，每一步迭代，就是把 $G_t$ 看作目标值（target）,目标值和实际值的误差是 $G_t-V(S_t))$ ，那么我们就是以这个误差来更新实际值。这种方法叫增量迭代方法（incremental method）

4.2 Temporal-Difference （时间差分，TD）

在MC的方法中，我们更新一个状态值函数，是要等到一次实验完全完成了之后、有了回报 $G_t$ 才能计算。与此相对应的TD算法，则是不需要等到实验全部完成，而是从 $V(S_t)$ 走一步到 $V(S_{t+1})$ 、得到一个激励 $R_{t+1}$ ，就马上进行更新：
$\begin{aligned} V(S_t) &\leftarrow V(S_t) + \alpha(R_{t+1}+\gamma V(S_{t+1})-V(S_t)) \end{aligned}$
这里 $R_{t+1}+\gamma V(S_{t+1})$ 叫估计回报（estimated return）。注意这里 $V(S_{t+1})$ 是上一次实验更新得到的、下一个状态的值函数，所以 $R_{t+1}+\gamma V(S_{t+1}) \ne G_t$ .
这里可以另外定义一个量，叫TD-error $\delta_t = R_{t+1}+\gamma V(S_{t+1})-V(S_t)$ .
这种不等到整个实验结束就利用下一步的值来更新当前步的值方法，叫bootstrapping方法。DP和TD都是bootstrapping方法。

	Sampling?	Bootstrapping?
DP	No	Yes
MC	Yes	No
TD	Yes	Yes

4.3 n-step TD, TD( $\lambda$ )

上面TD的值更新方法，是从 $V(S_t)$ 往后看一步，到 $V(S_{t+1})$ . 那么是不是可以往后多看几步，用后面几步的估计回报来更新 $V(S_t)$ 呢？假设我们多往后看 $n$ 步，第 $n$ 步的回报叫 $G_t^{(n)}$ :
$G_t^{(n)} = R_{t+1}+\gamma R_{t+2} +...+\gamma^n V(S_{t+n})$
n-step TD更新方法：
$\begin{aligned} V(S_t) &\leftarrow V(S_t) + \alpha(G_t^{(n)}-V(S_t)) \end{aligned}$
当 $n = 1$ 时， $G_t^{(n)}$ 就是上面讲过的TD的估计回报 $R_{t+1}+\gamma V(S_{t+1})$ ；当 $n=\infty$ 时，则 $G_t^{(n)} = G_t$ ，TD和MC就是一样的了！
那么 $n$ 应该取几？是往后看5步好还是10步好？其实我们可以把所有的 $G_t^{(n)}$ 利用权重加和起来，这样就可以利用每一步的信息了。把综合了所有步数的回报叫 $\lambda$ -return $G_t^{\lambda}$ （ $\lambda \in [0,1]$ ）:
$\begin{aligned} G_t^{\lambda} &= (1-\lambda ) G_t^{(1)} + (1-\lambda ) \lambda G_t^{(2)} +...+(1-\lambda ) \lambda^{n-1} G_t^{(n)}\\ &= (1-\lambda )\sum_{n=1}^{\infty}\lambda^{n-1} G_t^{(n)} \end{aligned}$
$(1-\lambda ) \lambda^{n-1}$ 是权重。为什么选择这样的权重呢？首先这种权重满足和为1的条件，其次是因为这样的直觉：离当前越远的状态，对现在的影响越小，所以 $\lambda$ 的幂次数越大。
此时TD更新方法就是：
$\begin{aligned} V(S_t) &\leftarrow V(S_t) + \alpha(G_t^{\lambda}-V(S_t))\\ \text{or } V(S_t) &\leftarrow V(S_t) + \alpha((1-\lambda )\sum_{n=1}^{\infty}\lambda^{n-1} G_t^{(n)}-V(S_t))\\ \end{aligned}$
这就叫TD( $\lambda$ )。这里我们要综合考虑未来的n步，来更新当下的状态，这样的方式叫做Forward-View TD( $\lambda$ ). 往未来看n步、等到n步都走完了再更新当前状态值。但这有问题，就是每次更新状态值，要等到n步都走完了才能进行，这就缺乏了TD那种走一步、更新一步的online性质了。
为此，我们使用另一种更新状态的方式，叫Backward-View TD( $\lambda$ ), 想法与Forward-View相反：不再往未来看，而是每走一步，忘过去看；每走一步就更新过去的n步。计算方法是：
$\begin{aligned} &V(s) \leftarrow V(s) + \alpha \delta_t E_t(s) \\ \text{where } &\delta_t = R_{t+1}+\gamma V(S_{t+1})-V(S_t)\\ &E_t(s) = \gamma \lambda E_{t-1}(s) + \mathbb{1}(S_t=s) \text{ with } E_0(s) = 0 \end{aligned}$
$E_t(s)$ 叫做Eligibility Trace.

4.4 MC和TD的比较

回过头看，model-free的n-step TD( $\lambda$ )增量式值函数更新方法：
$\begin{aligned} V(S_t) &\leftarrow V(S_t) + \alpha((1-\lambda )\sum_{n=1}^{\infty}\lambda^{n-1} G_t^{(n)}-V(S_t)) \end{aligned}$
统一了MC和TD, 或者说这两者是n-step TD( $\lambda=0$ )的两种极端情况：

$\rightarrow$ TD
$n=\infty \rightarrow$ MC

虽说被统一了，但还是有必要看看这两种极端情况的区别，当选择 $n$ 的时候也知道会影响到什么。

MC要让一个episode完全进行完了再更新所有值函数，值函数是朝着实际目标 $G_t$ 的方向去更新的；TD则不需要一个完整的episode，每走一步就更新一次，值函数更新方向是估计回报 $R_{t+1}+\gamma V(S_{t+1})$ .
$G_t$ 是从值函数最原始定义：回报的数学期望而来的（虽然用采样平均值代替期望），所以它是对真实的值函数 $V_\pi(s)$ 的无偏估计（unbiased estimate）. 而显然， $R_{t+1}+\gamma V(S_{t+1})$ 和 $G_t$ 还相差了很多项，所以 $R_{t+1}+\gamma V(S_{t+1})$ 是对 $V_\pi(s)$ 的有偏估计（biased estimate）.
而另一方面，MC方法中随机采集了几乎所有状态和动作样本，导致 $G_t$ 的方差较大；相反， $R_{t+1}+\gamma V(S_{t+1})$ 方差较小。

在收敛性质上，MC是朝着最小化样本方差的方向收敛，也就是MC的结果更能吻合episodes的数据样本，倾向于类似监督学习里的“过拟合”，而和MDP这种模型的马尔科夫性关联性较小。相反，TD的收敛方向是最大化马尔科夫似然性，更加符合MDP模型。

	偏差	方差	收敛
MC	0	大	最小化方差
TD	大	小	最大化马尔科夫似然性

5 model-free control

因为是control / learning 问题，也就是找出最优策略问题，我们回到第3部分的策略迭代方法；因为这是model-free，我们要用到第4部分的MC或TD.
因为TD相对于MC有方差小、在线更新值函数、吻合马尔科夫性的优点，我们这里选择TD作为策略评估和策略改进的基本方法。

Model-free control有两种基本的类型：

同策略（on-policy）学习: 就是从已知的 $\pi$ 中，通过采样实验的方法来学习策略 $\pi$ ，代表方法是以TD为基础的Sarsa算法
异策略（off-policy）学习: 就是看着别人的策略 $\mu$ ，通过采样实验的方法来学习策略 $\pi$ ，代表方法是以TD为基础的Q-learning算法

5.1 Q值函数

值函数有两种：状态值函数 $V (s)$ 和动作值函数 $Q (s, a)$ ，也叫Q值函数. 在第3部分model-based中，我们用 $V (s)$ 来进行策略评估和策略改进，可是在model-free时却不能再用它，因为我们不知道MDP的状态转移函数 $p$ ，而基于 $V (s)$ 的策略改进却需要：
$\begin{aligned} \pi^{\prime} &= \underset{a}{argmax} \sum_{s^{\prime},r}p(s^{\prime},r|s,a) \lbrack r + \gamma V_{k}(s^{\prime})]\\ \end{aligned}$
替代地，我们使用 $Q (s, a)$ ：
$\begin{aligned} \pi^{\prime} &= \underset{a}{argmax} \ Q(s,a) \tag{5-1}\\ \end{aligned}$
Q值函数的具体用法要看是采用同策略的Sarsa还是异策略的Q-learning算法。

5.2 $\epsilon$ -greedy

在式子（5-1）策略改进中，我们每一步都是选择让Q值最优的策略，但这是不是一定是最终最优的策略呢？比如有两扇门A和B，第一次打开A，什么都没有；第二-五次都是打开B，都得到了10块钱。很显然到目前为止，根据最大化Q值的方法，接下来还要打开B。可是打开A真的会一直都没收获吗？有没有可能某次打开A换来1000块呢？要不要试一下？

理性告诉我们，大多数时候还是应该选择B的，但是可以以一定的几率 $\epsilon$ 去打开A试一下。已经比较确定打开B会有一定收益，这叫exploitation；而试一试打开A，碰碰运气，这叫 $\epsilon$ -greedy exploration. 假设有 $m$ 次实验，那么我们的 $\epsilon$ -greedy策略就应该是：
$\pi(a|s) = \begin{cases} \epsilon / m + 1 - \epsilon, &\text{if } a = argmax \ Q(s,a) \\ \epsilon / m , &\text{otherwise} \end{cases}$
事实上任何 $\epsilon$ -greedy策略 $\pi^{\prime}$ 都是对原有策略 $\pi$ 的改进，证明如下：
$\begin{aligned} V_{\pi^{\prime}}(s) &= \sum_a \pi^{\prime}(a|s)q_{\pi}(a,s) \\ &= \underbrace{\epsilon / m \sum_a q_{\pi}(a,s)}_{\text{exploitation}} + \underbrace{(1 - \epsilon) \ \underset{a}{max} \ q_{\pi}(a,s)}_{\text{exploration}}\\ &\geq \epsilon / m \sum_a q_{\pi}(a,s) + \underbrace{(1 - \epsilon) \sum_a \frac{\pi(a|s)-\epsilon / m}{1 - \epsilon}q_{\pi}(a,s)}_{\text{because max >= any weighted sum}}\\ &= \sum_a \pi(a|s)q_{\pi}(a,s) \\ &= V_{\pi}(s) \end{aligned}$
一般来说，在循环迭代的最初，我们设置 $\epsilon=1$ ，意思是最开始的时候我们对于环境一无所知，唯一能做的就是exploration. 而随着迭代次数的增加， $\epsilon$ 逐渐减小。每次迭代都是产生一个0和1之间的随机数，如果随机数比 $\epsilon$ 大则采取exploitation, 反之则exploration. 当迭代至尾声时， $\epsilon$ 应该接近0, 即此时我们对环境已有相当的了解，要做的就只是exploitation.

5.3 Sarsa

Sarsa = S - A - R - S’ - A’，模型如下图：

就是说从一个状态-动作对（S, A）出发，得到一个激励R，到达下一个状态S’, 然后根据策略再采取动作A‘, 如此循环下去。Sarsa 是一种on-policy的策略迭代方法，原理和model-based里的策略迭代一样，即策略评估和策略改进交替进行，直到收敛：

策略评估：其实就是TD了，只不过这里把TD里的状态值函数换成动作Q值函数，如（5.1）所说的。
$\begin{aligned} Q(S,A) &\leftarrow Q(S,A) + \alpha(R+\gamma Q(S^{\prime},A^{\prime}) -Q(S,A) )\tag{5-3} \end{aligned}$
策略改进： $\epsilon$ -greedy策略改进

在TD里我们还用到了n-step和 $\lambda$ 参数，这里也是一样的道理，策略评估可以进一步拓展成Forward-View的形式：
$\begin{aligned} Q(S_t,A_t) &\leftarrow Q(S_t,A_t) + \alpha(q_t^{\lambda}-Q(S_t,A_t) )\\ \text{where } q_t^{\lambda}&= (1-\lambda )\sum_{n=1}^{\infty}\lambda^{n-1} q_t^{(n)} \end{aligned}$
为了能online计算，和TD( $\lambda$ )一样，我们用Eligibility Trace把上式改成Backward-View的形式：
$\begin{aligned} &Q(s,a) \leftarrow Q(s,a) + \alpha \delta_t E_t(s,a) \\ \text{where } &\delta_t = R_{t+1}+\gamma Q(S_{t+1},A_{t+1}) -Q(S,A)\\ &E_t(s,a) = \gamma \lambda E_{t-1}(s,a) + \mathbb{1}(S_t=s, A_t=a) \text{ with } E_0(s,a) = 0 \end{aligned}$

5.4 Q-learning

Sarsa 更新Q值函数（式子（5-3）），是通过随机选择下一个 $Q(S^{\prime},A^{\prime})$ , 通过多次重复的实验我们其实是用下一个Q值的平均值来计算。与Sarsa不同的是，Q-learning采用了取最大值的方式更新Q值：
$\begin{aligned} Q(S,A) &\leftarrow Q(S,A) + \alpha(R+\gamma \ \underset{a^{\prime}}{max}Q(S^{\prime},a^{\prime}) -Q(S,A) ) \end{aligned}$
我们看下面这个表：
Sarsa 和 Q-learning本质都是TD，都是online地更新Q值函数，以逼近采样的平均值（这也是TD不同于DP的地方）。只不过，Sarsa是只看一个A’，而Q-learning是看Q值最大的那个A’.

6 值函数近似（value function approximation）

从model-based的DP, 到model-free的MC, TD, Sarsa, Q-learning等算法，我们更新状态值函数或者动作值函数时，都是准确地用到上一轮迭代产生的值函数。上一轮的值函数，存储在某个查找表格中，当这一轮迭代要用到时，就去表格中查找；这一轮计算完了之后，也就把表格更新了。像这样的能够把所有值函数存储在查找表格中、并准确地利用每一个值函数的方法，可以归结为Tabular Solution Method.
但现实问题中，状态或者状态-动作对的数量可能是极其大的，比如围棋中的状态数可以达到 $10^{170}$ . 这么大规模的数据，用表格的方法准确计算、记录每个值函数是不可行的。
因此，我们需要用一种近似的方法来估算值函数，即：
$\begin{aligned} &\hat{v}(s,\omega) \simeq v_{\pi}(s) \\ \text{or } &\hat{q}(s,a,\omega) \simeq q_{\pi}(s,a) \end{aligned}$
其中 $\omega$ 是参数，是我们要去找的、使得 $\hat{v}$ 和 $\hat{q}$ 尽可能接近准确值的参数。

6.1 梯度下降（Gradient Descent）

假设 $J(\omega)$ 关于 $\omega$ 是可微的，则 $J(\omega)$ 的梯度可以写成：
$\begin{aligned} \nabla_{\omega}J(\omega) = \begin{pmatrix} \frac{\partial J(\omega)}{\partial \omega_1}\\ .\\ .\\ .\\ \frac{\partial J(\omega)}{\partial \omega_n}\\ \end{pmatrix} \end{aligned}$
为了找到 $J(\omega)$ 的最小值， $\omega$ 的迭代更新算法应该是：
$\begin{aligned} &\omega \leftarrow \omega + \Delta \omega \\ \text{with } &\Delta \omega = - \frac{1}{2} \alpha \nabla_{\omega}J(\omega) \end{aligned}$
$\alpha$ 叫做步长，是迭代更新的参数。
回到值函数近似。如果我们要找到 $\hat{v}(s,\omega) \simeq v_{\pi}(s)$ ，也就是要两者的差最小，那么我们将问题转化为使如下的 $J(\omega)$ （叫目标函数）最小：
$J(\omega) = \Bbb{E}_{\pi} [ (v_{\pi}(s) - \hat{v}(s,\omega) )^2]$
则：
$\begin{aligned} \Delta \omega &= - \frac{1}{2} \alpha \nabla_{\omega}J(\omega) \\ &= \alpha \Bbb{E}_{\pi} [(v_{\pi}(s) - \hat{v}(s,\omega) )\nabla_{\omega}\hat{v}(s,\omega)] \end{aligned}$
不知道概率分布没法求期望，我们转而用随机梯度下降（Stochastic gradient descent）的方法，即：
$\begin{aligned} \Delta \omega &= \alpha (v_{\pi}(s) - \hat{v}(s,\omega) )\nabla_{\omega}\hat{v}(s,\omega) \end{aligned}$

6.2 线性函数近似

现在考虑怎么表示 $\hat{v}(s,\omega)$ . 一开始我们对值函数是一无所知的，但我们可以假设对于一个状态 $s$ 来说，它应该是由很多个特征（feature）共同影响的。比如智能体在某个状态时，它的速度、朝向、到某处的距离可能决定了它在这个状态的值函数。为了表征这些特征，我们可以用线性组合来表示 $\hat{v}(s,\omega)$ ：
$\begin{aligned} \hat{v}(s,\omega) = X(s)^TW = \sum_{j=1}^n x_j(s)w_j \end{aligned}$
其中 $X (s)$ 是包含n个分量的特征列向量， $x_j(s)$ 即是第j个分量， $w_j$ 是对应这个分量的参数，或者说权重。这时目标函数是：
$J(\omega) = \Bbb{E}_{\pi} [ (v_{\pi}(s) - X(s)^TW )^2]$
参数更新方法：
$\begin{aligned} \Delta \omega &= \alpha (v_{\pi}(s) - \hat{v}(s,\omega) )X(s)\tag{6-2} \end{aligned}$

6.3 incremental method

式子(6-2)中用了 $v_{\pi}(s)$ ，这是真实的值函数，可是这里不是监督学习，没有标记，没人告诉我们真实值函数是什么。因此，我们需要用到MC和TD中的目标值代替 $v_{\pi}(s)$ ：
$\begin{aligned} \text{MC: } &\Delta \omega = \alpha (G_t - \hat{v}(S_t,\omega) )X(S_t) \\ \text{TD: } &\Delta \omega = \alpha (R_{t+1}+\gamma \hat{v}(S_{t+1},\omega) - \hat{v}(S_t,\omega) )X(S_t) \\ \text{TD}(\lambda) \text{: } &\Delta \omega = \alpha (G_t^{\lambda} - \hat{v}(S_t,\omega) )X(S_t) \\ \end{aligned}$
上面这个是对于状态值函数的，用于prediction. 如果是control问题，对于动作值函数，我们可以写出相似的形式：
$\begin{aligned} \text{MC: } &\Delta \omega = \alpha (G_t - \hat{q}(S_t,A_t, \omega) )X(S_t, A_t) \\ \text{TD: } &\Delta \omega = \alpha (R_{t+1}+\gamma \hat{q}(S_{t+1},A_{t+1}, \omega) - \hat{v}(S_t,\omega) )X(S_t, A_t) \\ \text{TD}(\lambda) \text{: } &\Delta \omega = \alpha (G_t^{\lambda} - \hat{q}(S_t,A_t, \omega) )X(S_t,A_t) \\ \end{aligned}$
以上这种更新 $\omega$ 的方法叫 incremental method，意思是每走一步就更新一次。

6.4 batch method

incremental method 更新很快，可是却有一个问题：每走一步更新一次，也就意味着每走一步丢弃一次数据，不能充分利用既有的学习经验。因此提出了与 incremental method 对应的 batch method.
考虑一个针对策略 $\pi$ 的 prediction问题。智能体已经有了不少经验，所谓经验就是一系列的 $\langle state, value \rangle$ 对。把经验定义成数据集 $\boldsymbol{D}$ :
$\boldsymbol{D} = \{ \langle s_1, v_1^{\pi} \rangle , \langle s_2 , v_2^{\pi} \rangle ... \langle s_n , v_n^{\pi} \rangle\}$
如何确定参数 $\omega$ ，使得 $\hat{v}(s,\omega)$ 尽可能地 fit 数据集 $\boldsymbol{D}$ ？方法是 Least Squares (LS) 算法，思路很直接，就是最小化下面这个式子：
$\begin{aligned} LS(\omega) &= \sum_{t=1}^n(v_t^{\pi} - \hat{v}(S_t,\omega) )^2 \\ &=\Bbb{E}_{\boldsymbol{D}}[(v^{\pi} - \hat{v}(S,\omega) )^2 ] \end{aligned}$
结合梯度下降的具体算法是：

抽样 $\langle s, v^{\pi} \rangle \sim \boldsymbol{D}$
迭代 $\Delta \omega = \alpha (v(s) - \hat{v}(s,\omega) )\nabla_{\omega}\hat{v}(s,\omega)$

迭代至收敛，最后 $\omega^{\pi} = \underset {\omega}{argmin} \ LS(\omega)$
另一种batch method 是 Deep Q-Network (DQN)，思路和Q-learning 类似。这里我们把经验数据集拓展成：
$\boldsymbol{D} = \{ \langle s_t, a_t, r_{t+1}, s_{t+1} \rangle \}$
LS公式变成：
$\begin{aligned} LS(\omega) &=\Bbb{E}_{s,a,r,s^{\prime} \sim \boldsymbol{D}}[(r + \gamma Q(s^{\prime},a^{\prime}; \omega^-)- Q(s,a; \omega) )^2 ] \end{aligned}$

你可能感兴趣的:(强化学习,MDP,值函数,马尔科夫)

深度学习在SSVEP信号分类中的应用分析自由的晚风深度学习分类人工智能
目录前言1.SSVEP信号分类的处理流程2.模型输入和数据预处理3.模型结构设计3.1卷积神经网络（CNN）3.2长短期记忆网络（LSTM）4.训练方法与激活函数5.性能评估与挑战6.未来方向前言随着脑机接口（BCI）技术的发展，SSVEP（稳态视觉诱发电位）因其高信息传输速率和短训练时间而成为最受欢迎的BCI范式之一。近年来，深度学习方法在SSVEP信号分类中取得了显著的成果。本文通过对31个深
专题二——滑动窗口有时间要学习算法基础算法
目录一长度最小的子数组二无重复字符的最长字符串三最大连续1的个数Ⅲ四将x减到0的最小操作数五水果成篮六找到字符串中所有字母异位词七串联所有单词的子串八最小覆盖子串原理：定义两个指针(下标)来维护所指向的区间始终是符合题目要求，大致分为三步：1进窗口：用一个指针来进行遍历搜索使指针区间符合要求2更新值：该区间符合要求后记录存储数值(可以是任意区间)3出窗口：另一个指针开始进行向后走继续查找符合要求的
Python __main__的典型应用大数据张老师 Python程序设计 python java 服务器
__main__的典型应用在Python编程中，if__name__=='__main__'结构常用于控制程序的执行流程，确保某些代码仅在脚本直接运行时执行，而在模块被导入时不执行。这种机制可以让Python代码更加模块化、可复用，并提高程序的可读性。本节将详细讲解if__name__=='__main__'的几种典型应用场景。1.作为独立程序执行主函数在Python中，通常会使用if__name
ldap报错Address already in use的处理办法 xuerba 服务器 linux 网络
详细报错信息ldap3.core.exceptions.LDAPSocketOpenError:[Errno98]Addressalreadyinuse报错原因：网络连接数过多导致ldap连接没有使用conn.unbind()函数正常释放，导致连接堆积#查看ldap636端口连接数>>netstat-an|grep:636|wc-l2#查看网络连接数量，太多>>netstat-an|wc-l300
MATLAB控制函数测试要点剖析蚂蚁质量其他 matlab 深度学习
一、功能准确性检验基础功能核验针对常用控制函数，像用于传递函数建模的tf、构建状态空间模型的ss，以及开展阶跃响应分析的step等，必须确认其能精准执行基础操作。以tf函数为例，在输入分子与分母系数后，理应生成准确无误的传递函数模型；而运用step函数时，则应能够精准计算并绘制出系统的阶跃响应曲线，如实反映系统对阶跃输入的动态响应过程。复杂功能测试对于高级控制函数，例如线性二次调节器lqr、模型预
Python匿名函数：从入门到精通 - 全面掌握Python函数的高级特性老大白菜 python 开发语言
匿名函数（lambda函数）是Python中一个强大而简洁的特性，它允许我们创建小型的、一次性使用的函数，而无需使用def关键字定义正式的函数。本文将深入探讨lambda函数的使用方法和最佳实践。一、什么是匿名函数？匿名函数是一种可以在一行代码中定义的小型函数，它具有以下特点：使用lambda关键字创建可以接受任意数量的参数只能包含一个表达式自动返回表达式的值没有显式的return语句1.1基本语
C++程序编程中的 SetWindowLong 函数的几个常见用途（附源码） dvlinker C/C++实战专栏 c++SetWindowLong 修改窗口风格修改窗口处理过程设置窗口的UserData数据
目录1、API函数SetWindowLong说明2、修改窗口风格3、给窗口指定新的窗口消息处理函数，以拦截窗口消息4、可以给窗口设置关联的UserData数据，方便在窗口内部使用这些数据5、64位程序中需要使用SetWindowLongPtr6、最后C++软件异常排查从入门到精通系列教程（专栏文章列表，欢迎订阅，持续更新...）https://blog.csdn.net/chenlycly/art
JavaScript中的主要知识点 C7211BA javascript okhttp 开发语言
一、基础语法与数据类型变量声明使用var（函数作用域）、let（块级作用域）和const（常量）声明变量，理解变量提升与暂时性死区。数据类型分为基本类型（Undefined、Null、Boolean、Number、String、Symbol、BigInt）和引用类型（Object、Array、Function）。注意类型转换规则（如==与===的区别）。运算符与控制流程包括算术、比较、逻辑运算符，
UE5中UBlueprintFunctionLibrary类详解努力的小钟 UE5 ue5
文章目录前言一、核心作用二、创建子类示例三、关键代码说明四、高级用法示例4.1带执行流程的函数4.2纯函数（无执行引脚）4.3参数默认值五、蓝图中的使用六、注意事项七、实际应用场景八、完整代码示例前言在UnrealEngine5（UE5）中，UBlueprintFunctionLibrary是一个用于在蓝图中暴露C++静态函数的工具类。通过继承此类，开发者可以创建全局可访问的工具函数，让蓝图和C+
linux文件io实训小结,linux学习之IO操作，文件IO总结 weixin_39743064 linux文件io实训小结
文件IO不带缓存，每个read和write都调用内核中的相应系统调用。文件IO常用函数：open，close，read，write，lseek对于内核而言，所有打开文件都有文件描述符引用。文件描述符是一个非负整数。当打开一个现存文件或创建一个新文件时，你诶和向进程返回一个文件描述符。当读、写一个文件时，用open返回的文件描述符标识该文件，将其作为参数传给read或write。1.open(被打开
python中format函数 weixin_30646315 python
---恢复内容开始---python中format函数用于字符串的格式化通过关键字1print('{名字}今天{动作}'.format(名字='陈某某',动作='拍视频'))#通过关键字2grade={'name':'陈某某','fenshu':'59'}3print('{name}电工考了{fenshu}'.format(**grade))#通过关键字，可用字典当关键字传入值时，在字典前加**即
AF3 squeeze_features函数解读 qq_27390023 pytorch 深度学习人工智能生物信息学
AlphaFold3data_transforms模块的squeeze_features函数的作用去除蛋白质特征张量中不必要的单维度（singletondimensions）和重复维度，以使其适配AlphaFold3预期的输入格式。源代码：defsqueeze_features(protein):"""Removesingletonandrepeateddimensionsinproteinfea
AF3 block_delete_msa函数解读 qq_27390023 深度学习人工智能 python 生物信息学 pytorch
AlphaFold3data_transforms模块的block_delete_msa函数用于从MSA（多序列比对）中删除多个块（block）序列，以模拟MSA数据的缺失或噪声。这在训练时可能用于数据增强（防止模型对MSA过度依赖）。推理（inference）时不会使用，因为完整MSA对预测准确性很重要。源代码：#Notusedininference@curry1defblock_delete_
Web安全——node.js原型链污染 @Camelus 渗透与攻防 node.js 原型模式 javascript web安全网络安全
目录（一）成因0x01前置知识0x02漏洞分析（二）产生条件0x01检查漏洞0x02常见的危险函数（一）成因0x01前置知识js是由对象组成的，对象与对象之间存在着继承关系。每个对象都有一个指向它的原型的内部链接，而这个原型对象又有他自己的原型，直到null为止整体看来就是多个对象层层继承，实例对象的原型链接形成了一条链，也就是js的原型链。在js中每个函数都有一个prototype属性，而每个对
基于PyTorch的深度学习4——使用numpy实现机器学习vs使用Tensor及Antograd实现机器学习 Wis4e 深度学习机器学习 pytorch
首先，给出一个数组x，然后基于表达式y=3x2+2，加上一些噪音数据到达另一组数据y。然后，构建一个机器学习模型，学习表达式y=wx2+b的两个参数w、b。利用数组x，y的数据为训练数据。最后，采用梯度梯度下降法，通过多次迭代，学习到w、b的值。以下为具体步骤：1)导入需要的库。importnumpyasnp%matplotlibinlinefrommatplotlibimportpyplotas
Java基础系列：深入解析抽象类、接口与Lambda表达式及避坑指南 JouJz java 开发语言
目录一、抽象类：半成品的艺术1.核心特征解析2.典型应用场景3.三大经典陷阱陷阱1：尝试实例化抽象类陷阱2：未实现全部抽象方法陷阱3：构造方法调用可覆盖方法二、接口：行为契约的进化1.接口的现代形态（Java8+）2.接口与抽象类对比3.五大核心陷阱陷阱1：默认方法冲突陷阱2：常量隐藏陷阱3：静态方法陷阱陷阱4：函数式接口误用陷阱5：接口演化风险三、Lambda表达式：简洁之美与暗礁1.核心语法全
xXSS 墨菲斯托888 xss 前端
XSS漏洞：XSS又叫CSS（CrossSiteScript）跨站脚本攻击是一种针对网站应用程序的安全漏洞攻击技术，是代码注入的一种。它允许恶意用户将代码注入网页，其他用户在浏览网页时会受到影响。恶意用户利用xss代码攻击成功后，可能得到很高的权限：私密网页内容，会话和Cookiexss漏洞通常是通过php的输出函数将javascript代码输出到html页面中，通过用户本地浏览器执行的，所以xs
【自学笔记】R语言基础知识点总览-持续更新 Long_poem 笔记 r语言开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录R语言基础知识点总览1.R语言简介2.R语言安装与环境配置3.R语言基础语法3.1数据类型3.2向量与矩阵3.3数据框与列表4.控制结构4.1条件语句4.2循环结构5.函数6.数据可视化总结R语言基础知识点总览1.R语言简介R是一种用于统计计算和图形的编程语言和软件环境。R语言由RossIhaka和RobertGentlema
【自学笔记】Python的基础知识点总览-持续更新 Long_poem Python python 笔记开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Python基础知识总览1.Python简介2.安装与环境配置3.基本语法3.1变量与数据类型3.2控制结构3.3函数与模块3.4文件操作4.面向对象编程（OOP）5.异常处理6.高级特性7.标准库与第三方库8.实践项目总结Python基础知识总览1.Python简介解释型语言：Python是一种解释型、高级编程、通用型编程语
CSS—补充：CSS计数器、单位、@media媒体查询 Book_熬夜！前端 css 媒体前端 html
目录1.CSS计数器嵌套计数器：对列表元素：2.单位绝对长度：相对长度：3.@media媒体查询1.CSS计数器CSS计数器就像“变量”。变量值可以通过CSS规则递增（将跟踪它们的使用次数）。如需使用CSS计数器，我们将使用以下属性：counter-reset-创建或重置计数器counter-increment-递增计数器值content-插入生成的内容counter()或counters()函数
告别繁琐！Vue3 组合式函数解锁 Echarts 封装新姿势前端echarts
前言本篇文章主要讲解如何使用组合式函数（Composables）来封装Echarts，提供一套可复用、易维护的图表解决方案在这里你能够学到Echarts封装的思路与最佳实践，理解Echarts的特性与使用技巧本文也是《通俗易懂的中后台系统建设指南》系列的第六篇文章，该系列旨在告诉你如何来构建一个优秀的中后台管理系统什么是EchartsEcharts是一个基于JavaScript的开源可视化图表库，
C语言的函数嵌入式云599 C语言 c语言开发语言
十一函数11.1函数的基本用法函数是一个完成特定功能的代码模块,其程序代码独立,通常要求有返回值,也可以是空值一般形式如下:(){语句序列;return[()];}数据类型:是整个函数的返回值类型return语句中表达式的值要和函数的数据类型一致,如无返回值应写为void形式参数说明是逗号",分隔的多个变量的说明形式大括弧对语句序列,称为函数体,是大于等于零个语句构成的。函数的说明就是指函数原型。
python爬虫（7）爬虫实例（3）丁叔叔爬虫实例
#-*-coding:utf-8-*-importrequestsimportosfromlxmlimportetree#解析库XPath#在本地建立一个文件夹，命名为pic_truck，用于存放下载的图片folder='pic_truck'ifnotos.path.exists(folder):os.makedirs(folder)#定义下载函数，用于下载图片defdownload(url):r
python启动多个进程_Python多进程运行两次进程? 魔法小药丸 python启动多个进程
运行下面的python3脚本,由于某种原因我无法理解startWebview函数执行了两次,结果打开了两个PyWebView窗口。#ImportModulesHereimportosimporttimeimportwebviewimportos.pathimportmultiprocessingfromdotenvimportload_dotenvfromflask_wtfimportFlaskF
python程序多次运行_python多进程重复加载的解决方式 weixin_39781452 python程序多次运行
flask多进程会引起重复加载，解决方法：把耗资源的加载挪到函数里面或者类里面，就不会重复加载资源了。测试发现，不是flask引起的，是多进程会引起重复加载python文件。把flask注释掉，也会重复加载。#autotrade/__init__.py#__init__.py定义全局的app路由#然后将其他模块由app装饰后的函数导入，flask即可识别所有的请求入口importtimefromf
程序员都踩过的头文件多次包含的坑！#ifndef 和 #pragma once 你该怎么选？ c++后端
大家好，我是小康。前言：写C/C++代码时，有时候你会遇到编译器提示“重复定义”或者“符号冲突”的问题，尤其是在引入类的头文件时，编译器可能会告诉你：“喂！你这里有两个相同的类定义，搞错了吧！”这个问题通常发生在某个.cpp文件中多次引入了同一个头文件，导致该头文件被多次包含。你可能会想，为什么这会有问题呢？头文件不就是用来声明类和函数的吗，包含一次不就行了吗？为什么会导致编译出错呢？好，今天我们
LeetCode刷题之python解法（持续更新） gong_wanyi Python
1.TwoSum4行classSolution:deftwoSum(self,nums:List[int],target:int)->List[int]:d={}fori,ninenumerate(nums):ifnind:return[d[n],i]d[target-n]=iO(N)时间效率的快速解法，用字典记录｛需要的值:当前索引｝2.AddTwoNumbers5行#Definitionfor
C++中erase函数的用法电摇小人 #C++的各种算法及习题 c++开发语言算法
在C++中，erase函数用于从容器中删除一个或一系列元素。它通常用于删除容器中的指定位置的元素或特定值的元素。erase函数通常有两种用法：删除指定位置的元素：erase(iteratorposition)这种用法会删除容器中迭代器position指向的元素。std::vectorv={1,2,3,4,5};autoit=v.begin()+2;v.erase(it);//删除v中第3个元素，即
玩转python: 掌握Python数据结构之字典千益浅显易懂玩转python 数据结构 python 开发语言
字典（Dictionary）是Python中一种非常强大的数据结构，它以键值对（Key-ValuePair）的形式存储数据。字典的特点是快速查找、灵活存储和高效操作。想象一下字典就像一本电话簿：通过名字（键）可以快速找到对应的电话号码（值）。本文将带你深入理解字典的概念，并通过丰富的案例展示其实际应用。字典的常见方法以下是字典的20个常见方法及其功能的简要说明：方法名功能描述clear()移除字典
信号处理应用：控制系统中的信号处理_（2）.控制系统的数学建模 kkchenkx 信号处理技术仿真模拟数学建模信号处理
控制系统的数学建模在控制系统的设计和分析中，数学建模是基础且至关重要的步骤。数学模型可以描述系统的动态行为，帮助我们理解和预测系统的响应。本节将详细介绍控制系统的数学建模方法，包括传递函数、状态空间模型和频域分析。1.传递函数传递函数是一种常用的数学模型，用于描述线性时不变（LTI）系统的输入输出关系。传递函数是在复频域（s域）中表示的，可以方便地进行系统的分析和设计。1.1定义传递函数定义为系统
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分