Stan Fu

强化学习（二）- 动态规划（Dynamic Programming）

3.动态规划

3.1 介绍

术语动态规划(DP：Dynamic Programming) 指的是一个算法集合，可以用来计算最优策略，给定一个完美的环境模型，作为马尔可夫决策过程(MDP)。经典的DP算法在强化学习中的应用有限，因为它们的假设是一个完美的模型，而且计算量大，但它们仍然具有重要的理论意义。DP为理解其余部分中介绍的方法提供了必要的基础。实际上，所有这些方法都可以被看作是实现与DP几乎相同的效果的尝试，只不过计算量更少，而且没有假设一个完美的环境模型。

我们通常假设环境是一个有限的MDP。也就是说，我们假设它的状态、行为和奖励集 $\mathcal{S}$ 、 $\mathcal{A}$ 和 $\mathcal{R}$ 是有限的，并且它的动力是由一组概率 $p (s^{'}, r ∣ s, a)$ 对于所有 $\in \mathcal{S},a \in \mathcal{A}(s),r \in \mathcal{R}$ 和 $\in \mathcal{S}^+$ ( $\mathcal{S}^+$ 是 $\mathcal{S}$ 在情节性任务中加上最终态)给出的。尽管DP思想可以应用于具有连续状态和动作空间的问题，但是精确解只有在特殊情况下才有可能。对于具有连续状态和动作的任务，获取近似解的一种常用方法是将状态和动作空间量化，然后应用有限状态DP方法。

DP的关键思想，以及一般的强化学习，是使用价值函数来组织和结构寻找好的策略。在动态规划部分将展示如何使用DP来计算之前定义的价值函数。一旦我们找到满足Bellman最优性方程的最优价值函数 $v_*$ 或 $q_*$ ，我们就可以很容易地获得最优策略
$\begin{aligned}v_*(s) &= \max_{a}\mathbb{E}[R_{t+1}+\gamma v_* (S_{t+1})|S_t =s,A_t=a] \\ & =\max_{a}\sum_{s',r}p(s',r|s,a)[r+\gamma v_*(s')] \tag{3.1}\end{aligned}$
$\begin{aligned}q_*(s,a) &= \mathbb{E}[R_{t+1}+\gamma\max_{a'} q_* (S_{t+1},a')|S_t =s,A_t=a] \\ & =\sum_{s',r}p(s',r|s,a)[r+\gamma\max_{a'} q_*(s',a')] \tag{3.2}\end{aligned}$
以上公式适用于 $\in \mathcal{S},a \in \mathcal{A}(s),s' \in \mathcal{S}^+$ 。DP算法是通过将Bellman方程转化为赋值，也就是说，转化为改进期望价值函数的近似的更新规则来获得的。

3.2 策略评估(预测)

首先考虑如何计算任意策略 $\pi$ 的状态价值函数 $v_\pi$ 。这在DP文献中称为策略评估（policy evaluation）。我们也称之为预测问题(predition problem)。对于所有 $s\in\mathcal{S}$
$\begin{aligned}v_\pi(s)& \doteq\mathbb{E}_\pi[G_t|S_t=s]\\ & =\mathbb{E}_\pi[R_{t+1}+\gamma G_{t+1}|S _t=s]\\ & =\mathbb{E}_\pi[R_{t+1}+\gamma v_\pi (S_{t+1})|S_t=s]\\ & = \sum_{a}\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')] \tag{3.3}\end{aligned}$

其中 $\pi(a|s)$ 是在策略 $\pi$ 下，在 $s$ 状态下采取行动 $a$ 的概率，期望以 $\pi$ 为下标来表示它们以 $\pi$ 为条件。 $v_\pi$ 的存在和独特性由 $0<\gamma<1$ 保证或者所有状态的最终终止由策略 $\pi$ 决定。

如果环境动力是完全已知的，则(3.3)是一个含 $\mathcal{S} |$ 未知数的 $\mathcal{S} |$ 线性方程组原则上，它的解是一个直接的但繁琐的计算。迭代求解方法是最合适于我们的目的的。考虑一个近似价值函数序列v0, v1, v2，…，每个 $\mathcal{S}^+$ 映射到 $\mathbb{R}$ (实数)。初始近似v0是任意选择的(除了终点状态必须赋值为0之外)，每次逐次近似都使用 $v_\pi$ 的Bellman方程作为更新规则
$\begin{aligned}v_{k+1}(s)& \doteq\mathbb{E}_\pi[R_{t+1}+\gamma v_\pi (S_{t+1})|S_t=s]\\ & = \sum_{a}\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')] \tag{3.4}\text{ for all } s\in\mathcal{S}\end{aligned}$
明显的是， $v_k = v_\pi$ 是更新规则的固定点，因为 $v_\pi$ 的Bellman方程保证了在这种情况下其是相等的。确实，序列 ${v_k\}$ 可以被证明当 $k\to \infin$ 并且在 $v_\pi$ 存在的相同条件下一般收敛于 $v_\pi$ 。该算法称为迭代策略评估（iterative policy evaluation）。

为了从 $v_k$ 中产生每一个连续的近似值 $v_{k+1}$ ，迭代策略评估对每一个状态 $s$ 应用了同样的操作：它沿着被评估的策略下所有可能的单步转换，用一个从 $s$ 的后续状态的旧值和预期的即时回报中得到的新值来替换 $s$ 的旧值。我们称这种操作为预期更新（expected update）。迭代策略评估的每一次迭代都会更新一次每个状态的值，以产生新的近似价值函数 $v_{k+1}$ 。有几种不同的预期更新，取决于更新的是一个状态（如这里）还是一个状态动作对，以及取决于后续状态的估计值的精确组合方式。在DP算法中完成的所有更新都被称为预期更新，因为它们是基于对所有可能的下一个状态的预期，而不是基于一个样本下一个状态。

要编写一个顺序计算机程序来实现由(3.4)给出的迭代策略评估，就必须使用两个数组，一个是旧值 $v_k(s)$ ，一个是新值 $v_{k+1}(s)$ 。使用两个数组，新值可以从旧值中逐一计算出来，而不改变旧值。当然，使用一个数组，使用更新值替代，也就是每个新值立即覆盖旧值，这样更方便。那么，根据状态更新的顺序，有时会用新值代替(3.4）右侧的旧值。这种就地算法也会收敛到 $v_\pi$ ；事实上，正如所期望的那样，它通常比双数组版本收敛得更快，因为它能较为快速的使用新的数据。我们认为更新是在 扫描（sweep） 状态空间时进行的。对于替代算法（in-place algorithm），在扫描过程中，状态值更新的顺序对收敛速度有很大影响。我们在考虑DP算法时，通常会选择替代算法。

在下面的伪代码中显示了迭代策略评估的完整就地版本。注意它是如何处理终止的。在形式上，迭代策略评估只在极限内收敛，但在实践中必须在此之前停止。伪代码在每次扫描后测试数量 $\max_{s\in\mathcal{S}} |v_{k+1}(s)−v_{k}(s)|$ ，当数量足够小时停止。

迭代策略评估，用于估计 $V\approx v_\pi$

输入 $\pi$ ,是待评估的策略。
算法参数：对于 $s\in\mathcal{S}^+$ ,有一个小的阈值 $\theta >0$ 确定估算精度初始化,除了 $V (t e r m i n a l) = 0$
伪代码如下：
$\begin{aligned} & \text{Loop:} \ \\ &\qquad\text{}\Delta \leftarrow 0 \\ &\qquad \text{Loop for each s} \in \mathcal{S}: \\ & \qquad\qquad v \leftarrow V(s) \\ &\qquad \qquad V(s) \leftarrow \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma V(s')] \\ & \qquad\qquad \Delta \leftarrow max(\Delta, |v-V(s)|) \\ & \text{until } \Delta < 0 \end{aligned}$

例 3.1

下图是一张4x4的网格

非终点状态是 $\mathcal{S}=\{1,2,...,14\}$ 。在每一个状态中有四个可能的动作， $\mathcal{A}= \{up, down, right, left\}$ ，它会引起智能体相应的状态的转变，除了将智能体移动出网格（如在1位置，智能体选择向上移动），它只会使智能体的状态保持不变。因此，例如，对于所有 $\in \mathcal{R}$ 有 $p (6, - 1 ∣ 5, r i g h t) = 1, p (7, - 1 ∣ 7, r i g h t) = 1$ 和 $p (10, r ∣ 5, r i g h t) = 0$ 。这是一个无折扣的情节性任务。在到达终点状态之前，所有转换的奖励都是1。终端状态在图中显示为阴影(尽管它显示在两个位置，但它实际上是一个状态)。因此，对于所有状态 $s$ 、 $s^{'}$ 和行动 $a$ ，预期回报函数 $r (s, a, s^{'}) = 1$ 。假设智能体遵循等可能随机策略(所有行动都等可能性)。下图左侧为迭代策略评估计算的价值函数 ${v_k}$ 序列。最终估计实际上是 $v$ ，在这种情况下，它给出了每个状态从该状态到终止的预期步数的否定。

这是这个网格世界上迭代策略评估的收敛性。左列是随机策略的状态价值函数的近似值序列(所有动作都是等可能的)。右列是与价值函数估计值相对应的贪婪策略序列(箭头表示达到最大值的所有动作，显示的数字四舍五入到两个有效数字)。最后一个策略只保证是对随机策略的改进，但在这种情况下，它和第三次迭代后的所有策略都是最优的。

3.3 策略改进（Policy Improvement）

我们计算策略价值函数的原因是为了帮助找到更好的策略。假设我们已经确定了一个任意确定性策略 $\pi$ 的价值函数 $v_\pi$ 。对于某些状态，我们想知道我们是否应该改变策略，以确定地选择一个 $\not= \pi(s)$ 的行动。我们知道从状态 $s$ 开始实行 $v_\pi(s)$ 的策略的收益，但是改变成为新策略是好还是坏呢?回答这个问题的一种方法是考虑在状态 $s$ 中选择动作 $a$ ，然后遵循现有的策略 $\pi$ 。这种行为方式的价值是
$\begin{aligned}q_*(s,a) &\doteq \mathbb{E}[R_{t+1}+\gamma v_\pi (S_{t+1})|S_t =s,A_t=a] \\ & =\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')] \tag{3.5}\end{aligned}$

关键的标准是这个标准是大于还是小于 $v_\pi(s)$ 。如果大于，也就是说，如果在 $s$ 中选择了一次 $a$ ，结果此后的 $\pi$ 比接下来的所有 $\pi$ 都要好，那么人们就会期望每次遇到 $s$ 时选择 $a$ 仍会更好，而且新的策略实际上总体上会更好。

这是一个称为策略改进定理（policy improvement theorem） 的一般结果的特殊情况。假设 $\pi$ 和 $\pi'$ 是任意的，对于 $\in \mathcal{S}$ 的一对确定性策略。
$q_\pi(s,\pi'(s))\geq v_\pi(s) \tag{3.6}$
然后策略 $\pi'$ 必须和 $\pi$ 同样或者比它更好。这就是说，对于所有的 $\in \mathcal{S}$ ，策略 $\pi'$ 必须获得一个更好或者相等的预期回报。
$v_{\pi'}(s)\geq v_{\pi}(s) \tag{3.7}$

此外，如果在任意状态下存在(3.6)的严格不等式，则该状态下必然存在(3.7)的严格不等式。这个结果尤其适用于这两个策略,我们认为在之前规定的,最初确定的策略 $\pi$ ,以及改进的策略, $\pi'$ ,除了 $\pi'(s) = a \not = \pi (s)$ 。显然，(3.6)适用于除 $s$ 之外的所有状态。因此,如果 $q_{\pi}(s,a)>v_{\pi} (s)$ ，那么更改后的策略确实比之前的策略要好。

策略改进定理证明的背后的思想很容易理解。从(3.6)开始，一直把 $q_{\pi}$ 边展开为(3.5)再加上(3.6)直到我们得到 $v_{\pi'}(s)$ :

到目前为止，我们已经看到，给定一个策略及其价值函数，我们可以轻松地评估一个特定动作在单一状态下的策略变化。这是一种考虑策略改变在所有位置和所有可能的行动的拓展,最好根据 $q_{\pi}(s,a)$ 选择在每个位置的行动。换句话说,考虑新的贪婪策略,
$\begin{aligned} \pi'(s)&=\argmax_{a} q_{\pi}(s,a) \\ &= \argmax_{a}\mathbb{E}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_t=s, A_t=a] \\ &=\argmax_{a}\sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi}(s')] \tag{3.8} \end{aligned}$
其中 $argmax_{a}$ 定义为获得后面式子最大值的a的值。根据策略 $v_\pi$ ，贪婪策略采取了短期内看起来最好的行动，因为它是在移动一步之后。通过构造，贪心策略满足策略改进定理(3.6)的条件，因此我们知道它和原策略一样好，甚至比原策略更好。通过使新的策略而使原有策略的价值函数变得贪婪，从而改进原有策略的新策略制定过程称为策略改进（policy improvement）。

假设新的贪婪策略 $\pi'$ 和旧的策略相同（不好于旧的策略）。若 $v_\pi = v_{\pi'}$ ，通过（3.8）式我们可以得出对于所有 $\in \mathcal{S}$
$\begin{aligned} v_{\pi'}(s) & = \max_{a}\mathbb{E}[R_{t+1}+ \gamma v_{\pi'}(S_{t+1})|S_t=s,A_t=a] \\& =\max_{a}\sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi'}(s')] \end{aligned}$
但这和Bellman最优性方程(3.1)是一样的，因此 $v_{\pi'}$ 一定是 $v_*$ , $\pi$ 和 $\pi'$ 一定都是最优策略。
因此，策略改进必须给我们一个严格意义上更好的策略，除非原来的策略已经是最优的。

到目前为止我们已经考虑了确定性策略的特殊情况。在一般情况下，一个随机策略 $\pi$ 指定了在每个状态 $s$ 中采取每个行动 $a$ 的概率 $\pi(a|s)$ 。我们将不再赘述，但事实上本节的所有思想都很容易扩展到随机策略。特别是，策略改进定理在随机情况下的应用。此外，如果在策略改进步骤中存在联系，如(3.8).也就是说，如果有几个动作在其中达到最大值.那么在随机情况下，我们不需要从其中选择一个动作。相反，每个最大化的行动可以被赋予新的贪婪策略中被选择的一部分概率。只要所有的次最大行动被赋予零概率，任意分配方案都是允许的。

之前的图中最后一行显示了一个随机策略改进的例子。这里原策略 $\pi$ 是等概率随机策略，新策略 $\pi'$ 是是策略 $\pi$ 的贪婪策略。左下图为价值函数 $v_\pi$ ，右下图为可能的 $\pi'$ 集合。 $\pi'$ 图中带有多个箭头的状态是指几个行动达到(3.8)中最大值的状态；允许在这些行动之间进行任意的概率的分配。任意这样的策略的价值函数 $v_{\pi'}(s)$ ，在所有状态 $s\in \mathcal{S}$ 下,都是 $- 1$ 、 $- 2$ 或 $- 3$ ，而 $v_{\pi}(s)$ 最多是-14。因此，对于 $v_{\pi'}(s) \geq v_{\pi}(s)$ ，对于所有 $s\in \mathcal{S}$ ，说明了策略的改进。虽然在这种情况下，新的策略 $\pi'$ 恰好是最优的，但在一般情况下，只能保证改进。

3.4 策略迭代(Policy Iteration)

一旦一个策略 $\pi$ 通过 $v_\pi$ 得到改进产生一个更好的策略 $\pi'$ ，我们可以计算 $\pi'$ 并再次改进它产生一个更好的 $\pi''$ 。从而得到一系列单调改进的策略和价值函数:
$\pi_0\underrightarrow{\ E \ } v_{\pi_0}\underrightarrow{\ I \ }\pi_1\underrightarrow{\ E \ } v_{\pi_1}\underrightarrow{\ I \ }\pi_2 \underrightarrow{\ E \ } ... \underrightarrow{\ I \ }\pi_*\underrightarrow{\ E \ } v_{*}$
其中 $\underrightarrow{\ E \ }$ 定义为策略评估， $\underrightarrow{\ I \ }$ 定义为策略改进。每个策略都保证是对前一个策略的严格改进(除非它已经是最优的)。由于一个有限的MDP只有有限数量的策略，这个过程必须在有限次迭代中收敛到一个最优策略和最优价值函数。
这种寻找最佳策略的方法称为策略迭代（Policy Iteration）。完整的算法如下框所示。请注意，每个策略评估本身是一个迭代计算，从前一个策略的价值函数开始。这通常会导致策略评估的收敛速度大大提高(大概是因为从一个策略到下一个策略的价值函数变化很小)。

策略迭代(使用迭代策略评估)进行估计 $\pi \approx \pi_*$

3.5 价值迭代（Value Iteration）

策略迭代的一个缺点是，它的每次迭代都涉及策略评估，而策略评估本身可能是一个旷日持久的迭代计算，需要对状态集进行多次扫描。如果策略评估是迭代进行的，那么只有在极限情况下才会精确收敛到 $v_\pi$ 。我们必须等待精确收敛，或者我们可以停止在那之前。例子3.1中的图示例显然表明，截断策略评估是可能的。在该示例中，策略评估迭代超过前三个迭代，对相应的贪婪策略没有影响。

实际上，策略迭代的策略评估步骤可以以多种方式截断，而不会失去策略迭代的收敛保证。一个重要的特殊情况是在一次扫描(每个状态的一次更新)后停止策略评估。这种算法称为价值迭代。可以将其编写为一个特别简单的更新操作，该操作结合了策略改进和截断的策略评估步骤:
$\begin{aligned} v_{k+1}(s)&\doteq\max_{a}\mathbb{E}[R_{t+1}+\gamma v_{k}(S_{t+1})|S_t=s, A_t=a] \\ &=\max_{a}\sum_{s',r}p(s',r|s,a)[r+\gamma v_{k}(s')] \tag{3.9} \end{aligned}$

对于任意 $v_0$ ，在保证 $v_*$ 存在的相同条件下，序列 ${v_k}$ 可收敛于 $v_*$ 。

另一种理解值迭代的方法是参考Bellman最优性方程(3.1)。注意，只需将Bellman最优性方程转化为更新规则即可获得价值迭代。还请注意，除了它要求在所有操作中采取最大值之外，价值迭代更新与策略评估更新(3.4)是如何相同的。

最后，我们需要考虑价值迭代是如何终止的。与策略评估一样，价值迭代形式上需要无限次迭代才能精确收敛到 $v_*$ 。在实践中，一旦价值函数在一次扫描中仅发生少量变化，我们就使程序停止。下面的框显示了具有这种终止条件的完整算法。

价值迭代(使用迭代策略评估)进行估计 $\pi \approx \pi_*$

价值迭代有效地将策略评估和策略改进结合在一起。通过在每次策略改进扫描之间插入多个策略评估扫描，通常可以实现更快的收敛。一般来说，整个被截断的策略迭代算法可以被认为是一组扫描序列，其中一些使用策略评估更新，而另一些使用价值迭代更新。因为(3.9)中的max操作是这些更新之间的唯一区别，这仅仅意味着max操作被添加到策略评估的一些扫描中。所有这些算法都收敛于折现有限MDPs的最优策略。

4.6 异步动态规划（Asynchronous Dynamic Programming）

到目前为止，我们所讨论的DP方法的一个主要缺点是，它们涉及到对MDP的整个状态集的操作，也就是说，它们需要对状态集进行扫描。如果状态集非常大，那么即使是单次扫描也会非常花费时间。例如，西洋双陆棋游戏有超过1020个状态。即使我们可以每秒对100万个状态进行值迭代更新，也需要超过一千年才能完成一次扫频。

异步DP算法是就地迭代的DP算法，它不是以系统性地扫描状态集的方式组织的。这些算法以任意顺序，并且使用其他状态的任意值更新状态的值。一些状态的值可能会在其他状态的值更新一次之前更新几次。然而，为了正确地收敛，异步算法必须继续更新所有状态的值：它不能在计算的某一点之后忽略任意状态。异步DP算法在选择要更新的状态方面有很大的灵活性。

例如，异步价值迭代的一个版本使用值迭代更新(4.10)，在每一步 $k$ 上只更新一个状态 $s_k$ 的值。如果 $\leq \gamma \leq 1$ ，只有在所有状态在序列 ${s_k\}$ 中出现无限次的情况下，才能保证对 $v_*$ 的渐进收敛（序列甚至可以是随机的）。(在不适用折扣的偶发情况下，有可能存在一些更新的顺序不会导致收敛，但要避免这些是相对容易的)。同样，也可以将策略评估和价值迭代更新混合起来，产生一种异步截断的策略迭代。虽然这种和其他算法相比不寻常的DP算法的细节不在我们的讨论范围，但很明显，一些不同的更新形成了构件，可以灵活地用于各种各样的无扫除DP算法中。

当然，避免扫描并不一定意味着我们可以减少计算量。它只是意味着，一个算法在改善策略方面取得进展之前，不需要被锁定在任意无望的长时间扫描中。我们可以尝试通过选择应用更新的状态来利用这种灵活性，从而提高算法的进步速度。我们可以尝试对更新进行排序，让值信息以有效的方式从一个状态传播到另一个状态。有些状态可能不需要像其他状态那样频繁地更新其值。如果一些状态与最优行为无关，我们甚至可以尝试完全跳过更新它们。

异步算法也使计算与实时交互的混合变得更容易。为了解决一个给定的MDP，我们可以在代理实际经历MDP的同时运行一个迭代DP算法。同时，DP算法的最新值和策略信息可以指导智能体的决策。例如，我们可以在代理访问状态时对状态应用更新。这使得DP算法的更新可以集中到状态集中与代理最相关的部分。这种聚焦是强化学习中反复出现的主题。

4.７广义策略迭代（Generalized Policy Iteration）

策略迭代由两个同时进行、相互作用的过程组成，一个使价值函数与当前策略一致(策略评估)，另一个使策略使当前价值函数使用贪婪策略(策略改进)。在策略迭代中，这两个流程交替进行，每个流程在另一个流程开始之前完成，但这实际上并不是必须的。例如，在价值迭代中，在每次策略改进之间只执行一次策略评估迭代。在异步DP方法中，评估和改进过程交错在一个更细的颗粒上。在某些情况下，在返回到另一个进程之前，单个状态会在一个进程中进行更新。只要两个过程继续更新所有状态，最终结果通常是相同的收敛到最优价值函数和最优策略。

我们使用术语广义策略迭代(generalized policy iteration，GPI) 来表示让策略评估和策略改进过程相互作用、独立于两个过程的颗粒和其他细节的一般思想。几乎所有的强化学习方法都被很好地描述为GPI。也就是说，它们都具有可识别的策略和价值函数，策略总是相对于价值函数进行改进，而价值函数总是被驱动向策略的价值函数，如图所示。如果评价过程和改进过程都稳定下来，即不再产生变化，那么价值函数和策略必须是最优的。价值函数只有在与现行策略一致时才能稳定，而策略只有在对现行价值函数贪婪时才能稳定。因此，只有当一个策略被发现对它自己的评估函数是贪婪的时，两个进程才稳定下来。这意味着Bellman最优性方程(4.1)成立，因此策略和价值函数是最优的。

GPI的评价和改进过程可以看作是竞争和合作的过程。它们相互竞争的意义是它们向相反的方向拉扯。使策略对价值函数贪婪通常会使价值函数对已更改的策略不正确，而使价值函数与策略一致通常会使策略不再是贪婪的。然而，从长远来看，这两个过程相互作用以找到一个联合的解决方案:最优价值函数和最优策略。

人们也可以将GPI中评估和改进过程之间的相互作用考虑为两个约束或目标，例如，在二维空间中的两条线，如图所示。虽然实际的几何比这复杂得多，但图表显示了实际情况。每个流程将价值函数或策略驱动到表示两个目标之一的解决方案的线中的一条。这两个目标相互作用，因为这两条线不是正交的。直接朝着一个目标前进会导致一些偏离另一个目标的运动。然而，联合过程不可避免地更接近最优的总体目标。图中的箭头对应于策略迭代的行为，每个箭头都引导系统完全实现两个目标中的一个。在GPI中，人们还可以朝着每个目标采取更小的、不完整的步骤。在任意一种情况下，这两个过程一起实现了最优的总体目标，即使没有人试图直接实现它。

4.8 动态规划的效率

DP对于非常大的问题可能不实用，但与其他解决MDPs的方法相比，DP方法实际上是相当高效的。如果我们忽略一些技术细节，那么(最坏的情况)DP方法寻找最优策略的时间是状态和行动的多项式。如果n和k表示状态和动作的数量，这意味着DP方法需要的计算操作数量小于n和k的某个多项式函数。即使确定性策略的总数量是 $k^n$ , DP方法也能保证在多项式时间内找到最优策略。从这个意义上说，DP比策略空间中的任意直接搜索都要快得多，因为直接搜索必须彻底检查每个策略，以提供相同的保证。线性规划方法也可用于求解线性规划问题，在某些情况下，其最坏情况收敛保证优于线性规划方法。但是，与DP方法相比，线性规划方法在更少的状态数量下变得不切实际(约为100倍)。对于最大的问题，只有DP方法是可行的。

DP有时被认为是有限的适用性，因为维数的限制，事实上，状态的数量经常与状态变量的数量呈指数增长。大的状态集确实会产生很大的困难，但这些是问题的固有困难，而不是DP作为一种解决方法的固有困难。事实上，与直接搜索和线性规划等竞争方法相比，DP更适合处理大的状态空间。在实践中，DP方法可以与今天的计算机一起用于求解具有数百万种状态的MDPs。策略迭代和价值迭代都被广泛使用，如果有的话，通常哪一个更好还不清楚。

在实践中，这些方法的收敛速度通常比它们的理论最坏情况运行时间快得多，特别是当它们以良好的初值函数或策略开始时。对于大状态空间的问题，异步DP方法通常是首选。即使要完成同步方法的一次扫描，也需要每个状态的计算和内存。

对于某些问题，即使大内存和计算量也是不切实际的，但是这个问题仍然是潜在的可解决的，因为沿着最优解轨迹出现的状态相对较少。在这种情况下，可以应用异步方法和其他GPI变体，并且可以比同步方法更快地找到好的或最优策略。

4.9 总结

在本章中，我们熟悉了动态规划的基本思想和算法，因为它们与求解有限的MDPs有关。策略评估是指(通常)对给定策略的价值函数进行迭代计算。策略改进是指在给定策略的价值函数的情况下对改进策略的计算。将这两种计算结合在一起，我们获得了策略迭代和价值迭代，这是两种最流行的DP方法。这些都可以用来可靠地计算最优策略和有限MDPs的价值函数给定的MDP的完整知识。

经典的DP方法对状态集进行扫描，对每个状态执行预期的更新操作。每个这样的操作都基于所有可能继承状态的值及其发生概率更新一个状态的值。预期的更新与Bellman方程密切相关:它们只不过是将这些方程转换成赋值语句。当更新不再引起值的变化时，满足相应Bellman方程的值就收敛了。正如有四个主要的价值函数（ $v_\pi, v_*,q_\pi, q_*$ ）。有四个对应的Bellman方程和四个对应的期望更新。DP更新操作的直观视图由它们的备份图提供。

深入了解DP方法，事实上，几乎所有的强化学习方法，可以通过将它们视为广义策略迭代(GPI)来获得。GPI是围绕一个近似策略和一个近似价值函数的两个相互作用过程的一般思想。一个流程接受给定的策略并执行某种形式的策略评估，将价值函数更改为更接近策略的真实价值函数。另一个过程是将价值函数作为给定的，进行某种形式的策略改进，改变策略使之更好，假设价值函数就是策略的价值函数。尽管每个流程都改变了另一个流程的基础，但总的来说，它们一起工作以找到一个共同的解决方案:策略和价值函数对任意一个流程都是不变的，因此是最优的。在某些情况下，GPI可以被证明是收敛的，特别是对于经典的DP方法。在其他情况下，收敛性没有被证明，但GPI的想法仍然提高了我们对方法的理解。

没有必要对状态集执行DP方法的完全扫描。异步DP方法是就地迭代方法，它以任意顺序更新状态，可能是随机确定的，并使用过时的信息。许多这些方法可以看作是GPI的细粒度形式。

你可能感兴趣的:(强化学习)

LLMs基础学习（八）强化学习专题（7）汤姆和佩琦 NLP 学习 Actor-Critic 算法
LLMs基础学习（八）强化学习专题（7）文章目录LLMs基础学习（八）强化学习专题（7）Actor-Critic算法基础原理算法流程细节算法优缺点分析算法核心总结视频链接：https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c
强化学习-双臂老虎机 transuperb 强化学习人工智能
本篇文章模拟AI玩两个老虎机，AI需要判断出哪个老虎机收益更大，然后根据反馈调整对于不同老虎机的价值判断，如果把这个看作一个简单的强化学习的话，那么AI就是agent，两个老虎机就是environment，AI首先会对两台老虎机有一个预测值Q，预测哪一个的价值高，然后AI通过策略函数判断应该选择哪个老虎机，进行Action后根据Reward更新每个老虎机的价值Value，然后再进行下一次判断，直到
ROS2 强化学习：案例与代码实战芯动大师 ROS2学习目标检测人工智能
一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。ROS2（RobotOperatingSystem2）作为新一代机器人操作系统，具有更好的实时性、分布式性能和安全性，为强化学习在机器人领域的应用提供了更坚实的基础。本文将通过一个具体案例，深入探讨ROS2与强化学习的结合应用，并提供相关代码实现。二、案例背景本案例以移动机器
解析AI算力网络与通信领域强化学习的算法 AI算力网络与通信 AI人工智能与大数据技术 AI算力网络与通信原理 AI人工智能大数据架构人工智能网络算法 ai
解析AI算力网络与通信领域强化学习的算法：从"快递员找路"到"智能网络大脑"关键词：AI算力网络、通信领域、强化学习、马尔可夫决策、资源调度摘要：本文将用"快递物流系统"的类比，带您理解AI算力网络与通信领域如何通过强化学习实现智能决策。我们会从核心概念讲起，逐步拆解强化学习在网络资源调度中的算法原理，结合Python代码实战，最后探索其在5G/6G、边缘计算等场景的应用。即使您没学过复杂数学，也
AI 在自动驾驶路径规划中的深度强化学习优化 QuantumWalker 人工智能自动驾驶机器学习
```htmlAI在自动驾驶路径规划中的深度强化学习优化在当今快速发展的科技领域中，人工智能（AI）的应用正在不断拓展其边界。特别是在自动驾驶技术中，AI的应用已经从简单的感知和识别发展到了复杂的决策和控制阶段。其中，深度强化学习作为AI的一个重要分支，在自动驾驶路径规划中发挥着越来越重要的作用。一、深度强化学习简介深度强化学习是一种结合了深度学习和强化学习的机器学习方法。它通过让智能体在环境中进
强化学习实战：从 Q-Learning 到 PPO 全流程荣华富贵8 程序员的知识储备2 程序员的知识储备3 人工智能算法机器学习
1引言随着人工智能的快速发展，强化学习（ReinforcementLearning,RL）凭借其在复杂决策与控制问题上的卓越表现，已成为研究与应用的前沿热点。本文旨在从经典的Q-Learning算法入手，系统梳理从值迭代到策略优化的全流程技术细节，直至最具代表性的ProximalPolicyOptimization（PPO）算法，结合理论推导、代码实现与案例分析，深入探讨强化学习的核心原理、算法演
基于CTDE MAPPO的无线通信资源分配强化学习实现 pk_xz123456 仿真模型深度学习算法 lstm 人工智能 rnn 深度学习开发语言
基于CTDEMAPPO的无线通信资源分配强化学习实现摘要本文提出了一种基于集中训练分散执行(CTDE)框架的多智能体近端策略优化(MAPPO)方法，用于解决无线通信网络中的资源分配问题。我们设计了一个多基站协作环境，其中每个基站作为独立智能体，通过分布式决策实现网络吞吐量最大化。实验结果表明，MAPPO算法在频谱效率和用户公平性方面显著优于传统启发式算法。1.引言1.1研究背景随着5G/6G通信技
强化学习系列——PPO算法 lqjun0827 算法深度学习算法人工智能
强化学习系列——PPO算法PPO算法一、背景知识：策略梯度&Advantage二、引入重要性采样（ImportanceSampling）三、PPO-Clip目标函数推导✅四、总结公式（一图总览）参考文献PPO示例代码实现补充内容：重要性采样一、问题背景：我们想估计某个期望❗问题：二、引入重要性采样（ImportanceSampling）三、离散采样形式（蒙特卡洛估计）四、标准化的重要性采样五、在强
人工神经网络：架构原理与技术解析 weixin_47233946 架构
##引言在深度学习和人工智能领域，人工神经网络（ArtificialNeuralNetwork,ANN）作为模拟人脑认知机制的核心技术，已在图像识别、自然语言处理和强化学习等领域实现了革命性突破。从AlphaGo击败人类顶尖棋手到ChatGPT的对话生成能力，ANN的进化持续推动技术边界的扩展。本文将深入剖析人工神经网络的核心原理、技术实现与发展趋势。##一、基础概念与数学模型###1.1生物启发
医疗AI新势力：自演进多智能体MAS的进击之路 Allen_Lyb 医疗高效编程研发人工智能健康医疗机器学习架构大数据
医疗AI新势力：自演进多智能体MAS的进击之路往期相关文章：Python在开放式医疗诊断多智能体系统中的深度应用与自动化分析基于多智能体强化学习的医疗AI中RAG系统程序架构优化研究自演进多智能体在医疗临床诊疗动态场景中的应用医疗AI的新变革在数字化与智能化飞速发展的时代，人工智能（AI）已经逐渐渗透到医疗领域的各个角落，成为推动医疗行业变革的重要力量。从疾病的早期诊断到个性化治疗方案的制定，从医
无线通信中的多智能体强化学习：基于CTDE-MAPPO的功率控制优化 pk_xz123456 仿真模型深度学习算法算法人工智能制造
无线通信中的多智能体强化学习：基于CTDE-MAPPO的功率控制优化摘要本文提出了一种基于集中训练分布式执行(CTDE)框架的多智能体近端策略优化(MAPPO)算法，用于解决无线通信网络中的分布式功率控制问题。通过将多个基站建模为协作智能体，我们设计了一个多智能体强化学习系统，能够在复杂动态环境中实现全局网络效用的优化。本文详细介绍了系统架构、算法实现、实验设置以及性能评估，展示了MAPPO在5G
传统蒙特卡洛（Monte Carlo, MC）方法在强化学习中直接把整条回报序列当作“真值”来估计价值函数，通常配合表格化存储，因此无需环境模型且估计无偏，但只能处理有限状态-动作空间且方差较大强化学习曾小健人工智能
传统蒙特卡洛（MonteCarlo,MC）方法在强化学习中直接把整条回报序列当作“真值”来估计价值函数，通常配合表格化存储，因此无需环境模型且估计无偏，但只能处理有限状态-动作空间且方差较大medium.comanalyticsvidhya.comincompleteideas.net。“深度蒙特卡洛”（DeepMonteCarlo,DMC）则保留“按回报直接更新”的思想，却用深度网络来逼近$Q(
使用Simulink结合MATLAB进行基于强化学习控制下的动态滤波器参数调节系统的仿真 amy_mhd matlab 开发语言
目录一、背景介绍二、所需工具和环境三、步骤详解步骤1：定义系统需求示例：定义系统需求步骤2：准备强化学习环境步骤3：训练强化学习代理步骤4：创建Simulink模型步骤5：添加信号源步骤6：合并信号步骤7：导入强化学习代理步骤8：设计滤波器步骤9：可视化结果步骤10：连接各模块步骤11：设置仿真参数步骤12：运行仿真并分析结果四、总结在现代信号处理领域，动态调整滤波器参数以适应不断变化的环境条件是
强化学习（Reinforcement Learning, RL）概览 MzKyle 人工智能人工智能强化学习机器学习机器人
一、强化学习的核心概念与定位1.定义强化学习是机器学习的分支，研究智能体（Agent）在动态环境中通过与环境交互，以最大化累积奖励为目标的学习机制。与监督学习（有标注数据）和无监督学习（无目标）不同，强化学习通过“试错”学习，不依赖先验知识，适合解决动态决策问题。2.核心要素智能体（Agent）：执行决策的主体，如游戏AI、机器人。环境（Environment）：智能体之外的一切，如棋盘、物理世界
无监督学习概览 MzKyle 人工智能人工智能无监督学习机器学习
一、无监督学习的本质与定位定义：无监督学习是机器学习的三大范式之一（另外两种为监督学习和强化学习），其核心特点是处理未标注数据，通过算法自动发现数据中的隐藏结构、模式或内在规律。与监督学习依赖"输入-输出"对不同，无监督学习仅以原始数据作为输入，目标是揭示数据的内在组织方式。与其他学习范式的区别：监督学习：依赖标签（如分类、回归任务），学习从输入到输出的映射关系强化学习：通过与环境交互获得奖励信号
基于分布式部分可观测马尔可夫决策过程与联邦强化学习的低空经济智能协同决策框架 pk_xz123456 算法无人机分布式算法 matlab 人工智能制造开发语言
基于分布式部分可观测马尔可夫决策过程与联邦强化学习的低空经济智能协同决策框架摘要：低空经济作为新兴战略产业，其核心场景（如无人机物流、城市空中交通、低空监测）普遍面临环境动态性强、个体观测受限、数据隐私敏感及多智能体协同复杂等挑战。本文创新性地提出一种深度融合分布式部分可观测马尔可夫决策过程（Dec-POMDP）与联邦强化学习（FederatedReinforcementLearning,FRL）
空间智能领域，AI人工智能如何大显身手 AI大模型应用之禅人工智能 ai
空间智能领域，AI人工智能如何大显身手关键词：空间智能、人工智能、计算机视觉、地理信息系统、自动驾驶、增强现实、智能城市摘要：本文深入探讨了人工智能在空间智能领域的应用与前景。空间智能作为理解、处理和利用空间信息的能力，正在被AI技术深刻变革。我们将从核心技术原理出发，分析计算机视觉、深度学习、强化学习等技术如何赋能空间智能，探讨其在自动驾驶、智能城市、AR/VR等领域的实际应用，并提供详细的算法
动手学强化学习第10章-Actor-Critic 算法训练代码 zhqh100 算法深度学习 pytorch 人工智能
基于Hands-on-RL/第10章-Actor-Critic算法.ipynbatmain·boyu-ai/Hands-on-RL·GitHub理论Actor-Critic算法修改了警告和报错运行环境DebianGNU/Linux12Python3.9.19torch2.0.1gym0.26.2运行代码Actor-Critic.py#!/usr/bin/envpythonimportgymimpo
Agent 处理流程成都犀牛人工智能大模型 Agent 深度学习神经网络 python Agent
Agent源于研究行为的强化学习，而大模型源于研究知识的深度学习多数情况下认为该系统中会存在下面的角色或名词用户（另一个人）上下文（记忆）变量（记忆）提示词（沟通方式）工具（手臂）大模型（大脑）这个图将着重表现Agent的决策循环，这是其与普通RAG流程最主要的区别。Agent核心工作流示意图用户提示词✏️Agent大模型上下文️变量%%工具️用户交互层AI核心层数据层工具层发送请求用户输入原始指
智能化设计工具链：深度学习与强化学习的全流程融合架构
一、技术架构设计智能化设计工具链的构建需要整合参数化建模、代理模型训练、强化学习优化与多物理场工艺仿真四大模块，形成从设计到制造的闭环系统。典型流程如下：
自适应限流算法实战双囍菜菜 #Go高吞吐架构算法 Golang
自适应限流算法实战文章目录自适应限流算法实战一、限流算法演进史：从静态到自适应1.1传统限流算法的致命缺陷1.2自适应限流的革命性突破二、自适应限流核心指标体系2.1黄金四维指标2.2指标融合公式三、经典自适应算法解析3.1TCPBBR带宽自适应算法核心限流应用3.2NetflixConcurrencyLimit梯度下降策略智能探针机制四、AI赋能的智能限流4.1LSTM预测模型架构4.2强化学习
从代码学习深度强化学习 - REINFORCE 算法 PyTorch版飞雪白鹿€ 深度强化学习 pytorch版 pytorch DRL
文章目录前言**一、理论基础：什么是策略梯度？****1.1基于价值vs.基于策略****1.2策略梯度（PolicyGradient）****1.3REINFORCE算法：蒙特卡洛策略梯度****1.4REINFORCE算法流程****二、PyTorch代码实践****2.1环境与辅助函数****2.2核心算法实现****2.3训练与结果****总结**前言欢迎来到“从代码学习深度强化学习”系列
生成本地微调 +强化学习 qwen3-4b 研究搭建流程步骤行云流水AI笔记人工智能
在本地微调并应用强化学习（RL）对Qwen-3-4B模型进行研究和搭建，是一个复杂但可行的过程。以下是一个详细的流程步骤，涵盖从环境准备、数据准备、模型微调到强化学习应用的各个阶段。一、环境准备硬件要求GPU：至少需要多块高性能GPU（如NVIDIAA100或V100），因为Qwen-3-4B模型参数量大，内存需求高。内存：建议至少128GBRAM，以确保数据处理和模型加载的流畅性。存储：高速SS
【无标题】行云流水AI笔记人工智能
在本地对Qwen-3-4B模型进行微调，并结合强化学习（RL）以提高其从自然语言（TXT）到结构化查询语言（SQL）的转换能力（即TXT2SQL），是一个复杂但非常有价值的任务。以下是一个详细的流程步骤，涵盖从环境准备、数据准备、模型微调到强化学习应用的各个方面。一、项目概述目标：通过微调和强化学习提升Qwen-3-4B模型在TXT2SQL任务上的表现，使其能够更准确地将自然语言查询转换为相应的S
Causal-aware Large Language Models: Enhancing Decision-Making Through Learning, Adapting and Acting UnknownBody LLM Daily Causal and Reasoning 语言模型人工智能自然语言处理
论文主要内容总结研究背景与问题大语言模型（LLMs）在决策领域展现出巨大潜力，但预训练模型存在推理能力不足、难以适应新环境的问题，严重制约了其在复杂现实任务中的应用。现有方法如强化学习（RL）单独使用或LLM辅助RL的方式，仍依赖token预测范式，缺乏结构化推理和快速适应性。核心框架与方法提出因果感知大语言模型（Causal-awareLLMs），将结构因果模型（SCM）整合到决策过程中，采用“
机器学习赋能多尺度材料模拟：前沿技术会议邀您共探 m0_75133639 复合材料机器学习人工智能分子动力学第一性原理深度学习 vasp 复合材料
在新能源与先进制造技术飞速发展的今天，材料科学的创新成为推动行业进步的关键力量。本次前沿技术会议聚焦“机器学习赋能的多尺度材料模拟与催化设计”，旨在为科研人员与工程师搭建一个深度交流与学习的平台。会议将深度融合分子动力学模拟（MD）、第一性原理计算（DFT）等微观模拟方法，以及机器学习（ML）与强化学习（DQN）等前沿算法，通过锂硫电池、压电催化、催化转化等实战案例，展示如何利用“数据驱动+物理建
AI转型指南 HeartException 人工智能学习机器学习
以下是为计算机学生/在职人员撰写《AI转型指南》的目录框架设计，兼顾系统性与实操性，采用模块化结构便于读者按需学习，前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站一、AI行业全景扫描（认知篇）技术图谱解构机器学习/深度学习/强化学习的技术边界NLP/CV/语音/推荐系统等细分赛道的就业热度对比传统计算机技能与AI能力的交叉点（如分布式计算、系统
论文笔记＜交通灯＞＜多智能体＞CoLight管理交通灯青椒大仙KI11 论文阅读
今天看的是论文Colight:学习网络级合作进行交通信号控制论文提出的CoLight模型是一种基于强化学习和图注意力网络的交通信号灯控制方法，旨在解决城市道路网络中的交通信号的写作问题，提升车辆通行效率。问题定义为：将交通信号控制问题建模为马尔可夫博弈，每个路口由一个智能体控制，智能体通过观察部分系统状态（当前相位和各车道车辆数），选择动作（下一时间段的相位），目标是最小化路口周围车道的平均队列长
AAAI2022国际顶会Workshop将会讨论些什么？ AINLPer 国际会议自然语言处理深度学习自然语言处理人工智能机器学习神经网络
来源:AINLPer微信公众号（每日论文干货分享！！）编辑:ShuYini校稿:ShuYini时间:2021-12-091、引言目前关于AAAI2022的论文List还没有贴出来，但是目前的WorkShop的日程已经出来了，今天整理了一下给大家分享。本次AAAI2022研讨会计划于2022年2月28日至3月1日，共有39个。其中在技术研究领域涉及：强化学习、图神经网络、交互式机器学习、模型
会议论文_AI会议 || 如何rebuttal学术论文?
深度强化学习实验室报道来源：https://zhuanlan.zhihu.com/p/104298923作者：魏秀参编辑：DeepRL最近，恰逢CVPR2020rebuttal之前，本文就rebuttle相关的内容进行总结，学术论文是发布自己或团队最新研究进展正式且最快捷的途径，也是和同行交流想法最方便、高效的方式。当同行评议(Peerreview)作为学术成果正式发布的必经之路已运行200余年[
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理