EdenJin

11. 基于近似的离线策略方法--阅读笔记【Reinforcement Learning An Introduction 2nd】

文章目录

基于近似的离线策略方法
- 前言
- 1.半梯度方法
- 2.off-policy发散的例子
- - 2.1 MDP中取出两个状态
  - baird counterexample贝尔德反例
  - Tsitsiklis and Van Roy’s Counterexample
- 3. 死亡三角/死亡三元组
- 4. 线性值函数几何学
- 5. 贝尔曼误差中的梯度下降
- 6.贝尔曼误差的不可学习性
- 7.梯度TD方法
- 8. Emphatic-TD方法
- 9. 减小方差
- 总结

基于近似的离线策略方法

前言

on-policy和off-policy方法是处理GPI中探索和利用矛盾的两种方法，其中on-policy方法只能学得一个次优的策略（因为它得到的是针对某种策略的最优策略，并不是针对全局），而off-policy则能学得全局最优的策略。将off-policy方法结合拟合器，与on-policy方法的结合拟合器的方式相比要有很多区别，也更困难。之前我们介绍的那些off-policy方法可以直接扩展到拟合器的形式，但是收敛性不好。本章我们会研究下线性函数拟合器的收敛性问题，引入可学习性的概念，然后介绍在off-policy情形能更好地收敛的算法，但是这些方法还是不如on-policy时稳定。通过这些讨论，对于带拟合器的RL，无论是on-policy还是off-policy的，我们都会认识得更深刻。

在off-policy时，target策略 $\pi$ 是贪婪的，behavior策略b是探索性的。对于预测问题，两个策略都是已知的；对于控制问题，两个策略都是变化的。我们的学习目标是得到 $\hat{v} \approx v_{\pi}$ 或者 $\hat{q} \approx q_{\pi}$ .

off-policy方法中有两个关键挑战(更新目标的变化，更新分布的变化)：

更新目标如何定义。由于得到的样本是遵循b的，而想要学习的值函数是 $\pi$ ，因此必须设置合理的更新目标。我们采用重要性采样解决，无论对表格方法还是拟合器方法都类似。注意，重要性采样会扩大方差，但是消除了偏差 。
我们得到的样本服从off-policy分布，而不是on-policy分布。我们在第八章介绍过，选择哪个状态/状态动作对更新是有技巧的，采用trajectory sampling更新效果很好，实际上on-policy分布对半梯度方法[因为这里的梯度是不准确的]的稳定性非常重要。解决这个有两种方法，一个是基于重要性采样调整update分布到on-policy分布；一个是采用不依赖任何特殊分布的真正的梯度方法。目前这也是一个公开尚未解决的问题。

1.半梯度方法

本节我们只考虑上述所提到的第一种挑战，就是引入重要性采样，形成off-policy下的梯度参数的更新目标。
单步off-policy半梯度方法
off-policy半梯度无非就是把重要性采样和梯度结合起来：
$\mathbf{w}_{t+1} \doteq \mathbf{w}_{t}+\alpha \rho_{t} \delta_{t} \nabla \hat{v}\left(S_{t}, \mathbf{w}_{t}\right)$
其中 $\rho_{t}$ 就是重要性采样比，对于单步TD方法其表达式就是：
$\rho_{t} \doteq \rho_{t : t}=\frac{\pi\left(A_{t} | S_{t}\right)}{b\left(A_{t} | S_{t}\right)}$
TD error $\delta_{t}$ 的表达式依赖于回报是否有折扣（在episodic task是有折扣的，在continuing task中是没有折扣的，而是平均回报误差）：
$\delta_{t} \doteq R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right), \text{or}\\ \delta_{t} \doteq R_{t+1}-\overline{R}_{t}+\hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)$

对于动作值函数 而言，one-step TD方法就是半梯度期望sarsa算法，权重更新表达式：
$\mathbf{w}_{t+1} \doteq \mathbf{w}_{t}+\alpha \delta_{t} \nabla \hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right)$
其中，对于episodic task折扣形式回报的TD error是：
$\delta_{t} \doteq R_{t+1}+\gamma \sum_{a} \pi\left(a | S_{t+1}\right) \hat{q}\left(S_{t+1}, a, \mathbf{w}_{t}\right)-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right)$
对于continuing task采用的是平均回报，所以其TD error是：
$\delta_{t} \doteq R_{t+1}-\overline{R}_{t}+\sum_{a} \pi\left(a | S_{t+1}\right) \hat{q}\left(S_{t+1}, a, \mathbf{w}_{t}\right)-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right)$
这里为什么没有重要性采样因子呢？原因是对于单步的动作值函数估计来说，这个动作是已知的，不需要采样，没有采样的操作，所以无需计算重要性采样比。(这个解释不一定是正确的，还需要进一步深入学习更多的近似理论再作明确。)

多步off-policy半梯度方法
对于多步的情况，无论是状态值函数还是动作值函数都需要进行采样。n-step 半梯度期望sarsa算法：
$\mathbf{w}_{t+n} \doteq \mathbf{w}_{t+n-1}+\alpha \rho_{t+1} \cdots \rho_{t+n-1}\left[G_{t : t+n}-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t+n-1}\right)\right] \nabla \hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t+n-1}\right)$
其中
$\begin{aligned} G_{t : t+n} &\doteq R_{t+1}+\cdots+\gamma^{n-1} R_{t+n}+\gamma^{n} \hat{q}\left(S_{t+n}, A_{t+n}, \mathbf{w}_{t+n-1}\right), \text { or } &(\text { episodic })\\ G_{t : t+n} &\doteq R_{t+1}-\overline{R}_{t}+\cdots+R_{t+n}-\overline{R}_{t+n-1}+\hat{q}\left(S_{t+n}, A_{t+n}, \mathbf{w}_{t+n-1}\right) &(\text { continuing }) \end{aligned}$

半梯度树备份方法
之前在第七章还提到了一种不涉及重要性采样的off-policy方法，就是树备份方法。

半梯度树备份方法的表达式：
$\mathbf{w}_{t+n} \doteq \mathbf{w}_{t+n-1}+\alpha\left[G_{t : t+n}-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t+n-1}\right)\right] \nabla \hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t+n-1}\right)$
其中更新目标就是：
$G_{t : t+n} \doteq \hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t+n-1}\right)+\sum_{k=t}^{t+n-1} \delta_{k} \prod_{i=t+1}^{k} \gamma \pi\left(A_{i} | S_{i}\right)$
其中 $\delta_t$ 采用的是半梯度期望sarsa的形式。(参考第七章相关内容理解上式)

2.off-policy发散的例子

2.1 MDP中取出两个状态

假设MDP中的两个状态，采用函数近似的方法，线性拟合器近似的状态值的结果分别是w和2w，w是权重参数，这里假设是一个标量。假设在第一个状态下有一个动作可选，转移到第二个状态，即时奖励为0.
假设w的初值为10，那么此时两个状态值分别是10和20，经过一次转移之后，权重更新（假设 $\gamma = 1,\alpha = 0.1$ ）: $\leftarrow w_old + \alpha[R+V(S_2)-V(S_1)]=10+0.1x10=11$ 。可以看出状态1的估计值增大，以此为了减小td error。但是此时状态2的值也增大了，变为了22，此时TD error反而更大了，以此进行下去，最终会发散到无穷大。
我们进一步分析，对于状态 $s_1$ 来说，其TD error为：
$\delta_{t}=R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)=0+\gamma 2 w_{t}-w_{t}=(2 \gamma-1) w_{t}$
那么根据off-policy的半梯度TD(0),w的更新公式为：
$w_{t+1}=w_{t}+\alpha \rho_{t} \delta_{t} \nabla \hat{v}\left(S_{t}, w_{t}\right)=w_{t}+\alpha \cdot 1 \cdot(2 \gamma-1) w_{t} \cdot 1=(1+\alpha(2 \gamma-1)) w_{t}$
如果 $1+\alpha(2 \gamma-1)$ 大于0的话，那么一直更新下去一定会发散，因此必须满足 $\gamma＜1$ 的条件才会保证其不发散。
因为这里只有一个动作可选，因此采样比是1.进一步分析上面的例子，在这个例子中我们仅仅关注了一个MDP过程的两个状态之间的转移，不断只利用状态 $s_1$ 到状态 $s_2$ 这个转移更新，如果是在on-policy下，这种情况是不可能出现的，因为按照trajectory更新的话，更新完 $s_1$ 到 $s_2$ 这个转移之后，就会更新 $s_2$ 到下一个状态的转移，如果下一个状态是终止状态的话，那么 $s_2$ 就会以常数 $R_3$ 作为更新目标，因此如果 $R_3$ 的值比 $s_2$ 大的话就会导致 $s_2$ 的值提高，但是当 $s_2$ 的值提高到比 $R_3$ 的值还要大的时候，此时后面的更新就会出现下降的过程，从而减小 $w_t$ 的值，使得算法最终趋向于平衡，不至于发散。但是对于off-policy的情况来看，可能由于target policy选择可以导致从 $s_2$ 到下一个状态的动作的概率为0，所以会导致采样比为0，那么就会不断依据从状态 $s_1$ 到状态 $s_2$ 进行更新，从而造成发散。

baird counterexample贝尔德反例

虚线表示的动作会以相同的概率转移到图上方所示的六个状态，实线表示的动作是将状态转移到第7个状态。行为策略选择虚线、实线的概率分别是6/7、1/7.目标策略是总是选择实线。所有的转移回报均为0.其他参数见图右所示。

线性值函数近似：利用线性近似器估计MDP的状态值，线性参数为 $\mathbf{w} \in \mathbb{R}^{8}$ ,每个状态的特征向量是8维的，比如 $x(1)=(2,0,0,0,0,0,0,1)^T$ ，所以第一个状态的值为 $2w_1+w_8$ ，经过线性近似和特征表示，其他状态的值如上图中的圆圈所示。由于每一步的即时回报都是0，所以每个状态对应的真实的值函数也都是0.但是由于我们只有7个状态，却有8个变量，所以会有无穷组解。
如果利用off-policy的半梯度TD(0)或DP方法求解上述问题，权重会发散，

（由于已知状态转移P，已知policy，所以可以使用DP，只是采用了线性近似的方式求状态值）
权重更新表达式：
$\mathbf{w}_{k+1} \doteq \mathbf{w}_{k}+\frac{\alpha}{|\mathcal{S}|} \sum_{s}\left(\mathbb{E}_{\pi}\left[R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{k}\right) | S_{t}=s\right]-\hat{v}\left(s, \mathbf{w}_{k}\right)\right) \nabla \hat{v}\left(s, \mathbf{w}_{k}\right)$
因为这里求的是期望，所以可以排除采样、随机或者状态更新次序的影响，但是依然是发散的。
如果采用on-policy的方式就可以收敛。表面上看起来时由于行为策略不同，导致状态分布不同，也就是说状态的分布决定了更新的分布。由此就表明一个问题，off-policy会带来两个挑战，一个是更新目标的偏差，一个是更新的分布。其结论就是：在off-policy的情况下，尽管结合最简单的自举方法或者函数近似方法也会导致发散 。
一种避免发散的方法就是使用特别的函数近似器，不在观测目标之间插值的近似方法可以保证收敛 。这些方法叫做averagers，比如近邻方法和局部加权回归，类似于基于记忆的非参数化的方法。但是使用堆编码或神经网络无法保证收敛。

Tsitsiklis and Van Roy’s Counterexample

在之前的2状态的例子上加了一个终止状态，使用基于DP的近似方法来求解权重，
$\begin{aligned} w_{k+1} &=\underset{w \in \mathbb{R}}{\arg\min} \sum_{s \in \mathcal{S}}\left(\hat{v}(s, w)-\mathbb{E}_{\pi}\left[R_{t+1}+\gamma \hat{v}\left(S_{t+1}, w_{k}\right) | S_{t}=s\right]\right)^{2} \\ &=\underset{w \in \mathbb{R}}{\arg\min}\left(w-\gamma 2 w_{k}\right)^{2}+\left(2 w-(1-\varepsilon) \gamma 2 w_{k}\right)^{2} \\ &=\frac{6-4 \varepsilon}{5} \gamma w_{k} & \end{aligned}$
可见当 $\gamma>\frac{5}{6-4 \varepsilon} and w_{0} \neq 0$ 时，更新权重序列依然是发散的。

3. 死亡三角/死亡三元组

通过上一节的内容我们可以总结出是三个导致强化学习系统发散或不稳定的因素，当他们同时出现的时候，系统就会出现收敛性问题。这三个因素分别是：

函数近似 function approximation ：利用不同的近似拟合器代替表格化的方法
自举 bootstrap ：通过估计值来更新估计值
离线策略 off-policy ：在行为策略产生的转移分布上训练和学习目标策略。在DP中遍历所有状态并执行批量更新，其实也不符合目标策略的转移分布，因此也属于离线策略的范畴。

既然这三个因素同时出现会导致系统发散，那么可否丢弃其中一个元素呢？经过一番讨论，没有任何结果，发现三个元素都很重要。
首先对于值函数近似，不管对于什么问题，值函数的计算是必不可少的，当前比较流行的AC架构也是结合了策略和值函数，并没有完全的抛弃值函数。
对于自举来说，利用自举可以提高计算效率，采用MC的方法则必须等到episode结束之后才可进行一系列的更新操作。
off-policy learning呢，对于无模型的我们使用sarsa就够了，但是想想off-policy方法，意味着我们可以学到一个解决问题的policy，学习数据来自不同的policy。这就意味着可以使用很多旧数据，能够提高样本效率。sutton也说off-policy方法可以创造强大的agent。

4. 线性值函数几何学

值函数的本质实际上是状态到一个实数的映射，比如对于状态空间 $S={s_1,s_2,s_3...s_{|S|}}$ ,可以把其值函数看作是一个向量 $v(s_1),v(s_2)...v(s_{|S|})]^T$ .一般的，近似拟合器的参数数量是低于状态数量的。
假设状态空间 $S={s_1,s_2,s_3}$ ，线性拟合器 $w=(w_1,w_2)^T$ ,所有值函数就是三维空间中的一个点。拟合器相当于提供了另外一个坐标系统，每个参数向量都是这个子空间的一个点（二维空间的点），拟合器实际上可以看作是值函数空间的一个平面。其形状由值函数的形式、特征形式决定。当值函数是线性的话，拟合器就是三维值函数空间的一个平面。

值误差
对于固定的策略，其真实值函数表示为 $v_\pi$ ，我们无法用近似拟合器精确获得它的值，所以它不在拟合器的平面上，如上图，其在拟合器的平面之上。如果我们没有办法精确的表示值函数，那么取而代之的方案是什么呢？那么我们应该如何获得一个最接近真实值函数的表现形式呢？提到接近，那么我们可能就会想到距离，那么用距离又该如何衡量估计值函数与真实值函数之间的相近程度呢？比如对于两个值函数向量 $v_1$ 和 $v_2$ ,我们可以利用向量差来表示这两个向量之间的差异 $v=v_1-v_2$ ，如果v比较小的话，那么就说明这两个向量之间比较接近。但是如何描述这个差值呢？传统的方法是使用欧几里得范数，但是光靠范数是不能够的，因为对于一个大的状态空间来说，我们只专注于我们感兴趣的状态子空间，部分状态的近似值可能误差会很大，但是我们对这些状态并不感兴趣，因此就可以完全忽略掉这个误差。这个时候就需要一个权重系数，所以可以考虑采用加权的形式，给每个状态一个权重 $\mu(s)$ 表示对于误差贡献的大小。
新的加权距离表示：
$\|v\|_{\mu}^{2} \doteq \sum_{s \in \mathcal{S}} \mu(s) v(s)^{2}$

$\mu(s)$ 一般选择on-policy分布，那么之前我们定义过的value error就可以表示为：
$\overline{\mathrm{VE}}(\mathbf{w})=\left\|v_{\mathbf{w}}-v_{\pi}\right\|_{\mu}^{2}$
所以求解距离v最近的子空间表征就是一个投影操作。定义投影算子 $\Pi$ 将任意的一个值函数v映射到范数最小的表征函数：
$\Pi v \doteq v_{\mathbf{w}} \quad \text { where } \quad \mathbf{w}=\underset{\mathbf{w} \in \mathbb{R}^{d}}{\arg\min}\left\|v-v_{\mathbf{w}}\right\|_{\mu}^{2}$
所以求解最好的近似函数就变为了求 $v_{\pi}$ 的投影。可以通过MC的方式获得这个解。通过大量的采样 $v_{\pi}$ ，有了真实的 $v_{\pi}$ 然后求投影/最小化值误差就可以得到 $v_{w}$ .

贝尔曼误差
除了用MC的方法求解 $v_{\pi}$ ，还可以使用TD方法。但是这两种方法得到的解是不一样的，回顾贝尔曼方程。
$v_{\pi}(s)=\sum_{a} \pi(a | s) \sum_{s^{\prime}, r} p\left(s^{\prime}, r | s, a\right)\left[r+\gamma v_{\pi}\left(s^{\prime}\right)\right], \quad \text { for all } s \in \mathcal{S}$
我们把 $v_{\pi}$ 看做是一个变量，那么上面等式的精确解就是 $v_{\pi}$ 了，但是我们的近似解是 $v_{w}$ ,如果这两个解不相等的话，那就意味着 $v_{w}$ 无法使上式满足，因为左右两边不相等，所以不成立。但是两者之间的差值可以用来衡量 $v_{\pi}$ 到 $v_{w}$ 之间的距离，我们叫做贝尔曼误差 。
$\begin{aligned} \overline{\delta}_{\mathbf{w}}(s) & \doteq\left(\sum_{a} \pi(a | s) \sum_{s^{\prime}, r} p\left(s^{\prime}, r | s, a\right)\left[r+\gamma v_{\mathbf{w}}\left(s^{\prime}\right)\right]\right)-v_{\mathbf{w}}(s) & \\ &=\mathbb{E}_{\pi}\left[R_{t+1}+\gamma v_{\mathbf{w}}\left(S_{t+1}\right)-v_{\mathbf{w}}\left(S_{t}\right) | S_{t}=s, A_{t} \sim \pi\right] & \end{aligned}$
由此可见，贝尔曼误差是TD error的期望， 每个状态的贝尔曼误差构成一个向量，叫做贝尔曼误差向量。这个误差向量的范数就叫做均方贝尔曼误差。
$\overline{\mathrm{BE}}(\mathbf{w})=\left\|\overline{\delta}_{\mathbf{w}}\right\|_{\mu}^{2}$
如果我们可以把贝尔曼误差降为0，其实就意味着我们得到真实的 $v_{\pi}$ ，但是一般来说是不可能实现的，但是我们可以得到一个收敛的w以此来最小化Bellman Error（BE）。但是这个解和通过Value Error（VE）得到的解是不一样的。后面会讲一些试图最小化BE的方法。

投影贝尔曼误差
借助贝尔曼方程定义贝尔曼算子为：
$\left(B_{\pi} v\right)(s) \doteq \sum_{a} \pi(a | s) \sum_{s^{\prime}, r} p\left(s^{\prime}, r | s, a\right)\left[r+\gamma v\left(s^{\prime}\right)\right]$
所以贝尔曼误差向量就可以表示为：
$\overline{\delta}_{\mathbf{w}}=B_{\pi} v_{\mathbf{w}}-v_{\mathbf{w}}$
如果重复的在子空间之外对值函数做贝尔曼运算，那么最终我们会收敛到真实的值函数 $v_{\pi}$ 。但是在值函数近似中，我们只能表征子空间的值函数，对于值空间的函数无法表示，所以就必须将其投影到子空间中。也就是从 $B_\pi v_w$ 映射到 $\Pi B_\pi v_w$ 。这个子空间的值函数通过贝尔曼算子带到子空间之外，然后再被投影回来。通过这个往复过程，我们把投影前后两个向量的误差叫做投影贝尔曼误差向量projected bellman error（PBE） 。这个向量的大小定义了另一个值函数近似的误差测度，叫均方投影贝尔曼误差。其定义为：
$\overline{\mathrm{PBE}}(\mathbf{w})=\left\|\Pi \overline{\delta}_{\mathbf{w}}\right\|_{\mu}^{2}$

在线性函数近似中，总是可以找到一个值函数使均方投影贝尔曼误差为0.
（可结合之前讲的投影算子以及本节内容最开始的那张图进行理解）
其实上面的整个过程总结起来就是，由于值空间是三维的，但是我们采用值函数近似的方法，权重向量w是一个二维的，那么权重向量所构成的子空间就是一个平面，可以理解为是真实值函数空间的一个子空间。我们的终极目标自然是得到一个精确的真实值函数估计，但往往不可能办到，所以我们要尽可能的缩小近似的误差。我们可以利用的数据仅仅是由权重参数构成的一个二维空间中的数据，那么怎么与三维的值空间联系起来呢，就是把三维的值空间函数映射到二维子空间来，然后再根据范数求最小误差。

值误差VE是利用类似ＭＣ方法得到的近似函数的测度．如果用类似于贝尔曼的更新方式，比如TD方法，就得到了贝尔曼误差测度．贝尔曼误差测度又分两种情况，如果在原空间（值向量空间）执行贝尔曼算子，就是贝尔曼误差BE，它会收敛到最优解．如果用了函数近似，我们在迭代贝尔曼算子的时候，必须把值函数投影到子空间，这样会得到不同的解．这个误差就是投影贝尔曼误差PBE。

5. 贝尔曼误差中的梯度下降

上一节内容我们讲了一些计算误差的方法，或者也可以叫做损失函数。有了损失函数我们就可以使用SGD方法来求解参数。但是目前只有基于MC的近似方法才是真正的梯度下降法。基于bootstrap的近似方法只能算是半梯度下降方法。基于真正的梯度下降方法，无论是on-policy还是off-policy，无论是基于线性函数的近似还是非线性近似都可以收敛。但是对于半梯度下降方法而言，在off-policy的情况下容易发散。本节和下一节将探索基于贝尔曼误差的一些方法。

原始残差梯度算法
我们先只考虑TD error，在一般的值函数近似中，单步折扣TD error为：
$\delta_{t}=R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)$
其对应的均方TD error 是：
$\begin{aligned} \overline{\operatorname{TDE}}(\mathbf{w}) &=\sum_{s \in \mathcal{S}} \mu(s) \mathbb{E}\left[\delta_{t}^{2} | S_{t}=s, A_{t} \sim \pi\right] \\ &=\sum_{s \in \mathcal{S}} \mu(s) \mathbb{E}\left[\rho_{t} \delta_{t}^{2} | S_{t}=s, A_{t} \sim b\right] \\ &=\mathbb{E}_{b}\left[\rho_{t} \delta_{t}^{2}\right] & \;\text{(if} \;\mu \;\text{is} \; \text{the distribution encountered under b)} \end{aligned}$
上面给出了基于on-policy和off-policy的所有状态上的excepted TD error。随机梯度是从期望中采样一些经验，然后再根据这些采样经验的梯度更新目标函数的权重，所以目标函数是一个期望，并且这些经验往往是off-policy。 $\mathbb{E}_{b}\left[\rho_{t} \delta_{t}^{2}\right]$ 。利用SGD，单步的单样本权重参数更新表示为：
$\begin{aligned} \mathbf{w}_{t+1} &=\mathbf{w}_{t}-\frac{1}{2} \alpha \nabla\left(\rho_{t} \delta_{t}^{2}\right) \\ &=\mathbf{w}_{t}-\alpha \rho_{t} \delta_{t} \nabla \delta_{t} \\ &=\mathbf{w}_{t}+\alpha \rho_{t} \delta_{t}\left(\nabla \hat{v}\left(S_{t}, \mathbf{w}_{t}\right)-\gamma \nabla \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)\right) \end{aligned}$
这个有点类似之前我们提到的半梯度TD算法的权重更新表达式，但是多了后面一项。实际上在半梯度TD算法中，我们把t+1时刻的值函数估计值看作是一个常数，所以求导之后为0.但是如果考虑这一项的话，就变为了全梯度也就是真正意义上的SGD。我们称之为残差梯度算法naive residual-gradient 。尽管其鲁棒性很好，但是并不一定可以收敛到我们的期望值。

example: 举例说明原始参数梯度算法无法收敛到期望值

考虑一个包含三个状态和一个终止状态的episodic MRP问题。每个episode从A开始，然后按照50%的概率转移到B或C。折扣因子为1，且是on-policy，采用基于表格的方式。
从A开始有一半的概率可以获得1的奖励，一半的概率获得0的奖励。所以A的真实值为0.5，B、C的真实值分别为1和0. 但是如果使用残差梯度算法的话，A、B、C收敛的值分别是0.5、 0.75、 0.25。

为什么不同呢？残差梯度算法的目标是最小化均方TD error，
对于残差梯度方法，状态A、B、C的收敛解分别是（1/2, 3/4, 1/4）.因此从A转移到B和C的TD误差分别为：0+3/4-1/2和0+1/4-1/2，平方误差都是1/16.第二步的转移是从B或者C到终止态，TD误差分别是1+0-3/4=1/4和0+0-1/4=-1/4。平方TD误差也是1/16.所以平均每步的转移TD误差为1/16.
然后我们再计算真实值（1/2, 1, 0）的平均转移TD误差。第一步从A转移到B或者C的TD误差是0+1-1/2=1/2和0+0-1/2=-1/2。所以平方TD误差为1/4.对于B、C的值等于估计值，所以第二步的转移TD误差为0，平均的转移误差是1/8，大于1/16.
这说明单纯的最小化TD error并不能得到最优解，因为真实的值函数可能会产生更大的TD error。实际上，最小化TD error往往会实现一种时间平滑的效果，并不是精确的值估计。因为TD error就是在一定时间跨度上值函数的差别，这个值越小，表示值函数的值越接近。

最小化贝尔曼误差
如果值函数的估计是精确的，那么所有状态的贝尔曼误差就应该是0. 但是一般来说我们无法使贝尔曼误差为0，因为这就意味着我们精确的得到了真实的值函数，但是这是不可能的。因为在上一节我们看到，真实的值函数是处于我们可操作的子空间之外的，我们只能尽量去接近。但是贝尔曼误差与TD error是有关系的，每个状态的贝尔曼误差等于这个状态下的TD error的期望值。所以可以仿照之前的TD error的更新推导贝尔曼误差的权重参数更新公式：
$\begin{aligned} \mathbf{w}_{t+1} &=\mathbf{w}_{t}-\frac{1}{2} \alpha \nabla\left(\mathbb{E}_{\pi}\left[\delta_{t}\right]^{2}\right) \\ &=\mathbf{w}_{t}-\frac{1}{2} \alpha \nabla\left(\mathbb{E}_{b}\left[\rho_{t} \delta_{t}\right]^{2}\right) \\ &=\mathbf{w}_{t}-\alpha \mathbb{E}_{b}\left[\rho_{t} \delta_{t}\right] \nabla \mathbb{E}_{b}\left[\rho_{t} \delta_{t}\right] \\ &=\mathbf{w}_{t}-\alpha \mathbb{E}_{b}\left[\rho_{t}\left(R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}\right)-\hat{v}\left(S_{t}, \mathbf{w}\right)\right)\right] \mathbb{E}_{b}\left[\rho_{t} \nabla \delta_{t}\right] \\ &=\mathbf{w}_{t}+\alpha\left[\mathbb{E}_{b}\left[\rho_{t}\left(R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}\right)\right)\right]-\hat{v}\left(S_{t}, \mathbf{w}\right)\right]\left[\nabla \hat{v}\left(S_{t}, \mathbf{w}\right)-\gamma \mathbb{E}_{b}\left[\rho_{t} \nabla \hat{v}\left(S_{t+1}, \mathbf{w}\right)\right]\right] \end{aligned}$
这个更新算法叫做残差梯度方法 。如果把上式的求期望操作换做是采样的话，那么它就退化成了原始的残差梯度方法。
这里的求期望操作主要是针对下一状态的，而且有两次求期望，且是相乘的。为了使得期望的乘积是无偏的，那么我们需要独立的对下一个状态进行两次采样，通常来说，在与外界环境交互的过程中我们只能获得一次采样。
为了解决上述的问题，有两种方法：①，在确定性环境下，转移到下一个状态是确定的，所以两次采样的结果肯定是一样的，此时残差梯度方法有效。②，独立的执行两次从 $S_t$ 到 $S_{t+1}$ 的采样。一个是为了求第一个期望一个是为了求第二个期望。
结合这两种方法解决算法的有偏性，可以使得残差梯度算法收敛到贝尔曼误差的最小值。因为这是真正的SGD方法，所以适用于线性和非线性的函数近似。在线性情况下，总是可以收敛到全局最优解。
残差梯度算法的局限
尽管残差梯度算法已经是真正意义上的SGD算法，但实际上依然存在几个方面的不足：

实验表明残差梯度算法的收敛速度慢，比半梯度算法慢很多。有人提出了结合半梯度算法和残差梯度算法，先利用半梯度算法快速的获得一个初始解，然后再利用残差梯度算法保证收敛性。
残差梯度算法依然会收敛到我们不期望的值。对于表格型问题而言，它可以保证收敛到精确解。但是对于值函数近似的方法，可能会找到错误的解。
还有一个局限性，我们在下一节中讲述，依然是贝尔曼目标函数自身的问题。

6.贝尔曼误差的不可学习性

在机器学习中，我们说一个问题或者假设不可学习，实际上指的是这个问题或假设不能被有效的学习，也就是说，它本身需要的样本量很大，是指数级的，不是多项式级的，所以不可学习。但是这节我们所提到的不可学习指的是一般意义上的不可学习，也就是说即使有无穷多的样本，依然无法学习到某些量。贝尔曼误差就是不可学习的，因为我们不能从观测数据中学习贝尔曼误差。

example

看上述两个MRP例子，左边的MRP问题只有一个状态，下一个状态转移时有相同的概率转移到自身，并且获得0或2的回报。如果这个状态的特征向量x=1，那么该状态对应的状态值 $v=w^Tx=w$ .从这个MRP问题我们可以得到一个无限长的回报序列，序列中的值为0和2；右边的MRP问题有两个状态，左边的状态有同等的概率转移到自身或转移到右边的状态，获得的立即回报都是0，右边的状态也是如此，只不过获得的立即回报都是2.因此如果对这个MRP问题采样，我们得到的也都是0和2的序列，既然两个都是0和2的序列，那么该如何辨别到底是哪个MRP问题呢？
假设这里的折扣因子 $\gamma$ 是0，那么对应于上面的两个问题的三个状态的真实值就分别是1,0,2. 如果w=1，那么这两个MRP问题的值误差就分别是0和1。两个问题产生的数据样本分布是一样的，但是值误差却不一样，所以说值误差是不可学习的。所以就不饿能把它作为目标函数。
尽管值误差VE不可学习，也无法作为目标函数，但是上述依赖这个目标获得的解w对于上述两个问题来说都是最优的。这又该如何解释？
我们引入一个完全可学习的目标函数，这个目标函数是可观测到的，就是均方回报误差：
$\begin{aligned} \overline{\operatorname{RE}}(\mathbf{w}) &=\mathbb{E}\left[\left(G_{t}-\hat{v}\left(S_{t}, \mathbf{w}\right)\right)^{2}\right] \\ &=\overline{\operatorname{VE}}(\mathbf{w})+\mathbb{E}\left[\left(G_{t}-v_{\pi}\left(S_{t}\right)\right)^{2}\right] & \end{aligned}$
这个式子说明，两个目标函数一样，只不过这里多了一个方差项，这一项与w无关，在计算更新权重参数的时候进行求导，求导之后这一项就为0，所以这两个目标函数应该可以得到相同的最优解。

贝尔曼误差与值误差类似，我们可以借助MDP得到贝尔曼误差，但是并不能通过数据来学习贝尔曼误差。但是与值误差不同，值误差是可以用来求解最优解的，也就是说它的参数是可学习的。对于贝尔曼误差来讲，相同的数据分布可能带来不同的最优解，这就说明最优解与数据无关，因此无法通过数据来学习最优解。其他的基于自举的目标函数，比如投影贝尔曼误差PBE，时间差分误差TDE是依赖于数据的，因此是可以学习的。但是学到的最优参数是不同的，与基于贝尔曼误差学到的最优参数也不同。

总的来说，贝尔曼误差是不可学习的，我们是无法通过特征向量或者其他观测数据来估计贝尔曼误差。因此这限制了贝尔曼误差只能用于基于model的场景下，残差梯度算法能够最小化贝尔曼误差是因为允许从相同的状态访问两次，这里的状态指的就是状态本身，并不是相同的特征向量的对应的状态。

7.梯度TD方法

本节考虑采用SGD方法优化投影贝尔曼误差PBE。在线性近似的条件下，我们会得到一个精确解，也就是TD不动点（参考第九章LSTD），此时PBE为0.LSTD的计算复杂度为 $O(d^2)$ ，d指的是特征向量的维度，如果使用的是SGD方法的话，复杂度就变为了 $O (d)$ 。
投影贝尔曼误差PBE的梯度推导
既然要使用SGD方法，那么就需要对PBE求导，PBE的表达式为：
$\begin{aligned} \overline{\mathrm{PBE}}(\mathbf{w}) &=\left\|\Pi \overline{\delta}_{\mathbf{w}}\right\|_{\mu}^{2} \\ &=\left(\Pi \overline{\delta}_{\mathbf{w}}\right)^{\top} \mathbf{D} \Pi \overline{\delta}_{\mathbf{w}} & \\ &=\overline{\delta}_{\mathbf{w}}^{\top} \Pi^{\top} \mathbf{D} \Pi \overline{\delta}_{\mathbf{w}} \\ &=\overline{\delta}_{\mathbf{w}}^{\top} \mathbf{D} \mathbf{X}\left(\mathbf{X}^{\top} \mathbf{D} \mathbf{X}\right)^{-1} \mathbf{X}^{\top} \mathbf{D} \overline{\delta}_{\mathbf{w}} & \\ & \end{aligned}$
其中D是|S|x|S|大小的对角矩阵（对角矩阵的特性：其转置等于其本身），其对角元素分别是每个状态的on-policy分布概率 $\mu(s)$ ,对于线性近似，其贝尔曼投影算子也是线性的，可以用一个矩阵来表示：
$\Pi \doteq X(X^TDX)^{-1}X^TD$
$X^{|S|*d}$ 是特征向量矩阵，每一行是一个特征向量 $x(s)^{T}$ ,将其带入计算即可得：
$\Pi^{\top} \mathbf{D} \Pi=\mathbf{D}^{\top}\mathbf{X}[(\mathbf{X}^{\top} \mathbf{D} \mathbf{X})^{-1}]^{\top}\mathbf{X}^{\top} \mathbf{D} \mathbf{X} (\mathbf{X}^{\top} \mathbf{D} \mathbf{X})^{-1}\mathbf{X}^{\top} \mathbf{D}=\mathbf{D} \mathbf{X}\left(\mathbf{X}^{\top} \mathbf{D} \mathbf{X}\right)^{-1} \mathbf{X}^{\top} \mathbf{D}$
故此我们可以得到PBE的另一种表达方式
$\overline{\mathrm{PBE}}(\mathbf{w})=\left(\mathbf{X}^{\top} \mathbf{D} \overline{\delta}_{\mathbf{w}}\right)^{\top}\left(\mathbf{X}^{\top} \mathbf{D} \mathbf{X}\right)^{-1}\left(\mathbf{X}^{\top} \mathbf{D} \overline{\delta}_{\mathbf{w}}\right)$
对其求导可得
$\nabla \overline{\mathrm{PBE}}(\mathbf{w})=2 \nabla\left[\mathbf{X}^{\top} \mathbf{D} \overline{\delta}_{\mathbf{w}}\right]^{\top}\left(\mathbf{X}^{\top} \mathbf{D} \mathbf{X}\right)^{-1}\left(\mathbf{X}^{\top} \mathbf{D} \overline{\delta}_{\mathbf{w}}\right)$
为了使用SGD的方法我们需要把上式写成期望表达式的形式，对应的SGD就是采样来近似这样一个期望值。为此，我们可以用 $\mu$ 表示行为策略下状态的分布，上面几项都可以写作期望的形式：
$\mathbf{X}^{\top} \mathbf{D} \overline{\delta}_{\mathbf{w}}=\sum_{s} \mu(s) \mathbf{x}(s) \overline{\delta}_{\mathbf{w}}(s)=\mathbb{E}\left[\rho_{t} \delta_{t} \mathbf{x}_{t}\right]$
将X,D, $\delta$ 矩阵按向量展开后按照上述次序相乘即可得到相应的结果。这个结果刚好是:离线策略下半梯度TD(0)更新公式的期望

$\begin{aligned} \nabla \mathbb{E}\left[\rho_{t} \delta_{t} \mathbf{x}_{t}\right]^{\top} &=\mathbb{E}\left[\rho_{t} \nabla \delta_{t}^{\top} \mathbf{x}_{t}^{\top}\right] \\ &=\mathbb{E}\left[\rho_{t} \nabla\left(R_{t+1}+\gamma \mathbf{w}^{\top} \mathbf{x}_{t+1}-\mathbf{w}^{\top} \mathbf{x}_{t}\right)^{\top} \mathbf{x}_{t}^{\top}\right] & \\ &=\mathbb{E}\left[\rho_{t}\left(\gamma \mathbf{x}_{t+1}-\mathbf{x}_{t}\right) \mathbf{x}_{t}^{\top}\right] \end{aligned}$
其中：
$\mathbf{X}^{\top} \mathbf{D X}=\sum_{s} \mu(s) \mathbf{x}_{s} \mathbf{x}_{s}^{\top}=\mathbb{E}\left[\mathbf{x}_{t} \mathbf{x}_{t}^{\top}\right]$

把上述这些结论带入到PBE的求解公式中：
$\nabla \overline{\mathrm{PBE}}(\mathbf{w})=2 \mathbb{E}\left[\rho_{t}\left(\gamma \mathbf{x}_{t+1}-\mathbf{x}_{t}\right) \mathbf{x}_{t}^{\top}\right] \mathbb{E}\left[\mathbf{x}_{t} \mathbf{x}_{t}^{\top}\right]^{-1} \mathbb{E}\left[\rho_{t} \delta_{t} \mathbf{x}_{t}\right]$
有了这个期望的形式之后，依然无法高效的通过采样获得梯度的更新公式。上述三个期望的乘积中，第一个和第三个是相关的，都依赖于下一个状态 $x_{t+1}$ ，所以不能简单的对每个期望采样然后乘起来，这样就会得到一个有偏估计。这个问题就和之前的原始残差梯度算法的问题是一样的。
另一种思路就是单独的估计上述三个期望模型，然后结合三者产生无偏的梯度估计。但是这样一来就需要大量的计算，第一个期望中需要计算两个矩阵的外积，第二项期望还需要求解矩阵的逆。我们可以先估计三个期望中两个期望的乘积，然后再采样第三个期望。比如可以先计算存储后两个期望的乘积然后再采样第一个期望的表达式。但是这个复杂度依然是 $O(d^2)$ .
梯度TD方法
梯度TD方法与上面提到的思路一致，先估计出PBE表达式中后两项期望的乘积，这两项的维度分别是dxd和d维向量，所以乘积也是一个向量。把这两项的乘积表示为向量v：
$\mathbf{v} \approx \mathbb{E}\left[\mathbf{x}_{t} \mathbf{x}_{t}^{\top}\right]^{-1} \mathbb{E}\left[\rho_{t} \delta_{t} \mathbf{x}_{t}\right]$
这个形式与线性最小二乘法的结果类似，类比发现，v相当于是线性问题 $\mathbf{v}^{\top} \mathbf{x}_{t}=\rho_{t} \delta_{t}$ 的解。我们可以利用如下规则更新得到v：
$\mathbf{v}_{t+1} \doteq \mathbf{v}_{t}+\beta \rho_{t}\left(\delta_{t}-\mathbf{v}_{t}^{\top} \mathbf{x}_{t}\right) \mathbf{x}_{t}$
也就是说我们要计算v，需要估计外积矩阵的期望，还要求逆，对比一下就会发现这个v是一个LS问题的解，所以我们就可以使用SGD迭代更新v，进而间接的计算得到上述定义的向量v。这个求解的空间复杂度仅仅是 $O (d)$ 。
利用SGD就可以得到参数向量 $w_t$ 的更新规则：
$\begin{aligned} \mathbf{w}_{t+1} &=\mathbf{w}_{t}-\frac{1}{2} \alpha \nabla \overline{\mathrm{PBE}}\left(\mathbf{w}_{t}\right) & \text{(SGD规则)}\\ &=\mathbf{w}_{t}-\frac{1}{2} \alpha 2 \mathbb{E}\left[\rho_{t}\left(\gamma \mathbf{x}_{t+1}-\mathbf{x}_{t}\right) \mathbf{x}_{t}^{\top}\right] \mathbb{E}\left[\mathbf{x}_{t} \mathbf{x}_{t}^{\top}\right]^{-1} \mathbb{E}\left[\rho_{t} \delta_{t} \mathbf{x}_{t}\right] & \\ &=\mathbf{w}_{t}-\frac{1}{2} \alpha 2 \mathbb{E}\left[\rho_{t}\left(\gamma_{t}-\gamma \mathbf{x}_{t+1}\right) \mathbf{x}_{t}^{\top}\right] \mathbb{E}\left[\mathbf{x}_{t} \mathbf{x}_{t}^{\top}\right]^{-1} \mathbb{E}\left[\rho_{t} \delta_{t} \mathbf{x}_{t}\right] & \\ & \approx \mathbf{w}_{t}+\alpha \mathbb{E}\left[\rho_{t}\left(\mathbf{x}_{t}-\gamma \mathbf{x}_{t+1}\right) \mathbf{x}_{t}^{\top}\right] \mathbf{V}_{t} & \\ & \approx \mathbf{w}_{t}+\alpha \rho_{t}\left(\mathbf{x}_{t}-\gamma \mathbf{x}_{t+1}\right) \mathbf{x}_{t}^{\top} \mathbf{v}_{t} & \text{(采样)} \end{aligned}$
这个算法叫做GTD2 。
对上式进行整理即可得到下面的结果：
$\begin{aligned} \mathbf{w}_{t+1} &=\mathbf{w}_{t}+\alpha \mathbb{E}\left[\rho_{t}\left(\mathbf{x}_{t}-\gamma \mathbf{x}_{t+1}\right) \mathbf{x}_{t}^{\top}\right] \mathbb{E}\left[\mathbf{x}_{t} \mathbf{x}_{t}^{\top}\right]^{-1} \mathbb{E}\left[\rho_{t} \delta_{t} \mathbf{x}_{t}\right] \\ &=\mathbf{w}_{t}+\alpha\left(\mathbb{E}\left[\rho_{t} \mathbf{x}_{t} \mathbf{x}_{t}^{\top}\right]-\gamma \mathbb{E}\left[\rho_{t} \mathbf{x}_{t+1} \mathbf{x}_{t}^{\top}\right]\right) \mathbb{E}\left[\mathbf{x}_{t} \mathbf{x}_{t}^{\top}\right]^{-1} \mathbb{E}\left[\rho_{t} \delta_{t} \mathbf{x}_{t}\right] \\ &=\mathbf{w}_{t}+\alpha\left(\mathbb{E}\left[\mathbf{x}_{t} \mathbf{x}_{t}^{\top}\right]-\gamma \mathbb{E}\left[\rho_{t} \mathbf{x}_{t+1} \mathbf{x}_{t}^{\top}\right]\right) \mathbb{E}\left[\mathbf{x}_{t} \mathbf{x}_{t}^{\top}\right]^{-1} \mathbb{E}\left[\rho_{t} \delta_{t} \mathbf{x}_{t}\right] \\ &=\mathbf{w}_{t}+\alpha\left(\mathbb{E}\left[\mathbf{x}_{t} \rho_{t} \delta_{t}\right]-\gamma \mathbb{E}\left[\rho_{t} \mathbf{x}_{t+1} \mathbf{x}_{t}^{\top}\right] \mathbb{E}\left[\mathbf{x}_{t} \mathbf{x}_{t}^{\top}\right]^{-1} \mathbb{E}\left[\rho_{t} \delta_{t} \mathbf{x}_{t}\right]\right) \\ &\approx \mathbf{w}_{t}+\alpha\left(\mathbb{E}\left[\mathbf{x}_{t} \rho_{t} \delta_{t}\right]-\gamma \mathbb{E}\left[\rho_{t} \mathbf{x}_{t+1} \mathbf{x}_{t}^{\top}\right] \mathbf{v}_{t}\right) & \\ &\approx \mathbf{w}_{t}+\alpha \rho_{t}\left(\delta_{t} \mathbf{x}_{t}-\gamma \mathbf{x}_{t+1} \mathbf{x}_{t}^{\top} \mathbf{v}_{t}\right) & \text{(采样)} \end{aligned}$
构成的这个新的算法叫做梯度矫正的TD(0),简称TDC，或者也可以叫做GTD(0).

GTD2和TDC都包含了w、v两个学习过程，前者的学习依赖于后者。学习w是我们的主要目的，也就是首要学习过程；相应的v是次要学习过程。学习w依赖于v，学习v并不依赖w，这样一种非对称依赖性称为级联。在一个级联系统中，总要假设次要学习过程很快以至于它们总是处在渐进值，并且能够精确的辅助首要学习过程。对于这类系统的收敛性证明叫做two-time scale证明（双时间尺度证明）。

8. Emphatic-TD方法

之前我们提到过死亡三角，当离线策略、自举、函数近似这三个问题，当三者同时出现的时候会出现收敛性的问题。上一节我们介绍了几种用来克服这种问题的方法，本节主要讲的内容是如何在保证收敛性的前提下，获得切实可行的，计算量小而且又高效的函数近似方法。
对于线性的半梯度TD(0)方法在on-policy的情况下是高效的并且可以收敛。在off-policy的情况下，通过重要性采样的技巧用来纠正状态转移概率的偏差，但是状态的分布依然是behavior policy下的分布。要想确保算法的稳定性，就必须解决这种状态分布的不匹配现象。可以通过重视/强调一些状态和忽视一些状态的思想恢复on-policy下的更新的分布。这就是emphatic-TD的思想。
单步emphatic-TD算法： `
$\begin{array}{l} {\delta_{t}=R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)} \\ {\mathbf{w}_{t+1}=\mathbf{w}_{t}+\alpha M_{t} \rho_{t} \delta_{t} \nabla \hat{v}\left(S_{t}, \mathbf{w}_{t}\right)} \\ {M_{t}=\gamma \rho_{t-1} M_{t-1}+I_{t}} \end{array}$
第一个公式是T加粗样式D error，第二个就是权重更新公式，与之前的TD(0)相比，区别在于增加了一个强调因子 $M_t$ , $M_t$ 的更新公式如第三个所示， $I_t$ 根据实际情况进行设置。具体的关于 $M_t$ 的计算和更新参考第九章的兴趣和强调部分内容。
emphatic-TD方法在baird例子上的表现如图所示：

可以看到，最终权重参数收敛，值误差为0，这里采用的是期望更新的方式，并没有直接使用emphatic-TD方法，因为更新参数的方差大，下一节将讲解如何减小这些方差。

9. 减小方差

off-policy方法本质上就比on-policy的方差大。如果我们的数据来自一个和目标policy不太相关的policy，那么我们所能学到target policy的可能性就越小。就好比我们并不能从如何打球中学到如何控制机械臂运动一样。只有目标策略和行为策略有一定的相关性才能通过off-policy训练得到很好的学习效果。另外一方面，任何一个策略也有很多邻居，也就是与之有很多相似点的policy，无论是状态访问还是动作选择都有一定的相似性，但是又不是完全一样的。off-policy的意义就在于使这些相似但不完全一样的policy能够泛化。现在已经有方法可以使其在期望值上保持稳定，那么关心的下一个问题就是估计的方差大小。

重要性采样比涉及到多个策略比例因子的乘积，尽管其期望是等于1，但实际中其值可能会非常大或者是接近于0. 在半梯度方法中，权重的更新依赖于重要性采样因子和TD error以及梯度之间的乘积，所以如果方差太大就会导致权重更新很大，对于SGD来说是有一定问题的。SGD是通过采样的加权平均获得一个比较合理的梯度估计，如果更新步长很大的话，那么SGD就不可信。如果将步长参数设置很小来克服这个问题，但是更新的期望值会很小，学习就会缓慢。

引入重要性采样因子后降低方差的方法：之前介绍的树备份、加权重要性采样以及动量法(Derthick, 1984)、Polyak-Ruppert平均法(Polyak, 1990; Ruppert, 1988; Polyak and Juditsky, 1992)、分别针对每个参数设计不同的步长(Jacobs, 1988; Sutton, 1992)。

总结

off-policy具有一定的挑战，如何设计又稳定又高效的off-policy算法是一个值得深思的问题。为什么要用off-policy方法？首先其可以解决探索和利用的问题，off-policy下的behavior-policy和target-policy是不一样的。比如目标策略是一个确定性策略，行为策略是一个随机策略，随机策略自然有助于探索了。同时离线策略的更新机制可以保证我们能够学习到目标策略的某些特性。而且离线策略的方式可以使得我们自由的选择行为策略。

本章也提到了基于近似方法的离线策略的一些挑战，一部分是来自于离线策略本身，高方差基本上是离线策略的一个通病。另一个挑战就是半梯度TD方法，存在稳定性的问题，本章为了解决这个问题，最主要的思路是利用真正的SGD方法最小化贝尔曼误差，但是分析表明我们只能观测到特征向量，并不是状态本身，因此无法直接从这些特征数据当中学到贝尔曼误差。另一类就是梯度TD方法，利用SGD最小化投影贝尔曼误差，虽然他是可学习的，但是需要计算额外的参数。

你可能感兴趣的:(#,RL,An,Introduction,2nd读书笔记,强化学习,深度学习)

PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
图生视频技术的发展与展望：从技术突破到未来图景 Liudef06 Stable Diffusion 音视频人工智能深度学习 stable diffusion
一、技术发展现状图生视频（Image-to-VideoGeneration）是生成式人工智能（AIGC）的重要分支，其核心是通过单张或多张静态图像生成动态视频序列。近年来，随着深度学习、多模态融合和计算硬件的进步，图生视频技术经历了从基础研究到商业落地的快速演进。早期探索与GAN的奠基早期图生视频技术主要基于生成对抗网络（GAN），通过对抗训练生成低分辨率的视频片段。例如，DeepMind的DVD
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
书籍-《控制理论的数学导论（第三版）》机器人数学
书籍：AMathematicalIntroductiontoControlTheory作者：ShlomoEngelberg出版：WorldScientificPublishingCompany编辑：陈萍萍的公主@一点人工一点智能下载：《控制理论的数学导论（第三版）》01书籍介绍本书在数学严谨性和工程应用之间达到了完美的平衡，有助于学生全面理解控制理论的数学和工程层面。本书不仅有效运用了MATLAB
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
Rust为Node.js开发者设计：入门到实战平依佩Ula
Rust为Node.js开发者设计：入门到实战rust-for-node-developersAnintroductiontotheRustprogramminglanguageforNodedevelopers.项目地址:https://gitcode.com/gh_mirrors/ru/rust-for-node-developers项目介绍欢迎来到《Rust为Node.js开发者设计》的实践
Ai时代初期全球不同纬度的层级辐射现象龙胥伯人工智能
基于最新研究成果与行业动态，AI时代的"层级辐射"现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短。这种技术突破推动AI从实验室走向规模化应用，在智能制造、生物医药等领域催生新生态。大语言模型的训练方式（预训练→多任务学习→强化学习
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
PyTorch 深度学习博客 Zoro｜ PyTorch Deep Learning 人工智能
PyTorch深度学习博客欢迎来到我的PyTorch深度学习博客！在这里，我将分享使用PyTorch学习和实践深度学习项目的点滴经验。本博客适用于初学者和有一定基础的开发者，旨在帮助大家快速搭建环境、掌握核心概念，并通过实例了解实际应用。环境配置为了确保项目的稳定性和兼容性，我选择了Python3.9环境，并在conda创建的虚拟环境中运行最新且稳定的PyTorch版本2.6.0。1.创建Pyth
深度学习五大模型：CNN、Transformer、BERT、RNN、GAN详细解析深度学习
卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分类或回归计算。CNN利用卷积操作实现局部连接和权重共享，能够自动学习数据中的空间特征。适用场景：广泛应用于图像处理相关的
算力技术创新驱动多场景应用演进智能计算研究中心其他
内容概要算力技术创新正成为数字经济时代的基础性驱动力，从异构计算架构的多元融合到量子计算的颠覆性突破，技术演进不断突破物理与算法的双重边界。在工业互联网场景中，边缘计算通过分布式节点实现毫秒级响应，支撑智能制造产线的实时控制；智能安防系统依托深度学习模型与流计算技术，完成海量视频数据的动态解析；而科学计算领域通过分布式计算与模型压缩技术，将基因测序、气候模拟等复杂任务的效率提升至新量级。值得注意的
AI模型技术前沿与跨场景应用实践智能计算研究中心其他
内容概要当前AI模型技术正呈现多维度突破与跨领域融合的特征。从技术演进角度看，可解释性模型与量子计算框架的协同发展正在突破传统黑箱限制，而联邦学习、自适应优化等技术则为复杂场景建模提供了新的方法论支撑。应用层面，TensorFlow与PyTorch框架在医疗影像诊断、金融时序预测等领域的实战案例，验证了深度学习模型在垂直行业的泛化能力。值得关注的是，工具链整合已成为技术落地的关键环节，MXNet与
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S