白水baishui

Soft Actor Critic算法论文公式详解

SAC强化学习算法是伯克利大学团队2018年在ICML(International Conference on Machine Learning)上发表的论文，本篇博客来总结一下论文里的公式及其涵义。

论文地址：Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

文章目录

- - 1. 符号说明
  - 1. 累计平均回报
  - - 1.1. 熵探索策略
    - 1.2. 附录A：无限马尔科夫决策过程
  - 2. Soft 策略迭代
  - - 2.1. Soft V函数的推导过程
    - 2.2. 引理1：Soft 策略评估
    - - 2.2.2. 引理1：Soft 策略评估的收敛性证明
      - 2.2.3. 引理1：Soft 策略评估的收敛性证明的推导过程
    - 2.3. Soft 策略改进
    - - 2.3.1. 引理2：Soft 策略改进
      - 2.3.2. 引理2：Soft 策略改进证明
    - 2.4. 定理1：Soft 策略迭代
  - 5. Soft Actor-Critic
  - - 5.1. 状态-值函数 Soft V
    - 5.2. 状态-动作-值函数 Soft Q
    - 5.3. 策略 $\pi$
  - 6. 算法训练流程

1. 符号说明

马尔科夫决策过程： $(\mathcal{S},\mathcal{A},p,r)$ 其中， $\mathcal{S}$ 为状态空间； $\mathcal{A}$ 为动作空间；未知的状态转移概率 $p:\mathcal{S}\times\mathcal{S}\times\mathcal{A}\to [0,\infty)$ 表示给定当前状态 $s_t\in\mathcal{S}$ 和动作 $a_t\in \mathcal{A}$ 时下一个状态 $s_{t+1}\in \mathcal{S}$ 的概率密度；环境在每次状态转移时获得一个有界的立即回报 $r:\mathcal{S}\times\mathcal{A}\to[r_{\min}, r_{\max}]$ ； $\rho_{\pi}(s_t)$ 和 $\rho_{\pi}(s_t,a_t)$ 分别表示由策略 $\pi(a_t|s_t)$ 产生的轨迹的边缘状态、状态-动作分布(边缘即当前时刻的意思)。

1. 累计平均回报

SAC算法设定了一个最大熵目标 $r(s_t,a_t)+\alpha\mathcal{H}(\pi(·|s_t))$ ，它通过最大化累计最大熵目标的期望值 $J(\pi)$ （累计平均回报）来使策略 $\pi$ 随机化，如公式(1)：
$J(\pi)=\sum_{t=0}^{T}\mathbb{E}_{(s_t,a_t)\sim\rho_\pi}[r(s_t,a_t)+\alpha\mathcal{H}(\pi(·|s_t))]$ 其中， $r(s_t,a_t)$ 表示普通的立即回报项； $\mathcal{H}(\pi(·|s_t))$ 表示熵回报项； $\alpha$ 是温度参数(权重)，它决定了熵项对立即回报的相对重要性，从而控制了最优策略的随机性，在下文中凡是涉及到熵项的都应带上权重 $\alpha$ ，只是有时会略写。

1.1. 熵探索策略

熵回报项 $\mathcal{H}(\pi(·|s_t))$ 是如何产生随机策略的？我们来看到信息熵的数学公式： $\mathcal{H}(X)=\mathbb{E}[-\log P(X)]=-\mathbb{E}_{x_i}\log P(x_i)$ 其中， $x_i$ 是随机变量； $P(x_i)$ 是随机变量出现的概率。需要注意，由于概率值 $P(x_i)\in [0,1]$ ，因此 $\log P(x_i)\leqslant 0$ ，即 $\mathcal{H}(X)\geqslant 0$ 。

当我们使用随机策略而不是确定性策略时，策略 $\pi(s_t,a_t)$ 就代表在状态 $s_t$ 时 $a_t$ 被选择的概率。此时可得推导式(1)： $\mathcal{H}(\pi(\cdot|s_{t}))=-\mathbb{E}_{a_t\sim \pi}\log \pi(a_t|s_t)=-\log \pi(·|s_t)$

可以看到，策略 $\pi$ 产生的动作越确定，即某些动作被选择的概率远大于其他大部分动作，那么其他大部分动作被选择的概率就相对较小，熵期望值就会越大；反之，若策略 $\pi$ 产生的动作越不确定，即各个动作被选择的概率较为平均，熵值就越趋向于0。

可能上面的话不是很直观，下面我们举个例子。假设现在有5个动作可供选择，不同策略 $\pi$ 产生动作的概率分别有以下两种情况：

pi_1 = [0.2, 0.2, 0.2, 0.2, 0.2];
pi_2 = [0.1, 0.1, 0.6, 0.1, 0.1];

下图分别是两种策略产生动作概率的示意图，柱子上面的数字就是该动作当前概率下的熵值，所有动作熵值求期望之后就得到了该策略的熵值。

可以看出，左图的 $\mathcal{H}(\pi_1(\cdot|s_{t}))=0.7$ ，要小于右图的 $\mathcal{H}(\pi_2(\cdot|s_{t}))=0.844$ 。

熵探索的特性有利于加快策略的收敛速度(朝熵值最大化的方向收敛)，同时由于动作的选择是概率性的，因此策略可以进行更广泛的探索，当有多个较优动作时(即概率值较高且接近)，可以获取多个较优动作而不是选择最优的一个。

1.2. 附录A：无限马尔科夫决策过程

公式(1) 所描述的优化目标是一次交互的最大熵目标，若要将优化目标扩展为无限马尔科夫决策过程，且允许交互轨迹不完整，则要引入折扣因子 $\gamma$ ，这时优化目标 $J(\pi)$ 定义为公式(14)： $J(\pi)=\sum_{t=0}^{\infty}\mathbb{E}_{(s_t,a_t)\sim\rho_\pi}\biggl[\sum_{l=t}^{\infty}\gamma^{l-t}\mathbb{E}_{s_l\sim p,a_l\sim \pi}[r(s_t,a_t)+\alpha\mathcal{H}(\pi(·|s_t))]\biggr]$

这样的定义是将未来的回报全部折现到 $l = t$ 时刻，从这个角度理解，公式(1) 与公式(14) 就可以进行如下对比：
$J(\pi)^T=\sum_{t=0}^{T}\mathbb{E}_{(s_t,a_t)\sim\rho_\pi}[G_t^{cur}]$ $J(\pi)^\infty=\sum_{t=0}^{\infty}\mathbb{E}_{(s_t,a_t)\sim\rho_\pi}[G_t^{dis}]$ $G_t^{cur}$ 只包括了状态 $s_t$ 时的现值回报， $G_t^{dis}$ 包括了当前状态 $s_t$ 时的现值回报以及未来 $\infty-l$ 个状态的折现回报。虽然我这里写的是 $\infty-l$ ，但实际上，由于 $\gamma^{l-t}$ 在不断减小， $\infty$ 一定是有一个大于 $l$ 的终止值的。

2. Soft 策略迭代

最大熵策略的策略迭代过程称为Soft策略迭代，它分为两个步骤：(1)Soft 策略评估；(2)Soft 策略改进。

在Soft策略迭代中，对于固定的策略 $\pi$ ，任何函数 $Q:\mathcal{S}\times\mathcal{A}\to \mathbb{R}$ 开始，应用贝尔曼算子 $\mathcal{T}^\pi$ 可得Soft Q值，表示为公式(2)：
$\mathcal{T}^{\pi}Q(s_t,a_t)\triangleq r(a_t,s_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[V(s_{t+1})]$ 其中，状态-值函数 $V(s_{t+1})$ 由公式(3) 表示：
$V(s_t)=\mathbb{E}_{a_t\sim\pi}[Q(s_t,a_t)-\log(\pi(a_t|s_t))]$ 这里的状态-值函数称为Soft V函数，通过重复应用贝尔曼算子 $\mathcal{T}^\pi$ ，得到任何策略 $\pi$ 的Soft V函数。

贝尔曼算子 $\mathcal{T}^\pi$ 是一种操作符，它表示对当前的价值函数集 $V$ 利用贝尔曼方程进行更新。

2.1. Soft V函数的推导过程

由强化学习的定义可知， $V$ 函数是指状态值函数，表示状态 $s_t$ 时的价值； $Q$ 函数是指状态-动作-值函数，表示在状态 $s_t$ 时执行的动作 $a_t$ 的价值，它们之间有如下关系： $V(s_t)=\mathbb{E}_{a_t\sim\pi}[Q(s_t,a_t)]$ 也即， $V$ 函数等于 $Q$ 函数对动作求期望。但这个公式中的 $Q$ 函数是不含熵项的，而SAC所采用的最大熵回报中含有熵项，因此需要将熵值加入到 $Q$ 函数的值中，这个 $Q$ 函数才是soft $Q$ 函数，才能得出soft $V$ 函数的值，再结合推导式(1)，最终表达为公式(3)：

$\begin{aligned} V(s_t) & = \mathbb{E}_{a_t\sim\pi}[Q(s_t,a_t)+\mathcal{H}(\pi(·|s_t))] \\ & = \mathbb{E}_{a_t\sim\pi}[Q(s_t,a_t)-\log(\pi(a_t|s_t))] \\ \end{aligned}$

2.2. 引理1：Soft 策略评估

由于在 $Q$ 函数的映射 $Q^0:\mathcal{S}\times\mathcal{A}\to\mathbb{R}$ 中，动作空间 $|\mathcal{A}|<\infty$ ，即动作空间有限，因此由**公式(2)**所定义的Soft Q值更新公式 $Q^{k+1}=\mathcal{T}^{\pi}Q^k$ 在固定策略 $\pi$ 下，当 $k\to\infty$ 时一定是收敛的。

2.2.2. 引理1：Soft 策略评估的收敛性证明

首先，将当前策略 $\pi$ 下的立即回报记为： $r_\pi(s_t,a_t)\triangleq r(s_t,a_t)+\mathbb{E}_{s_{t+1}\sim p}[\alpha\mathcal{H}(\pi(·|s_t))]$ 注意，原文的这个公式没有写熵的权重 $\alpha$ ，是作者省略了，而不是它不存在。另外，由于策略 $\pi$ 确定，因此 $a_t=\pi(s_t)$ 确定，所以无需再强调策略的期望值 $\mathbb{E}_{a_t\sim \pi}$ 。

那么此时Soft Q函数的更新公式就表示为公式(15)： $Q(s_t,a_t)\leftarrow r_\pi(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}\sim p,a_{t+1}\sim \pi}[Q(s_{t+1},a_{t+1})]$ 在公式(15) 中，若满足动作空间 $|\mathcal{A}|<\infty$ ，则 $r_\pi(s_t,a_t)$ 是有限的，且当 $k\to\infty$ 时， $\gamma$ 值逐渐减小，保证了 $Q(s_t,a_t)$ 是有界的。

2.2.3. 引理1：Soft 策略评估的收敛性证明的推导过程

尽管原文写了收敛性的最终导出，但是省略了一些中间步骤，在这里补上。
首先由公式(2) 和公式(3) 和推导式(1) 可得推导式(2)： $\begin{cases} \mathcal{T}^{\pi}Q(s_t,a_t)\triangleq r(a_t,s_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[V(s_{t+1})] \\ V(s_t)=\mathbb{E}_{a_t\sim\pi}[Q(s_t,a_t)-\log(\pi(a_t|s_t))] \\ \mathcal{H}(\pi(\cdot|s_{t}))=-\mathbb{E}_{a_t\sim \pi}\log \pi(a_t|s_t) \end{cases}\Rightarrow$

$\begin{aligned} \mathcal{T}^{\pi}Q(s_t,a_t) & \triangleq r(a_t,s_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[\mathbb{E}_{a_t\sim\pi}Q(s_{t+1},a_{t+1})+\mathcal{H}(\pi(·|s_t))] \\ & \overset{\pi(s_t)}{=} r(a_t,s_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[\mathcal{H}(\pi(·|s_t))]+\gamma\mathbb{E}_{s_{t+1}\sim p,a_{t+1}\sim\pi}[Q(s_{t+1},a_{t+1})] \\ & \overset{\gamma^0=1}{=} r(a_t,s_t)+\mathbb{E}_{s_{t+1}\sim p}[\mathcal{H}(\pi(·|s_t))]+\gamma\mathbb{E}_{s_{t+1}\sim p,a_{t+1}\sim\pi}[Q(s_{t+1},a_{t+1})] \\ & = r_\pi(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}\sim p,a_{t+1}\sim\pi}[Q(s_{t+1},a_{t+1})] \\ Q(s_t,a_t)& \leftarrow r_\pi(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}\sim p,a_{t+1}\sim \pi}[Q(s_{t+1},a_{t+1})] \\ \end{aligned}$

再稍微解释一下，第一步，由于策略 $\pi$ 是确定的 $s_t$ 状态下的策略，因此带入的时候不需要把 $\mathcal{H}(\pi(·|s_t))$ 写成 $\mathcal{H}(\pi(·|s_{t+1}))$

第一步到第二步是由于 $t$ 时刻的策略 $\pi$ 是确定的，因此在状态 $s_t$ 时，动作 $a_t=\pi(s_t)$ 是确定的，无需再估算动作的期望值；

第二步到第三步是由于 $\mathbb{E}_{s_{t+1}\sim p}[\mathcal{H}(\pi(·|s_t))]$ 是立即回报值的一部分，不需要进行折扣， $\gamma\triangleq \gamma^0=1$ ；

第三部到第四部由2.1.2.中提到的公式 $r_\pi(s_t,a_t)\triangleq r(s_t,a_t)+\mathbb{E}_{s_{t+1}\sim p}[\alpha\mathcal{H}(\pi(·|s_t))]$ 得到。

2.3. Soft 策略改进

Soft 策略 $\pi$ 是通过Soft Q值的相对大小来给动作赋予被选择的概率的，因此在Soft 策略改进中，首先需要将预测Soft Q值转化到指数函数上，这样保证了概率的非负性。
$\exp(Q^\pi(s_t,·))$

下一步，为了确保各个Soft Q值转化后的概率之和等于1。需要将转换后的结果进行归一化处理。方法就是将转化后的结果除以所有转化后结果之和，可以理解为转化后结果占总数的百分比。这样就得到近似的概率。 $\frac{\exp(Q^{\pi}(s_t,·))}{Z^{\pi}(s_t)}$ 实际上，这个策略 $\pi$ 产生动作概率的过程就是一个SoftMax的过程，最终结果就是输出了当前策略 $\pi$ 时每个动作被选择概率的分布情况。

到这里，由旧策略 $\pi_{old}$ 向新策略 $\pi_{new}$ 更新的过程就可以表示为公式(4)：

$\pi_{new}=\argmin_{\pi'\in\prod}D_{KL}\Bigl(\pi'(·|s_t)\Vert\frac{\exp(Q^{\pi_{old}}(s_t,·))}{Z^{\pi_{old}}(s_t)}\Bigr)$ 这个更新公式使用了KL散度来做分布投影，简单来说，KL散度的作用就是衡量两个分布之间的差异。通过在策略空间 $\prod$ (所有动作概率值的组合空间)中，寻找与 $\frac{\exp(Q^{\pi}(s_t,·))}{Z^{\pi}(s_t)}$ 最相似的分布 $\pi'$ 来作为新的策略 $\pi_{new}=\pi'\in\prod$ 。

注意这里的 $\frac{\exp(Q^{\pi}(s_t,·))}{Z^{\pi}(s_t)}$ 虽然产生自 $\pi_{old}$ ，但由于策略的随机性， $\frac{\exp(Q^{\pi}(s_t,·))}{Z^{\pi}(s_t)}$ 并不完全等于 $\pi_{old}$ 。

2.3.1. 引理2：Soft 策略改进

设 $\pi_{old}\in\prod$ 以及 $\pi_{new}$ 是由公式(4) 生成当前状态 $s_t$ 下的最优策略。那么当满足 $(s_t,a_t)\in \mathcal{S}\times\mathcal{A}$ 且 $|\mathcal{A}|<\infty$ 时一定会有 $Q^{\pi_{new}}(s_t,a_t)\geqslant Q^{\pi_{new}}(s_t,a_t)$

2.3.2. 引理2：Soft 策略改进证明

首先，我们定义 $Q^{\pi_{old}}$ 和 $V^{\pi_{old}}$ 是在策略 $\pi_{old}$ 下产生的Soft Q值和Soft V值，那么有公式(4) 可得公式(16)：
$\begin{aligned} \pi_{new} &=\argmin_{\pi'\in\prod}D_{KL}\Bigl(\pi'(·|s_t)\Vert\frac{\exp(Q^{\pi_{old}}(s_t,·))}{Z^{\pi_{old}}(s_t)}\Bigr) \\ & = \argmin_{\pi'\in\prod}D_{KL}\Bigl(\pi'(·|s_t)\Vert\exp(Q^{\pi_{old}}(s_t,·)-\log Z^{\pi_{old}}(s_t))\Bigr) \\ & = \argmin_{\pi'\in\prod} J_{\pi_{old}}(\pi'(·|s_t)) \\ \end{aligned}$ 其中， $J_{\pi_{old}}(\pi'(·|s_t))$ 是指 $\pi_{old}$ 在当前状态 $s_t$ 时所产生的动作概率分布与 $\pi'(·|s_t)$ 的KL散度，也就是它们之间的差异大小。

并不显而易见的是，由公式(16) 一定导出这样的情况： $J_{\pi_{old}}(\pi_{new}(·|s_t))\leqslant J_{\pi_{old}}(\pi_{old}(·|s_t))$ 初一看这个公式好像有点反直觉， $\pi_{old}$ 与 $\pi_{new}(·|s_t)$ 的KL散度怎么会小于 $\pi_{old}$ 与 $\pi_{old}(·|s_t)$ 的KL散度呢？明明 $\pi_{old}$ 与 $\pi_{old}$ 的分布是一样的，KL散度不应该对于0吗？但实际上，策略 $\pi_{old}$ 产生的是随机策略，因此它作为一个固定策略不一定能很好的表示当前状态 $s_t$ 时它自身产生的动作概率分布，正相反，由于 $\pi_{new}(·|s_t)$ 是当前状态 $s_t$ 时动作概率分布的近似分布。因此在当前的状态 $s_t$ 时，有 $J_{\pi_{old}}(\pi_{new}(·|s_t))\leqslant J_{\pi_{old}}(\pi_{old}(·|s_t))$ 。

举个不恰当的例子（只是为了理解），抛一枚硬币采正反面的次数，在大数定理下我们知道正面的次数会等于反面的次数，但实际上通常都不会正好是这样的情况。比如我们抛10次硬币，很可能出现7次正面、3次反面的情况，那么这时正反面的分布情况就是7:3，而不是5:5，这时 $\pi_{new}=7:3$ 就比 $\pi_{old}=5:5$ 更符合既成事实。

由此可以得到公式(17)： $\mathbb{E}_{a_{t}\sim\pi_{new}}[\log{\pi_{new}(a_t|s_t)}-Q^{\pi_{old}}(s_t,a_t)+\log{Z^{\pi_{old}}(s_t)}] \leqslant \mathbb{E}_{a_{t}\sim\pi_{old}}[\log{\pi_{old}(a_t|s_t)}-Q^{\pi_{old}}(s_t,a_t)+\log{Z^{\pi_{old}}(s_t)}]$ 重复一遍，由于 $\pi_{new}$ 与 $\pi_{old}$ 在当前状态 $s_t$ 时所产生的随机动作概率分布 $Q^{\pi_{old}}(s_t,a_t)+\log{Z^{\pi_{old}}(s_t)}$ 更相似，因此它们相减的结果会小于 $\pi_{old}$ 与 $\pi_{old}$ 在当前状态 $s_t$ 时所产生的随机动作概率分布 $Q^{\pi_{old}}(s_t,a_t)+\log{Z^{\pi_{old}}(s_t)}$ 相减的结果，该计算式的作用于KL散度一致，都衡量了两个分布之间的差别。

多说一句，我上面这段话只强调了 $\pi(a_t|s_t)$ ，但其熵值的结果也一样，因为策略 $\pi_{new}$ 对当前状态的不确定性更小，因此它的熵值： $-\log{\pi_{new}(a_t|s_t)}$ 比 $\pi_{old}$ 更大，所以可以得出 $\log{\pi_{new}(a_t|s_t)}$ 更小。

由于 $Z^{\pi_{old}}(s_t)$ 是归一化项，对不等式关系不产生影响，因此可以该公式化简为： $\mathbb{E}_{a_{t}\sim\pi_{new}}[\log{\pi_{new}(a_t|s_t)}-Q^{\pi_{old}}(s_t,a_t)] \leqslant \mathbb{E}_{a_{t}\sim\pi_{old}}[\log{\pi_{old}(a_t|s_t)}-Q^{\pi_{old}}(s_t,a_t)]$ 变换形式，再结合公式(3) 可得公式(18)：

$\begin{aligned} \mathbb{E}_{a_{t}\sim\pi_{new}}[Q^{\pi_{old}}(s_t,a_t)-\log{\pi_{new}(a_t|s_t)}] & \geqslant \mathbb{E}_{a_{t}\sim\pi_{old}}[Q^{\pi_{old}}(s_t,a_t)-\log{\pi_{old}(a_t|s_t)}] \\ & \geqslant V^{\pi_{old}}(s_t) \\ \end{aligned}$ 再带入到公式(2) 可得公式(19)，表示了在一次迭代中Soft Q函数的更新情况： $\begin{aligned} Q^{\pi_{old}}(s_t,a_t) &\triangleq r(a_t,s_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[V^{\pi_{old}}(s_{t+1})] \\ & \leqslant r(a_t,s_t)+\gamma\mathbb{E}_{a_{t+1}\sim\pi_{new}}[Q^{\pi_{old}}(s_{t+1},a_{t+1})-\log{\pi_{new}(a_{t+1}|s_{t+1})}] \\ & \leqslant Q^{\pi_{new}}(s_t,a_t) \\ \end{aligned}$

2.4. 定理1：Soft 策略迭代

Soft策略迭代的过程就是重复应用Soft策略评估和Soft策略改进，使得策略 $\pi\in \prod$ 收敛到 $\pi^*$ ，得到 $\pi^*$ 后，它所产生的Soft Q值 $Q^{\pi^*}(s_t,a_t)$ 将会比其他任何策略的Soft Q值要大。

这是显然的，因为引理2证明了Soft $Q$ 值是单调递增的，引理1证明了Soft $Q$ 值是有界的，因此一定会有一个最优的Soft Q值，标记为 $Q^*$ ，这时的策略就是最优策略 $\pi^*$ 。

5. Soft Actor-Critic

以上最大熵算法及其策略迭代的过程都是在离散的假设中进行的，如何转换为连续空间呢？那就需要对Soft Q函数和策略同时使用函数近似器（神经网络）。在SAC中，策略的评估和改进将在使用随机梯度下降的两个网络之间交替进行优化。

现在对SAC中使用的网络进行如下定义：

5.1. 状态-值函数 Soft V

Soft V函数的优化目标表示为公式(5)：
$J_{V}(\psi)=\mathbb{E}_{s_t\sim\mathcal{D}}[\frac{1}{2}(V_{\psi}(s_t)-\mathbb{E}_{a_t\sim\pi_\phi}[Q_{\theta}(s_t,a_t)-\log\pi_\phi(a_t|s_t)])^2]$ 其中， $\psi$ 是V函数网络的参数； $\mathcal{D}$ 是经验池； $a_t\sim\pi_\phi$ 指的是动作根据当前的策略采样，而不是从经验池中获取。

Soft V函数优化函数的梯度计算公式表示为公式(6)：
$\hat{\nabla}_{\psi}J_{V}(\psi)=\nabla_{\psi}V_{\psi}(s_t)(V_{\psi}(s_t)-Q_{\theta}(s_t,a_t)+\log\pi_{\phi}(a_t|s_t))$

5.2. 状态-动作-值函数 Soft Q

Soft Q函数的优化目标表示为公式(7)：
$J_{Q}(\theta)=\mathbb{E}_{(s_t,a_t)\sim\mathcal{D}}[\frac{1}{2}(Q(s_t,a_t)-\hat{Q}(s_t,a_t))^2]$ 其中， $\theta$ 是Q函数网络的参数； $\mathcal{D}$ 是经验池； $\hat{Q}(s_t,a_t)$ 表示为公式(8)： $\hat{Q}(s_t,a_t)=r(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[V_{\overline{\psi}}(s_{t+1})]$ 其中， $\overline{\psi}$ 是指 $s_{t+1}$ 状态时的V函数网络参数。

Soft Q函数优化函数的梯度计算公式表示为公式(9)：
$\hat{\nabla}_{\theta}J_{Q}(\theta)=\nabla_{\theta}Q_{\theta}(s_t,a_t)(Q_{\theta}(s_t,a_t)-r(s_t,a_t)-\gamma V_{\overline{\psi}}(s_{t+1}))$ 这个更新公式利用了Soft V网络进行更新 $V_{\overline{\psi}}$ ，其中 $\overline{\psi}$ 可以是V网络权值的指数移动平均值（见论文Human-level control through deep reinforcement learning.）或者是定期更新的V函数权重。论文伪代码中使用了 $\overline{\psi}\leftarrow\tau\psi+(1-\tau)\overline{\psi}$ 来进行更新。

5.3. 策略 $\pi$

策略可以建模为由神经网络给出的具有均值和协方差的高斯分布。

策略的优化目标就是最小化KL散度 $J_{\pi}$ ，表示为公式(10)：
$J_{\pi}(\phi)=\mathbb{E}_{s_t\sim \mathcal{D}}\biggl[D_{KL}(\pi_{\phi}(· |s_t)||\frac{exp(Q_{\theta}(s_t,·))}{Z_{\theta}(s_t)})\biggr]$

由于策略函数被建模为神经网络，因此动作的产生可以表达为公式(11)： $a_t=f_\phi(\epsilon_t;s_t)$ 其中， $f$ 就是策略神经网络，参数为 $\phi$ ； $\epsilon$ 是随机噪声，该噪声用于避免动作的概率为0。

那么策略计算公式可以改写为公式(12)(省略归一化参数 $Z$ )： $J_{\pi}(\phi)=\mathbb{E}_{s_t\sim\mathcal{D},\epsilon_t\sim\mathcal{N}}[\log\pi_\phi(f_\phi(\epsilon_t;s_t)|s_t)-Q_\theta(s_t,f_\phi(\epsilon_t;s_t))]$ 在这个公式中，得益于神经网络，KL散度用来衡量两个分布之间差异的功能被差值计算替代了，虽然一次计算的结果会有所不同，但收敛趋势是一致的。

在这里之所以不把 $J_{\pi}(\phi)$ 写成： $J_{\pi}(\phi)=\mathbb{E}_{s_t\sim\mathcal{D},\epsilon_t\sim\mathcal{N}}[\pi_\phi(f_\phi(\epsilon_t;s_t)|s_t)-\exp{(Q_\theta(s_t,f_\phi(\epsilon_t;s_t)))}]$ 是因为Soft 策略 $\pi$ 被设定为通过Soft Q值的相对大小来给动作赋予被选择的概率的，因此这里的优化应该是 $\log\pi_\phi$ 与 $Q_\theta$ 的差值，有它的物理意义。

策略优化函数的梯度计算公式表达为公式(13)：
$\hat{\nabla}_{\phi}J_{\pi}(\phi)=\nabla_\phi\log\pi_\phi(a_t|s_t)+(\nabla_{a_t}\log\pi_\phi(a_t|s_t)-\nabla_{a_t}Q(a_t,s_t))\nabla_{\phi}f_\phi(\epsilon_t;s_t)$

6. 算法训练流程

SAC的整个算法训练流程如下所示：

$a_t\sim\pi_{\phi}(a_t|s_t)$
通过策略 $\pi_{\phi}$ 在依概率随机选择一个动作 $a_t$ ；
$s_{t+1}\sim p(s_{t+1}|s_t,a_t)$
选择动作后的状态转移；
$\mathcal{D}\sim\mathcal{D}\cup\{s_t,a_t,r(s_t,a_t),s_{t+1}\}$
存储轨迹到经验池；
$\psi\leftarrow\psi-\lambda_{V}\hat{\nabla}_{\psi}J_{V}(\psi)$
更新V函数网络的参数；
$\theta_i\leftarrow\theta_i-\lambda_{Q}\hat{\nabla}_{\theta_i}J_{Q}(\theta),\quad for\ i\in\{1,2\}$
更新Q函数网络的参数， $i = 1$ 和 $2$ 分别是主Q网络和目标Q网络的参数；
$\phi\leftarrow\phi-\lambda_{\pi}\hat{\nabla}_{\phi}J_{\pi}(\phi)$
更新策略网络的参数；
$\overline{\psi}\leftarrow\tau\psi+(1-\tau)\overline{\psi}$
更新下一时间步时的V函数网络的参数，该V用于更新目标Q网络（论文公式(8)）。

ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
女儿考研完报考雅思捡拾流年
是否我过于焦虑？会不会无形间让女儿觉得压力太大了啊。2022年对于我们家来说是不平常的一年。女儿今年大四，为了准备考研，暑假也没回家，年初去了学校到了年末才回家。女儿自己一个人面对考研，没有参加培训，大四学校作业论文等课业也多，她同时也是很努力复习考研的。在疫情开放很多羊的时期，女儿终于顺顺利利参加12月24、25号的考研，我们和家人都觉得女儿回家来要好好休息调养。可女儿回到家，我再查阅考研信息，
利用等价无穷小替换求极限（二）肇事小姐
2limx➡️0（（1-cosx）/x^2）分析：当x➡️0时，cosx➡️1，故此极限其实满足0/0的形式故第一感觉可以用洛必达法则求解，分子求一次导=sinx，分母求一次导=2x分子、分母求2次导数分别=cosx，=2，故最后答案=1/2另一种方法，考虑将1-cosx视作整体，用等价无穷小替换。利用1-cosx～2（sin（x/2）^2）推导cosx=cos（ｘ/2+x/2）利用三角和差公式=
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
自动写论文的网站推荐这5款实用类工具小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款实用类工具推荐，特别是千笔-AIPassPaper。1.千笔-AIPassPaper千笔-AIPassPaper是一款功能强大且全面的AI论文写作助手，用户只需输入基本的研究需求和关键词，便能迅速生成一篇完整的论文。该工具利用先进的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
4款毕业论文参考文献格式生成器（附加详细步骤）小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在撰写毕业论文时，参考文献的格式规范是至关重要的。为了帮助学生和学者们更高效地生成符合要求的参考文献格式，本文将详细介绍四款推荐的参考文献格式生成器，并提供详细的使用步骤。1.千笔-AIPassPaper千笔-AIPassPaper是一款先进的AI辅助论文写作工具，不仅能够自动生成大纲、开题报告，还能一键生成参考文献。AI论文，免费大纲，10分钟3万字https://www.aipaperpass
AI论文写作推荐哪个好？分享5款AI论文写作带数据图表网站小猪包333 写论文人工智能深度学习计算机视觉
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款推荐的AI论文写作工具，包括千笔-AIPassPaper。千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文写作助手，旨在帮助用户快速生成高质量的论文内容。AI论文，免费大纲，10分钟3万字https:
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
毕业论文附录一般都写什么?大学生写论文是干嘛用的写个原创论文人工智能深度学习 AI写作 chatgpt 论文阅读
毕业论文的附录通常包含一些在正文中不便于展示或详细阐述的内容，但对理解论文整体又具有重要意义的资料。具体来说，附录可能包含以下内容：AI论文，免费大纲，10分钟3万字，查重高于15%退费，支持数据图表！！AIPaperPass-AI论文写作指导平台AIPaperPass是AI原创论文写作平台，免费千字大纲，5分钟生成3万字初稿，提供答辩汇报ppt、开题报告、任务书等，40篇真实中英文知网参考文献，
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
底层逻辑之复利音匀的生活札记
本金↑（1+收益率）时间-欲望=财富自由理解了真正的“复利公式”，以及获得财富自由的三种方法——“无欲无求式财富自由”“三生三世式财富自由”和“第一桶金式财富自由”后，得出结论：早期靠本金，后期靠复利。最后，给大家几点建议：一是尽早存到足够的本金。获得财富自由的第一重要的事，是培养赚钱的能力。赚钱要靠本金，而不是靠复利。你都没有本金，哪来的钱生钱呢？二是努力做到稳健高收益。找到高收益的投资不难，识
《拖延心理学》（一）你为什么会拖延？|木盒笔记纯se蓝调
《拖延心理学》是帮助你向拖延症宣战的一本书，作者简·博克和莱诺拉·袁是全球知名的拖延症治疗专家。大概每个人或多或少总会有一点拖延症的行为。比如明天要叫论文了，今天你还没有写好，你一边在焦虑症怎么办，一边又拿着手机漫无目的的刷新闻；比如你想了很久准备减肥，但是迟迟又没有行动，想着今天晚上少吃一点吧、明天我就开始运动。今天分析的笔记来告诉你“你为什么会拖延？”，解读人杨坚。有人说拖延就像巨大的泥沼，让
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
2024年华为杯数学建模研赛C题思路代码+论文助攻 DS数模 2024华为杯数学建模华为 2024华为杯 2024研究生数学建模 2024研赛
2024年华为杯研究生数学建模竞赛（以下简研赛）将于9月21日上午8时正式开始。下文包含：2024研赛思路解析、研赛参赛时间及规则信息说明、好用的数模技巧及如何备战数学建模竞赛C君将会第一时间发布选题建议、所有题目的思路解析、相关代码、参考文献、参考论文等多项资料，帮助大家取得好成绩。2024年研赛将于9月21日上午8时正式开始这里有些资料，大家可以看看：【2024最全国赛研赛数模资料包】C君珍贵
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
2021-10-03 虫虫新生111
今天放假的第3天感觉过得好快，总体来说数学做了25道题，里边有几道题还是弄得不清楚，仍然不懂怎么做，不过整体感觉思路比去年要清晰很多，因为有去年的基础，今年还是比较轻松一些。逻辑做了有几道题，6题，错2，有些概念总的是模糊不清，还是要反复的再整理一下概念，以及回头看一下讲的基础知识，把基础的公式弄懂才可以。现在困了睡觉，明天早点起床。
算法刷题：300. 最长递增子序列、674. 最长连续递增序列、718. 最长重复子数组、1143. 最长公共子序列哆来咪咪咪算法
300.最长递增子序列1.dp定义：dp[i]表示i之前包括i的以nums[i]结尾的最长递增子序列的长度2.递推公式：if(nums[i]>nums[j])dp[i]=max(dp[i],dp[j]+1);注意这里不是要dp[i]与dp[j]+1进行比较，而是我们要取dp[j]+1的最大值。3.初始化：每一个i，对应的dp[i]（即最长递增子序列）起始大小至少都是1.classSolution{
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台网顺技术团队成品程序项目 java vue.js 汽车课程设计 spring boot
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台作者主页网顺技术团队欢迎点赞收藏⭐留言文末获取源码联系方式查看下方微信号获取联系方式承接各种定制系统精彩系列推荐精彩专栏推荐订阅不然下次找不到哟Java毕设项目精品实战案例《1000套》感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录基
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
如何在Excel中使用COLUMN函数 Excel客旅
一、COLUMN函数介绍1.COLUMN函数是用来得到指定单元格的列号。比如“=COLUMN(B1)”，得到的就是B1的列号为“2”。2.如果括号里面为空，什么都不引用，则默认引用公式所在单元格的列号。3.COLUMN函数还可以引用区域。首先我们选中B1至F1的单元格区域，然后输入公式“=COLUMN(B:F)”或者“=COLUMN(B1:F1)”，然后按Ctrl+Shift+Enter键。二、用
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
三对角线型行列式的求法 Mr-Apple 笔记线性代数矩阵算法
三对角线型行列式摘要典型例题练习题参考答案摘要笔者在复习高等代数行列式这章时,发现三对角行列式问题是行列式计算中经常出现的一类行列式,部分考研院校也曾直接出过三对角行列式的计算,亦或是三对角行列式的变体问题.本文主要介绍了一种通常情况下三对角行列式的解法,即采用特征根法来求解行列式的通项公式.例1:计算nnn阶行列式(ac≠0)(ac\neq0)(ac=0)Dn=∣bc0…000abc…0000
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
成功的公式能给你什么？寒冬之城
01先需要搞清楚几个问题：业务能力并不等于成功，业务能力被社会的认可度才是成功。无法区分业务能力的区域内，网络更重要，一开始就进入一个顶级网络，之后也会在这个网络中，反之，则需要尽快打磨业务能力，并早点进入这个顶级圈子中。金子和金子没有办法相比，因为他们都有上限，他们的水平也相差无几，在这样的情形下，比的是出场顺序，先出场未必有优势，但是后出场会有超过先出场的优势。理论依据：靠近偏误-我们总是对越
推荐开源项目：Zotero引用计数管理器——学术研究的智能助手蔡鸿烈Hope
推荐开源项目：Zotero引用计数管理器——学术研究的智能助手zotero-citationcountsZoteropluginforauto-fetchingcitationcountsfromvarioussources项目地址:https://gitcode.com/gh_mirrors/zo/zotero-citationcounts项目介绍在学术界，每篇论文背后都承载着学者们辛勤的研究成
overleaf如何下载论文的pdf 风也温柔☆ overleaf pdf overleaf
用overleaf写完英文论文后，要将论文保存为PDF格式点击图片中的下载按钮然后选择一个路径保存论文的PDF格式即可。
通过与AI代理结对编程在集成课程中促进AI辅助学习循环的方法神一样的老师论文阅读分享人工智能结对编程学习
本篇论文提出了一种新的方法论，利用人工智能（AI）技术的最新进展，为学生制定一个AI辅助的代码学习循环。这种方法在现有的学习过程中创新性地融入了结对编程，以增强学生的互动式学习体验。以下是论文的主要内容概述：摘要(Abstract)：提出了一种新方法，利用AI技术来辅助学生学习编程。方法包括将示例代码转化为脚手架代码作为练习，通过教师与AI的配对来实现。脚手架代码作为学生在硬件平台上迭代完成和调试
js进阶第二天 LIT乐言
一、水平滚动条和垂直滚动条Snip20161124_1.png1.1核心技术点1）求滚动条的长度？2）拖动滚动条，求内容要走多少？滚动条的长度取决于滚动内容（滚动内容越长，滚动条越短）；内容滚动的距离和滚动条走的距离是成倍数关系。1.2换算公式获取滚动条的长度：**滚动条的长度/盒子的长度=盒子的长度/内容的长度**滚动条长度=(盒子的宽度/内容的宽度)*盒子的宽度拖动滚动条，求内容走的长度：**
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f