云端FFF

论文理解【RL经典】—— 【SQL】Reinforcement Learning with Deep Energy-Based Policies

标题：Reinforcement Learning with Deep Energy-Based Policies
文章链接：Reinforcement Learning with Deep Energy-Based Policies
代码：rail-berkeley/softlearning (原作者实现）
作者 Blog：Learning Diverse Skills via Maximum Entropy Deep Reinforcement Learning
发表：ICML 2017
领域：强化学习经典（Model-free + 最大熵思想），这篇是 SAC 的前身所以专门介绍一下

文章目录

1. 思想
- 1.1 随机性策略
- 1.2 用能量模型对策略建模
2. 本文方法
- 2.1 最大熵强化学习
- 2.2 策略建模
- 2.3 软价值函数（Soft Value Functions）
- - 2.3.1 策略改进定理
  - 2.3.2 最优策略的唯一性
  - 2.3.3 小结
- 2.4 Soft Q-Learning
- - 2.4.1 转换为优化问题
  - 2.4.2 从 energy-based 分布中采样
- 2.5 伪代码
3. 实验
4. 总结

1. 思想

1.1 随机性策略

传统 RL 方法直接以最大化累计折扣回报作为优化目标，理想情况下最后会收敛到一个确定性策略，因为无论什么环境总会有一个最优解，传统 RL 就是想直接向它靠近。虽然传统 RL 方法中也含有随机性成分，但是引入随机性的主要目的是增加探索，扩大最后收敛到的稳定策略被选取的空间，比如
1. 为了加强探索在策略中增加随机成分，如 $\epsilon$ -greedy
2. 对策略网络输出增加一个噪声，得 Q 函数估计更平滑，如 TD3
3. 直接把策略建模为一个概率分布，策略网络的训练变成优化分布的参数，比如 “随机高斯策略方法” 中策略网络是一个正态分布（这个其实有点随机性策略的感觉了，但是人为指定策略分布使其受到很大限制）
作者认为有些情况下训练随机性策略更有优势，比如
1. 针对 “多模态目标multimodal objective” 的任务获得最优随机策略。所谓多模态目标就是 agent 想达到的目标有多个，比如打台球打进哪个袋口都可以，传统 RL 可能最后收敛到只会瞄准一个袋口。下图是本文作者的实验，面对四个等价目标，随机性策略下 agent 以接近相等的概率去向各个目标
2. 提高策略面对未知动态的鲁棒性。比如下面这个走迷宫任务
  
  有两条路线能到达目标，传统 RL 最后只会收敛到上侧较短的路线，地图下侧由于后期访问少，相应位置的价值网络和策略网络（如果有的话）可能都还是欠拟合状态；随机策略则会同时优化两条路径，有时走上面有时走下面，虽然这时宏观上看 agent 的收益有所损失，但环境变化（上方道路被堵住）时可以迅速地 fine-turn 到下面的路线上
3. 通过预训练迅速习得类似技能：这个其实和上面第 2 点一个意思，我们可以先在左图预训练随机策略，然后直接拿到某条路被挡住的任务环境中继续训练，策略会迅速 fine-turn 到可行的更好路线上
在最优控制和概率推理二者结合的场景中，随机性策略表现更好，本文之前已经有了从分别从两个角度出发的研究
过去从最优控制（RL别名）角度出发的研究表明，一个好的随机策略要同时最大化累计折扣回报和策略的熵。直观上看，这时我们不去找那个单一的回报最高的策略，而是要找出一系列回报比较高的策略，并最大化它们的混乱程度，通过这种方式，agent 最后可以学会 “解决问题” 的所有方式，尽管某些方式的成本比较高，但是 agent 也知道可以这么做，会以较小概率按次优方案行动

1.2 用能量模型对策略建模

任务的多模态性质体现在价值函数中，最终学到的 $Q^*(s_t,a_t|s_t)$ 会是一个多峰函数。传统 RL 策略建模为如下 $\max$ 操作
$\pi(a_t|s_t) = \argmax_a Q^*(s_t,a_t)$ 为了增强探索，有时对策略输出加一个高斯噪声 $\epsilon$ ，这样得到的近似确定性策略如下面左图所示

显然，一个理想的，适用于多模态任务的策略应该像右图那样，能够体现 $Q^*(s_t,a_t|s_t)$ 的多峰性质
作者这里选择了能表示多模态目标的最一般的分布类，把策略建模成一个能量模型(Energy-Based Models, EMB)

能量模型将样本 $X$ 和标签 $Y$ 的匹配度建模为能量 $\mathcal{E}(X,Y)$ ，能量越小代表样本和标记越匹配，模型对样本 $X$ 的预测标记 $Y$ 是一个分布的形式
$\mathrm{P}(\mathrm{Y}|\mathrm{X})=\frac{\mathrm{e}^{-\beta \mathcal{E}(\mathrm{Y}, \mathrm{X})}}{\int_{y\in Y} \mathrm{e}^{-\beta \mathcal{E}(\mathrm{Y}, \mathrm{X})}}$ 其中逆温度系数 $\beta$ 是个常数不重要，分母的配分系数。能量模型是从玻尔兹曼分布推导出的，详细说明请参考：能量模型(Energy-Based Models, EMB)

对应到强化学习的场景下， $s_t$ 看做样本， $a_t$ 看做标记，策略为
$\pi(a_t|s_t) \propto \exp(-\mathcal{E}(s_t,a_t))$ 只需把 $s_t,a_t)$ pari 的能量 $\mathcal{E}(s_t,a_t)$ 设计为基于负的 $Q^*$ 价值放缩后给出即可，这时价值越大的二元组对应的能量越低，匹配度越高，可以得到上面右侧图那种适合于多模态任务的随机性策略

2. 本文方法

2.1 最大熵强化学习

考虑如何实现 1.1 节最后的 “同时最大化累计折扣回报和策略的熵”，先看传统 RL 的优化目标
$\begin{aligned} \pi^*_{\text{std}} &= \argmax_\pi \frac{1}{1-\gamma}\mathbb{E}_{(s,a)\sim \rho_\pi}[r(s,a)] \\ &= \argmax_\pi \mathbb{E}_{\tau\sim\pi}[\sum_{t=0}^\infin\gamma^t r(s_t,a_t)] \end{aligned}$ 作者基于传统 model-free RL 框架，通过修改 reward 来传递 “最大化熵” 的目标，具体而言就是把策略的熵作为附加 reward，于是优化目标变为
$\begin{aligned} \pi^*_{\text{MaxEnt}} &= \argmax_\pi \frac{1}{1-\gamma}\mathbb{E}_{(s,a)\sim \rho_\pi}[r(s,a)+\alpha \mathcal{H}(\pi(\cdot|s)] \\ &= \argmax_\pi \mathbb{E}_{\tau\sim\pi}[\sum_{t=0}^\infin\gamma^t (r(s_t,a_t)+\alpha \mathcal{H}(\pi(\cdot|s_t))] \end{aligned}$ 其中 $\rho_\pi$ 是策略 $\pi$ 诱导的 $(s, a)$ 二元组分布， $\alpha$ 是一个平衡最大化回报和最大化熵的系数，可以通过对真实 reward 乘以 $\frac{1}{\alpha}$ 将其隐藏掉

2.2 策略建模

前面 1.2 节已经说明过作者的策略建模思想，具体而言，作者将 $(s, a)$ 二元组的能量设计为
$\mathcal{E}(s_t,a_t) = -\frac{1}{\alpha} Q_{\text{soft}}(s_t,a_t)$ 于是策略要满足
$\pi_{\text{MaxEnt}}(a_t|s_t) \propto \exp\left(\frac{1}{\alpha} Q_{\text{soft}}(s_t,a_t)\right)$ 这里 $Q_{\text{soft}}(s_t,a_t)$ 就是加入 2.1 节是熵目标后的 $Q$ 价值函数。这里相当于把原先用 $\argmax$ 选择动作变成了通过 $\text{softmax}$ 选取动作，因而最终能得到随机性策略
需要注意的是，只靠这个并不足够，在传统 Q-Learning 中改用 $\text{softmax}$ 选取动作，虽然能让策略体现 $Q$ 函数的多峰特征，但因为优化过程中没有明确地增大策略熵，仍然可能收敛到近似确定性策略，因此单独使用能量策略模型并不能得到良好的随机性策略，必须和考虑最大化策略熵的优化目标结合才行

2.3 软价值函数（Soft Value Functions）

按照 2.1 节的思路，最大熵 RL 的价值函数和传统 RL 无异，只是在 reward 中增加一个策略熵，于是可以定义
$\begin{aligned} &Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a}) \triangleq r_{0}+\mathbb{E}_{\tau \sim \pi, \mathbf{s}_{0}=\mathbf{s}, \mathbf{a}_{0}=\mathbf{a}}\left[\sum_{t=1}^{\infty} \gamma^{t}\Big(r_{t}+\alpha\mathcal{H}(\pi\left(\cdot |\mathbf{s}_{t})\right)\Big)\right] \end{aligned}$
类似传统 RL，将 $Q_{\mathrm{soft}}(s,a)$ 和 $V_{\mathrm{soft}}(s)$ 理解为 “从s处执行a出发的带熵奖励的累计折扣收益期望” 和 “从s处出发的的带熵奖励的累计折扣收益期望”，两个价值函数间的关系满足
$\begin{aligned} V_{\mathrm{soft}}^{\pi}(s) &= \mathbb{E}_{a\sim \pi(\cdot|s)}[Q_{\mathrm{soft}}^{\pi}(s,a)] + \alpha\mathcal{H}(\pi(\cdot|s)) \\ Q_{\mathrm{soft}}^{\pi}(s,a) &= r(s,a) + \gamma \mathbb{E}_{s'\sim p_{\mathrm{s}}}\left[V_{\mathrm{soft}}^\pi\left(s'\right)\right] \end{aligned}$ 注意第一行 $Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})$ 中没有计算在 $s$ 选出 $a$ 这一步的熵，把它加上。这两个相互代入就能得到最大熵 RL 语境下类似 Bellman equation 的恒等迭代关系，不妨称其为 soft Bellman equation

2.3.1 策略改进定理

如同 2.2 节所述，现在我们用 $\text{softmax}$ 替代了 $\argmax$ 选取动作来 update 策略，这样的 update 合理吗？或者说这一步是不是一个合理的 policy improvement 过程？作者在这里给出如下定理说明确实合理
下面给出带权重系数 $\alpha$ 的详细证明，给定当前策略 $\pi$ 对应的 soft Q value 为 $Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})$ ，如下 update 策略
$\tilde{\pi}(a|s) \propto \exp(\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s},a)), \quad \forall s$
1. 首先注意到，按当前策略 $\pi$ 行动时，有
  $\begin{aligned} \mathcal{H}(\pi(\cdot |\mathbf{s}))+\mathbb{E}_{\mathbf{a} \sim \pi}\left[\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})\right]=-\mathrm{D}_{\mathrm{KL}}(\pi(\cdot \mid \mathbf{s}) \| \tilde{\pi}(\cdot \mid \mathbf{s}))+\log \int \exp \left(\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})\right) d \mathbf{a} \end{aligned} \tag{1}$
  
  要证明这个等式，可以从分解 $-\mathrm{D}_{\mathrm{KL}}(\pi(\cdot \mid \mathbf{s}) \| \tilde{\pi}(\cdot \mid \mathbf{s}))$ 入手
  $\begin{aligned} -\mathrm{D}_{\mathrm{KL}}(\pi(\cdot \mid \mathbf{s}) \| \tilde{\pi}(\cdot \mid \mathbf{s})) &= \int_a \pi(a|s)\log\frac{\tilde{\pi}(a|s)}{\pi(a|s)}da \\ &= \int_a \pi(a|s)\log\tilde{\pi}(a|s)da- \int_a \pi(a|s)\log\pi(a|s)da \\ &= \int_a \pi(a|s)\log\tilde{\pi}(a|s)da + \mathcal{H}(\pi(a|\mathbf{s})) \\ &= \int_a \pi(a|s) \log \frac{\exp(\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s},a))}{\int_a\exp(\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s},a))da}da + \mathcal{H}(\pi(a|\mathbf{s})) \\ &= \int_a \pi(a|s)\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s},a)da - \int_a \pi\big(\log \int_a\exp(\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s},a))da\big)da + \mathcal{H}(\pi(a|\mathbf{s})) \\ &= \mathbb{E}_{\mathbf{a} \sim \pi}\left[\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})\right] - \log \int_a\exp(\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s},a))da + \mathcal{H}(\pi(a|\mathbf{s})) \end{aligned}$
2. 利用等式 (1) 可得，维持当前价值估计 $Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})$ 但是按新策略 $\tilde{\pi}$ 行动时，有
  $\begin{aligned} \mathcal{H}(\tilde{\pi}(\cdot |\mathbf{s}))+\mathbb{E}_{\mathbf{a} \sim \tilde{\pi}}\left[\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})\right] &=-\mathrm{D}_{\mathrm{KL}}(\tilde{\pi}(\cdot \mid \mathbf{s}) \| \tilde{\pi}(\cdot \mid \mathbf{s}))+\log \int \exp \left(\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})\right) d \mathbf{a} \\ &= 0 + \log \int \exp \left(\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})\right) d \mathbf{a} \end{aligned} \tag{2}$ 由于 $\mathrm{D}_{\mathrm{KL}}(\tilde{\pi}(\cdot \mid \mathbf{s}) \| \tilde{\pi}(\cdot \mid \mathbf{s}))\geq 0$ 当且仅当 $\pi = \tilde{\pi}$ 时等号成立，当 $\pi\neq \tilde{\pi}$ 时（即收敛之前），有
  $\mathcal{H}(\pi(\cdot \mid \mathbf{s}))+\mathbb{E}_{\mathbf{a} \sim \pi}\left[\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})\right] \leq \mathcal{H}(\tilde{\pi}(\cdot \mid \mathbf{s}))+\mathbb{E}_{\mathbf{a} \sim \tilde{\pi}}\left[\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})\right]$ 两边同时乘上 $\alpha$ 得到两个策略下 soft V value 的关系为
  $\alpha\mathcal{H}(\pi(\cdot \mid \mathbf{s}))+\mathbb{E}_{\mathbf{a} \sim \pi}\left[Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})\right] \leq \alpha\mathcal{H}(\tilde{\pi}(\cdot \mid \mathbf{s}))+\mathbb{E}_{\mathbf{a} \sim \tilde{\pi}}\left[Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})\right] \tag{3}$
3. 反复应用等式 (3) 展开 $Q_{\mathrm{soft}}^{\pi}(\mathbf{s},a)$
  $\begin{aligned} Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a}) &=\mathbb{E}_{\mathbf{s}_{1}}\Big[r_{0}+\gamma\left(\alpha\mathcal{H}\left(\pi\left(\cdot \mid \mathbf{s}_{1}\right)\right)+\mathbb{E}_{\mathbf{a}_{1} \sim \pi}\left[Q_{\mathrm{soft}}^{\pi}\left(\mathbf{s}_{1}, \mathbf{a}_{1}\right)\right]\right)\Big] \\ & \leq \mathbb{E}_{\mathbf{s}_{1}}\Big[r_{0}+\gamma\left(\alpha\mathcal{H}\left(\tilde{\pi}\left(\cdot \mid \mathbf{s}_{1}\right)\right)+\mathbb{E}_{\mathbf{a}_{1} \sim \tilde{\pi}}\left[Q_{\mathrm{soft}^{\pi}}^{\pi}\left(\mathbf{s}_{1}, \mathbf{a}_{1}\right)\right]\right)\Big] \\ &=\mathbb{E}_{\mathbf{s}_{1}}\left[r_{0}+\gamma\left(\alpha\mathcal{H}\left(\tilde{\pi}\left(\cdot \mid \mathbf{s}_{1}\right)\right)+r_{1}\right)\right]+\gamma^{2} \mathbb{E}_{\mathbf{s}_{2}}\Big[\alpha\mathcal{H}\left(\pi\left(\cdot \mid \mathbf{s}_{2}\right)\right)+\mathbb{E}_{\mathbf{a}_{2} \sim \pi}\left[Q_{\mathrm{soft}}^{\pi}\left(\mathbf{s}_{2}, \mathbf{a}_{2}\right)\right]\Big] \\ & \leq \mathbb{E}_{\mathbf{s}_{1}}\left[r_{0}+\gamma\left(\alpha\mathcal{H}\left(\tilde{\pi}\left(\cdot \mid \mathbf{s}_{1}\right)\right)+r_{1}\right]+\gamma^{2} \mathbb{E}_{\mathbf{s}_{2}}\Big[\alpha\mathcal{H}\left(\tilde{\pi}\left(\cdot \mid \mathbf{s}_{2}\right)\right)+\mathbb{E}_{\mathbf{a}_{2} \sim \tilde{\pi}}\left[Q_{\mathrm{soft}}^{\pi}\left(\mathbf{s}_{2}, \mathbf{a}_{2}\right)\right]\right]\Big.\\ &=\mathbb{E}_{\mathbf{s}_{1} \mathbf{a}_{2} \sim \tilde{\pi}, \mathbf{s}_{2}}\left[r_{0}+\gamma\left(\alpha\mathcal{H}\left(\tilde{\pi}\left(\cdot \mid \mathbf{s}_{1}\right)\right)+r_{1}\right)+\gamma^{2}\left(\alpha\mathcal{H}\left(\tilde{\pi}\left(\cdot \mid \mathbf{s}_{2}\right)\right)+r_{2}\right)\right]+\gamma^{3} \mathbb{E}_{\mathbf{s}_{3}}\Big[\alpha\mathcal{H}\left(\tilde{\pi}\left(\cdot \mid \mathbf{s}_{3}\right)\right)+\mathbb{E}_{\mathbf{a}_{3} \sim \tilde{\pi}}\left[Q_{\mathrm{soft}^{*}}^{\pi}\left(\mathbf{s}_{3}, \mathbf{a}_{3}\right)\right]\Big] \\ & \vdots \\ & \leq \mathbb{E}_{\tau \sim \tilde{\pi}}\left[r_{0}+\sum_{t=1}^{\infty} \gamma^{t}\left(\alpha\mathcal{H}\left(\tilde{\pi}\left(\cdot \mid \mathbf{s}_{t}\right)\right)+r_{t}\right)\right] \\ &=Q_{\text {soft }}^{\tilde{\pi}}(\mathbf{s}, \mathbf{a}) . \end{aligned}$ 策略改进定理等证，只要按照如下方式更新策略进行 policy improvement，最终一定可以收敛
  $\pi_{i+1}(a|s) \propto \exp\left(\frac{1}{\alpha} Q_{\text{soft}}^{\pi_i}(s,a)\right)$ 这个等价于用优势函数表示
  $\pi_{i+1}(a|s) \propto \exp\left(\frac{1}{\alpha} (Q_{\text{soft}}^{\pi_i}(s,a)-V_{\text{soft}}^{\pi_i}(s))\right)$

2.3.2 最优策略的唯一性

上面我们证明了迭代地对 $Q_{\text{soft}}$ 使用 softmax 方式更新策略一定可以收敛到某个最优策略，并且对收敛时 $Q_{\text{soft}}^*,V_{\text{soft}}^*, \pi^*_{\text{MaxEnt}}$ 三者间的关系进行了推导分析。本节证明无论更新初始值、更新使用样本顺序等如何变化，最优策略都是唯一的

其实和证明原始 Bellman operator 和 Bellman optimal operator 的收敛性一样，只需证明这种更新方式对应的算子是一个压缩映射即可，关于两个原始 Bellman 算子的证明可以参考：强化学习拾遗 —— 表格型方法和函数近似方法中 Bellman 迭代的收敛性分析
1. 把 “对 $Q_{\text{soft}}$ 使用 softmax 方式迭代更新策略” 这件事转换为仅关于价值函数的迭代操作：作者这里直接用了 2.3.1 节最终收敛到的关系，文中表述为定理 3：设 $Q_{\text{soft}}$ 和 $V_{\text{soft}}$ 都有界，并假设 $\int_\mathcal{A}\exp(\frac{1}{\alpha}Q_{\text{soft}}(\cdot,a))da<\infin, Q_{\text{soft}}^* < \infin$ ，反复进行如下迭代
  $\begin{aligned} Q_{\mathrm{soft}}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) & \leftarrow r_{t}+\gamma \mathbb{E}_{\mathbf{s}_{t+1} \sim p_{\mathrm{s}}}\left[V_{\mathrm{soft}}\left(\mathbf{s}_{t+1}\right)\right], \forall \mathbf{s}_{t}, \mathbf{a}_{t} \\ V_{\mathrm{soft}}\left(\mathbf{s}_{t}\right) & \leftarrow \alpha \log \int_{\mathcal{A}} \exp \left(\frac{1}{\alpha} Q_{\mathrm{soft}}\left(\mathbf{s}_{t}, \mathbf{a}^{\prime}\right)\right) d \mathbf{a}^{\prime}, \forall \mathbf{s}_{t} \end{aligned}$ 最终会分别收敛到 $Q^*_{\text{soft}}$ 和 $V^*_{\text{soft}}$
  
  分析一下这个迭代过程，第一行从 $V^*_{\text{soft}}(s_t)$ 表示出 $Q^*_{\text{soft}}(s_t)$ 就是直接用的 2.3 节最初提到的恒等关系
  $Q_{\mathrm{soft}}^{\pi}(s,a) = r(s,a) + \gamma \mathbb{E}_{s'\sim p_{\mathrm{s}}}\left[V_{\mathrm{soft}}^\pi\left(s'\right)\right]$ 而第二行是这个迭代的重点，有 2.3.1 节分析中第 2 点可知，在当前价值估计为 $Q_{\mathrm{soft}}^{\pi}(\mathbf{s}, \mathbf{a})$ 但是按基于 softmax 得到的提升后的新策略 $\tilde{\pi}$ 行动时，有
  $V_{\text{soft}}^{\tilde{\pi}}(s) = \alpha\log \int_{\mathcal{A}} \exp \left(\frac{1}{\alpha}Q_{\mathrm{soft}}^{\pi}(s,a')\right) da'$ 因此这一行是从价值函数上体现了 softmax 策略提升操作，只有优化后的策略 $\tilde{\pi}$ 才能使等号成立，将 $=$ 变化为 $\leftarrow$ 即代表估计优化后策略的价值，因此定理 3 这个迭代过程就是最大熵 RL 语境下类似 Bellman optimal equation 的恒等迭代关系，不妨称其为 soft Bellman optimal equation。另外可以看一下原始 Bellman optimal equation
  $\begin{array}{l} \mathrm{v}(\mathrm{~s})=\max _{\mathrm{a} \in \mathcal{A}} \mathrm{q}(\mathrm{~s}, \mathrm{a}) \\ \mathrm{q}(\mathrm{~s}, \mathrm{a})=\mathrm{r}(\mathrm{s}, \mathrm{a})+\gamma \sum_{\mathrm{s}^{\prime}} \mathrm{p}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \mathrm{v}\left(\mathrm{~s}^{\prime}\right)=\sum_{\mathrm{s}^{\prime}, \mathrm{r}} \mathrm{p}\left(\mathrm{s}^{\prime}, \mathrm{r}, \mid \mathrm{s}, \mathrm{a}\right)\left[\mathrm{r}+\gamma \mathrm{v}\left(\mathrm{~s}^{\prime}\right)\right] \end{array}$ 和这里很类似，第二行从 v 到 q 是恒等关系，第一行 $\max$ 操作体现 $\argmax$ 的策略提升操作
2. 使用算子形式表示这里的 “soft Bellman optimal equation”：直接把上面迭代式子中的 $V_{\text{soft}}(s_t)$ 代入到 $Q_{\text{soft}}(s_t,a_t)$ 里，引入 soft value iteration operator $\mathcal{T}$ 为
  $\mathcal{T} Q(\mathbf{s}, \mathbf{a}) \triangleq r(\mathbf{s}, \mathbf{a})+\gamma \mathbb{E}_{\mathbf{s}^{\prime} \sim p_{\mathbf{s}}}\left[\log \int \exp Q\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right) d \mathbf{a}^{\prime}\right]$
3. 证明算子是压缩映射：这里仍然使用传统 RL 的无穷范数作为考察压缩性质的度量，无穷范数下 $L^p$ 空间中任意两个 $Q_{\text{soft}}$ 函数 $Q_1,Q_2$ 间的距离为 $||Q_1-Q_2||_\infin = \max_{s,a}|Q_1(s,a)-Q_2(s,a)|$ ，设 $\varepsilon = ||Q_1-Q_2||_\infin$ ，这时有
  $\begin{aligned} \log \int \exp \left(Q_{1}\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right) d \mathbf{a}^{\prime} & \leq \log \int \exp \left(Q_{2}\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)+\varepsilon\right) d \mathbf{a}^{\prime} \\ &=\log \left(\exp (\varepsilon) \int \exp Q_{2}\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right) d \mathbf{a}^{\prime}\right) \\ &=\varepsilon+\log \int \exp Q_{2}\left(\mathbf{a}^{\prime}, \mathbf{a}^{\prime}\right) d \mathbf{a}^{\prime} \end{aligned}$ 同理有 $\log \int \exp \left(Q_{1}\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right) d \mathbf{a}^{\prime} \geq -\varepsilon+\log \int \exp Q_{2}\left(\mathbf{a}^{\prime}, \mathbf{a}^{\prime}\right) d \mathbf{a}^{\prime}$ ，因此有
  $\begin{aligned} ||\mathcal{T}Q_1-\mathcal{T}Q_2||_\infin &= \gamma||\log \int \exp \left(Q_{1}\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right) d \mathbf{a}^{\prime}-\log \int \exp \left(Q_{2}\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right) d \mathbf{a}^{\prime}||_\infin \\ &\leq \gamma \varepsilon \\ &= \gamma||Q_1-Q_2||_\infin \end{aligned}$ 这就证明了算子 $\mathcal{T}$ 是一个 $\gamma$ 收缩映射，优化得到的最优策略一定唯一

2.3.3 小结

观察上面的证明过程，根据等式 (2)，还可以发现策略收敛时（ $\tilde{\pi}=\pi$ ）时的最优 soft V value 为
$V^*_{\text{soft}}(s) = \mathbb{E}_{\mathbf{a} \sim \pi}\left[Q_{\mathrm{soft}}^*(\mathbf{s}, \mathbf{a})\right] +\alpha\mathcal{H}(\pi(\cdot |\mathbf{s}))=\alpha\log \int_a \exp \left(\frac{1}{\alpha}Q_{\mathrm{soft}}^*(\mathbf{s}, a)\right) da$ 利用这个可以得到最优策略为
$\begin{aligned} &\left\{ \begin{aligned} &\pi^*_{\text{MaxEnt}}(a|s) \propto \exp\left(\frac{1}{\alpha}(Q_{\mathrm{soft}}^*(\mathbf{s},a)-V^*_{\text{soft}}(s))\right) \\ &\int_\mathcal{A}\pi^*_{\text{MaxEnt}}(a|s) = 1 \end{aligned} \right. \\ \Longrightarrow &\space\space \pi^*_{\text{MaxEnt}}(a|s) = \exp\left(\frac{1}{\alpha}(Q_{\mathrm{soft}}^*(\mathbf{s},a)-V^*_{\text{soft}}(s))\right) \end{aligned}$ 利用上面的 $V^*_{\text{soft}}(s)$ 和 $\pi^*_{\text{MaxEnt}}$ （下面简称 $\pi^*$ ），还能从 $Q_{\mathrm{soft}}^*(s,a)$ 的定义推出用 $V^*_{\text{soft}}$ 表示 $Q^*_{\text{soft}}$ 的方法
$\begin{aligned} Q_{\mathrm{soft}}^*(\mathbf{s}, \mathbf{a}) &\triangleq r(s,a) + \mathbb{E}_{(s',...)\sim\rho}\left[\sum_{t=0}^\infin \gamma^l(r_{t}+\alpha\mathcal{H}(\pi^*(\cdot|s_t)))\right] \\ &=r(\mathbf{s}, \mathbf{a})+\gamma \mathbb{E}_{\mathbf{s}^{\prime} \sim p_{\mathrm{s}}}\left[\alpha\mathcal{H}\left(\pi^*\left(\cdot \mid \mathbf{s}^{\prime}\right)\right)+\mathbb{E}_{\mathbf{a}^{\prime} \sim \pi^*\left(\cdot \mid \mathbf{s}^{\prime}\right)}\left[Q_{\mathrm{soft}}^*\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right]\right] \\ &=r(\mathbf{s}, \mathbf{a})+\gamma \mathbb{E}_{\mathbf{s}^{\prime} \sim p_{\mathrm{s}}}\left[V_{\mathrm{soft}}^*\left(\mathbf{s}^{\prime}\right)\right] \end{aligned}$
整理一下，优化收敛时，有
$\begin{aligned} Q^*_{\text{soft}}(s_t,a_t) &= r(s_t,a_t) + \mathbb{E}_{(s_{t+1},...)\sim\rho}\left[\sum_{l=1}^\infin \gamma^l(r_{t+l}+\alpha\mathcal{H}(\pi_{\text{MaxEnt}}^*(\cdot|s_{t+l})))\right]\\ &=r(s_t,a_t) +\gamma \mathbb{E}_{s_{t+1}\sim p_{\mathrm{s}}}\left[\alpha\mathcal{H}(\pi_{\text{MaxEnt}}^*(\cdot|s_{t+l}))+\mathbb{E}_{a_{t+1}\sim\pi_{\text{MaxEnt}}^*(\cdot|s_t)}[Q_{\text{soft}}^*(s_{t+1},a_{t+1}]\right] \\ &= r(s_t,a_t) + \gamma \mathbb{E}_{s_{t+1}\sim p_{\mathrm{s}}}\left[V_{\mathrm{soft}}^*\left(s_{t+1}\right)\right] \\ V^*_{\text{soft}}(s_t) &= \alpha\log \int_\mathcal{A} \exp \left(\frac{1}{\alpha}Q_{\mathrm{soft}}^*(s_t, a)\right) da \\ \quad \pi^*_{\text{MaxEnt}}(a_t|s_t) &=\exp\left(\frac{1}{\alpha}(Q_{\mathrm{soft}}^*(s_t,a_t)-V^*_{\text{soft}}(s_t))\right) \end{aligned}$ 到这其实就把文章里的定理 1 和定理 2 也证明完了

Note: 我个人认为文章附录里对这部分证明的符号不严谨，我是重新写的没完全按原文
另外，还可以和传统 RL 的两个 bellman 等式进行比较

这里实在懒得打公式了，引用自 Soft Q-learning解读

2.4 Soft Q-Learning

到目前为止算法其实已经有了，只要像 2.3.2 节那样不停迭代
$\begin{aligned} Q_{\mathrm{soft}}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) & \leftarrow r_{t}+\gamma \mathbb{E}_{\mathbf{s}_{t+1} \sim p_{\mathrm{s}}}\left[V_{\mathrm{soft}}\left(\mathbf{s}_{t+1}\right)\right], &&\forall \mathbf{s}_{t}, \mathbf{a}_{t} \\ V_{\mathrm{soft}}\left(\mathbf{s}_{t}\right) & \leftarrow \alpha \log \int_{\mathcal{A}} \exp \left(\frac{1}{\alpha} Q_{\mathrm{soft}}\left(\mathbf{s}_{t}, \mathbf{a}^{\prime}\right)\right) d \mathbf{a}^{\prime}, &&\forall \mathbf{s}_{t} \end{aligned}$ 就一定能收敛到唯一的最优价值函数，但是这里存在对动作空间和状态空间的积分，无法直接处理，本节来解决此问题

2.4.1 转换为优化问题

首先把上面这个迭代优化变形成一个优化问题，使用一个 $\theta$ 参数化的网络 $Q_{\text{soft}}^\theta$ 来近似 $Q_{\text{soft}}$ ，同时通过在 $V_{\text{soft}}$ 中引入重要性采样比，把积分转换由 $Q_{\text{soft}}^\theta$ 得到的期望形式 $V_{\text{soft}}^\theta$ （转换为期望后就可以用随机优化方法了）
$\begin{aligned} \mathrm{V}^\theta_{\mathrm{soft}}\left(\mathrm{s}_{\mathrm{t}}\right) &=\alpha \log \int_{\mathcal{A}} \exp \left(\frac{1}{\alpha} \mathrm{Q}^\theta_{\mathrm{soft}}\left(\mathrm{s}_{\mathrm{t}}, \mathrm{a}^{\prime}\right)\right) \mathrm{da}^{\prime} \\ &=\alpha \log \int_{\mathcal{A}} \frac{\mathrm{q}_{\mathrm{a}^{\prime}}\left(\mathrm{a}^{\prime}\right)}{\mathrm{q}_{\mathrm{a}^{\prime}}\left(\mathrm{a}^{\prime}\right)} \exp \left(\frac{1}{\alpha} \mathrm{Q}^\theta_{\mathrm{soft}}\left(\mathrm{s}_{\mathrm{t}}, \mathrm{a}^{\prime}\right)\right) \mathrm{da}^{\prime} \\ &=\alpha \log \mathbb{E}_{\mathrm{q}_{\mathrm{a}^{\prime}}}\left[\frac{\exp \left(\frac{1}{\alpha} \mathrm{Q}^\theta_{\mathrm{soft}}\left(\mathrm{s}_{\mathrm{t}}, \mathrm{a}^{\prime}\right)\right)}{\mathrm{q}_{\mathrm{a}^{\prime}}\left(\mathrm{a}^{\prime}\right)}\right] \end{aligned} \tag{4}$ 这里引入的 $q_a'$ 可以是动作集上的任意分布。之后的操作完全类似 DQN，首先利用 soft Bellman optimal equation 构造 TD target，再通过优化 L2 损失来靠近它，即最小化
$J_{Q}(\theta)=\mathbb{E}_{\mathbf{s}_{t} \sim q_{\mathbf{s}_{t}}, \mathbf{a}_{t} \sim q_{\mathbf{a}_{t}}}\left[\frac{1}{2}\left(\hat{Q}_{\mathrm{soft}}^{\bar{\theta}}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-Q_{\mathrm{soft}}^{\theta}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right)^{2}\right] \\ 其中\space\space\hat{Q}_{\mathrm{soft}}^{\bar{\theta}}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)=r_{t}+\gamma \mathbb{E}_{\mathbf{s}_{t+1} \sim p_{\mathrm{s}}}\left[V_{\mathrm{soft}}^{\bar{\theta}}\left(\mathbf{s}_{t+1}\right)\right]$ 这里构造 L2 损失的 $(s, a)$ 分布，以及上面式 (4) 引入的动作分布 $q_a'$ 都可以是任意的，作者的做法是
1. 构造 L2 损失的 $(s, a)$ 分布：从 replay buffer 采样 $s$ ，再从当前策略 $Q^\theta_{\text{soft}}$ 所诱导的策略 $\pi$ 中采样生成对应的 $a$
2. $q_a'$ ：使用当前策略 $Q^\theta_{\text{soft}}$ 所诱导的策略对应的分布 $\pi(\cdot|s_t)$

2.4.2 从 energy-based 分布中采样

接下来的问题特别棘手，为了执行上面的优化，必须从当前估计的价值 $Q^\theta_{\text{soft}}$ 所诱导的策略
$\pi(a_t|s_t) \propto \exp\left(\frac{1}{\alpha}Q^\theta_{\text{soft}}(s_t,a_t)\right)$ 中采样，从这样的玻尔兹曼分布中采样是很困难的，过去的方法通常可以分两类
1. 基于马尔可夫链蒙特卡洛法 Markov chain Monte Carlo, MCMC 进行采样。这种方法无法进行在线推理，不适用
2. 训练一个随机采样网络，可以直接从目标分布中生成样本。这个其实很像 GAN 这类生成方法的 generator，具体而言就是要训练一个 $\phi$ 参数化的网络 $f^\phi$ ，它把来自给定分布（如高斯）的随机噪音 $\xi$ 映射为一个采样自目标分布的样本，这样就能如下采样动作了
  $a_t= f^\phi(\xi;s_t)$ 作者在此使用了 Stein variational gradient descent (SVGD) 方法，它有如下特点
  1. 可以得到一个采样网络，快速从目标分布中生成样本
  2. 已经证明，它可以收敛到 EBM 模型后验分布的一个准确估计
  3. 得到的采样网络形式上看很像 Actor-Critic 框架中 Actor 的角色，从这个角度看 2.4.1 节的价值估计就相当于 Critic，这样能把 Value-based 类方法 Q-learning 和 Policy Gradient 类方法 Actor-Critic 联系起来
概述一下 SVGD 的思路，把采样网络表示为 $\pi^\phi(a_t|s_t)$ ，我们的目标是找到最优网络参数 $\phi$ 使得它对任意 $s_t$ 表示的分布尽量靠近 $Q^\theta_{\text{soft}}$ 所诱导的策略分布。也就是要优化以下 KL 散度
$J_{\pi}\left(\phi ; \mathbf{s}_{t}\right)= \mathrm{D}_{\mathrm{KL}}\Big(\pi^{\phi}\left(\cdot \mid \mathbf{s}_{t}\right) \| \exp \left(\frac{1}{\alpha}\left(Q_{\mathrm{soft}}^{\theta}\left(\mathbf{s}_{t}, \cdot\right)-V_{\mathrm{soft}}^{\theta}\right)\right)\Big)$ 我们可以先从给定分布中独立采样一组噪声 $\{\xi^{(i)}\}$ ，然后用随机初始化的采样网络得到一组 $a_t^{(i)} = f^\phi(\xi^{(i)};s_t)$ 。接下来的每轮迭代中，我们对这组被采出来的样本 ${a_t^{(i)}\}$ 施加扰动 $\triangle f^\phi(\xi^{(i)};s_t)$ ，使上述 KL 散度不断减小，这样多次迭代后 ${a_t^{(i)}\}$ 就可以看作真的来自目标分布了。SVGD 方法给出了扰动的最佳方向为
$\Delta f^{\phi}\left(\cdot ; \mathbf{s}_{t}\right)=\mathbb{E}_{\mathbf{a}_{t} \sim \pi^{\phi}}\left[\left.\kappa\left(\mathbf{a}_{t}, f^{\phi}\left(\cdot ; \mathbf{s}_{t}\right)\right) \nabla_{\mathbf{a}^{\prime}} Q_{\mathrm{soft}^{\theta}}\left(\mathbf{s}_{t}, \mathbf{a}^{\prime}\right)\right|_{\mathbf{a}^{\prime}=\mathbf{a}_{t}}\right.\left.+\left.\alpha \nabla_{\mathbf{a}^{\prime}} \kappa\left(\mathbf{a}^{\prime}, f^{\phi}\left(\cdot ; \mathbf{s}_{t}\right)\right)\right|_{\mathbf{a}^{\prime}=\mathbf{a}_{t}}\right]$ 其中 $\kappa$ 是一个核函数，SVGD 其实是在再生核希尔伯特空间中优化了两个分布间的 Kernelized Stein Discrepancy，最后得到的 $\Delta f^{\phi}\left(\cdot ; \mathbf{s}_{t}\right)$ 并不是上面 $J_{\pi}\left(\phi ; \mathbf{s}_{t}\right)$ 的精确梯度，不过二者具有相同的方向，这样就可以设 $\frac{\partial J_{\pi}\left(\phi ; \mathbf{s}_{t}\right)}{\partial a_t}\propto \Delta f^{\phi}$ ，再用链式法则就能得到
$\frac{\partial J_{\pi}\left(\phi ; \mathbf{s}_{t}\right)}{\partial \phi} \propto \mathbb{E}_{\xi}\left[\Delta f^{\phi}\left(\xi ; \mathbf{s}_{t}\right) \frac{\partial f^{\phi}\left(\xi ; \mathbf{s}_{t}\right)}{\partial \phi}\right]$ 至此就能用任意梯度方法对 $\phi$ 进行优化了，最后得到的 $\pi^\phi(a_t|s_t)$ 还可以直接用作策略网络

Note：关于 SVGD 的详细说明可以参考 [论文解读 02]Stein变分梯度下降详细解读

2.5 伪代码

给出 Soft Q learning 的伪代码如下

3. 实验

这个方法比较早了，实验就不详细写了，简单说就是验证了 1.1 节中的三个优势

4. 总结

SQL 的主要意义是启发了当前几乎最流行的 model-free 方法 SAC，它本身基本已经没人用了，这里直接引用别人总结的 SQL 特点：论文笔记之Soft Q-learning
1. SQL是一种随机性策略算法，不是确定性策略，他的随机性并不像 DDPG 或者 TD3 那样的启发式，而是通过能量模型使得各个动作最终都有一定概率会被选择，可以体现出 Q value 的多峰性质
2. 使用采样网络对难以采样的能量模型分布进行动作采样
3. 使用IS技术将积分转为期望，从而可以将 V 加入到随机优化中
4. SQL使用了2种优化算法，一种是确定性方向的SVGD，另一种是我们常用的随机性优化方法Adam
5. 将采样网络看成是Actor网络的话，SQL的结构和DDPG这种AC算法没什么差异
6. 改变了经典的期望累计奖励目标函数，增加了熵项，因此还需要改变贝尔曼等式，重新设计策略评估与策略提升过程（这个东西在后面的 SAC 中也用了）
7. Theorem 1 证明了玻尔兹曼策略是最大化含熵目标的最优解
8. SQL的 “S” 来自于其EBM模型的分布很像 softmax 函数，所以截取了 “soft”
9. 最大化含熵目标的优点：抗干扰强、适用于多模任务、某个任务输出的这种策略可以作为下个任务的初始化策略、探索性强、鲁棒性强等。缺陷在于SVGD计算复杂度高，因此也可以放弃SVGD，用随机优化来替代，比如SAC算法中就这样做了。
附一篇比较清晰的解读 Soft Q-learning解读

你可能感兴趣的:(#,论文理解,强化学习,Soft,q,learning,SQL,最大熵)

MySQL海量数据深度分页优化——后端开发技术征途者 mysql 数据库
在后端开发中，当面对MySQL数据库中包含千万级别的数据，并需要进行深度分页查询时，需要考虑优化的问题。在本文中，我们将探讨如何有效地优化MySQL数据库的深度分页查询，以提高查询性能和响应速度。使用索引优化查询索引在数据库查询中起着至关重要的作用。在处理海量数据时，为需要进行深度分页的字段创建合适的索引是提高查询性能的关键。通常情况下，使用主键或唯一键作为排序字段，并为需要筛选的字段和排序字段创
如何解决MySQL 的深度分页问题？运维小雅 mysql 数据库
前言在构建高性能、可扩展的Web应用程序时，数据库查询性能往往是影响整体系统响应速度的关键因素之一。尤其是在处理大规模数据时，如何高效地进行分页查询成为了开发者需要重点关注的问题。本文将深入探讨MySQL中LIMIT...OFFSET...语法带来的性能挑战，并介绍一种更高效的解决方案——游标分页方法（CursorPagination）。背景介绍假设我们有一个包含500万条记录的表my_table
Python, C ++开发工厂管理APP Geeker-2025 python c++
开发一款通用的**工厂管理App**，结合Python和C++的优势，可以实现高效的后端数据处理、实时的生产监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：WebSoc
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
MySQL 8.0新特性深度解析：窗口函数与JSON数据处理的10大技巧墨瑾轩一起学学数据库【一】mysql json
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣第1章：MySQL8.0简介嗨，亲爱的小伙伴们！欢迎来到MySQL8.0的奇妙世界，这里充满了新鲜和惊喜。MySQL8.0是一个数据库界的超级英雄，它带着一系列令人兴奋的新特性，比如窗口函数和JSON数据处理，来拯救我们的数据处理任务。1.1MySQL8.0的
第三十一篇数据仓库（DW）与商业智能（BI）架构设计与实践指南随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、DW/BI架构核心理论与选型策略1.1主流架构模式对比（1）Kimball维度建模架构（2）Inmon企业工厂架构（3）混合架构二、架构设计方法论与实施步骤2.1维度建模实战指南（1）模型选择决策树（2）ETL开发规范2.2实时BI技术栈选型三、全链路实施与优化策略3.1五阶段实施框架3.2数据治理体系构建四、行业场景深度实践4.1电商用户行为分析4.2金融风控实时预警五、关键问题解析Q1
Oracle SQL 开发实战：高效技巧与核心特性解析 McRfee sql
OracleSQL开发实战：高效技巧与核心特性解析OracleSQL开发实战：高效技巧与核心特性解析一、引言：OracleSQL的核心优势二、高效SQL编写技巧1.避免全表扫描的黄金法则2.用WITH子句简化复杂查询3.MERGE语句实现智能更新三、Oracle独有特性深度解析1.分析函数：窗口计算的利器2.CONNECTBY层级查询3.虚拟列（VirtualColumn）4.FLASHBACK闪
【MySQL】事务熬夜超级玩家 MySQL数据库 mysql android 数据库
目录基本概念事务操作自动提交事务开启事务提交事务回滚事务代码示例事务的特性ACID事务的隔离级别读未提交readuncommitted读已提交readcommitted可重复读repeatableread序列化（串行）serializable操作示例基本概念在MySQL中的事务（Transaction）是由存储引擎实现的，在MySQL中，只有InnoDB存储引擎才支持事务事务处理可以用来维护数据库
查询数据库中第n行数据 weixin_44231698
一般情况下分页的时候是需要的关键字。Oracle中则是rownum，MSSQL中是top关键字，MySQL中是limit关键字。查第n条数据，如：（1）select*from(SELECTROWNUMrn,A.*FROMTABLEA)bwhereb.rn=n;(2)selecttop1*fromTABLEAwhereidnotin(selecttopn-1idfromTABLEA);(3)用mys
openai-agents 中custom example agent ZHOU_CAMP oi_agents 人工智能
代码pipshowopenai-agentsName:openai-agentsVersion:0.0.4Summary:OpenAIAgentsSDKHome-page:https://github.com/openai/openai-agents-pythonAuthor:Author-email:OpenAILicense-Expression:MITLocation:d:\soft\ana
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
使用 Selenium 控制现有 Edge 窗口以规避爬虫检测秋叶原の黑猫数据库
在网络爬虫开发中，网站的防爬机制常常会检测自动化工具（如Selenium）启动的浏览器实例。为了绕过这种检测，一种有效的方法是利用Selenium连接到手动打开的现有浏览器窗口，而不是每次都启动一个新的实例。本文将详细介绍如何使用Selenium控制现有的MicrosoftEdge浏览器窗口，并结合代码示例展示实现过程。1.背景介绍：为什么需要控制现有窗口？传统的Selenium脚本会通过WebD
postgreSQL数据库常用语法东木月关系型数据库：MySQL PostgreSQL postgresql 数据库 database
postgreSQL常用语法1、CRUD增删改查创建用户角色createuserldcwithpassword'ldc-';创建数据库createDATABASEschool_infoENCODING='utf-8'--指定字符集TABLESPACE=
渗透测试-越权测试、sql注入夜晚打字声笔记
越权访问简介（BrokenAccessControl，简称BAC）：web应用程序中常见漏洞，存在范围广、危害大，被OWASP列为web应用十大安全隐患第二名。该漏洞是指应用在检查授权时存在纰漏，使得攻击者在获得低权限用户账户后，利用一些方式绕过权限检查，访问或者操作其他用户或者更高权限。越权漏洞的成因主要是因为开发人员在对数据进行增、删、改、查询时对客户端请求的数据过分相信而遗漏了权限的判定越权
Secure PDF Documents CRACK SEO-狼术 Delphi net Crack pdf
SecurePDFDocumentsCRACKSecurePDFby/nsoftwareenablesuserstosign,verify,encrypt,anddecryptfileswithintegrationintoexistingworkflows.SecurePDFby/nsoftwareisapowerfuldevelopmentlibrarydesignedtoprovideent
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南 m0_57781768 python langchain 搜索引擎
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。检索增强生成（RetrievalAugmentedGeneration，RAG）是一种技术，通过将模型知识与额外数据结合来增强LLM的能力，使其能够回答关于特定源信息的问题。这些应用不仅限于公开数据，还可以处理私有数据和模
SQL优化思想——不优化或许是最好的优化⓵哈哈，其实我几乎什么都没做梁敬彬 sql 数据库
引言熟悉我的朋友知道我擅长SQL优化，出版过近80万字的技术书籍——《收获，不止SQL优化》，十余次印刷，反响热烈，在此，感谢支持我的读者。接下来，我将站在SQL优化思想的角度，给大家做一个系列分享。首先就是要有批判性思维，我将告诉大家：不优化或许是最好的优化！故事从L老师的一次优化经历说起，希望给大家带来新的启发。⓵啥没做就搞定Q：L老师，自从您为XXX平台做了SQL优化后，运行非常顺畅，您是做
android sqlite 数据库简单封装示例（java） mmsx android 作业源码分享 java 数据库 android
sqlite数据库简单封装示例，使用记事本数据库表进行示例。首先继承SQLiteOpenHelper使用sql语句进行创建一张表。publicclassnoteDBHelperextendsSQLiteOpenHelper{publicnoteDBHelper(Contextcontext,Stringname,SQLiteDatabase.CursorFactoryfactory,intvers
【元婴境】mysql的MVCC（详解） jstart千语 mysql 数据库
目录MVCC介绍隐藏字段undologReadView示例：流程总结MVCC介绍大家好，我是jstart千语。上篇我们讲到mysql的事务隔离级别，其中MVCC就是控制事务隔离级别的重要组成部分，也是实现事务四大特性之一隔离性的重要手段。那么接下来我将通透地讲解MVCC，让大家对mysql的隔离性有一个更深刻的理解。MVCC全称Multi-VersionConcurrencyControl，也就是
Mysql中的mysqlbinlog_MySQL程序只mysqlbinlog详解 Fly蒋
mysqlbinlog命令详解mysqlbinlog用于处理二进制的日志文件，如果想要查看这些日志文件的文本内容，就需要使用mysqlbinlog工具用法：mysqlbinlog[options]log-files参数详解：-?,--help#显示帮助信息并退出--base64-output=name#binlog输出语句的base64解码分为三类：默认是值auto,仅打印base64编码的需要的
完美解决 mysql 报错ERROR 1524 (HY000) Plugin ‘mysql_native_password‘ is not loaded m0_74823490 mysql adb android
文章目录错误描述错误原因解决步骤跟着我下面的步骤走，解决你的问题，如果解决不了私信我来给你解决错误描述执行ALTERUSER'root'@'%'IDENTIFIEDWITHmysql_native_passwordBY'123456';报错ERROR1524(HY000):Plugin'mysql_native_password'isnotloaded原因如下错误原因这个错误主要由以下几个原因造成
同步MySQL数据至Elasticsearch：go-mysql-elasticsearch实战指南吴镇业
同步MySQL数据至Elasticsearch：go-mysql-elasticsearch实战指南go-mysql-elasticsearchSyncMySQLdataintoelasticsearch项目地址:https://gitcode.com/gh_mirrors/go/go-mysql-elasticsearch项目介绍go-mysql-elasticsearch是一个服务，能够自动将
将MySQL数据同步到Elasticsearch作为全文检索数据的实战指南格子先生Lab 全文检索 mysql elasticsearch
在现代应用中，全文检索是一个非常重要的功能，尤其是在处理大量数据时。Elasticsearch是一个强大的分布式搜索引擎，能够快速地进行全文检索、分析和可视化。而MySQL作为传统的关系型数据库，虽然能够处理结构化数据，但在全文检索方面的性能不如Elasticsearch。因此，将MySQL中的数据同步到Elasticsearch中，可以充分发挥两者的优势。本文将介绍如何将MySQL中的数据同步到
基于Azure云平台构建实时数据仓库 weixin_30777913 云计算 azure 开发语言 spark python
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合电商网站的流数据，构建实时数据仓库，支持T+0报表（如电商订单分析），具以及具体实现的详细步骤和关键PySpark代码。一、架构设计[电商网站]→[AzureEventHubs]→[AzureDatabricksStreaming]↓[AzureDeltaLake]←→[DatabricksSQLAnal
LLM-Agent方法评估与效果分析 agent人工智能ai开发
1.引言近年来，随着大型语言模型（LLM）的快速发展，基于强化学习（RL）对LLM进行微调以使其具备代理（Agent）能力成为研究热点。从基础的单智能体强化学习算法（如PPO）到多智能体协作、语料重组以及在线自学习等新技术不断涌现，研究人员致力于探索如何提高LLM在实际应用中的决策能力、推理能力和任务执行效率。本文主要聚焦于当前LLM-Agent方法的检索与评估，旨在全面探讨各类方法的技术实现、实
Explore Model-Based Feature Importance 后端
Question1.ExploreModel-BasedFeatureImportanceThroughoutthisquestion,youmayonlyusePython.Foreachsub-question,providecommentary(ifneeded)alongwithscreenshotsofthecodeused.Pleasealsoprovideacopyofthecode
一、MyBatis简介：MyBatis历史、MyBatis特性、和其它持久化层技术对比、Mybatis下载依赖包流程智能硬件控制器信息分析传感器
@[toc]一、MyBatis简介1.1MyBatis历史MyBatis最初是Apache的一个开源项目iBatis,2010年6月这个项目由ApacheSoftwareFoundation迁移到了GoogleCode。随着开发团队转投GoogleCode旗下，iBatis3.x正式更名为MyBatis。代码于2013年11月迁移到Github。iBatis一词来源于“internet”和“aba
linux上安装postgresql9.5 crayon-shin-chan #postgresql surprise #linux linux ubuntu PostgreSQL 数据库
1.查看源版本czy@Mint~$sudoapt-getupdateczy@Mint~$apt-cachemadisonpostgresqlpostgresql|9.5+173ubuntu0.3|http://archive.ubuntu.com/ubuntuxenial-updates/mainamd64Packagespostgresql|9.5+173ubuntu0.3|http://arc
测试工程师Ai应用实战指南简例prompt 进击的雷神 prompt
阅读原文以下是一个真实具体的案例，展示测试工程师如何在不同阶段结合DeepSeek提升效率。案例基于电商平台"订单超时自动关闭"功能测试：案例背景项目名称：电商平台订单系统V2.3测试目标：验证"用户下单后30分钟未支付，订单自动关闭并释放库存"功能技术栈：SpringBoot+MySQL+Redis延迟队列1.需求分析阶段痛点：需求文档仅描述业务逻辑，未明确异常场景（如服务器时间不同步、Redi
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，