十六次宇宙闪烁

强化学习（第二版）笔记——第五章蒙特卡洛方法

参考

周博磊老师课程
Richard S.Sutton 《Reinforcement Learning》第五章

蒙特卡洛方法 Monte Carlo Methods

1 蒙特卡洛方法在强化学习中的应用
2 蒙特卡洛预测（Monte Carlo Prediction）
- 2.1 首次访问型和每次访问型MC算法
- 2.2 蒙特卡洛算法与动态规划的区别
3 动作价值的蒙特卡洛估计
- 3.1 使用蒙特卡洛算法确定动作价值函数
- 3.2 试探性出发
4 蒙特卡洛控制
- 4.1 经典策略迭代算法的蒙特卡洛版本
- 4.2 基于试探性出发的蒙特卡洛（蒙特卡洛ES）
5 同轨策略
6 基于重要度采样的离轨策略
- 6.1 覆盖假设
- 6.2 重要度采样
7 增量式实现
- 7.1 普通重要度采样
- 7.2加权重要度采样
8 离轨策略蒙特卡洛控制

1 蒙特卡洛方法在强化学习中的应用

蒙特卡洛方法不假设拥有完备的环境知识，仅仅需要经验，即从真实或者模拟的环境交互中采样得到的状态、动作、收益的序列。从真实经验中进行学习是非常好的，它不需要关于环境动态变化规律的先验知识，却依然能够达到最优的行为。从模拟经验中学习也是同样有效的，需要一个模型能够生成状态转移的一些样本。

蒙特卡洛算法通过平均样本的回报来解决强化学习问题。赌博机算法采样并平均每个动作的收益，蒙特卡洛算法采样并平均每一个“状态-动作”二元组的回报。在某个状态采取动作之后的回报取决于在同一个幕内后来的状态中采取的动作。

2 蒙特卡洛预测（Monte Carlo Prediction）

2.1 首次访问型和每次访问型MC算法

首先考虑如何在给定一个策略的情况下，用蒙特卡洛算法来学习其状态价值函数。一个状态的价值是从该状态开始的期望回报，即未来的折扣收益累积值的期望。一个显而易见的方法是根据经验进行估计，即对所有经过这个状态之后产生的回报进行平均。随着越来越多的回报被观察到，平均值就会收敛于期望值。这一想法是所有蒙特卡洛算法的基础。

假设给定在策略 $\pi$ 下途径状态 $s$ 的多幕数据，估计策略 $\pi$ 下状态 $s$ 的价值函数 $v_\pi(s)$ 。在给定的某一幕中，每次状态 $s$ 的出现都称为对 $s$ 的一次访问。在同一幕中， $s$ 可能会被多次访问到。在这种情况下，称第一次访问为 $s$ 的首次访问。首次访问型蒙特卡洛（MC）算法用 $s$ 的所有首次访问的回报的平均值估计 $v_\pi(s)$ ，而每次访问型MC算法则使用所有访问的回报的平均值。 当 $s$ 的访问次数趋向无穷时，首次访问型和每次访问型MC均会收敛到 $v_\pi(s)$ 。

2.2 蒙特卡洛算法与动态规划的区别

如第二张图所示，在蒙特卡洛算法中估计 $v_\pi(s)$ 时，根为一个状态节点，然后往下是某幕样本序列一直到终止状态为止的完整轨迹，其中包含该幕中的全部状态转移。DP的回溯图（第一张图）显示了所有可能的转移，而蒙特卡洛算法（第二张图）则仅仅显示在当前幕中采样到的那些转移。DP的回溯图仅仅包含一步转移，而蒙特卡洛算法则包含了到这一幕结束为止的所有转移。回溯图上的这些区别清楚地体现了这两种算法之间的本质区别。

蒙特卡洛算法的一个重要的事实是：对于每个状态的估计是独立的。 它对于一个状态的估计完全不依赖于对其他状态的估计，这与DP完全不同。换言之，蒙特卡洛算法并没有使用我们在之前章节中描述的自举思想。

计算一个状态的代价与状态的个数是无关的。这使得蒙特卡洛算法适合在仅仅需要获得一个或一个子集的状态的价值函数时使用。我们可以从这个特定的状态开始采样生成一些幕序列，然后获得回报的平均值，而完全不需要考虑其他的状态。 这是蒙特卡洛方法相比于DP的第三个优势（另外两个优势是：可以从实际经历和模拟经历中学习）。

3 动作价值的蒙特卡洛估计

3.1 使用蒙特卡洛算法确定动作价值函数

如果无法得到环境的模型，那么计算动作的价值比起计算状态的价值更加有用一些。在有模型的情况下，单靠状态价值函数就足以确定一个策略：只需要简单地向前看一步，选取特定的动作，使得当前收益与后继状态的状态价值函数指和最大即可。但在没有模型的情况下，仅仅有状态价值函数是不够的。必须通过显式地确定每个动作的价值函数来确定一个策略。 所以这里主要的目标是使用蒙特卡洛算法确定 $q_*$ 。因此首先考虑动作价值函数的策略评估问题。

动作价值函数的策略评估问题的目标就是估计 $q_\pi(s,a)$ ，即在策略 $\pi$ 下从状态 $s$ 采取动作 $a$ 的期望回报。只需将对状态的访问改为对“状态-动作”二元组的访问，蒙特卡洛算法可以用几乎和之前完全相同的方式来解决此问题。

如果在某一幕中状态 $s$ 被访问并在这个状态中采取了动作 $a$ ，我们就称“动作-状态”二元组 $(s, a)$ 在这一幕中被访问到。

每次访问型MC算法将所有“状态-动作”二元组得到的回报的平均值作为价值函数的近似；首次访问型MC算法则将每幕第一次在这个状态下采取这个动作得到的回报的平均值作为价值函数的近似。

3.2 试探性出发

但有一些“状态-动作”二元组可能永远不会被访问到。如果 $\pi$ 是一个确定性策略，那么遵循 $\pi$ 意味着在每一个状态中只会观测到一个动作的回报。在无法获取回报进行平均的情况下，蒙特卡洛算法将无法根据经验改善动作价值函数的估计。为了比较每个状态所有可用动作，需要估计在一个状态中采取的所有动作的价值函数，而不仅仅是当前更偏好的某个特定动作的价值函数。

为了实现基于动作价值函数的策略评估，我们必须保证持续的试探。一种方法是将指定的“状态-动作”二元组作为起点开始一幕采样，同时保证所有“状态-动作”二元组都有非零的概率可以被选择为起点。这样就保证了在采样的幕个数趋于无穷的时候，每一个“状态-动作”二元组都会被访问到无数次。把这种假设称为试探性出发。另一种方法是只考虑那些在每个状态下所有动作都有非零概率被选中的随即策略。

4 蒙特卡洛控制

4.1 经典策略迭代算法的蒙特卡洛版本

首先讨论经典策略迭代算法的蒙特卡洛版本。这种方法从任意的策略 $\pi_0$ 开始交替进行完整的策略评估和策略改进，最终得到最优的策略和动作价值函数
$\pi_0\xrightarrow{E}q_{\pi_0}\xrightarrow{I}\pi_1\xrightarrow{E}q_{\pi_1}\xrightarrow{I}\pi_2\xrightarrow{E}···\xrightarrow{I}\pi_*\xrightarrow{E}q_* \tag{4.1}$
这里 $\xrightarrow{E}$ 表示策略评估，而 $\xrightarrow{I}$ 表示策略改进。经历了很多幕后，近似的动作价值函数会渐近地趋向真实的动作价值函数。假设我们观测到了无限多幕的序列，并且这些幕保证了试探性出发假设。这种情况下，对于任意的 $\pi_k$ ，蒙特卡洛算法都能精确地计算对应的 $q_{\pi_k}$ 。
策略改进的方法是在当前价值函数上贪心地选择动作。对于任意的一个动作价值函数 $q$ ，对应的贪心策略为：对于任意一个状态 $s\in S$ ，必定选择对应动作价值函数最大的动作
$\pi(s)\dot=\arg \max_aq(s,a)\tag{4.2}$
策略改进可以通过将 $q_{\pi_k}$ 对应的贪心策略作为 $\pi_{k+1}$ 来进行。这样的 $\pi_k$ 和 $\pi_{k+1}$ 满足策略改进定理。这个定理保证 $\pi_{k+1}$ 一定比 $\pi_k$ 更优，除非 $\pi_k$ 已经是最优策略，这种情况下两者均为最优策略。这个过程反过来保证了整个流程一定收敛到最优的策略和最优的价值函数。在只能得到若干幕采样序列而不知道环境动态知识时，蒙特卡洛算法可以用来寻找最优策略。

4.2 基于试探性出发的蒙特卡洛（蒙特卡洛ES）

对于蒙特卡洛策略迭代，可以逐幕交替进行评估与改进。每一幕结束后，使用观测到的回报进行策略评估，然后在该幕序列访问到的每一个状态上进行策略的改进。 使用这个思路的一个简单的算法，称作基于试探性出发的蒙特卡洛（蒙特卡洛ES）。

在蒙特卡洛ES中，无论之前遵循的是哪一个策略，对于每一个“状态-动作”二元组的所有回报都被累加并平均。蒙特卡洛ES不会收敛到任何一个次优策略。因为如果真的收敛到次优策略，其价值函数一定会收敛到该策略对应的价值函数，而这种情况下还会得到一个更优的策略。只有在策略和价值函数都达到最优的情况下，稳定性才能得到保证。

5 同轨策略

为了避免很难被满足的试探性出发假设，智能体需要持续不断地选择所有可能的动作。有两种方法可以保证这一点，分别称为同轨策略(on-policy)方法和离轨策略(off-policy)方法。同轨策略中，用于生成采样数据序列的策略和用于实际决策的待评估和改进的策略是相同的；离轨策略中，用于评估或改进的策略与生成采样数据的策略是不同的，即生成的数据“离开”了待优化的策略所决定的决策序列轨迹。上文提及的蒙特卡洛ES算法是同轨策略方法的一个例子。

同轨策略方法中，策略一般是“软性”的，即对于任意 $s\in S$ 以及 $a\in A(s)$ ，都有 $\pi(a|s)>0$ ，但它们会逐渐地逼近一个确定性的策略。介绍一种同轨策略方法称为 $\epsilon$ -贪心策略，意思是在绝大多数的时候都采取获得最大估计值的动作价值函数所对应的动作，但同时以一个较小的 $\epsilon$ 概率随机选择一个动作。对于所有的非贪心动作，都有 $\frac{\epsilon}{|A(s)|}$ 的概率被选中。这种 $\epsilon$ -贪心策略是 $\epsilon$ -软性策略的一个例子，即对某个 $\epsilon>0$ ，所有的状态和动作都有 $\pi(a|s)\geqslant \frac{\epsilon}{|A(s)|}$ 。在所有 $\epsilon$ -软性策略中， $\epsilon$ -贪心策略在某种层面上是最接近贪心策略的。

同轨策略算法的蒙特卡洛控制的总体思想依然是GPI。如同蒙特卡洛ES一样，使用首次访问型MC算法来估计当前策略的动作价值函数。GPI不要求优化过程中所遵循的策略一定是贪心的，只需要它逐渐逼近贪心策略即可。在同轨策略算法中，仅仅改为遵循 $\epsilon$ -贪心策略。对于任意一个 $\epsilon$ -软性策略 $\pi$ ，根据 $q_\pi$ 生成的任意一个 $\epsilon$ -贪心策略保证优于或等于 $\pi$ 。

6 基于重要度采样的离轨策略

如何在遵循试探策略采取行动的同时学习到最优策略呢？同轨策略方法是一种妥协——它并不学习最优策略的动作值，而是学习一个接近最优而且仍能进行试探的策略的动作值。也可以干脆采用两个策略：一个用来学习并最终成为最优策略，被称为目标策略，另一个更加有试探性，用来产生智能体的行动样本，被称为行动策略。在这种情况下，认为学习所用的数据“离开”了待学习的目标策略，因此整个过程被称为离轨策略学习。

6.1 覆盖假设

通过讨论预测问题来开始对离轨策略方法的学习，目标策略和行动策略都是固定的。假设我们希望预测 $v_\pi$ 或 $q_\pi$ ，但是我们只有遵循另一个策略 $b(b\neq\pi)$ 所得到的若干幕样本。在这种情况下， $\pi$ 是目标策略， $b$ 是行动策略，两个策略都固定且已知。

为了使用从 $b$ 得到的多幕样本序列去预测 $\pi$ ，我们要求在 $\pi$ 下发生的每个动作都至少偶尔能在 $b$ 下发生。即对任意 $\pi(a|s)>0$ ，要求 $b (a ∣ s) > 0$ 。称其为覆盖假设。根据这个假设，在与 $\pi$ 不同的状态中， $b$ 必须是随机的。

6.2 重要度采样

几乎所有的离轨策略方法都采用了重要度采样，重要度采样是一种在给定来自其他分布的样本的条件下，估计某种分布的期望值的通用方法。将重要度采样应用于离轨策略学习，对回报值根据其轨迹在目标策略与行动策略中出现的相对概率进行加权，这个相对概率也被称为重要度采样比。给定起始状态 $S_t$ ，后续的状态-动作轨迹 $A_t,S_{t+1},A_{t+1},...,S_T$ 在策略 $\pi$ 下发生的概率是
$\begin{aligned} &Pr\{A_t,S_{t+1},A_{t+1},...,S_T|S_t,A_{t:T-1}\sim\pi\} \\ &=\pi(A_t|S_t)p(S_{t+1}|S_t,A_t)\pi(A_{t+1}|S_{t+1})\cdots p(S_T|S_{T-1},A_{T-1})\\ &=\prod^{T-1}_{k=t}\pi(A_k|S_k)p(S_{k+1}|S_k,A_k)\tag{6.1} \end{aligned}$
这里 $p$ 是状态转移概率函数。因此在目标策略和行动策略下的相对概率（重要度采样比）是
$\rho_{t:T-1}\dot=\frac{\prod^{T-1}_{k=t}\pi(A_k|S_k)p(S_{k+1}|S_k,A_k)}{\prod^{T-1}_{k=t}b(A_k|S_k)p(S_{k+1}|S_k,A_k)}=\prod^{T-1}_{k=t}\frac{\pi(A_k|S_k)}{b(A_k|S_k)}\tag{6.2}$
重要度采样比只与两个策略和样本序列数据相关，而与MDP的动态特性（状态转移概率）无关。

之前我们希望估计目标策略下的期望回报（价值），但我们只有行动策略中的回报 $G_t$ 。使用比例系数 $\rho_{t:T-1}$ 可以调整回报使其有正确的期望值
$\mathbb E[\rho_{t:T-1}G_t|S_t=s]=v_\pi(s)\tag{6.3}$

下面给出通过观察到的一批遵循策略 $b$ 的多幕采样序列并将其回报进行平均来预测 $v_\pi(s)$ 的蒙特卡洛算法。对于每次访问型方法，定义所有访问过状态 $s$ 的时刻集合为 $\tau(s)$ 。对于首次访问型方法， $\tau(s)$ 只包含在幕内首次访问状态 $s$ 的时刻。用 $T (t)$ 来表示在时刻 $t$ 后的首次终止，用 $G_t$ 表示在 $t$ 之后到达 $T (t)$ 时的回报值。那么 $\{G_t\}_{t\in\tau(s)}$ 就是状态 $s$ 对应的回报值， $\{\rho_{t:T(t)-1}\}_{t\in\tau(s)}$ 是相应的重要度采样比。为了预测 $v_\pi(s)$ ，只需要根据重要度采样比来调整回报值并对结果进行平均即可
$V(s)\dot=\frac{\sum_{t\in\tau(s)}\rho_{t:T(t)-1}G_t}{|\tau(s)|}\tag{6.4}$
通过这样一种简单平均实现的重要度采样被称为普通重要度采样。
另一个重要的方法是加权重要度采样，它采用一种加权平均的方法，定义为
$V(s)\dot=\frac{\sum_{t\in\tau(s)}\rho_{t:T(t)-1}G_t}{\sum_{t\in\tau(s)}\rho_{t:T(t)-1}}\tag{6.5}$
如果分母为零，式(6.4)的值也定义为零。在加权平均估计中，期望是 $v_b(s)$ 而不是 $v_\pi(s)$ ，在统计学意义上这个估计是有偏的。使用简单平均公式(6.5)得到的结果在期望上总是 $v_\pi(s)$ （无偏的），但其值可能变得很极端。假设比例系数是10，这意味着被观测到的决策序列轨迹遵循目标策略的可能性是遵循行动策略的10倍。在这种情况下，普通重要度采样的估计值会是观测到的回报值的10倍。尽管该幕数据序列的轨迹应该可以非常有效地反映目标策略，但其估计值却会离观测到的回报值很远。

数学上两种重要度采样算法在首次访问型方法下的差异可以用偏差与方差来表示。普通重要度采样的估计是无偏的，加权重要度采样的估计是有偏的（偏差值渐近收敛到零）。普通重要度采样的方差一般是无界的，而加权估计中任何回报的最大权值都是1。实际应用时，人们偏好加权估计，因为方差经常很小。

7 增量式实现

更新公式的形式
$新估计值\leftarrow旧估计值+步长\times[目标-旧估计值]\tag{7.1}$
表达式 $[目标 - 旧估计值]$ 是估计值的误差。误差会随着向“目标”靠近的每一步减小。该方法在蒙特卡洛方法中对回报进行平均，也可以以完全相同的方式用于同轨策略的蒙特卡洛方法中。对于离轨策略的蒙特卡洛方法，需要分别讨论使用普通重要度采样和加权重要度采样的方法。

7.1 普通重要度采样

普通重要度采样的条件下，回报先乘上重要度采样比 $\rho_{t:T(t)-1}$ (式6.2)进行缩放再简单地取平均。

7.2加权重要度采样

采用加权重要度采样的离轨策略方法，需要对回报加权平均，而且需要一个略微不同的增量式算法。

假设有一个回报序列 $G_1,G_2,...,G_{n-1}$ ，它们都从相同的状态开始，且每一个回报都对应一个随机权重 $W_i$ （例如， $W_i=\rho_{t:T(t)-1}$ ）。希望得到如下的估计，并且在获得了一个额外的回报值 $G_n$ 时能保持更新。
$V_n\dot=\frac{\sum^{n-1}_{k=t}W_kG_k}{\sum^{n-1}_{k=t}W_k},n\geqslant2\tag{7.2}$
为了能不断跟踪 $V_n$ 的变化，必须为每一个状态维护前 $n$ 个回报对应的权值的累加和 $C_n$ 。 $V_n$ 的更新方法是
$V_{n+1}\dot=V_n+\frac{W_n}{C_n}[G_n-V_n],n\geqslant1\tag{7.3}$
以及
$C_{n+1}\dot=C_n+W_{n+1}$
这里 $C_0\dot=0$ （ $V_1$ 是任意的，所以不用特别指定）。这个算法对于同轨策略的情况也同样适用，只需要选择同样的目标策略与行动策略即可（这种情况下 $\pi=b$ ， $W$ 始终为1）。

8 离轨策略蒙特卡洛控制

同轨策略方法在使用某个策略进行控制的同时也对那个策略的价值进行评估。在离轨策略方法中，这两个工作是分开的。用于生成行动数据的策略被称为行动策略。行动策略可能与实际上被评估和改善的策略无关，而被评估和改善的策略称为目标策略。这样分离的好处在于当行动策略能对所有可能的动作继续进行采样时，目标策略可以是确定的（例如贪心）。

离轨策略蒙特卡洛控制方法遵循行动策略并对目标策略进行学习和改进。要求行动策略对目标策略可能做出的所有动作都有非零的概率被选择。为了试探所有的可能性，要求行动策略是软性的（即在所有状态下选择所有动作的概率都非零）。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
如果做到轻松在股市赚钱？只要坚持这三个原则。履霜之人
大A股里向来就有七亏二平一赚的说法，能赚钱的都是少数人。否则股市就成了慈善机构，人人都有钱赚，谁还要上班？所以说亏钱是正常的，或者说是应该的。那么那些赚钱的人又是如何做到的呢？普通人能不能找到捷径去分一杯羹呢？方法是有的，但要做到需要你有极高的自律。第一，控制仓位，散户最大的问题是追涨杀跌，只要涨起来，就把钱往股票上砸，然后被套，隔天跌的受不了，又一刀切，全部割肉。来来回回间，遍体鳞伤。所以散户首
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
其二十八尾喵
你知道吗？图片发自App我今天知道了你有喜欢的人，不是我。心空空的，整个人都不是我的了。可，怎么办？还是要好好的活着，毕竟你喜欢的人，我不能杀，可是我可以杀其他喜欢你的人呀！也罢，此生无缘，来世再见。鱼干
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
走向以教育叙事为载体的教育叙事研究 666小飞鱼
今天我读了吴松超老师的《给教师的68条建写作建议》中的第23条《如何通过教育叙事走向研究》，吴老师在文中与我们分享了一个德育案例，这是一个反面的案例，意在告知我们在处理问题时，不能就考虑的点太窄，思考要全面。走向教育叙事研究，教师要有敏锐的“感知力”，这个感知力来自于背后专业知识的支撑，思维能力以及广阔的视野和见识等。所以对于同一件事处理方法不同，这个就是教师背后“敏锐力”的不同造成的，也就是说是
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

强化学习（第二版）笔记——第五章 蒙特卡洛方法