微丶念（小矿工）

有导向的策略搜索

　　今天我们来聊一聊Guided Policy Search的那些事。
　　这篇论文的创新点在哪呢？（ideas）
　　我们知道，以往的策略搜索方法(又叫Direct Policy Search)是很容易迁移到高维的系统中的，但是对于具有数百参数的复杂策略，这种方法就面临了一个很大的挑战，它需要巨大数量的样本来进行训练，并且经常陷入较差的局部最优(poor local optima)。
　　因此，作者Sergry Levine就提出了这种叫做Guided Policy Search的方法，顾名思义，这种方法有一些什么东西进行监督，或者说是引导，从而降低训练所需的样本数量。
　　本文展示了如何利用微分动态规划来产生合适的引导样本(guiding samples)，并且一种能够将这些样本融入到策略搜索(policy search)中的正则化的重要性采样策略优化方法(regularized importance sampled policy search)。此外，本文还对多个控制问题的神经网络控制器进行参数学习，从而评估这一方法。
　　下面我们根据论文的结构来进行解读。

Introduction

　　强化学习对于动力系统的控制而言，是一种很有效的架构。策略搜索方法经常被用在那些高维的应用中，比如机器人，这是由于策略搜索方法能够很轻松的扩展到高维，并且有着足够吸引人的收敛保证。但是，这种保证确是建立在牺牲通用性(generality)的基础上的。当然，我们也可以用使用一个大型的神经网络来解决通用性的问题，可是学习一个这样复杂且非线性的系统可能需要大量的迭代，并且很容易陷入局部最优。
　　而GPS(Guided Policy Search)则能够引导策略搜索远离那些较差的局部最优点(poor local optima)。GPS使用DDP来产生引导样本，这些引导样本则带着策略搜索往奖励高的地方探索。当然，为了将产生的这些样本直接使用到策略搜索中，我们需要一个重要性采样的变体——似然比估计(likelihood ratio estimator)。

Preliminaries

　　强化学习的目的是为了找到一个控制策略来控制一个随机环境(stochastic environment)中的智能体。在每一个时间步，智能体观察到一个状态 xt ，依据策略 π(ut|xt) 选择一个动作，然后按照 p(xt+1|xt,ut) 进行状态转移。最优策略就是最大化时间步 1 到 T 的期望总奖励，也即回报。我们使用 ζ 来表示一个状态与动作组成的序列，也可以说是一段状态+动作的轨迹，并且利用 r(ζ) 和 π(ζ) 分别表示沿着 ζ 的总奖励和在 π 下的概率。下面的讨论主要关注连续域中有限范围的任务(finite-horizon tasks in continuous domains)，扩展到其他形式仍然可以。
　　策略梯度搜索方法一般直接优化问题的期望回报 E[J(θ)] ，特别地，似然比(likelihood ratio)方法则使用从当前策略 πθ 中得到的样本 ζ1,...,ζm 估计梯度 E[∇J(θ)] ，然后沿梯度方向前进一步对策略进行改进（因为是最大化回报，所以是沿梯度方向，而不是负梯度方向）。
　　使用下面的式子来对梯度进行估计：

E [\nabla J (θ)] = E [r (ζ) \nabla log π θ (ζ)] \approx 1 m \sum i = 1 m r (ζ i) \nabla log π θ (ζ i)

　　其中，

∇logπθ(ζi) 也可以表示为

∑t∇logπθ(ut|xt) ，这是由于其中的状态转换模型

p(xt+1|xt,ut) 并不依赖于

θ （将其中的

πθ(ζi) 展开之后，其中

p(xt+1|xt,ut) 的项对于

θ 的求导为0）。
　　上面这种标准的似然比方法在每个时间步中都需要从当前的策略获得新的样本来对梯度增量进行求解，同时需要仔细地选择一个学习速率来保证收敛。不过，我们能够用重要性采样来减轻这些限制(how importance sampling can be used to lift these constraints)，我们将在下一节来讨论这一问题。

Importance Sampled Policy Search

　　重要性采样是怎样的一种技术呢？
　　它使用基于另一个不同的分布 q(x) 采集到的样本来估计关于 p(x) 的期望 Ep[f(x)] 的值：

E p [f (x)] = E q [p ( x ) q ( x ) f (x)] \approx 1 Z \sum i = 1 m p ( x i ) q ( x i ) f (x i)

　　如果我们选择

Z=m ，则上面的重要性采样对于期望的估计是无偏的，如果尽管如此，本文自始至终还是使用

Z=∑ip(xi)q(xi) ，毕竟这样的话能有一个更低的方差。有人使用重要性采样方法来估计

E[J(θ)] ，这样就允许使用离策略(off-policy)的样本，并有了下面的结果：

E [J (θ)] \approx 1 Z ( θ ) \sum i = 1 m π θ ( ζ i ) q ( ζ i ) r (ζ i)

　　如果我们继续对上面的式子进行探究就会发现，过去的奖励并不依赖于未来的动作，所以我们能够继续降低该估计的方差：

E [J (θ)] \approx \sum t = 1 T 1 Z t ( θ ) \sum i = 1 m π θ ( ζ i , 1 : t ) q ( ζ i , 1 : t ) r (x i t, u i t)

　　其中

πθ(ζi,1:t) 为

ζi 的前

t 个时间步的概率，

Zt(θ) 对权重进行了正则化处理。
　　为了从多种分布中来采样，我们沿用了上面的工作，并且使用一个融合分布

q(ζ)=1n∑jqj(ζ) ，其中每一个

qj 都是前面的一个策略或者是由DDP方法得到的一个导向分布(guiding distribution)。此前的方法都是去最优化(3)、(4)两个式子，这些方法存在一些缺点：对于复杂的策略以及较长的运行时间(complex policies and long rollouts)而言，通常得到一个较差的结果。所以本文引进了一个正则项，得到下面的表达式：

ϕ (θ) = \sum t = 1 T [1 Z t ( θ ) \sum i = 1 m π θ ( ζ i , i : t ) q ( ζ i , 1 : t ) r (x i t, u i t) + ω r log Z t (θ)]

该函数的梯度可由下述公式计算(详细推算见论文附录):

\nabla Φ (θ) = \sum t = 1 T \sum i = 1 m \nabla μ (x i t) u i t - μ ( x i t ) σ 2 \sum t' T 1 Z t ' ( θ ) π θ ( ζ i , 1 : t ' ) q ( ζ i , 1 : t ' ) ξ i t'

　　后面的那个正则项作为基于权重的对数的一个软最大值，保证了在

πθ 下，至少有一些样本有较高的概率。(The regularizer acts as a soft maximum over the logarithms of the weights, ensuring that at least some samples have a high probability under

πθ .)
　　上面这个式子，还有一点值得注意的，就是我们可以通过自适应地调节

ωr ，从而改变允许策略与样本的偏离程度。这一性质应该如何利用呢？假如我们想要改进策略，可是一直无法使得新策略比原有策略更好，那么，我们就将优化限制在样本附近区域进行。
　　下一步进行深入理解。正则项解决了什么问题呢？上面所说的优化(3)、(4)两个式子会得到较差的结果又是为什么呢？我们下面来聊聊这两个问题。
　　这得先说说两个式子的意义了，拿(3)式举例，撇去

Z(θ) 不看，后面的求和项是对

m 个样本进行求和，这

m 个样本

ζ1,...,ζm 的回报分别是

r(ζ1),...,r(ζm) ，而它们对于期望总回报的权重分别为

πθ(ζ1)q(ζ1),...,πθ(ζm)q(ζm) ，值得注意的是，

∑mi=1q(ζi) 并不为1，除非这

m 条样本轨迹包含了所有的情况。
　　那这与优化(3)、(4)两个式子会得到较差的结果有什么关系呢？观察两个式子可以发现，两个估计都仅仅考虑了样本与样本之间的

πθ(ζi)q(ζi) 的相对大小(relative probability)（注意，是样本与样本之间的

πθ(ζi)q(ζi) 的相对大小，而不是指

πθ(ζi) 与

q(ζi) 的相对大小）。这句话是什么意思呢？我们对公式(3)作一个变形：

E [J (θ)] \approx \sum i = 1 m π θ ( ζ i ) q ( ζ i ) Z ( θ ) r (ζ i)

　　这样便很好理解了，这个式子中的

πθ(ζi)q(ζi)Z(θ) 很好地体现了相对大小的意思。它并没有要求其中某一项

πθ(ζi)q(ζi) 较高，因而也就不能保证在策略

πθ 下有较高的概率了（注意到，对于每一次的优化，以

θ 为参数对

E[J(θ)] 进行优化时，

q(ζi) 是并未改变的，可以当做常量）。比如说最优解可以给这些样本都分配低的概率（对于

πθ(ζi)q(ζi) 而言的），而里面最好的样本仅仅只是比其它的样本的概率大一点点，因而这些样本都只有一个非零的权值，也即

πθ(ζi)q(ζi)≈0,i=1,...,m 。打个比方，记比值项

πθ(ζi)q(ζi) 为

ai ，假设

m=3,a1=0.03,a2=0.02,a3=0.02 ，其中

a1 为较好的样本对应的权重项，三个值都要除以

Zt(θ) 进行归一化，我们的最优解只需要保证它们之间的相对大小，这也就没有保证

a1,a2,a3 的值较大了。
　　正则项是如何解决这一问题的呢？首先我们观察公式(5)，其中正则项为

∑Tt=1ωrlogZt(θ) ，也即

∑Tt=1ωrlog∑mi=1πθ(ζi,1:t)q(ζi,1:t) ，这也就使得比值项，或者说是权重项

πθ(ζi)q(ζi) 尽可能大，而其中

q(ζi) 当做常量，则保证了在策略

πθ 下有较高的概率，这也就是作者添加这一正则项的好处了。

Guided Samples

　　首先，我们对前面的东西进行回顾，在下面的式子中：

E [\nabla J (θ)] = E [r (ζ) \nabla log π θ (ζ)] \approx 1 m \sum i = 1 m r (ζ i) \nabla log π θ (ζ i)

ζ1,...,ζm 是依据当前策略

πθ 采样所得，因而是同策略的(on-policy)，而重要性采样就是使得我们能够进行离策略(off-policy)更新，怎么做到离策略更新呢？我们观察下面的式子：

E [J (θ)] \approx \sum t = 1 T 1 Z t ( θ ) \sum i = 1 m π θ ( ζ i , 1 : t ) q ( ζ i , 1 : t ) r (x i t, u i t)

　　其中

πθ 为当前策略，那么这里所谓的离策略中的采样策略呢？（注意，同策略是依据当前策略直接进行采样，而离策略则是借助重要性采样，按照另外一个分布进行采样。）采样策略应该如何选择才能符合将策略导向期望总奖励较大的区域呢？
　　前面一节中所讲的是如何使用重要性采样实现离策略更新，以往人们都是将重要性采样用于重用前面策略(previous policies)的样本来进行离策略的实现，但是，对于几百个参数的策略，这样做很容易陷入较差的局部极值。本节讲述如何使用DDP产生离策略的导向样本，进而将策略搜索引导到高奖励区域(high reward)。
　　下面我们来看如何构建导向分布(guiding distributions)。
　　一个有效的引导分布, 是能够覆盖高回报区域, 同时避免大

q(ζ) 密度对应小的重要性权重。
　　这篇文章呢，就这么说了，一个好的导向分布是

ρ(ζ)∝exp(r(ζ)) 的一个信息投射(I-projection, imformation projection)。
　　那么问题来了，I-projection是什么呢？

ρ 的一个I-projection

q 是使得KL散度(KL-divergence)

DKL(q||ρ)=Eq[−r(ζ)]−H(q) 取最小的

q ，其中

H 表示熵(entropy)。
　　为什么要选取这样的一个式子呢？其中，第一项能够让

q 在具有较高奖励的区域中取较大的值，而第二项对于熵尽可能大的要求，则是倾向于一个宽分布(broad distribution)。本文将会展示

ρ 的一个近似的高斯I-projection可以通过使用DDP的一个变体即iLQR计算出来。iLQR是在线性二次假设下，重复求解优化策略，从而优化轨迹的。
　　我们假设最优策略

πG 最大化了一个增广的奖励函数：

r ~ (x t, u t) = r (x t, u t) - D K L (π G (\cdot | x t) | | p (\cdot | x t))

　　其中

p 是一个“消极动态模型”分布(passive dynamics)。如果

p 是一个均匀分布，那么策略

πG 的期望回报为：

E π G [r ~ (ζ)] = E π G [r (ζ)] + H (π G)

　　上面这个式子也就是在说，如果

πG 极大化了回报，那么它就是

ρ 的一个I-projection，这一点我们通过观察I-projection的定义和上面的式子不难理解。
　　Ziebart在2010年提出，在

p 为均匀分布(uniform passive dynamics)时，最优策略为：

π G (u t | x t) = exp (Q t (x t, u t) - V t (x t))

　　其中

V 是一个经过改造的值函数(modified value function)：

V t (x t) = log \int exp (Q t (x t, u t)) d u t

　　然后作者又说了，在线性动态模型和二次形式奖励的情况下，

V 与上面得到的结果是一样的，并且其中(12)式是一个线性高斯函数(linear Gaussian高斯函数的线性组合，它的均值为

g(xt) ，协方差为

−Q−1uut 。这一随机策略相对于轨迹

ζ (trajectories)来说可以近似看做一个高斯分布。也就是说，我们能够从

ρ 的一个近似高斯I-projection里面进行采样：

π G (u t | x t) = G (u t; g (x t), - Q - 1 u u t)

　　其中

ut 为自变量，并且需要注意的是，

πG(ζ) 只有在线性动态模型情况下才是高斯分布(It should be noted that

πG(ζ) is only Gaussian under linear dynamics.)。当动态模型为非线性时，

πG(ζ) 在标称轨迹(nominal trajectories)附近可以近似为一个高斯分布。庆幸的是，DDP中的反馈项便倾向于保持样本接近这个轨迹，使得这些样本能够作为该策略搜索的适合的导向样本。
　　上面的方法有个什么缺点呢?这个方法仅仅考虑了高奖励区域，但是并没有考虑当前策略

πθ 。我们能够通过从

ρθ(ζ)∝exp(r(ζ))πθ(ζ) 进行采样，从而将当前策略

πθ 考虑在内。不过呢，在实际中，很多领域并不需要这种改进的样本(adaptive samples)。在什么情况下需要呢？比如说在同样的状态下，策略选择的动作不同，这对产生样本而言是个问题。因此，在这种情况下，改进的样本能够避免策略在相同的状态下选择不同的动作，也就更加适用于对策略进行引导了。
　　那在实践中，我们如何将这些导向样本使用起来呢？————TODO————–

Guided Policy Search

　　我们直接来看GPS的算法部分：
Algorithm 1 Guided Policy Search
1: Generate DDP solutions πG1,...,πGn
2: Sample ζ1,...ζm from q(ζ)=1n∑iπGi(ζ)
3: Initialize θ∗←argmaxθ∑ilogπθ∗(ζi)
4: Build initial sample set S from πG1,...,πGn,πθ∗
5: for iteration k=1 to K do
6: Choose current sample set Sk⊂S
7: Optimize θk←argmaxθΦSk(θ)
8: Append samples from πθk to Sk and S
9: Optionally generate adaptive guiding samples
10: Estimate the values of πθk and πθ∗ using Sk
11: if πθk is better than πθ∗ then
12: Set θ∗←θk
13: Decrease ωr
14: else
15: Increase ωr
16: Optionally, resample from πθ∗
17: end if
18: end for
19: Return the best policy πθ∗
　　下面我们仔细解读一下这段算法。首先，依据上一节所说的，我们可以利用示教或是一个离线的规划算法(human demonstrations or with an offline planning algorithm)，来产生一系列的DDP的策略解 πG1,...,πGn 。随后将这些策略组合为一个策略，也即有 q(ζ)=1n∑iπGi(ζ) ，并从中采样，得到一些样本 ζ1,...ζm 。接着我们可以利用这些样本对策略的参数 θ 进行极大似然估计，得到 θ∗←argmaxθ∑ilogπθ∗(ζi) 。将上面的导向样本和依据策略 πθ∗ 中得到的样本合在一起，建立一个初始样本集 S 。
　　接下来呢，我们就执行循环了，循环在优化 Φ(θ) 和从当前策略 πθk 获取新样本之间转换。我们选择一个样本子集 Sk⊂S ，然后利用该子集来优化(LBFGS方法)函数 Φ(θ) ，也即优化函数 ΦSk(θ) ，得到一个 θk ，然后从中采样添加到集合 Sk 和 S 中。利用样本集 Sk 来估计 πθk 和 πθ∗ 的值函数的大小，并进行比较，同时，依据比较结果来自适应地更改 ωr 的值。如果新策略 πθk 比当前最优策略 πθ∗ 要好，那么减小 ωr ，以减轻正则项的权重，从而使得 πθ(ζi) 被允许有较小的值，也即轨迹 ζi 在策略 πθ 下有较小的概率，或者说，不强调策略 πθ 去拟合轨迹 ζi 。而当新策略 πθk 比当前最优策略 πθ∗ 要差时，我们增加 ωr ，迫使策略 πθ 更倾向于拟合轨迹 ζi ，毕竟轨迹 ζi 是好的导向样本(good guiding examples)。这也就实现了探索(explore)与利用(exploit)之间的折中处理。
　　实现关键点：
　　我们通过构建一条或多条初始DDP轨迹（DDP solutions）来将引导样本包含在策略搜索中。这些解（solutions）可以通过人类示教或者是离线算法进行初始化。当我们从示教进行学习时，可以仅仅在原来的示教样本轨迹的基础上进行一步DDP迭代，从而构建一个在样本附近的高斯分布（When learning from demonstrations, we can perform just one step of DDP staring from the example demonstration,thus construction a Gaussian distribution around the example.）。如果使用的是改进的引导分布，那么它们在每一次策略搜索的迭代步中都需要从前一步的DDP解进行构建（If adaptive guiding distributions are used, they are constructed at each iteration of policy search starting fromthe previous DDP solution.）。
　　这个算法的策略搜索部分因为是对轨迹的概率分布的对数进行求导，而其中的动态模型部分与 θ 无关，因此策略搜索部分是model-free的，但是DDP却要系统的模型，因而整个算法还是model-based的。而model-free的DDP alternatives则在section 8进行讨论。GPS可以被看成是一个这样的系统，它将一组轨迹转化为一个控制器（GPS can be viewed as transforming a collection of trajectories into a controller.）。

2025-03-14 学习记录--C/C++-PTA 习题2-1 求整数均值小呀小萝卜儿学习-C/C++学习 c语言
合抱之木，生于毫末；九层之台，起于累土；千里之行，始于足下。一、题目描述⭐️习题2-1求整数均值本题要求编写程序，计算4个整数的和与平均值。题目保证输入与输出均在整型范围内。输入格式:输入在一行中给出4个整数，其间以空格分隔。输出格式:在一行中按照格式“Sum=和;Average=平均值”顺序输出和与平均值，其中平均值精确到小数点后一位。输入样例:1234输出样例:Sum=10;Average=2
基于NXP+FPGA轨道交通3U机箱结构牵引控制单元深圳信迈主板定制专家轨道交通 NXP+FPGA X86+FPGA fpga开发边缘计算人工智能大数据嵌入式硬件
基于NXP+FPGA轨道交通异步电机牵引控制单元(TCU-IM)异步电机牵引控制单元（TCU-IM）用于牵引逆变器-异步电机构成的牵引电传动系统，可采用车控或架控方式。执行高性能异步电机复矢量控制策略，具有响应迅速、有效可靠的防空转·滑行控制功能以及平稳、无冲击的带速重投技术。无速度传感器控制通过转速观察算法，推算出准确的转速和转子位置，在实际应用中，达到省去速度传感器的目的，降低成本并减少故障点
如何提高Flask的高并发性能 BirdMan98 Flask Python flask python 后端
提高Flask的并发性能可以从多个方面入手，主要包括服务器优化、数据库优化、代码优化和使用异步技术。下面详细介绍几种方法：1.使用高性能WSGI服务器Flask自带的开发服务器（flaskrun）不适用于生产环境。建议使用高性能WSGI服务器来运行Flask：推荐的WSGI服务器Gunicorn（推荐）：适用于LinuxWaitress：适用于WindowsuWSGI：适用于Linux，性能更强，
petalinxu 在zynq的FPGA下的ST7735S的驱动配置 qqssbb123 zynq petalinux dts st7735
spi的接线：【TFT模块排针8】【开发板spi,gpio】【antminers9】VCC-----------3.3V-----------3.3VGND-----------GND-----------GNDBLK(背光）-------GPIO-----------BANK34_L4N_RXD2(w13;j2.12;gpio[2])RST(复位）-------GPIO-----------BA
STL中list的使用海马HiMark C++STL list
list的底层结构list底层是一个带头节点的双向循环链表，任意位置插入和删除时间复杂度0(1)list迭代器由于list底层是带头节点的双向循环链表，因此list的迭代器需要list的实现者自己提供迭代器怎么实现呢？迭代器的本质是指针，将指针封装出新的类型，指针有的操作，迭代器也视情况支持这些操作，比如：指针++，–，*，->等操作。迭代器在类中将这些操作重载出来即可，然后将list迭代器看作l
【Springboot知识】开发属于自己的中间件健康监测HealthIndicate 问道飞鱼微服务相关技术 spring boot 中间件后端 HealthIndicate
文章目录**一、技术栈****二、项目结构****三、依赖配置(pom.xml)****四、配置文件(application.yml)****五、自定义健康检查实现****1.Redis健康检查****2.Elasticsearch健康检查****3.Kafka健康检查****4.MySQL健康检查****六、自定义健康检查接口(可选)****七、测试与验证****八、高级功能扩展****九、部署
42.接雨水吃小狼的兔 LeetCode-热题100 LeetCode-双指针算法
题目：给定n个非负整数表示每个宽度为1的柱子的高度图，计算按此排列的柱子，下雨之后能接多少雨水。示例1：输入：height=[0,1,0,2,1,0,1,3,2,1,2,1]输出：6解释：上面是由数组[0,1,0,2,1,0,1,3,2,1,2,1]表示的高度图，在这种情况下，可以接6个单位的雨水（蓝色部分表示雨水）。示例2：输入：height=[4,2,0,3,2,5]输出：9提示：n==hei
1.两数之和吃小狼的兔 LeetCode-热题100 LeetCode-数组算法 leetcode 数据结构
题目：给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以按任意顺序返回答案。示例1：输入：nums=[2,7,11,15],target=9输出：[0,1]解释：因为nums[0]+nums[1]==9，返回[0,1]。示例2：输入：nums=[3
438. 找到字符串中所有字母异位词 Zannnne leetcode
438.找到字符串中所有字母异位词题号：力扣438知识点：字符串，滚动窗口目标完成度：59/150总结题干：思路：1.如果s的长度小于p，则s中必然找不到与p是异位词的子串。2.异位词的特点是每个字母出现的次数一直，但是出现的顺序不一定相同。因此我们建立两个容器，来记录p中和滚动窗口中每个字母出现的次数，由于字母一共只有26个，所以容易大小为26。3.第一个for循环相当于是对scount进行初始
uni-app打包h5并部署到nginx，路由模式history 星月昭铭前端杂项 Vue uni-app nginx
uni-app打包有些坑，当时运行的基础路径填写了./，导致在二级页面刷新之后，页面直接空白。就只能换一个路径了，nginx也要跟着改，下面是具体步骤。manifest.json配置web运行路径写/h5/，或者写你们网站的目录，比如我这里写了h5，到时候访问的地址就是127.0.0.1/h5，对，带了一个h5nginx配置需要在nginx里面配置一个/h5配置，然后我这里还配置了一个locati
为什么要进行数据仓库分层？ BenBen尔 #建模方法 spark 大数据分布式
对数据仓库进行分层（如常见的ODS、DWD、DWS、ADS等层次）是为了解决复杂数据处理场景中的效率、可维护性、易用性问题。以下是分层的主要目的和优势：1、职责分离，逻辑解耦分层能够沉淀公共的数据模型，实现了逻辑解耦。有以下好处：减少重复开发，提升研发效率从数仓模型角度能够提升数据一致性。减少了冗余计算，高频查询或者高频开发无需使用原始数据，直接使用公共的数据模型查询或者开发即可，减少了对计算资源
全自动量化交易软件是否真的可靠？使用过程中有哪些潜在风险需要注意财云量化 python炒股自动化量化交易程序化交易全自动量化交易软件可靠性潜在风险数据准确性股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
Redis 源码分析-内部数据结构 robj 笨手笨脚の #Redis redis 数据结构数据库 redisObject 44字节 embStr raw
Redis源码分析-内部数据结构robjRedis中，一个database内的这个映射关系是用一个dict来维护的（ht[0]）。dict的key固定用一种数据结构来表达就够了，即动态字符串sds。而value则比较复杂，为了在同一个dict内能够存储不同类型的value，这就需要一个通用的数据结构，这个通用的数据结构就是robj（全名redisObject）。#defineLRU_BITS24/
CAPL的程序结构正当少年 CAPL 开发语言
CAPL（CommunicationAccessProgrammingLanguage）是Vector公司开发的一种用于汽车网络仿真、测试和开发的脚本语言，主要用于CANoe、CANalyzer等工具中。CAPL程序的结构相对简单，通常由事件驱动的方式组织。以下是CAPL程序的基本结构：1.变量声明CAPL程序通常以变量声明开始。变量可以是全局变量或局部变量。全局变量在整个程序中可见，局部变量只在
JVM内存监控及调优分析闲着无聊整些资料 JVM jvm java linux
一、内存监控背景在做JVM内存分析前，需要堆JVM内存及垃圾回收算法和垃圾回收器有一定了解，具体可以参考我之前的一篇文章：常见的垃圾回收器及垃圾回收算法1.1、为什么要做内存监控我们在做开发的时候不可避免的会遇到一些问题，诸如下面这些问题：生产环境发生了内存溢出该如何处理？生产环境应该给服务器分配多少内存合适？如何对垃圾回收器的性能进行调优？生产环境CPU负载飙高该如何处理？生产环境出现死锁该如何
SQLite学习（十一）使用JDBC读写SQLite数据，基于Java实现 Designer 小郑 SQLite从入门到实战 sqlite 数据库 sql java jdbc
1.前言2.基础工作2.1创建Java项目2.2依赖Jar包3.连接SQLite4.查询SQLite数据5.新增SQLite数据6.总结1.前言在上一篇《SQLite学习（十）SQLite的注入问题的防范、数据库文件导入和导出》中，讲解了SQLite的SQL注入问题和应对措施，在本篇博客中，将继续讲解如何使用JDBC读写SQLite数据。同学们将学习到：JDBC是什么使用JDBC读写SQLite请
JVM 调优百里自来卷 jvm
在生产环境中，JVM调优是确保Java应用程序性能和稳定性的重要步骤。调优的目标通常是减少垃圾回收的时间、降低内存使用和提高应用程序的吞吐量。以下是一些常见的JVM调优策略和方法。选择合适的垃圾收集器-XX:+UseG1GC调整堆内存大小，通过调整堆内存的大小，可以控制应用程序的性能设置初始堆大小：-Xms512m设置最大堆大小：-Xmx2048m设置年轻代大小：-Xmn256m一般推荐将初始堆和
GC 频率和触发条件百里自来卷 jvm
在Java中，垃圾回收（GC）的频率和触发条件取决于GC算法、堆内存分配、对象生命周期以及JVM参数的配置。下面详细介绍这些影响因素：1.GC触发条件GC主要触发的情况如下：(1)年轻代GC（MinorGC/YoungGC）触发条件：Eden区满了：当新对象分配到Eden区，如果Eden区没有足够的空间分配新对象，就会触发MinorGC。Survivor空间不足：当存活对象从Eden复制到Surv
uniapp vue3项目用原生h5 audioContext实现语音文件倍速播放，可适应h5和安卓app 努力做大神 uni-app android 音频倍速播放
前言uniapp项目要做类似微信的聊天语音播放功能，可以切换语音，可以点击切换播放/停止播放状态，还可以倍速播放。开始用了uniapp的音频组件uni.createInnerAudioContext()，很好用但就是倍速播放playbackRate属性不起作用，经过研究，决定用原生h5的audioContext。AudioContext是WebAudioAPI的一部分，它代表了一个音频处理图，允许
uni-app微信小程序报错：更改appid失败touristappid Error:tourist appid 努力做大神小程序小程序 uni-app
事情是这样的，我用HbuilderX新建了一个uni-app小程序，然后运行到微信开发者工具，原本正常开发，后来我在微信开发者工具中，把project.config.json文件中的“appid”:“touristappid”，改为了一个我之前开发过的小程序的appid，然后保存文件报错。撤回更改后仍报错。这时无法改回默认的touristappid。我打开微信开发者工具，点击新建小程序，生成一个测
springboot新手入门搭建项目 stayhungerstayflush spring boot 后端 java
SpringBoot新手入门指南：从原理到实践一、SpringBoot简介SpringBoot是基于Spring框架的快速开发脚手架，通过约定优于配置的设计理念，简化了Spring应用的初始化搭建和开发过程。主要优势包括：内嵌Web服务器（Tomcat/Jetty）自动配置Spring和第三方库提供生产级监控端点无需XML配置二、核心概念解析1.自动配置（Auto-Configuration）@S
redis内部数据结构(5)-quicklist Tinner丶链表数据结构算法 java redis
Redis对外暴露的list数据类型，它底层实现所依赖的内部数据结构就是`quicklist`。我们在讨论中还会涉及到两个Redis配置(在redis.conf中的ADVANCEDCONFIG部分)：12list-max-ziplist-size-2list-compress-depth0注：本文讨论的quicklist实现基于Redis源码的3.2分支。quicklist概述Redis对外暴露的
【忍者算法】从找朋友到找变位词：一道趣味字符串问题的深入解析｜LeetCode 438 找到字符串中所有字母异位词忍者算法忍者算法 LeetCode题解秘籍 leetcode 算法职场和发展面试跳槽
LeetCode438找到字符串中所有字母异位词点此看全部题解LeetCode必刷100题：一份来自面试官的算法地图（题解持续更新中）生活中的算法还记得小时候玩的"找朋友"游戏吗？每个人都有一个字母牌，需要找到拥有相同字母组合的伙伴。比如，拿着"ate"的同学要找到拿着"eat"或"tea"的同学。这其实就是在寻找字母异位词！在实际应用中，字母异位词的检测有着广泛的用途。比如在密码学中检测可能的密
Redis内部数据结构quicklist详解码农单克 redis redis
在本文中，我们介绍一个Redis内部数据结构——quicklist。Redis对外暴露的list数据类型，它底层实现所依赖的内部数据结构就是quicklist。我们在讨论中还会涉及到两个Redis配置（在redis.conf中的ADVANCEDCONFIG部分）：list-max-ziplist-size-2list-compress-depth0我们在讨论中会详细解释这两个配置的含义。注：本文讨
【3DMAX插件】3DMAX建筑大师插件MasterBuilder使用方法沐风老师 3DMAX 3dmax 3dmax插件 3dmax建筑大师 MasterBuilder
3DMAX建筑大师插件是一款专为3DMAX设计的程序化（参数化）建筑建模工具，其最大特点是能够一键生成建筑模型，极大地提升了工作效率。该插件配备了多种结构控制选项，涵盖阳台、门窗、栏杆、楼顶水塔等附属建筑元素，丰富的参数设置允许用户精细调整每个细节，确保每栋建筑都独具特色。更令人赞叹的是，其随机生成功能能在不设定具体参数的情况下，每次生成外观各异的建筑，为设计工作增添无限创意与可能性。【适用版本】
【测试语言篇四】Python进阶篇之json模块 m0_37135615 编程语言 python php 开发语言
一、json模块介绍JSON（JavaScript对象表示法）是一种轻量级数据格式，用于数据交换。在Python中具有用于编码和解码JSON数据的内置json模块。只需导入它，就可以使用JSON数据了：importjsonJSON的一些优点：JSON作为“字节序列”存在，在我们需要通过网络传输（流）数据的情况下非常有用。与XML相比，JSON小得多，可转化为更快的数据传输和更好的体验。JSON非常
MsSqlServer2022的jdbc的url的连接属性 kfepiza Database数据库 sql 关系型非关系型 nosql JAVA microsoft sqlserver 数据库
MsSqlServer2022的jdbc的url的连接属性官方文档LearnSQL连接设置连接属性https://learn.microsoft.com/zh-cn/sql/connect/jdbc/setting-the-connection-properties?view=sql-server-ver16下载JDBC驱动程序可以通过多种方式指定连接字符串的属性：当使用DriverManager
垃圾回收机制是什么？JVM 核心结构? 胡图蛋. jvm
垃圾回收机制是什么jvm的垃圾回收机制是GC（GarbageCollection），也叫垃圾收集器。GC基本原理：将内存中不再被使用的对象进行回收；GC中用于回收的方法称为收集器，由于GC需要消耗一些资源和时间，Java在对对象的生命周期特征进行分析后，按照新生代、老年代的方式来对对象进行收集，以尽可能的缩短GC对应用造成的暂停。不同的对象引用类型，GC会采用不同的方法进行回收，JVM对象的引用分
论文写作篇#6：在C会里，YOLO文章的摘要怎么写？Conclusion怎么写？摘要和Conclusion有哪些区别？ hjs_deeplearning YOLO 人工智能深度学习计算机视觉
前两次学习中，我们学习了C会YOLO论文的结构和消融实验的写法论文写作篇#5：想发C会，YOLO的消融实验AblationExperiment/Study怎么写？-CSDN博客https://blog.csdn.net/hjs314159/article/details/146261468?spm=1001.2014.3001.5502论文写作篇#4：YOLO还能发C会论文吗？C会论文的YOLO文
OCS2 是一个针对切换系统最优控制（OCS2）的 C++工具箱十年一梦实验室 c++开发语言
https://github.com/leggedrobotics/ocs2我将详细介绍位于https://github.com/leggedrobotics/ocs2的OCS2项目，这是一个由leggedrobotics团队开发并维护的开源软件库，专注于开关系统的最优控制（OptimalControlforSwitchedSystems）。以下是对其背景、功能、特点、应用场景及使用方法的全面说明
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include