OneLonelyTree

[归纳]强化学习导论 - 第七章：n-step自举(Bootstrapping)

文章目录

1.本章内容概要
2.n-step TD预测
3.n-step Sarsa
4.n-step off-policy学习
5.*带控制变量的per-decision方法
6.无重要性采样的off-policy学习：n-step树backup算法
7.*一个统一的框架: n-step Q(σ)
8.总结
参考文献

1.本章内容概要

这一章将结合MC方法和 one-step TD 方法，使之表现得更好，该方法称为n-step TD方法，而MC与one-step则是这种新方法的特殊情况。

有时，我们希望能更新快一些，而one-step只利用了当前信息 $V(S_t))$ 和下一步信息 $R_{t+1}, V(S_{t+1})$ ，n-step则可以利用后续多步信息，还可以根据变动大小决定向后迭代多少，加速学习过程。

n-step方法通常用来作为例子引入资格迹(eligibility traces)思想，使得bootstrapping能同时工作于多个时间步上。这里只讨论单纯的n-step bootstrapping思想，而eligibility-trace则推迟到后面讨论。

同样地，我们也先研究prediction问题，然后再研究control问题。即首先研究n-step方法如何预测fixed policy的returns（作为state的函数），然后扩展到action-value与control方法。

2.n-step TD预测

n-step TD prediction的过程：差分更新时，考虑后面的n步。例如，two-step更新需要当前step和下一个rewards以及下两步状态的估计值。因此，n-step是MC方法与TD(0)方法的折中。下图给出了示意。

[归纳]强化学习导论 - 第七章：n-step自举(Bootstrapping)_第1张图片

n-step方法仍然是TD方法，因为它们还是用了bootstrapping的思想。

考虑从t到T的S和R的序列，我们分别列出MC、TD(0)以及n-step的公式。

MC：更新的target就是return，也叫full return；
$G_{t} \doteq R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\cdots+\gamma^{T-t-1} R_{T}$

one-step TD：target是第一个reward加上折扣的后面第一个状态的值的估计；
$G_{t : t+1} \doteq R_{t+1}+\gamma V_{t}\left(S_{t+1}\right)$

two-step TD：target是前两个reward加上折扣的后面第二个状态的值的估计；
$G_{t : t+2} \doteq R_{t+1}+\gamma R_{t+2}+\gamma^{2} V_{t+1}\left(S_{t+2}\right)$

n-step TD：n-step return是full return的近似，但是截短到n steps，并用 $V_{t+n-1}$ 作为remaining missing terms。注意如果t+n >= T，则把式子中相应的V和R变成0就行了。
$G_{t : t+n} \doteq R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{n-1} R_{t+n}+\gamma^{n} V_{t+n-1}\left(S_{t+n}\right)$
$V_{t+n}\left(S_{t}\right) \doteq V_{t+n-1}\left(S_{t}\right)+\alpha\left[G_{t : t+n}-V_{t+n-1}\left(S_{t}\right)\right], \quad 0 \leq t<T$

注意，如果要更新t时刻的V，必须要到t+n时刻才行，这样我们才有足够的信息。注意每个episode的前n-1个steps无法更新（导致少更新了n-1次），为了弥补这个问题，则在episode尾部，下个episode之前附加n-1次更新，按照不存在就取0的原则。n-step TD算法如下：

[归纳]强化学习导论 - 第七章：n-step自举(Bootstrapping)_第2张图片

n-step return使用 $V_{t+n-1}$ 这个value function来更正missing rewards，可以证明，n-step的最坏error比 $V_{t+n-1}$ 的最坏误差的 $\gamma ^ n$ 倍小，因此n大一些可以加快收敛速度。这叫做n-step的error reduction property。因此n-step TD方法可以收敛到正确的predictions。

$\max _{s}\left|\mathbb{E}_{\pi}\left[G_{t : t+n} | S_{t}=s\right]-v_{\pi}(s)\right| \leq \gamma^{n} \max _{s}\left|V_{t+n-1}(s)-v_{\pi}(s)\right|$

example 7.1 n-step TD Methods on the Random Walk
用 n-step TD 分析五个状态的随机游走问题。初始时每个V(s)都是0.5。从中间C位置开始，随机选择两个方向。对于第一个episode，one-step只能传递最后的reward到V(E)，而只有第二次episode才能传递到V(D)。对于two-step方法，则可以一次传递到V(D)和V(E)。

那么n-step中的n如何选择呢？对于一个19 states的问题，可以分析下不同n时，前十个episodes的平均RMS随着α的变化。可以看到当n处于中间某个值时效果最好，因此证明了n-step比两个极端MC和Sarsa都要好。

注意一个episode中的实际steps个数，可能会比states数目要长很多的。所以n可以取很大的数，仍然有一定的效果，但是这会导致方差放大，变成了求MSE而不是MLE了。注意贝叶斯公式中的先验知识在这里的体现。
还要注意，这里实际上分析的是收敛速度快慢(前10个episodes，interim)而不是最后收敛到效果(asymptotic)的RMS。

3.n-step Sarsa

本节讨论如何把 n-step 方法用于control，我们采用把n-step方法和Sarsa结合的方式，因此之前的Sarsa就叫做one-step Sarsa，或者Sarsa(0)。

[归纳]强化学习导论 - 第七章：n-step自举(Bootstrapping)_第4张图片

这里首先给出 state-action 对的n-step更新公式。n-step Sarsa的backup diagram与n-step TD类似，但是以action节点(实心)开始，也以action节点终止，是个单向的链。因此得到估计action values的n-step returns的公式：
$G_{t : t+n} \doteq R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{n-1} R_{t+n}+\gamma^{n} Q_{t+n-1}\left(S_{t+n}, A_{t+n}\right), n \geq 1,0 \leq t<T-n$

注意当t+n>T时则与MC相似了。自然的更新算法为：
$Q_{t+n}\left(S_{t}, A_{t}\right) \doteq Q_{t+n-1}\left(S_{t}, A_{t}\right)+\alpha\left[G_{t : t+n}-Q_{t+n-1}\left(S_{t}, A_{t}\right)\right], \quad 0 \leq t<T$

这就是n-step Sarsa，其伪代码为：

而n-step Expected Sarsa则在最后一步分支为多个可能的决策动作。这个算法也可以用n-step Sarsa的公式来描述，除了最后的V改成按概率取Q的期望。 $\bar{V}$ 叫做状态s的expected approximate value，注意这不是直接估计V值，而是对Q值加权得来的。expected approximate values 在本书很多算法中都用到了，注意如果s是终止状态，则它的期望值是0。

$G_{t : t+n} \doteq R_{t+1}+\cdots+\gamma^{n-1} R_{t+n}+\gamma^{n} \overline{V}_{t+n-1}\left(S_{t+n}\right), \quad t+n<T$

其中：
$\overline{V}_{t}(s) \doteq \sum_{a} \pi(a | s) Q_{t}(s, a), \quad$ for all $\in \mathcal{S}$

为什么 n-step 方法能加快收敛速度呢？下面的例子给出了说明：

example：

这是一个虚拟的gridworld问题，第一个图给出了某次episode的轨迹，第二个图给出了one-step Sarsa，对于这条路径，只有在G下面的那个格子，向上方向的动作值得到了加强；而第三个图则基于10-step Sarsa，则路径上10个格子在某个方向上的动作值得到了加强，因此n-step加快了学习的过程。

4.n-step off-policy学习

在off policy中，target policy通常是greedy的，而behavior policy通常是exploratory的，我们根据选择概率的比值进行加权(重要性采样)以通过behavior policy得到的经验更新target policy的值函数。在n-step方法中，我们只对构建returns的n个actions加权。对于简单的off-policy方法，可以用下面两个式子更新，其中 $\rho$ 是重要性采样比率，是两个策略生成从 $A_t$ 到 $A_{t+n-1}$ 的概率之比值。

$G_{t : t+n} \doteq R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{n-1} R_{t+n}+\gamma^{n} V_{t+n-1}\left(S_{t+n}\right)$

$V_{t+n}\left(S_{t}\right) \doteq V_{t+n-1}\left(S_{t}\right)+\alpha \rho_{t : t+n-1}\left[G_{t : t+n}-V_{t+n-1}\left(S_{t}\right)\right], \quad 0 \leq t<T$

$\rho_{t : h} \doteq \prod_{k=t}^{\min (h, T-1)} \frac{\pi\left(A_{k} | S_{k}\right)}{b\left(A_{k} | S_{k}\right)}$

这里注意下，如果某个 $A_k, S_k)$ 被目标策略生成的概率为0，则重要性采样比率也就是0；其实如果让off-policy的目标策略和行为策略相同，则off-policy退化为on-policy，因此这样的形式可以把前面的on-policy情形也合并进来了。

类似的，可以把n-step Sarsa也写成off-policy的形式，也就是action-value的更新公式也可以依样修改。注意加权比率中的时间步区间都加1了，这是因action-pair与value定义的区别造成的。

$Q_{t+n}\left(S_{t}, A_{t}\right) \doteq Q_{t+n-1}\left(S_{t}, A_{t}\right)+\alpha \rho_{t+1 : t+n}\left[G_{t : t+n}-Q_{t+n-1}\left(S_{t}, A_{t}\right)\right]$

off-policy n-step Sarsa完整的算法如下：

参考[1]怀疑这里的 $\rho_{\tau+1:\tau+n-1}$ 应该是 $\rho_{\tau+1:\tau+n}$ ，我同意这个意见。

对于off-policy版本的n-step Expected Sarsa，需要在重要性比率减少最后一个因子，也就是改成从t+1到t+n-1，并用的Expected Sarsa版本的n-step return作为target。

5.*带控制变量的per-decision方法

前面介绍的n-step off-policy方法可能不是最高效的，一个更好的方法是使用per-decision重要性采样思想，这可以降低方差(主要是考虑 $\gamma <1$ 的影响)。

首先把n-step return写成递归的形式：
$G_{t : h}=R_{t+1}+\gamma G_{t+1 : h}, \quad t<h<T$

这里的h是horizon，相当于t+n，然后我们想到，如果某个(S, A)对在target policy的概率为0，那么导致ratio=0，方差扩大，我们用下式克服这个问题：

$G_{t : h} \doteq \rho_{t}\left(R_{t+1}+\gamma G_{t+1 : h}\right)+\left(1-\rho_{t}\right) V_{h-1}\left(S_{t}\right), \quad t<h<T$

即把重要性采样因子用于求G，这样当ratio=0时，目标G与h-1时刻的V(S)相等，从而不发生更新，降低了方差(ratio=0意味着我们需要忽略这个sample，所以这样做是没问题的)；如果ratio=1.0，则忽略掉附加项。根据第五章的*Per-decision重要性采样一节， $\rho$ 的期望是1.0，由于独立性， $\left(1-\rho_{t}\right) V_{h-1}\left(S_{t}\right)$ 的期望是0，我们把这个附加的项叫做控制变量control variate。当实际是on-policy情况时， $\rho$ 恒等于1，因此退化为on-policy n-step更新公式形式。

注意这种方法没有显式的重要性比率，因此与 on-policy 算法一致，区别只在G的计算上。

对于action values，也就是n-step off-policy Expected Sarsa，则稍有区别，因为第一个R我们不需要乘重要性采样比率了。 $G$ 是与策略直接有关的，因此要乘ratio；而 $\bar{V}$ 中只有 $Q (S, A)$ 与策略直接相关，因此只有这一项需要考虑重要性采样。

$\begin{aligned} G_{t : h} & \doteq R_{t+1}+\gamma\left(\rho_{t+1} G_{t+1 : h}+\overline{V}_{h-1}\left(S_{t+1}\right)-\rho_{t+1} Q_{h-1}\left(S_{t+1}, A_{t+1}\right)\right) \\ &=R_{t+1}+\gamma \rho_{t+1}\left(G_{t+1 : h}-Q_{h-1}\left(S_{t+1}, A_{t+1}\right)\right)+\gamma \overline{V}_{h-1}\left(S_{t+1}\right), \quad t<h \leq T \end{aligned}$

这个式子怎么来的呢？通过后面两个小节介绍的n-step Tree更新，尤其是*A Unifying Algorithm: n-step Q(σ)小节n-step Q( $\sigma$ )算法推导的中间结果，可以看到与这里的公式基本完全是一样的，除了用动作选择概率替换了这里的重要性采样因子。仔细思考，就能理解本节公式是如何得到的。

这一章介绍的方法可以使n-step方法off-policy地训练，但是为了降低方差不得不减小step-size，这使得学习速率变慢，这很可能是无法避免的，但是可以有改进的余地，例如本节介绍的方法，以及一系列近年来提出的较先进的方法。

6.无重要性采样的off-policy学习：n-step树backup算法

Q-learning和Expected Sarsa是针对one-step情形采用了无重要性采样的形式，这里介绍可用于n-step的无重要性采样的off-policy方法：tree-backup，其思想是受three-step tree-backup启发的，中间的主干是实际的序列，侧面的节点是没有实际采取的动作，对于最后一个状态，认为所有动作都是没采取的，这与之前介绍的backup图有所区别。

[归纳]强化学习导论 - 第七章：n-step自举(Bootstrapping)_第8张图片

update是基于tree上所有leaf nodes的估计动作值的，注意中间那些实际采用的action node则不利用它的值(最终状态除外)，因为我们利用了该动作的R。每个node的权重按照策略选择它的概率确定，例如第一层两个leaf节点，按照 $\pi(a|S_{t+1})$ 加权，而第二层则根据第一层实际采取节点的概率： $\pi(A_{t+1}|S_{t+1})*\pi(a'|S_{t+2})$ ，依此类推。

可以直接写出 $G_{t:t+n}$ 的递推式，如下所示，注意n=1和t=T-1的特殊情况。
t < T - 1, n = 1时，
$G_{t : t+1} \doteq R_{t+1}+\gamma \sum_{a} \pi\left(a | S_{t+1}\right) Q_{t}\left(S_{t+1}, a\right)$
t < T - 1且n > 1时，
$G_{t : t+n} \doteq R_{t+1}+\red{\gamma \sum_{a != A_{t+1}} \pi\left(a | S_{t+1}\right) Q_{t+n-1}\left(S_{t+1}, a\right)}+\blue{\gamma \pi\left(A_{t+1} | S_{t+1}\right) G_{t+1 : t+n}}$
t=T-1时，
$G_{T-1 : t+n} \doteq R_{T}$

以上几个式子中的 $\pi$ 是target policy(假设是greedy的，当然这其实也不一定，target也可以是概率的)，而实际轨迹的生成是基于behavior policy的，因此我们可以设想，如果在 $A_{t+1}$ 时target与behavior就不一样了，那么蓝色部分就是0了，红色部分则只有实际采取的动作的那一项保留下来；反之，如果在 $A_{t+1}$ 时target与behavior一样，那么红色的部分就是0，蓝色的部分就保留，比如从 $A_{t+2}$ 开始不一样，那么实际上更新目标为：

$G_{t : t+n}=R_{t+1}+\gamma R_{t+2}+\gamma^{2} \max _{a} Q_{t+n-1}\left(S_{t+2}, a\right)$

因此，这个方法是Q-learning的自然扩展，详细讨论见参考[2]。

可以通过n-step Sarsa进行更新：
$Q_{t+n}\left(S_{t}, A_{t}\right) \doteq Q_{t+n-1}\left(S_{t}, A_{t}\right)+\alpha\left[G_{t : t+n}-Q_{t+n-1}\left(S_{t}, A_{t}\right)\right]$

构造的算法如下：

7.*一个统一的框架: n-step Q(σ)

前面已经讨论了三种action-value算法，n-step Sarsa基于所有的sample transitions; tree-backup基于所有的state-to-action transitions，不仅仅是sample transitions; n-step Expected Sarsa则在最后一个state-to-action考虑全部的可能，其它只考虑sample transitions。这一小节希望给出一个统一的框架。

[归纳]强化学习导论 - 第七章：n-step自举(Bootstrapping)_第10张图片

第四个图就是框架的backup diagram, $\sigma$ 取值[0, 1]，表示以多大概率直接选择sampling动作。因此这叫做n-step Q( $\sigma$ )， $\sigma$ 可以是state-action等的函数。这个参数可以用来均衡方差与偏差。

一致框架的更新公式推导，首先对tree-backup n-step return稍微变化一下：
$\begin{aligned} G_{t : h} &=R_{t+1}+\gamma \sum_{a != A_{t+1}} \pi\left(a | S_{t+1}\right) Q_{h-1}\left(S_{t+1}, a\right)+\gamma \pi\left(A_{t+1} | S_{t+1}\right) G_{t+1 : h} \\ &=R_{t+1}+\gamma \overline{V}_{h-1}\left(S_{t+1}\right)-\gamma \pi\left(A_{t+1} | S_{t+1}\right) Q_{h-1}\left(S_{t+1}, A_{t+1}\right)+\gamma \pi\left(A_{t+1} | S_{t+1}\right) G_{t+1 : h} \\ &=R_{t+1}+\gamma \pi\left(A_{t+1} | S_{t+1}\right)\left(G_{t+1 : h}-Q_{h-1}\left(S_{t+1}, A_{t+1}\right)\right)+\gamma \overline{V}_{h-1}\left(S_{t+1}\right) \end{aligned}$

然后利用 $\sigma$ 因子对控制变量形式与tree-backup n-step return进行加权融合，得到了的统一框架：

$\begin{aligned} G_{t : h} \doteq R_{t+1} &+\gamma\left(\sigma_{t+1} \rho_{t+1}+\left(1-\sigma_{t+1}\right) \pi\left(A_{t+1} | S_{t+1}\right)\right)\left(G_{t+1 : h}-Q_{h-1}\left(S_{t+1}, A_{t+1}\right)\right) \\ &+\gamma \overline{V}_{h-1}\left(S_{t+1}\right) \end{aligned}$

观察公式， $\sigma = 1$ ，则就得到了带控制变量的per-decision方法的形式， $\sigma = 0$ 则就得到了n-step Tree的形式。

算法如下：

[归纳]强化学习导论 - 第七章：n-step自举(Bootstrapping)_第11张图片

8.总结

本章研究了很多TD学习方法，这些方法是介于one-step TD和MC之间的综合方法，介于统计和bootstrapping之间的这种折中可以让算法的效果更好。

本章主要着眼于n-step方法，它考虑后续n个rewards、states和actions。state-value的更新方法是n-step TD with importance sampling，action-value更新方法则是n-step Q( $\sigma$ )(综合了Expected Sarsa和Q-learning)。注意所有n-step方法都是延迟n个steps再更新的，且计算量较大且对内存的要求也较大，后面会研究如何利用资格迹来减轻这些drawback。

本章的n-step方法虽然比基于eligibility traces的要复杂些，但是概念上比较清晰。对于off-policy n-step学习，基于importance sampling的方法概念上非常简单，但是方差可能较大，尤其是target和behavior策略相差较大的时候；而tree-backup更新则是Q-learning的自然扩展，它的方差就要小很多。

参考文献

[1].(知乎专栏)https://zhuanlan.zhihu.com/p/57910891
[2].(n-step Tree算法的深入分析)https://ai.stackexchange.com/questions/9518/questions-about-n-step-tree-backup-algorithm

ZIP分卷文件打开教程：快速还原完整文件百事牛科技 ZIP 7-ZIP windows 7-zip
在处理大文件时，ZIP分卷文件是一种常见的解决方案。无论是从网络下载还是通过存储设备传输，分卷文件的打开和还原都是必不可少的技能。下面我们一起来看看如何轻松打开ZIP分卷文件，还原完整的文件内容。一、确认分卷文件完整性在尝试打开ZIP分卷文件之前，首先要确保所有分卷文件都已完整下载或获取。ZIP分卷文件通常会按顺序命名，比如.zip.001、.zip.002等。仔细检查文件名，确认没有遗漏任何一个
iOS安全和逆向系列教程第16篇：Frida入门与高级应用自学不成才 iOS安全和逆向系列教程 cocoa macos objective-c
iOS逆向工程专栏第16篇：Frida入门与高级应用前言欢迎来到iOS逆向工程专栏的第16篇文章！在上一篇中，我们探讨了Cycript这一强大的逆向分析工具。今天，我们将深入学习功能更为强大、更为灵活的动态插桩工具——Frida。Frida作为现代iOS逆向工程中最受欢迎的工具之一，其强大的跨平台能力和灵活的JavaScript引擎使得我们能够轻松地分析和修改iOS应用的运行时行为。无论是逆向分析
iOS安全和逆向系列教程第17篇：探讨ARM64架构与Swift逆向分析技术自学不成才 iOS安全和逆向系列教程 ios 安全架构
iOS安全和逆向系列教程第17篇：探讨ARM64架构与Swift逆向分析技术前言欢迎来到iOS安全和逆向系列教程的第17篇。在前面的文章中，我们已经学习了iOS逆向工程的基础知识，以及各种分析工具的使用方法。今天，我们将深入探讨ARM64架构以及Swift语言的逆向分析技术，这两者对于现代iOS应用的逆向工程至关重要。随着Apple全面迁移到ARM64架构和Swift语言的广泛应用，掌握这些技术已
nvm-Windows 安装与使用教程互联网搬砖老肖 Vue 工具使用 C#从入门到放弃 nvm vue
nvm-Windows安装与使用教程前言不同的项目运行时可能需要不同的node版本才可以运行，由于来回进行卸载不同版本的node比较麻烦；所以需要使用node工程多版本管理。本人在配置时，通过网络搜索教程，由于文章时间过老，或者文章的互相拷贝导致配置时出现许多小问题，但最后也是配置成功了，想写下此文章帮助小伙伴们排除错误，节省各位宝贵的时间，如有问题欢迎留言讨论~注意:安装nvm时不能安装任何no
iOS安全和逆向系列教程第13篇：iOS动态分析基础自学不成才 iOS安全和逆向系列教程 ios cocoa macos
iOS逆向工程专栏第13篇：iOS动态分析基础引言在前面的文章中，我们详细探讨了iOS系统架构、逆向开发环境搭建、Mach-O文件格式分析，以及各种静态分析工具和技术。通过静态分析，我们可以了解应用的结构、类和方法定义，以及基本的控制流程。然而，静态分析也存在明显的局限性：我们无法观察应用的实际运行状态，难以分析加密算法的实现细节，也无法直接查看网络请求的完整内容。这就是为什么我们需要动态分析技术
Conda操作使用教程迷鹿鹿鹿鹿鹿 conda
声明：该文章仅为学习使用，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！如有侵权，请私信联系本人删帖！Conda操作使用教程Conda是一个开源的包管理和环境管理工具，支持多种编程语言（以Python为主）。它能够帮助用户快速安装、运行和更新软件包，并创建相互隔离的虚拟环境，避免项目之间的依赖冲突。目录Conda的安装基础命令虚拟环境管理包管理环境导出与共享常见问题总结一、安装1
STM32入门教程：按键控制LED 粉绿色的西瓜大大 stm32 嵌入式硬件单片机
STM32是一款非常强大的微控制器系列，具有广泛的应用领域。本教程将详细介绍如何使用STM32来使用按键控制LED灯的开关。为了使本教程易于理解，我将使用STM32CubeIDE作为开发环境，并使用STM32F4系列微控制器进行演示。在本教程中，我们将使用STM32F4-Discovery开发板，其中包含了一个用户按钮和几个LED指示灯。我们将利用这些硬件资源来演示如何通过按下按钮来控制LED灯的
特斯拉FSD不同版本的进化 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
特斯拉，FSD，自动驾驶，深度学习，计算机视觉，强化学习，神经网络，模型训练1.背景介绍特斯拉自2016年推出Autopilot以来，一直致力于开发全自动驾驶系统，其目标是实现完全无人驾驶，让汽车能够像人类一样感知周围环境，做出安全可靠的驾驶决策。FSD（FullSelf-Driving）是特斯拉自动驾驶系统的最高级别，它旨在实现车辆在任何道路和环境条件下都能安全自主驾驶的能力。FSD的开发是一个
一文读懂！OpenCV 实时人脸识别从 0 到 1，小白也能轻松实操的超详细教程（完整教程及源码） AI_DL_CODE opencv 人工智能计算机视觉人脸识别
摘要：本文围绕使用OpenCV实现实时人脸识别展开。从环境搭建入手，详细介绍Python及相关库的安装。数据准备环节涵盖收集、标注及预处理步骤。深入阐述特征提取、模型训练方法，包含传统与深度学习方式，还介绍OpenCV预训练模型的使用与评估。详细讲解实时识别过程，包括打开摄像头、逐帧处理及结果显示优化。针对复杂场景，提出光照、姿态、遮挡等问题的解决办法及模型更新维护策略。通过丰富代码示例与解释，助
The Rust Programming Language 学习 (一) niandb rust 学习 c++linux c语言
说明关于参考的教程TheRustProgrammingLanguage是英文版本的由于本人英语水平相当的有限,所以我们这里直接去看翻译好的版本Rust程序设计语言.下面我们将两个地址全部都贴出来.TheRustProgrammingLanguageRust程序设计语言Rust官方文档中文教程教程中提到的一些前置翻译已参照最新的Rust1.58.0版及开发版进行调整，这是目前网上最新的中文版本，最后
进行vscode安装时，没有更改安装位置选项的弹窗雪映梅心软件问题 vscode ide 编辑器
目录一、遇到的问题二、解决方法一、遇到的问题因为我之前下过vscode，装的是c盘，删的时候没删干净，所以再进行安装时没有出现下面的弹窗此图引用网址:VSCode安装配置使用教程（最新版超详细保姆级含插件）一文就够了_vscode使用教程-CSDN博客二、解决方法先重新安装vscode，再在vscode的默认路径（可以通过快捷方式，打开文件所在路径）下，找到unins000.exe并运行，删除vs
安卓录屏神器-AZ Screen Recorder‌ zhslhm 工具分享屏幕录制录屏神器
‌AZScreenRecorder‌是一款专注于移动端屏幕录制的工具，支持安卓系统，适用于游戏直播、教学演示、操作教程等场景。其核心功能包括高清录屏、多音源同步、实时标注等，无需Root权限即可运行。（文末有下载链接）一、核心特点‌多场景适配‌支持全屏录制、自定义区域录制及分屏录制，适配游戏、应用操作、在线课程等需求‌。提供前置摄像头叠加功能，可同时录制屏幕画面和真人讲解，增强视频互动性‌。‌高兼
工业级Pandas性能优化：Dask/Modin实战教程闲人编程 Python数据分析实战精要 pandas 性能优化分布式 GPU加速 Dask Modin 数据分析
目录工业级Pandas性能优化：Dask/Modin实战教程1.引言与背景1.1Pandas的局限性1.2分布式计算与GPU加速的需求1.3Dask与Modin简介2.数据集介绍3.工业级数据处理理论基础3.1内存优化3.2计算并行化3.3GPU加速4.实验环境与依赖库5.数据处理与分析流程6.Dask实战：分布式计算与GPU加速7.Modin实战：简洁易用的并行Pandas接口8.数据分析领域的
【小白福利】MATLAB零基础安装教程（附完整资料包） python锤锤 matlab 服务器数据库
1.下载安装，详细步骤在资源包中2.各个版本安装教程在资料包中立即下载完整资料点击获取MATLAB安装包+学习资料本文将手把手教你完成MATLAB完整安装流程，包含5个关键步骤和3个新手必看的注意事项，全程图示指导不翻车！一、准备工作（必看！）从上方链接下载的压缩包需要解压密码CSDN666关闭所有杀毒软件（特别是360/WinDefender）提前准备至少20GB的硬盘空间注意：安装过程中如遇防
【量化科普】Arbitrage，套利量化投资技术量化科普 Python 量化 miniQMT QMT 量化交易量化投资
【量化科普】Arbitrage，套利量化软件开通量化实战教程什么是套利？套利（Arbitrage）是金融市场中的一种交易策略，指的是在不同市场或不同形式中同时买入和卖出相同或相似的金融产品，以利用价格差异获得无风险利润。简单来说，就是“买低卖高”，但这里的“买”和“卖”是在不同的市场或不同的时间点进行的。套利的原理套利的核心在于发现并利用市场的价格不一致性。这种不一致性可能来源于信息不对称、市场分
Makefile教程 C语言编译多个C文件编译 C文件编译链接自动依赖 make工具使用 makefile make 基础语法电科周杰伦 yxyx学习记录 C语言 C c语言 bash linux gcc 编译
一、Makefile三要素makefile最基本是由三个要素组成，分别为：目标文件，依赖文件，规则（make默认只执行第一条规则，并不是传统语言的按序执行每一条命令，make执行的时候会自动判断目标文件的依赖，若不存在依赖或者依赖更新了，才会去执行对应的依赖文件的规则，所有一般将最终文件所需的生成文件作为第一条规则）。若不存在依赖或者依赖更新了，才会去执行对应的依赖文件的规则。这一特性确保了mak
OpenGL渲染管线蓝裕安 OpenGL
渲染管线相当于一个工作流程应用阶段-->几何阶段-->光栅化阶段几何阶段：顶点着色器光栅化阶段：片元着色器顶点着色器，片元着色器是可编程的ShaderVertexSharder和FragmentShader是用GLSL(GraphicLibraryShaderLanguage)语言类的c语言写的VAO:位置，颜色教程：主页-LearnOpenGLCN
阿里深夜开源QwQ-32B模型，仅需1/10的成本即可比肩R1满血版伪_装 LLM python 大模型 LLM
QWENHUGGINGFACEMODELSCOPEDEMODISCORD凌晨3点，阿里开源了他们全新的推理模型QwQ-32B。大规模强化学习（RL）有潜力超越传统的预训练和后训练方法来提升模型性能。近期的研究表明，强化学习可以显著提高模型的推理能力。例如，DeepSeekR1通过整合冷启动数据和多阶段训练，实现了最先进的性能，使其能够进行深度思考和复杂推理。这一次，我们探讨了大规模强化学习（RL）
2024年图灵奖公布：两位AI先锋因强化学习获奖吴脑的键客人工智能人工智能 chatgpt
据《纽约时报》报道，全球最大的计算机专业人士协会计算机协会(ACM)周三宣布，将2024年图灵奖授予安德鲁·巴托(AndrewBarto)博士和理查德·萨顿(RichardSutton)博士，以表彰他们在强化学习方面的研究。巴托目前是马萨诸塞大学荣誉退休教授。萨顿现在担任阿尔伯塔大学教授，他也是前DeepMind研究科学家。两人将分享图灵奖的100万美元奖金。图灵奖设立于1966年，常被称为“计算
（24-1）DeepSeek中的强化学习：DeepSeek简介码农三叔强化学习从入门到实践 transformer 人工智能大模型架构强化学习 DeepSeek
在人工智能的浩瀚星空中，DeepSeek犹如一座巍峨的科技丰碑，熠熠生辉，引领着大模型时代的风云变幻。DeepSeek以卓越的创新精神和前沿的技术架构，突破常规极限，将海量知识与智能推理完美融合，展现出惊人的计算力与思维深度。4.1DeepSeek简介DeepSeek是一家成立于2023年的中国人工智能初创公司，专注于开发高效且经济的大型语言模型。其核心技术包括多头潜在注意力（Multi-head
Dockerfile 深入浅出：从基础到进阶全解析 TechStack 创行者 #服务器容器 Linux docker 容器运维服务器
Dockerfile深入浅出：从基础到进阶全解析各位同学，大家好！欢迎来到今天的Dockerfile课程。Docker技术在当今的软件开发和部署领域可以说是非常热门，而Dockerfile作为构建Docker镜像的关键文件，掌握它对于我们进行容器化开发和部署至关重要。今天，我将用最通俗易懂的语言，从基础到进阶，结合常见例子，带大家全面深入地学习Dockerfile的编写。这份教程非常实用，建议大家
AutoVisor 智慧树刷课脚本教程石顺垒Dora
AutoVisor智慧树刷课脚本教程项目地址:https://gitcode.com/gh_mirrors/au/Autovisor1.项目目录结构及介绍.├──config.py#配置文件，包含脚本运行参数├──main.py#主程序入口，负责执行整个脚本逻辑├──modules#存放各个功能模块的子目录│├──auth.py#账号登录相关模块│├──course.py#课程操作模块│└──ut
Pycharm2018 中文版安装教程 ZCY5202015 开发工具软件 pycharm python ide
Pycharm2018中文版安装教程软件简介：PyCharm是一款IDE集成开发环境，主要功能包括代码调试、语法高亮、智能提示、单元测试、版本控制等，新版2018版添加了对Python3.7支持，增加了多行TODO注释、时间跟踪、以及改进searcheverywhere功能等，可以让用户快速的开发程序。（本教程仅供学习交流使用）安装前须知：1.解压和安装前先关闭360、电脑管家等所有杀毒软件，防止
服务器、群晖，飞牛NAS等部署Whisper ASR教程来啦！让我们的Nas轻松实现音频转文字服务！ xiaoqiangclub 群晖助手服务器 whisper 音视频 ASR 语音转文字实用教程
文章目录介绍演示环境服务器/群晖/飞牛NAS部署WhisperASR，语音识别soeasy！准备部署使用Python调用示例注意事项⚓️相关链接⚓️介绍最近有人私信我，有没有什么办法能在NAS上搞个语音识别服务，实现将语音或开会录音自动转成文字？那么今天我们就一起来看看如何在服务器或群晖/飞牛等Nas上部署一个语音转文字的服务，让我们的NAS瞬间变身“听译”大师！演示环境本文演示环境如下：群晖系统
在Github上创建项目并关联本地文件夹教程小熊猫程序猿 github git
#在github上的操作#登录GitHub账号：访问GitHub并登录账号点击“New”创建新仓库：登录后，在页面的右上角点击"+"图标，然后选择"Newrepository"填写仓库信息：Repositoryname：输入项目名称。Description（可选）：简短描述项目。Visibility：选择公开（Public）或私有（Private）。Initializethisrepository
matlab空间散点拟合曲线,matlab离散点拟合曲线圣君阡陌 matlab空间散点拟合曲线
matlab曲线拟合与数值点标注实例_工程科技_专业资料。实例1:现已知两组...Matlab教程曲线拟合工具箱数学科学与技术学院胡金燕lionfr@曲线拟合定义在实际工程应用和科学实践中,经常需要寻求两个(或多个)变量间的关系,而......(p,x);%获得x点处对相应的y值plot(x,y,'r*',x,y1,'b');%画出离散点和拟合曲线xlabel('墨水浓度');ylabel('吸光
DeepSeek本地部署教程（Windows操作系统笔记本电脑适用）程序员辣条 AI产品经理产品经理大模型人工智能 DeepSeek Windows AI大模型
最近DeepSeek非常火，你想不想也本地部署，玩转AI呢？一、将DeepSeek部署到自己的电脑有以下好处：1.数据隐私与安全本地存储：所有数据保存在本地，避免第三方服务器存储带来的隐私风险。数据控制：完全掌控数据访问权限，防止未经授权的访问或泄露。2.性能优化低延迟：本地运行减少网络延迟，响应速度更快。资源利用：可根据硬件配置优化性能，充分利用本地计算资源。3.定制化灵活配置：可根据需求调整模
OpenCV iOS-视频处理源代码大师 OpenCV完整教程
OpenCViOS-视频处理OpenCViOS-视频处理先决条件：在您的iOS项目中包含OpenCV库视频帧处理项目示例用户界面添加相机处理框架基本视频处理开始提示OpenCViOS-视频处理教程介绍了如何使用iPhone的摄像头和OpenCV处理视频帧。先决条件：Xcode4.3或更高版本iOS编程的基本知识（Objective-C，界面生成器）在您的iOS项目中包含OpenCV库OpenCV库
React 基础教程阿贾克斯的黎明前端 react.js 前端前端框架
目录React基础教程一、React简介二、安装和设置三、创建第一个React组件（一）函数式组件（二）类组件四、渲染组件五、组件的属性和状态（一）属性（Props）（二）状态（State）六、组件的生命周期方法七、事件处理八、总结React是一个用于构建用户界面的JavaScript库。它以高效、灵活和可维护性而受到广泛的欢迎。本教程将介绍React的基础知识，帮助你快速上手React开发。一、
React基础教程（06）：条件渲染叁拾舞 React教程 react.js 前端前端框架
1条件渲染使用条件渲染，结合TodoList案例，进行完善，实现以下功能：当列表中的数据为空的时候，现实提示信息暂无待办事项当列表中存在数据的时候，提示信息消失这里介绍三种实现方式。注意这里的Empty是前端框架Antd的组件，如果安装了antd直接使用即可，如果没有安装可以用div代替也是可以的。这里为了更直观，所以使用了前端框架antd的Empty组件。1、三元操作符{/*方式一*/}{thi
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo