Merlin17Crystal33

程序化交易入门（二）强化学习DQN及其由来

程序化交易入门（二）强化学习DQN及其衍生体

1. 引入

1.1 Machine Learning在做什么？
1.2 DQN在寻找什么？

1.2.1 Step1. Neural Network as Actor
1.2.2 Goodness of function

1.2.3 pick the best function
1.4 几种假设

1.4.1 状态价值函数
1.4.2 Bellman方程
1.4.3 Action-Value function动作价值函数
1.4.4 Optimal value function 最优价值函数
1.4.5 策略迭代 Policy Iteration
1.4.6 Value Iteration 价值迭代
1.4.7 Q-Learning
1.4.8 Exploration and Exploitation 探索与利用

2. DQN

2.1 Nature DQN
2.1.1 DQN是否有什么问题？应该如何改进？
2.1.2 Double DQN, Prioritised Replay, Dueling Network三大改进

众所周知，强化学习在程序化量化交易里面已经扮演者愈来愈重要的角色，那么我们可以知道，Google的Alpha Go已经是强化学习中战胜人类的一个重要的 weapon，这里我们不得不提及强化学习，强化学习有以下三种 based的方法，这三种方法分别是 policy-based， value-based以及 model-based的方法，这三种方法分别代表着三种不同的模型，那么google的 Alpha Go正是基于以上这三种方法的融合： policy-based+value-based+model-based，这三种方法仅仅较适用于围棋。

1. 引入

1.1 Machine Learning在做什么？

Machine Learning就是在寻找一个可以拟合的损失函数，

1.2 DQN在寻找什么？

下面我们以一个简单的DQN的方式来做。

1.2.1 Step1. Neural Network as Actor

Actor就是一个Function，通常我们记为 $\pi$ ，那么我们的输入输出维度是什么呢？Function的input就是机器看到的observation，他的output就是machine要采取的action。如果我们的Actor是Neural Network，那么我们这个过程就是一个Deep Reinforcement Learning，那么这个过程的observation就是一堆pixel，我们可以将其当成一个vector来进行描述或者是用一个matrix来描述，那么output就是我们的action，如果我们的input是一张image，那么我们的Actor就是CNN，那么我们到底有多少种output方式，那么我们的output就有多少种dimension。如下图打游戏图示所示：

但是在做Policy Gradient的时候，我们通常会假设Policy是stochastic，所谓stochastic就是说我们的outputs就是一个几率，如果你的分数是0.7，0.2，0.1，那么就是0.7的几率是left，0.2是right，0.1是fire。那么使用NN做一个action的好处是什么？
传统就是使用表来进行所有动作的存储，但是ANN就很好的解决了我们这个问题。

1.2.2 Goodness of function

我们要来决定一个Neural Network的好坏。在传统的监督学习中，我们会给定一个Neural Network一些参数，类似 $\theta$ ，如果输出NN越类似我们的方程，那么我们就说这个网络是拥有越加的表现。

那么对于强化学习来说，我们怎么说其有着更好的表现呢？一个Actor的好坏也是非常的好坏，假设我们现在有一个NN了，那么一个Actor我们就用 $\pi$ 来表示，这个网络的参数我们使用 $\theta$ 来表示，同样的，我们可以使用s来表示这个网络所看到的observation，定义如下 $\pi_\theta(s)$ ，那么怎么知道我们的actor的表现好坏呢？那么我们就需要使用我们的actor来玩下游戏，假设其做了如下步骤：

1.Start with observation $s_1$
2.Machine decides to take $a_1$
3.Machine obtains reward $r_1$
4.Machine sees observation $s_2$
5.Machine decides to take $a_2$
6.Machine obtains reward $r_2$
7.Machine sees observation $s_3$
…
n.Machine decides to take $a_T$
n+1.Machine obtains reward $r_T$
这就是上面的整个过程，那么我们可以将完成整个游戏的total reward是R，那么这个R就是我们在这个episode索要最大化的对象，这个对象我们记为 $R_theta$ 。但是我们即使采用了相同的对象来玩这个游戏，但是玩这个游戏的时候，也会得到不同的结果，首先Actor如果是stochastic看到同样的场景也会采取不同的action，每次得到的 $R_\theta$ 也是不一样，同样的，我们的游戏也是会有一个随机性，那么我们希望做的时候不是去max每次的 $R_\theta$ ，而是每次 $\overline{R_\theta}$ ，也就是我们的 $R_\theta$ 的一个期望值。我们希望这个期望值越大越好，这里衡量模型的好坏。我们假设一场游戏就是一个 $\tau$ ，那么 $\tau$ 是一个sequence，这里面包含了observation，以及看到这个observation后得到的reward、还有新的observation、所采取的action以及得到的reward等等，这里组合形成一个sequence。下面我们定义 $\tau$ 的符号：
$\tau=({s_1,a_1,r_1,s_2,a_2,r_2,...,s_T,a_T,r_T)}$
$R(\tau)=\sum_{n=1}^Nr_n$
那么我们来玩这个游戏，我们选择Actor的时候就会有一些 $\tau$ 特别容易出现，也就是某些游戏过程特别容易出现，当我们Actor的参数是 $\theta$ 的时候， $\tau$ 这个过程容易出现的几率。那么我们的R的期望值：
$\overline{R_\theta}=\sum_{\tau}R(\tau)P(\tau|\theta)$ ，当然这个值是一个连续的，有非常多的可能，可以穷举它，每一个 $\tau$ 都有一个reward $R(\tau)$ ，在累加所有的 $\tau$ 即可得到期望的奖励。那么我们就需要把游戏玩n场游戏，玩了 $N$ 次，得到了 $({\tau^1,\tau^2,\tau^3,...,\tau^N,})$ ，后取平均，就可以得到我们的期望值。

1.2.3 pick the best function

这一步我们就要选择我们最好的Actor，这里我们就使用我们的Gradient Ascent，因为我们已经有我们的目标函数了，这里我们要最大化 $R_\theta$ ，因为我们要max我们的某一个值。

使用这个方法我们就可以得到我们的最大值，这里我们仅仅需要对 $P(\tau|\theta)$ 来做微分，不需要对 $R(\tau)$ 做任何微分，即使其是一个黑盒。

### 1.2.4 Natural DQN以及其改进方式

Stabilization:
- Doubel DQN
- Prioritized relay
Modeling additional prior:
- Duelling network
Exploration
- NoisyNet
Large-scale implementation

1.4 几种假设

1.4.1 状态价值函数

我们有了上述的一个描述状态过程 $s_0,a_0,r_0,s_1,a_1,r_1,...,s_t,a_t,r_t,)$ 的表示方式的时候，我们需要做一个很重要的假设后，我们需要做一个假设上帝不掷筛子！。在强化学习领域，我们相信输入是确定的，那么输出也就一定是确定的，那么有了时间和确定性的假设，MDP（Markov Decision Process)便是为了描述这个世界而提出的概念。

MDP（Markov Decision Process）马尔可夫决策过程就是基于这样的一种假设：未来仅取决于当前！也就是用数学的话来描述就是，一个状态 $S_t$ 是一个Markov，那么当且仅当 $P(s_{t+1}|s_t)=P(s_{t+1}|s_t,s_{t-1},...,s_1,s_0)$ 其中， $P$ 为概率，简单的说就是下一个状态当前的动作注意，这里的状态是完全可观察的全部的环境状态（也就是所谓的上帝视角）。一个基本的MDP可以用(S,A,P)来表示，S代表状态，A代表动作，P代表状态转移概率。也就是根据当前的状态 $s_t$ 以及 $a_t$ 转移到 $a_{t+1}$ 以及 $s_{t+1}$ 的概率。如果我们知道了状态转移概率P，也就称我们获得了模型Model，有了模型，未来就是可以求得的，那么获取最优的动作也就是有了可能，这种通过模型来获取最优动作的方法也称为Model-Based的方法，但是在这种情况下，很多问题很难以获得准确的模型，因此有了Model-Free的方法来寻求最优的动作。关于具体的方法这里不具体讨论。
既然一个状态回应一个动作，那么我们就可以根据这个动作得到一个奖励，通过求这个奖励的期望来优化我们的模型参数，这里我们要引入一个价值函数以及一个Bellman Function。
由于每个状态时刻的状态是确定的，因此我们可以使用Value Function价值函数来描述这个状态的价值，从而来确定我们的决策方式，这里我们来用一个例子来说明Value Function价值函数。这里举一个投资的问题：

假设我们现在有一笔X美金的资金，我们眼前有3种选择方式来投资这笔资金，买卖或者原地不动放入银行，并且我们只能选择一种方式来执行我们的过程。Policy的意思就是我们有一套的Policy策略，我们基于这个策略进行操作：
if 股票跌: 我们就买入股票
else if 股票升：我们就卖出股票
else：我就是什么都不干，我就想放银行

这上面的伪代码就是表示一种极为简单的策略，那么我们把Policy策略看作是一个黑箱，那么基于策略的方法就是

那么好像这么做没有毛病，但是这里有一个巨大缺陷就是，基于上面的策略完全不考虑每一种选择对未来的价值影响，我们做决策是有目的的，那么就是为了最大化我们未来的投资汇报，那么对于这个闲钱的投资回报问题，我们的目标就是评估下每一种选择的潜在性价值。那么怎么评估？那我们有什么方式呢？
如下所示，我们可以换一种思维，使用状态或者动作+状态输入来获取我们的价值函数：

我们就评估每种状态（选择+股票涨跌）的价值，然后选择价值最高的作为最后的决策。比如说：

if 股票涨了：
因为未来几天内可能会有税率影响，价值为-100
if 股票跌了：
华为5g可期，虽然目前受美帝影响，但是以后股票必涨，价值+500
if 放入银行：
我可以先着，买车买房呀，很棒棒的选择，价值+300
…(更多的评估价值方法)

从数学的角度，我们常常会使用一个函数 $V (s)$ 来表示一个状态价值，也可以用 $Q (s, a)$ 来表示状态及某一个动作的价值。我们上面例子就是评估某个状态下动作的价值，然后根据价值来做判断，实际上，我们这里是有策略的，我们仅仅是让我们的策略更加的简单：

if 某一个决策的价值最大：选择这个决策

这就是价值函数的意义。在后面的文章中，其实我们还可以同时使用策略加价值评估的方法来联合给出决策，这种方法就是所谓的Actor Critic算法。

1.4.2 Bellman方程

上面我们介绍了Value Function，那么我们就需要引入一些数学公式来完善这个函数，也就是一个回报 Result，也就是所有Reward的累加（带衰减系数discount factor）
$G_t = R_{t+1}+\lambda_{t+2}+...= \sum_{k=0}^n \lambda^kR_{t+k+1}$
也就是将Bellman方程展开可得：
$E[R_{t+1}+\lambda v(S_{t+1})|S_t = s]$
上面这个公式就是Bellman方程的基本形态，从公式上看，当前状态的价值和下一步的价值以及当前反馈的Reward有关。

1.4.3 Action-Value function动作价值函数

前面我们引入了价值函数，考虑到每个状态之后都有很多动作可以选择，每个动作之下的状态又多不一样，我们更关心在某个状态下的不同动作的价值。显然，如果知道每个动作价值，就可以选择价值最大的一个动作去执行。有了上面的定义，动作价值函数就可以表示如下：
$Q^\pi(s,a)=E[r_{t+1}+\lambda r_{t+2}+\lambda^2 r_{t+3}+...|s,a] = E_{s'}[r+\lambda Q^\pi (s',a')|s,a]$
这里要说明的是动作价值函数的定义，加了 $\pi$ ，也就是在策略下的动作值，对于每个动作，都需要策略根据当前的状态生成，因此必须有策略支撑。前面的价值函数不一定依赖于策略，当然，如果定义 $v^\pi (s)$ 则表示在策略 $\pi$ 下的价值。
事实上我们会更多使用动作价值函数而不是价值函数，因为动作价值函数更直观，更方便应用于算法当中。

1.4.4 Optimal value function 最优价值函数

首先是要求出我们根据输入的状态以及价值要得到动作价值函数，并最大化我们的动作价值函数 $Q^*(s,a)=max_\pi Q^\pi (s,a)$
也就是最优的动作价值函数就是所有策略下的动作价值函数的最大值，通过这样的定义就可以使最优的动作价值唯一性，从而可以求解整个MDP。
$Q^*(s,a)=E_{s'}[r+\lambda max_{a'}Q^* (s',a')|s,a]$
因为最优的Q值必然为最大值，所以，等式右侧的Q值必然为使a’取得最大的Q值。

1.4.5 策略迭代 Policy Iteration

本质上就是利用当前的策略产生新的样本，然后使用新的样本更好的估计策略的价值，然后利用策略的价值更新策略，然后不断反复。理论可以证明最终策略将收敛到最优。

这里要注意policy evaluation部分，这里迭代最重要一点就是需要state状转移概率p，也就是说依赖于model模型。而且按照算法要反复迭代直到收敛为止。所以一般需要做限制。比如到达某一个比率或者次数就停止迭代。

1.4.6 Value Iteration 价值迭代

问题来了：

Policy Iteration和Value Iteration有什么本质区别？
为什么一个叫Policy Iteration另一个叫Value Iteration？
原因很好理解，Policy Iteration使用bellman方程来更新value，最后收敛的是value。最后收敛的value即是 $v_\pi$ 当前policy下的value（所以叫做对policy方法进行评估），目的是为了后面的policy improvement得到新的policy。
而value iteration是使用bellman最优方程来更新value，最后收敛得到的value即是 $v_*$ 局势当前state状态下最优的value值。因此，只要最后收敛，那么最优的policy也就得到。因此这个方法是基于更新value的，所以叫value iteration。
若我们使用动作-价值函数，也是同样的，仅仅是将value换成了Q值，怎么能有下一个Q值呢？没有错，所以我们只能使用之前的Q值，也就是每次根据新的得到的reward和原来Q值来更新现在的Q值。理论上可以证明这样的value iteration能够使Q值收敛到最优的action-value function。

1.4.7 Q-Learning

Q-Learning思想完全就是根据value iteration得到，但是要明确一点是value iteration每次都对所有的Q值更新一遍，也即是所有的动作状态。但事实上，在实际情况下我们没有办法遍历所有的动作状态，我们只能采取有限样本进行操作，那么Q-Learning提出了一种新的更新方法。

具体算法如下：

1.4.8 Exploration and Exploitation 探索与利用

在上面的算法中，我们可以看到需要使用某一个policy来生成动作，也就是说，这个policy不是优化的那个policy，所以Q-Learning算法叫做Off-policy算法。另外，因为Q-Learning完全不考虑model模型也就是环境的具体情况，只考虑看到的环境及reward，因此是model-free的方法。
回到policy问题，那么要选择怎样的policy来生成action呢？有两种做法：

随机生成一个动作
根据当前的Q值计算出一个最优的动作，这个policy $\pi$ 称之为greedy policy贪婪策略。也就是
$\pi(S_{t+1})={argmax}_a Q(S_{t+1},a)$
使用随机的动作就是exploration，也就是探索未知的动作会产生的效果，有利于更新Q值，获得更好的policy。而使用greedy policy也就是target policy则是exploitation，利用policy，这个相对来说就不好更新出更好的Q值，但可以得到更好的测试效果用于判断算法是否具有效果。
将两者结合起来就是所谓的e-greedy策略，e一般是一个很小的值，作为选取随机动作的概率值。可以更改e的值从而得到不同的exploration和explotiation的比例。

2. DQN

有了上面的一个经验，我们就可以得到我们两种DQN的输入方式，第一种，就是：
1.使用我们的state以及action作为输入，来得到我们的Q(s,a)
2.仅仅使用我们的state来作为输入，最后来得到我们的Q(s,a)
上述两种方法如下图所示：

2.1 Nature DQN

基本的DQN算法，也就是NIPS 2013版本，Deep Mind团队就不断对DQN进行改进，2015年首先于Nature上发布文章，提出了Nature版的DQN，接下来就提出了Double DQN，Prioritied Replay，还有Dueling Network三种方法，极大提升DQN的性能，目前很多改进型DQN算法在Atari游戏的平均得分是Nature版DQN的三倍多。

NIPS DQN在基本的Deep Q-Learning算法基础上使用了Experience Relay经验池。通过将训练得到的数据存储起来然后随机采样的方法降低数据相关性。接下来，Nature DQN做了一个改进，就是增加Target Q网络。也就是我们在计算目标Q值时使用专门的一个目标Q网络来计算，而不是直接使用预更新的Q网络。这样做的目的是为了减少目标计算与当前值的相关性。
$I=(r+\gamma \max_{a'} Q(s', a', w^-)-Q(s,a,w))^2$
如上面的损失函数公式所示，计算目标Q值的网络使用的参数是 $w^-$ ，而不是 $w$ 。就是说，原来NIPS版本的DQN目标网络Q网络是动态变化的，跟着Q网络的更新而变化，这样不利于计算目标Q值，导致目标Q值和当前的Q值相关性较大。因此提出单独使用一个目标Q网络。那么目标Q网络的参数如何来呢？还是从Q网络中来，只不过是延迟更新。也就是每次等训练了一段时间再将当前Q网络的参数值复制给目标Q网络。从Nature论文来看：

2.1.1 DQN是否有什么问题？应该如何改进？

Nature-DQN提出来后，很多人思考如何改进，那么DQN有什么问题吗？

目标Q值的计算准确吗？全部通过max Q来计算有没有问题？
随机采样的方法好吗？按道理不同样本的重要性是不一样的
Q值代表状态，动作的价值，那么单独动作价值评估是否会更加准确？
DQN中使用e-greedy的方法来探索局部空间，有没有更好的做法？
使用卷积神经网络结果是否有局限？加入RNN呢？
DQN无法解决一些维度较高的Atari游戏例如Montezuma's Revenge，如何处理这些游戏？
DQN训练时间太慢？跑一个游戏需要好几天，有没有更快的更新方法？
DQN训练是单独的，也就是一个游戏弄一个网络进行训练，有没有办法弄一个网络同时掌握多个游戏，或者训练某一个游戏后将知识迁移到新的游戏？

2.1.2 Double DQN, Prioritised Replay, Dueling Network三大改进

大幅度提升DQN玩Atari性能的主要就是Double DQN，Prioritised Relay还有Dueling Network三大方法。David Silver在ICML 2016中的Tutorial上做了介绍：

Double DQN：目的是减少因为max Q值计算带来的计算偏差，或者称为过度估计（over estimation）问题，用当前的Q网络来选择动作，用目标Q网络来计算目标Q。
Prioritised replay：也就是优先经验的意思。优先级采用目标Q值与当前Q值的差值来表示，优先级越高，那么采样的概率就高。
Dueling Network：将Q网络分成两个通道，一个输出v，一个输出A，最后两个合起来得到Q，如下图所示，这个方法主要是idea很简单但是很难想到，后效果很好，因此也成了ICML的best paper。

【DevOps】Azure Kubernetes 服务 (AKS) 集群中安装ArgoCD 小涵 Azure云企业实践分享 DevOps企业级项目实战 devops azure kubernetes docker argocd 运维
【DevOps】AzureKubernetes服务(AKS)集群中安装ArgoCD推荐超级课程：本地离线DeepSeekAI方案部署实战教程【完全版】Docker快速入门到精通Kubernetes入门到大师通关课AWS云服务快速入门实战目录【DevOps】AzureKubernetes服务(AKS)集群中安装ArgoCD安装步骤如下：ArgoCD是一个声明式的GitOps持续交付工具，用于Kube
基于DeepSeek R1构建下一代Manus通用型AI智能体的技术实践 zhangjiaofa DeepSeek R1&AI人工智能大模型 DeepSeek Manus 智能体 AI
目录一、技术背景与目标定位1.1大模型推理能力演进趋势1.2DeepSeekR1核心特性解析-混合专家架构(MoE)优化-组相对策略优化(GRPO)原理-多阶段强化学习训练范式1.3Manus智能体框架设计理念-多智能体协作机制-安全执行沙箱设计二、系统架构设计2.1整体架构拓扑图-分层模块交互机制-数据流与控制流设计2.2核心组件实现-规划模块(GRPO算法集成)-记忆系统分级存储架构-工具调用
《恐龙餐厅菜单页面代码说明文档》欣然～ html5
一、整体概述此HTML文件构建了一个恐龙餐厅的菜单页面，用户能够浏览菜品、将菜品添加到购物车，并进行支付操作。页面运用HTML搭建结构，CSS进行样式设计，JavaScript实现交互功能。二、HTML结构1.文档头部（）html恐龙餐厅菜单/*CSS样式代码*/：声明文档类型为HTML5。：指定文档语言为中文（中国大陆）。：设置字符编码为UTF-8，确保中文等字符能正确显示。：让页面在不同设备上
利用 OpenCV 库进行实时目标物体检测欣然～ opencv 人工智能计算机视觉
一、代码概述此代码利用OpenCV库实现了基于特征匹配的实时物体检测系统。通过摄像头捕获实时视频帧，将其与预先加载的参考图像进行特征匹配，从而识别出视频帧中是否存在与参考图像匹配的物体。二、环境依赖OpenCV：用于图像处理、特征提取和匹配等操作。NumPy：用于数值计算，OpenCV依赖于NumPy进行数组操作。可以使用以下命令安装所需库：bashpipinstallopencv-pythonn
访问指定网站获取页面标题信息欣然～ python
一、代码功能概述bid_search.py是一个使用Selenium库的Python脚本，其主要功能是自动化访问特定的招投标信息网站（浙江招标投标公共服务平台-首页），点击页面上的“查看更多”按钮，获取页面上所有元素的内容，并将这些内容保存到save.txt文件中。二、代码结构与详细说明1.导入必要的库收起pythonfromseleniumimportwebdriverfromselenium.
ggplot2设置坐标轴范围_作图技巧018篇第二坐标轴在ggplot2中的实现 weixin_39618597 ggplot2设置坐标轴范围 R语言ggplot2移除图例按键精灵定位坐标循环
“ggplot2中的次级坐标轴”生活科学哥-R语言科学2020-06-128：35在平时作图中，我们有时希望在一个坐标中进行二个坐标轴的设定，也是为了方便数据的显示。这个过程在EXCEL等当中比较容易实现，但是，如何在R中实现呢？今天我们就来讲一讲操作的过程。数据准备先准备如下数据：library(ggplot2)library(scales)library(magrittr)dfdata.fra
php中文乱码无法解决_PHP基础|如何解决中文乱码问题？梦里一只喵 php中文乱码无法解决
为什么会出现中文乱码?很多新手朋友学习PHP的时候，发现程序中的中文在输出的时候会出现乱码的问题，那么为什么会出现这种乱码的情况呢?一般来说，乱码的出现有2种原因，一种是由于编码(charset)设置错误，导致浏览器以错误的编码来解析，从而出现了满屏乱七八糟的“天书”，第二种就是文件被以错误的编码打开，然后保存，比如一个文本文件原先是GB2312编码的，却以UTF-8编码打开再保存，就会出现乱码的
【flask扩展】Flask-SQLAlchemy的安装与配置爱音斯坦牛 flask框架从入门到实战 flask python 后端
个人简介作者简介：大家好，我是阿牛，全栈领域新星创作者。博主的个人网站：阿牛的博客小屋支持我：点赞+收藏⭐️+留言系列专栏：flask框架快速入门格言：要成为光，因为有怕黑的人！目录个人简介前言Flask-SQLAlchemy的介绍与数据库驱动的选择Flask-SQLAlchemy与flask-mysqldb的安装Flask-SQLAlchemy的配置其他常用的SQLAlchemy字段类型常用的S
网络运维学习笔记（DeepSeek优化版） 018 HCIA-Datacom综合实验03 技术小齐网络运维学习
文章目录综合实验3实验需求一：A公司网络规划二：B公司网络规划配置一、ip、vlan、vlanif，stp、eth-trunkSW1SW2R1二、ospfSW1R1三、NATR1ISP四、拒绝ping允许httpSW1五、右半部分vlan、dhcp、ospf、NATSW4R2综合实验3实验需求一：A公司网络规划SW1/2/3组成了A公司的交换网络，其中SW1是核心层，SW2/3是接入层。三台交换机
[学习笔记] Windows编程——GDI——（六）设备上下文根本没在怕哦 Windows 编程学习笔记 windows
前言：学习笔记，随时更新。如有谬误，欢迎指正。说明：红色字体为较为重要部分。绿色字体为个人理解部分。原文链接：https://learn.microsoft.com/en-us/windows/win32/gdi/device-contexts6设备上下文设备上下文是一种结构，用于定义一组图形对象及其关联属性，以及影响输出的图形模式。图形对象包括用于线条绘制的笔、用于绘制和填充的画刷、用于复制或滚
Mysql自增主键会遇到什么问题? java1234_小锋 mysql mysql 数据库
大家好，我是锋哥。今天分享关于【Mysql自增主键会遇到什么问题?】面试题。希望对大家有帮助；Mysql自增主键会遇到什么问题?1000道互联网大厂Java工程师精选面试题-Java资源分享网MySQL自增主键（AUTO_INCREMENT）在使用过程中，虽然非常方便，但也可能会遇到一些潜在问题。下面列举了几个常见的问题及其解决方案：1.主键值跳跃自增主键可能会出现跳跃的情况。常见的原因有：删除记
uni-app快速入门（十三）--常用API（下） baozhengw uni-app
本文介绍uni-app的扫码、动画、下拉刷新、授权登录、微信支付、节点信息、调试API。一、扫码扫码功能支持使用相机直接扫码和从相册中选择图片进行扫码，也支持条码扫描。使用uni.scanCode可调出客户端扫码界面，扫码成功后返回对应结果。不支持H5平台。下面是uni-app的官方介绍：uni.scanCode(OBJECT)|uni-app官网uni-app,uniCloud,serverle
Miniconda 安装及使用 achi010 Python Miniconda 安装及使用 Miniconda Miniconda 安装 Miniconda 常用命令 Linux Miniconda Python 环境管理 UbuntuMiniconda
文章目录前言1、Miniconda简介2、Linux环境说明2.1、安装2.2、配置2.3、常用命令2.4、常见问题及解决方案前言在Python中，“环境管理”是一个非常重要的概念，它主要是指对Python解释器及其相关依赖库进行管理和隔离，以确保开发环境的稳定性和项目的可移植性。什么是Python环境Python解释器：Python是一种解释型语言，代码的运行需要通过Python解释器来执行。不
强化学习:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门强化学习(六) wxchyy 强化学习算法
目录前言前期回顾一、SARSA算法二、Q-Learning算法三、总结总结前言前两期我们介绍了动态规划算法，还有蒙特卡洛算法，不过它们对于状态价值函数的估值都有其缺陷性，像动态规划，需要从最下面向上进行递推，而蒙特克洛则需要一个Episode(回合)结束才能对其进行估值，有没有更直接的方法，智能体能边做动作，边估值一次，不断学习策略？答案是有的。这就是本期需要介绍的算法，时间差分法（TimeDi
自用力扣刷题记录（Python，数组、字符串） qq_40283123
文章目录一.数组69744844241274453最小操作次数使数组元素相等665非递减数列283移动的零118杨辉三角形119杨辉三角形2661图片平滑器598范围求和II419夹板上的战舰189旋转数组396旋转函数54螺旋矩阵59螺旋矩阵II498对角线遍历566重塑矩阵48旋转图像73矩阵置零289生命游戏303区域和检索-数组不可变304二维区域和检索-矩阵不可变238除自身以外数组的乘
最新微信小程序面试题集结江湖二哥微信小程序前端面试小程序
1、微信小程序与H5的区别?第一条是运行环境的不同传统的HTML5的运行环境是浏览器，包括webview，而微信小程序的运行环境并非完整的浏览器，是微信开发团队基于浏览器内核完全重构的一个内置解析器，针对小程序专门做了优化，配合自己定义的开发语言标准，提升了小程序的性能。第二条是开发成本的不同只在微信中运行，所以不用再去顾虑浏览器兼容性，不用担心生产环境中出现不可预料的奇妙BuG第三条是获取系统级
【云原生之kubernetes实战】在k8s环境中高效部署minio对象存储（详细教程）江湖有缘云原生 kubernetes 容器
【云原生之kubernetes实战】在k8s环境中高效部署minio对象存储（详细教程）前言一、minio介绍1.1MinIO简介1.2主要特点1.3主要使用场景二、相关知识介绍2.1本次实践存储介绍2.2k8s存储介绍三、本次实践介绍3.1本次实践简介3.2本次环境规划3.3部署前需准备工作四、检查k8s环境4.1检查工作节点状态4.2检查系统pod状态五、部署minio对象存储5.1编辑min
【实验五一维数组】7-2 sdut-C语言实验-整数位卡西莫多~ SDUT的PTA练习算法开发语言 c语言
7-2sdut-C语言实验-整数位输入一个不多于5位的正整数，要求：（1）求出它是几位数；//一个计数循环（2）分别输出每一位数字；//正序输出各位数字（3）按逆序输出各位数字。//逆序输出各位数字输入格式:输入一个不多于5位的正整数。输出格式:输出数据有3行，第一行为正整数位数，第二行为各位数字，第三行为逆序的各位数字。输入样例:123输出样例:3123321答案示例1（无注释）#include
计算机网络：利用分组嗅探器分析传输层与网络层协议 20230921 计算机网络实验计算机网络
目录实验内容实验目的实验预备知识实验过程描述实验一：对传输层协议TCP/UDP进行捕包分析实验二：对网络层协议IP进行捕包分析实验结果实验一：对传输层协议TCP/UDP进行捕包分析结果如下：实验二：对网络层协议IP进行捕包分析结果如下实验当中问题及解决办法实验内容利用分组嗅探器分析传输层与网络层协议实验目的了解传输层TCP/UDP协议构造；了解网络层IP协议构造；实验预备知识TCP段结构UDP段结
Hive SQL 精进系列：一行变多行的 LATERAL VIEW EXPLODE 进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、`LATERALVIEWEXPLODE`概述2.1基本概念2.2单词解析2.2.1`LATERAL`2.2.2`VIEW`2.2.3`EXPLODE`三、语法详解3.1基本语法结构3.2完整语法示例（针对映射情况）四、使用场景4.1数组数据展开4.2映射数据展开五、案例分析5.1展开数组示例5.1.1数据准备5.1.2使用`LATERALVIEWEXPLODE`展开数组5.1.3结
题目：将一个数组逆序输出。 bkswbksw C语言练习
//第一种#includeintmain(){inta[5]={1,2,3,4,5};inti;printf("原始数据为:\n");for(i=0;i=0;i--){printf("%d",a[i]);}return0;}//第二种#includeintmain(){inta[5]={1,2,3,4,5};inti,x,temp;printf("原始数组为:\n");for(i=0;i<5;i+
什么是状态管理？有何种方式可以实现？它们之间有什么区别？ Ever69 Flutter《葵花宝典》flutter 状态管理
在Flutter中，状态管理（StateManagement）是管理应用数据变化和传递的核心机制，其目标是高效同步UI与数据，并保持代码的可维护性。以下是主流状态管理方案及其核心区别：一、状态管理的核心概念状态（State）：应用中动态变化的数据（如用户输入、网络响应、页面切换）。状态管理目标：数据共享：跨组件传递状态（如用户登录信息）。局部刷新：避免不必要的UI重建。业务逻辑解耦：分离UI与数据
Java中DDD概念之四理解仓储模式：领域与数据层的优雅桥梁以恒1 java 开发语言
Java，DDD概念之四理解仓储模式：领域与数据层的优雅桥梁一、仓储模式是什么？仓储（Repository）就像一个智能的业务数据管家。想象你经营一家图书馆，书籍的存放、检索、上架工作交给专业管理员，你只需告诉管理员：“我需要2023年出版的所有编程书籍”。仓储就是这样的管理员，把繁琐的数据操作封装起来，让业务代码专注处理核心逻辑。二、为什么需要仓储模式？1.传统开发的问题假设有一个用户管理系统：
MyBatis 从入门到精通：详解基础与实战（完整版）以恒1 mybatis
MyBatis从入门到精通：详解基础与实战（完整版）（新手入门篇在主页）一、MyBatis基础概念1.1什么是ORM？ORM（Object-RelationalMapping）即对象关系映射，是一种将数据库表与程序对象自动映射的技术。MyBatis作为半自动化的ORM框架，允许开发者直接编写SQL，同时自动处理对象与数据库结果的映射。1.2MyBatis核心功能SQL映射：将Java方法与SQL语
计算机组成与设计：硬件软件接口（RISC-V版）忧· risc-v
第二章总结本篇主要总结RSIC-V的指令集，分别介绍不同类型的指令功能以及指令的使用示例。RISC-V指令集采用模块化设计，以书中介绍的为例，大体可将指令类型分为六种基本格式，分别为R型指令、I型指令、S型指令、B型指令、U型指令、J型指令。下面对每一种指令进行逐一介绍。R型指令（寄存器-寄存器操作）R型指令用于寄存器间的算术/逻辑运算，所有操作数均来自寄存器。下面是R型指令格式：funct7rs
警告 torch.nn.utils.weight_norm is deprecate 的参考解决方法 wongHome 深度学习相关调试问题 Ubuntu pytorch
文章目录写在前面一、问题描述二、解决方法参考链接写在前面自己的测试环境：Ubuntu20.04一、问题描述运行pytorch程序，如下如下警告/home/wong/ProgramFiles/anaconda3/envs/pytorch_env/lib/python3.8/site-packages/torch/nn/utils/weight_norm.py:30:UserWarning:torch
Unity 中 Boids 算法：模拟群体行为的奇妙世界阿贾克斯的黎明游戏开发 unity 算法游戏引擎
目录Unity中Boids算法：模拟群体行为的奇妙世界一、Boids算法适用场景二、Boids算法基本原理三、在Unity中实现Boids算法在Unity游戏开发的广袤天地里，模拟逼真的群体行为能够为游戏增添丰富的动态与真实感。Boids算法作为实现这一效果的强大工具，被广泛应用于模拟鸟群翱翔、鱼群洄游、兽群迁徙等场景。本文将深入探讨Unity中Boids算法的应用，包括适用场景、实现方式及代码示
财务管理核心知识深度剖析阿贾克斯的黎明基础学科学习
目录财务管理核心知识深度剖析一、财务指标计算：企业财务状况的量化洞察二、成本计算方法：企业成本管控的核心策略三、财务分析方法：解读企业财务密码的钥匙在华为财经笔试的知识体系中，第二章财务管理核心知识是重中之重，它涵盖了从基础指标计算到复杂分析方法、预算管理、资金与投资决策以及风险把控等多方面内容，对企业的财务运营和决策起着关键作用。深入理解这些知识，不仅有助于在笔试中取得优异成绩，更能为实际的财务
如何快速创建Fastapi项目黄小耶@ fastapi python linux
一、环境安装安装第三方库来搭建项目依赖pipinstallfastapi#fastapi框架pipinstalltortoise-orm[accel]#数据库的ormpipinstalluvicorn#web服务器pipinstallpyjwt#权限认证pipinstallaerich#数据库迁移pipinstallaiomysql#Mysql数据库驱动二、项目结构构建大型的项目结构，文件结构如下
Mysql的命令大全黄小耶@ mysql 数据库
一、数据库1、创建数据库createdatabase数据库名charsetutf8;2、查看数据库showdatabases;selectdatabse();3、删除数据库dropdatabse数据库名;4、使用数据库use数据库名;二、数据表1、创建表createtable表名(字段名类型);2、查看表showtables;3、修改表altertable表名modify字段名char(6);#修
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f