好奇小圈

POMO: Policy Optimization with Multiple Optima for Reinforcement Learning学习笔记

文章目录

摘要
零、一些基础
- 1.梯度近似
- 2.策略梯度定理
- 3.REINFORCE
- 4.REINFORCE with Baseline
- 5.REINFORCE Actor-Critic
一、介绍
二、相关工作
- - （1）深度强化学习构建法
  - （2）推理技术
  - （3）深度强化学习改善法
三、激励
四、多最优解的策略优化POMO
- 1.多启动节点探索
- 2.策略梯度的共享基准
- 3.推理的多贪婪轨迹
- - （1）增加实例
五、实验
- 0.基础
- - （1）注意力模型
  - （2）问题设置
  - （3）训练
  - （4）推理
  - （5）代码
- 1.旅行商问题
- 2.有能力的车辆路径规划问题
- 3.0-1背包问题
六、结论
七、附录
八、参考文献
相关领域

摘要

在神经组合优化问题（CO）中，强化学习（RL）可以将一个深度学习网络转为一个快速、有力的启发式NP-hard问题的解决器。这种方法在实际中有巨大的潜力，因为它能在没有大量专业知识专家指导的情况下发现近似最优解。我们引入了带有多最优解的策略优化（Policy Optimization with Multiple Optima (POMO)），一种用来建立上述启发式解决器的端到端方法。POMO可应用于很大范围的组合优化问题。它被设计利用组合优化解决方案的对称性。POMO使用强迫多样化的预演（rollout）朝向所有最优解决方案的改良REINFORCE算法。以经验为主地，POMO的低方差baseline使得RL训练更快和稳定，同时与以前的方法相比，它更能抵抗局部极小值。我们也引入了一个新的基于增强的推理方法（augmentation-based inference method），能够很好地配合POMO方法。我们通过解决三个热门的NP-hard问题，既旅行商（TSP）、有能力的车辆路径规划（CVRP）和0-1背包问题，展示了POMO方法的效率。对于这些问题，我们基于POMO的解决器相比最近学习的启发式方法展示了巨大的提升。特别地，我们实现了0.14%的最优gap在TSP100的数据及上，同时推理时间减少了一个数量级。

零、一些基础

1.梯度近似

强化学习从high level角度总共分为两大部分，分别是value-based method和policy-based method。

我们的目标都是求取策略 $π^*$ ，value-based采用了迂回的方法，计算出价值函数Q（利用贪婪、采样等策略），然后给出确定性策略，虽然可以采用 $ε$ 软性策略给一定的随机性，但本质仍是确定性策略。

如果想要随机策略或者动作空间为连续的情况下，则需要采用policy-based method。

给定状态 $s$ ，动作 $a$ 的参数化的概率分布如下：
$\pi(a|s;\theta)$
可连续，可离散，接下来构建一个目标函数，其中 $s_0$ 代指“任意状态”：
$J(\theta) \triangleq V_{\pi}(s_0)$
定义平均次数 $\eta(s)$ ，h为初始平均次数，后续步骤需要考虑状态、动作和上一步：
$\eta(s)=h(s_{ initial})+\sum_{\overline{s}} \eta(\overline{s})\sum_{a} \pi (a|\overline{s})p(s|\overline{s},a) \\ =\sum_{k=0}^{T-1}Pr(s_0→s,k,\pi)$
定义出现概率 $\mu(s)$ ：
$\mu(s)=\frac{\mu(s)}{\sum_{s'}\eta(s')}$

2.策略梯度定理

$\begin{align*} \triangledown V_{\pi}(s) &=\triangledown \sum_{a}\pi(a|s) \cdot q_{\pi}(s,a) \\ &=\sum_{a}[\triangledown \pi(a|s) \cdot q_{\pi}(s,a)]+\pi(a|s) \cdot \triangledown q_{\pi}(s,a)] \\ \end{align*}$
其中，
$\triangledown q_{\pi}(s,a)=\triangledown \sum_{s',r} p(s',r|s,a) \cdot (r+\gamma V_{\pi}(s'))$
为推导便利，这里假设折扣率 $\gamma$ 为1，上式和 $\theta$ 有关的只有 $V_{\pi}(s')$
$\triangledown q_{\pi}(s,a) = \sum_{s'} p(s'|s,a) \cdot \triangledown V_{\pi}(s')$ 所以， $\triangledown V_{\pi}(s)=\sum_{a}\triangledown \pi(a|s) \cdot q_{\pi}(s,a)+\pi(a|s) \cdot \sum_{s'} p(s'|s,a) \cdot \triangledown V_{\pi}(s')]$
如此得到关于 $V (s)$ 和 $V (s^{'})$ 的迭代，进一步展开可得，
$\triangledown V_{\pi}(s)=\sum_{a} \{ \triangledown \pi(a|s) \cdot q_{\pi}(s,a)+\pi(a|s) \cdot \sum_{s'} p(s'|s,a) \cdot [\sum_{a'}\triangledown \pi(a'|s') \cdot q_{\pi}(s',a')+\pi(a'|s') \cdot \sum_{s''} p(s''|s',a') \cdot \triangledown V_{\pi}(s'')] \}$
将上式子拆为三部分可以获得，
$\begin{align*} ①&=\sum_{a} \triangledown \pi(a|s) \cdot q_{\pi}(s,a)\\ &=\sum_{x \in S} Pr(s→x,0,\pi) \cdot \sum_{a}\triangledown \pi(a|x) \cdot q_{\pi}(x,a) \end{align*}$
可知 $Pr(s→x,0,\pi)=1$ ，
$\begin{align*} ② &=\sum_{a}\pi(a|s) \cdot \sum_{s'} p(s'|s,a) \cdot \sum_{a'}\triangledown \pi(a'|s') \cdot q_{\pi}(s',a')\\ &=\sum_{s'} \sum_{a}\pi(a|s) \cdot p(s'|s,a) \cdot \sum_{a'}\triangledown \pi(a'|s') \cdot q_{\pi}(s',a')\\ &=\sum_{s'} Pr(s→s',1,\pi) \cdot \sum_{a'}\triangledown \pi(a'|s') \cdot q_{\pi}(s',a') \end{align*}$
写为通式可得，
$②=\sum_{x \in S} Pr(s→x,k,\pi) \cdot \sum_{a}\triangledown \pi(a|x) \cdot q_{\pi}(x,a)$

$③=\pi(a'|s') \cdot \sum_{s''} p(s''|s',a') \cdot \triangledown V_{\pi}(s'')$
由此，可以得到， $\infty$ 与 $T - 1$ 等价，
$\begin{align*} \triangledown J(\theta)&=\sum_{s \in S} \sum_{k=0}^{\infty}Pr(s_0→s,k,\pi) \sum_{a} \triangledown \pi(a|s) q_\pi(s,a)\\ &=\sum_{s \in S} \eta(s) \sum_{a} \triangledown \pi(a|s) q_\pi(s,a)\\ &=\sum_{s'} \eta(s') \sum_{s \in S} \mu(s) \sum_{a} \triangledown \pi(a|s) q_\pi(s,a)\\ \end{align*}$
其中， $\sum_{s'} \eta(s')$ 是一个常数，我们只关心梯度的方向，至于大小并不关心，省略后可得，
$\triangledown J(\theta) \propto \sum_{s \in S} \mu(s) \sum_{a} \triangledown \pi(a|s) q_\pi(s,a)$

3.REINFORCE

由零、2.，我们已知，
$\triangledown J(\theta) \propto \sum_{s \in S} \mu(s) \sum_{a} \triangledown \pi(a|s) q_\pi(s,a)$
可以写为期望形式， $s$ 使用随机变量 $S_t$ 表示，
$\begin{align*} &=E_{\pi}[\sum_{a} \triangledown \pi(a|S_t)q_\pi(S_t,a)] \\ &=E_{\pi}[\sum_{a} \pi(a|S_t) \frac{\triangledown \pi(a|S_t)}{\pi(a|S_t)}q_\pi(S_t,a)] \\ &=E_{\pi}[ \frac{\triangledown \pi(A_t|S_t)}{\pi(a|S_t)}q_\pi(S_t,a)] \\ &=E_{\pi}[ \triangledown \log \pi(A_t|S_t) \cdot q_\pi(S_t,a)] \\ \end{align*}$
已知，
$q_\pi(s,a)=E_{\pi}[G_t|S_t=s,A_t=a]\\ q_\pi(S_t,A_t)=E_{\pi}[G_t]$
蒙特卡洛采样可得，
$=E_{\pi}[ G_t \triangledown \log \pi(A_t|S_t;\theta) ] \\$
其中，
$\theta_{t+1}=\theta_{t}+\alpha \cdot G_t \triangledown \log \pi (A_t|S_t;\theta_t)$

4.REINFORCE with Baseline

由零、2.，我们增加一个 $b (s)$ ，
$\triangledown J(\theta) \propto \sum_{s \in S} \mu(s) \sum_{a} \triangledown \pi(a|s) (q_\pi(s,a)-b(s))$
原生的REINFORCE方差太大了（由于蒙特卡洛采样方法），其中 $b (s)$ 与 $a$ 无关，
$\sum_{a} \triangledown \pi(a|s) b(s)=b(s) \triangledown \sum_{a} \pi(a|s)$
因此，
$\theta_{t+1}=\theta_{t}+\alpha \cdot (G_t-b(S_t)) \frac{\triangledown \pi(A_t|S_t,\theta_t)}{\pi(A_t|S_t,\theta_t)}$

5.REINFORCE Actor-Critic

相当于value-based和gradient-based的交集，其中Actor相当于policy（学习了 $\theta$ 的参数），Critic相当于value（学习了 $w$ 的参数）。
其中， $G_{t:t+1}$ 表示的是goal，但只有t→t+1是真的，其他时刻如t+2，…，T，采用“自举”方法； $\hat{v}$ 为机器学习方法估算出来的。
$\begin{align*} \theta_{t+1}&=\theta_{t}+\alpha \cdot (G_{t:t+1}-\hat{v}(S_t,w)) \frac{\triangledown \pi(A_t|S_t,\theta_t)}{\pi(A_t|S_t,\theta_t)}\\ &=\theta_{t}+\alpha \cdot (R_{t+1}+\gamma\hat{v}(S_{t+1},w)-\hat{v}(S_t,w)) \frac{\triangledown \pi(A_t|S_t,\theta_t)}{\pi(A_t|S_t,\theta_t)}\\ &=\theta_{t}+\alpha \cdot \delta_t\frac{\triangledown \pi(A_t|S_t,\theta_t)}{\pi(A_t|S_t,\theta_t)}\\ \end{align*}$

一、介绍

组合优化（CO）在物流、制造和分布供应链、顺序分销商领域扮演者重要的角色。运筹学(OR)社区对该问题进行了广泛的研究，但现实世界中的CO问题无处不在，而且每个问题都有其独特的约束条件，彼此不同。此外，这些限制往往会随着工作环境的变化而迅速变化。设计一种强大而高效的算法，并能在各种条件下统一应用，即使不是不可能，也是很棘手的。因此，工业中面临的许多CO问题通常都是用手工制作的启发式方法来处理的，尽管它们有缺点，由当地专家设计。

在计算机视觉(CV)和自然语言处理(NLP)领域，基于专家手工特征工程的经典方法现在已经被自动化的端到端深度学习算法所取代。监督学习的巨大进步，即学习从训练输入到标签的映射，使这一显著的转变成为可能。不幸的是，监督学习在很大程度上不适用于大多数CO问题，因为我们不能立即获得最优标签。相反，人们应该利用分数，这对于大多数CO解决方案来说是很容易计算的，来训练一个模型。强化学习范式非常适合组合优化问题。

最近的深度强化学习(RL)方法已经很有前景，为抽象的NP-hard CO问题找到了接近于最优的解决方案，如旅行商(TSP)，有能力的车辆路由(CVRP)和0-1背包(KP)以优异的速度。我们通过引入带有多重优化的策略优化(POMO)，为深度学习社区的这一团队努力做出了贡献。POMO提供了一个简单直接的框架，可以自动生成一个不错的求解器。它可以应用于广泛的一般CO问题，因为它使用CO本身的对称性，在CO解的顺序表示中发现。

我们通过使用相同的神经网络和相同的训练方法解决前面提到的三个NP-hard问题，即TSP, CVRP和KP，证明了POMO的有效性。我们的方法纯粹是数据驱动的，训练程序设计中的人工指导被保持到最低限度。更具体地说，它不需要在算法中插入特定问题的手工启发式。尽管它很简单，但我们的实验证实，与所有当代神经RL方法相比，POMO在减少最优性差距和推理时间方面取得了优越的性能。

本文的贡献有三个方面:
•我们识别了RL方法中的对称性，用于解决导致多重最优的CO问题。这种对称性可以在神经网络训练期间通过并行的多个铺开来利用，每个轨迹都有一个不同的最优解作为探索的目标。

•我们为策略梯度设计了一个新的低方差baseline。因为这个基线是从一组不同的轨迹中衍生出来的，学习变得不那么容易受到局部极小值的影响。

•我们提出了基于多个贪婪预演的推理方法，该方法比传统的抽样推理方法更有效。我们还介绍了一种实例增强技术，可以在推理阶段进一步利用CO问题的对称性。

二、相关工作

（1）深度强化学习构建法

Bello et al.——指针网络（PtrNet）
使用了actor-critic算法，证明神经最和优化可以实现TSP和KP问题的近似最优解。模型基于Seq2Seq结构，用了注意力算法机制。

Narari et al.——改善指针网络（PtrNet）

其他：与前者基于RNN的不同，基于Transformer的注意力模型，基于贪婪-预演的REINFORCE，类似于self-critical训练。已经应用于TSP，OP和VRP问题。

Peng et al.——注意力模型

Dai et al.——Struct2Vec

Khalil et al.——deep Q-learning
解决了TSP问题，最小顶点切割和最大顶点切割问题。部分解以图的形式嵌入，深度神经网络估计每个图的值。

（2）推理技术

——Active search
在单一的测试实例上优化策略。

——Sampling method
在多个解决方案中选择最好的。

——Beam search
用先进策略提升采样效率。

——经典启发式
经典的启发式运算如后处理也可以应用于神经网络生成的解，进一步提高解的质量。

（3）深度强化学习改善法

POMO属于上面总结的构造型RL方法的范畴，其中CO解决方案是由神经网络一次性创建的。

另一种方法，结合机器学习和启发式算法。训练神经网络来指导局部搜索算法，局部搜索算法在之前算法的基础上迭代地找到更好的解，直到时间预算耗尽。

三、激励

假设我们有一个联合优化问题，用一组节点表示 ${ v_1,v_2,...,v_M \}$ ，有一个可训练的策略网络参数 $\theta$ 。一个解决方案 $\tau =(a_1,...,a_M)$ ，其中第 $i$ 个动作 $a_i$ 可以选择节点 $v_j$ ，根据下式遵循随机策略，一次迭代一个节点生成，
$\pi_t= \begin{cases}p_\theta\left(a_t \mid s\right) & \text { for } t=1 \\ p_\theta\left(a_t \mid s, a_{1: t-1}\right) & \text { for } t \in\{2,3, \ldots, M\}\end{cases}$
其中 $s$ 为问题实例定义的状态。
起始动作 $a_1$ 的选择严重影响后续动作的选择 $a_2,a_3,...,a_M)$ 。实际上， $a_1$ 的任何选择都应该同样好，我们试图找一种策略优化方法，可以充分利用这种对称性。

四、多最优解的策略优化POMO

1.多启动节点探索

POMO首先指定 $N$ 个不同的节点 $\{a^1_1,a^2_1,...,a^N_1\}$ *（上文用v表示节点，a表示动作；这里却又用a表示节点了……，我觉得作者实际想表达的是初始动作的选择）*作为起始节点来探索。网络通过蒙特卡洛采样 $N$ 个轨迹解决方案 $\{ \tau^1,\tau^2,...,\tau^N \}$ ，该轨迹被定义为如下序列，
$\tau^i(a_1^i,a_2^i,...,a_M^i) \text{ \ \ \ \ for \ }i=1,2,...,N$
前文提到的RNN或者Transformer框架的方法，来自多采样轨迹的第一个节点总是由网络来做选择。一个可训练的START令牌(这些模型起源于NLP的遗产)被输入到网络中，并返回第一个节点。通常，使用这样的START令牌是明智的，因为它允许机器学习找到导致最佳解决方案的“正确”第一步。
然而，在存在多个“正确”的第一步时，它会迫使机器倾向于特定的起点，这可能会导致有偏见的策略。因此，当所有的第一步都同样好时，应用熵最大化技术来改进探索是明智的。熵最大化通常是通过在RL的目标函数中添加熵正则化项来实现的。然而，POMO直接最大化了第一个动作的熵，迫使网络总是产生多个轨迹，所有这些轨迹在训练过程中贡献相同。

请注意，这些轨迹与START令牌方案下重复采样的N个轨迹有根本不同。源自START令牌的每个轨迹都接近于单个最优路径，但是POMO的N个解轨迹将紧密匹配最优解的N个不同节点序列表示。从概念上讲，POMO的探索类似于引导学生从许多不同的角度反复解决同一个问题，让她接触到各种解决问题的技巧，否则这些技巧是没有用的。

2.策略梯度的共享基准

POMO基于REINFORCE算法。一旦我们采样了一个集合的轨迹解决方案 $\{ \tau^1, \tau^2,...,\tau^N \}$ ，我们就可以计算出每个解决方案 $\tau^i$ 的全部回报 $R(\tau^i)$ 。为了最大化期待收益 $J$ ，我们使用近似的梯度下降法。
$\nabla_\theta J(\theta) \approx \frac{1}{N} \sum_{i=1}^N\left(R\left(\tau^i\right)-b^i(s)\right) \nabla_\theta \log p_\theta\left(\boldsymbol{\tau}^i \mid s\right)$
其中， $p_\theta\left(\boldsymbol{\tau}^i \mid s\right) \equiv \prod_{t=2}^M p_\theta\left(a_t^i \mid s, a_{1: t-1}^i\right)$ 。 $b^i(s)$ 是一个有很多自由选择，以减少采样梯度方差的baseline。原则上来说，它是一个关于 $a^i_1$ 的函数，为每个轨迹 $\tau^i$ 分配不同的值。然而在POMO中，我们使用共享的baseline，
$b^i(s)=b_{\text {shared }}(s)=\frac{1}{N} \sum_{j=1}^N R\left(\boldsymbol{\tau}^j\right) \text {\ \ \ \ for all } i$
相比贪婪-预演策略，POMO的baseline在梯度策略中减少了方差。在上上式中的优势项， $R(\tau^i)-b^i(s)$ 对于POMO有零均值，然而，贪婪的baseline在大多数情况下会带来劣势。这是因为采样-预演（遵循策略的softmax）在多数情况下在解决方案质量上难以超越贪婪-预演（遵循策略的argmax）。此外，相比其他深度强化学习方法，POMO baseline可以更高效地计算，因为前者需要单独的训练网络（critic）或克隆的策略网络（贪婪-预演）。

最重要的是，POMO使用的共享基线使RL训练对局部极小值具有很强的抵抗力。当生成 $N$ 个解决方案轨迹 $\{ \tau^1, \tau^2,...,\tau^N \}$ 时，如果我们不使用共享的baseline，同时严格坚持使用贪婪-预演来代替，则每个采样-预演 $\tau^i$ 将被独立评估。与具有相同起始节点 $a^i_1$ 的贪婪-预演对应相比，产生 $\tau^i$ 的操作仅通过其表现更好(或更差)的程度来加强。因为这种训练方法是由两个密切相关的网络产生的两个预演之间的差异来指导的，所以它很可能在actor和critic都以类似的方式表现不佳的状态下过早地收敛。然而，在共享baseline的情况下，每个轨迹现在都与N−1个其他轨迹竞争，其中没有两个轨迹是相同的。随着异构轨迹数量的增加，所有这些都有助于将baseline设置在正确的水平，过早收敛到次优策略是非常不鼓励的。

3.推理的多贪婪轨迹

CO问题的构造型神经网络模型一般有两种预演模式。
在“贪婪模式”中，使用策略上的argmax绘制单个确定性轨迹。
在“采样模式”中，根据概率策略从网络中采样多个轨迹。
采样解的平均回报可能比贪婪解的回报小，但在计算代价上，采样可以根据需要重复多次。在大量采样解的情况下，可以找到一些奖励大于贪婪-预演的解。
使用多开始节点POMO的方法，就可以产生不止一条而是多条贪婪轨迹。从 $N$ 个不同的节点 $\{ a^1_1,a^2_1,...,a^N_1 \}$ 开始， $N$ 个不同的贪婪轨迹可以被确定的获，得从中选择最佳轨迹，类似于“采样模式”方法。

（1）增加实例

POMO的多贪婪预演方法的一个缺点是，一个人可以利用的贪婪预演的数量 $N$ 不能任意大，因为它被限制为有限个可能的起始节点。然而，在某些类型的CO问题中，可以通过引入实例增强来绕过这个限制。它是POMO核心思想的自然延伸，寻求不同的方法来达到相同的最优解决方案。如果你可以重新制定问题，让机器看到不同的问题，但却得到完全相同的解决方案呢?
例如，可以翻转或旋转二维路径优化问题中所有节点的坐标，并生成另一个实例，从中可以获得更多贪婪的轨迹。
实例增加的灵感来自自监督学习技术，该技术训练神经网络学习旋转图像之间的等价性。对于CV任务，有概念上类似的测试时间增强技术，如“多作物评估”，可以增强神经网络在推理阶段的性能。实例增强技术在CO任务上的适用性和多目标性取决于问题的具体情况，也取决于所使用的策略网络模型。附录中描述了更多关于实例增强的想法。

五、实验

0.基础

（1）注意力模型

注意力模型（AM）很适合POMO，尽管本文强调POMO是一种同样的RL方法，并不绑定到特定结构的策略网络。AM由编码器和解码器两个主要部分组成。大多数复杂的计算发生在多层编码器里，通过编码器，每个节点的信息及其与其他节点的关系被嵌入为一个向量。解码器使用这些向量作为点积注意力机制的 $k ey$ ，然后自回归地生成一个解序列。
要应用POMO，我们需要为CO问题的一个实例绘制多个( $N$ 个)轨迹。这不会影响AM的编码过程，因为无论需要生成多少个轨迹，编码只需要一次。另一方面，AM的解码器需要处理 $N$ 倍于POMO的计算。通过将 $N$ 个 $q u ery$ 叠加到一个矩阵中，并将其传递给注意力机制，可以有效地并行生成 $N$ 个轨迹。

（2）问题设置

对于TSP和CVRP，我们解决问题用一个设置在Kool et al.文章中描述的那样。对于0-1 KP，我们跟随Bello et al.的文章里的设置。

（3）训练

对于所有的实验，策略梯度是从一批64个实例中平均出来的。Adam优化器学习率 $\eta=10^{-4}$ ，权重延迟（ $L_2$ 正则化） $w=10^{-6}$ 。为了保持所有实验的训练条件简单和相同，我们没有应用衰减学习率，尽管我们建议在实践中使用经过微调的衰减学习率以实现更快的收敛。我们定义一个epoch 100,000个随机生成的训练实例。训练时间因问题的大小而异，从几个小时到一周不等。以TSP100为例，在单个Titan RTX GPU上，一个训练epoch大约需要7分钟。我们已经等待了2000个epoch(~ 1周)来观察完全收敛，大多数学习已经在200个epoch(~ 1天)完成。

（4）推理

我们报告里每个问题的10,000个实例的时间。对于路径问题，我们使用表中列出的坐标转换，

我们尝试了有和无 $\times 8$ 的实例增加。没有实例增加被用于0-1 knapsack（KP），因为没有直接的方法。

自然而然的，Kool et al.已经用带有贪婪预演 baseline的REINFORCE算法训练了AM。两个单独训练的神经网络必须以相同的方式进行评估。由于POMO推理方法从多个答案中选择最好的，即使没有实例增强，这也给了POMO不公平的优势。因此，我们在我们的POMO训练网络上以“单轨迹模式”执行推理，其中随机选择一个起始节点来绘制单个贪婪预演。

请注意，当基于随机实例的小测试集(10,000)时，平均推断结果可能会波动。为了避免读者混淆，我们对表2中TSP结果的一些平均路径长度进行了轻微修改(基于报告的最优性差距)，使它们与我们计算的最优值(使用超过10万个样本)一致，TSP20和TSP50分别为3.83和5.69。对于CVRP和KP，抽样误差甚至比TSP更大，因此在这种情况下，我们在结果的表示上更加谨慎。只有当结果表基于相同的测试集时，我们才会在结果表中显示“间隙”。

（5）代码

详见于：Github-POMO

1.旅行商问题

我们采用开始节点( $N$ )为20个。结果如上表2所示。POMO在房安置了、效率、稳定性都有很大优势。结合使用多个贪婪的POMO预演和 $\times 8$ 实例增加，可以将最优性差距（gap）进一步缩小一个数量级。更详细的结果分析见文章原文

2.有能力的车辆路径规划问题

当POMO训练一个策略网络时，理想情况下，它应该只使用“好的”开始节点，从中推出最佳方案。但是，与TSP不同，并非CVRP中所有节点多可以成为最优轨迹的第一步（如上图所示），并且如果不事先知道最优解，就无法确定哪些节点是好的。解决此问题的一种方法是添加一个二级网络，该网络返回POMO使用的最佳开始节点和候选节点。然而，我们将这种方法留给未来的研究，在我们的CVRP实验中。我们简单地使用所有节点作为POMO探索的开始节点，而不管它们是好是坏。

这种应用POMO的简单方法仍然可以成为一个强大的求解器。表3报告了在客户节点为20、50和100的CVRP上的实验结果，POMO的性能大大优于简单的REINFORCE。请注意，目前还没有算法可以在合理的时间内找到10,000个随机CVRP实例的最优解，因此表中的“Gap”值是相对于LKH3结果给出的。POMO在CVRP100中的差距(0.32%)小于CVRP50(0.45%)，这可能是由于随着问题规模的增长，LKH3的性能下降速度比POMO更快。

POMO是一种结构性方法，它与别的改善方法结合可以产生更好的结果。

3.0-1背包问题

我们选择KP来证明POMO在路由问题之外的灵活性。与CVRP的情况类似，我们重用TSP的神经网络，并采用简单的方法，使用实例中给出的所有项作为推出的第一步，避免设计额外的、更复杂的“开始节点选择”网络。求解KP时，每一项的权重和值代替TSP每个节点的x坐标和y坐标。当网络生成一个物品序列时，我们将这些物品一个接一个地放入背包中，直到包满，此时我们终止序列生成。

在表4中，POMO结果与基于动态规划的最优解、贪婪启发式的最优解以及我们的PtrNet实现和原始AM方法进行了比较。即使没有实例增强，POMO也极大地提高了从深度神经网络获得的解决方案的质量。

六、结论

POMO是一种基于深度强化学习的纯数据驱动的组合优化方法，它避免了由领域专家手工构建的启发式方法。在训练和推理阶段，POMO利用CO问题的多个最优解的存在，有效地引导自己达到最优。我们用旅行推销员(TSP)、有能力车辆路径(CVRP)和0-1背包(KP)问题对POMO进行了实证评估。对于这三个问题，我们发现与其他结构的深度RL方法相比，POMO在缩小最优性差距和减少推理时间方面达到了最先进的性能。

七、附录

【待补充】

八、参考文献

【待补充】

相关领域

【待补充】

LeetCode 热题 100_跳跃游戏（78_55_中等_C++）（贪心算法） Dream it possible！ LeetCode 热题 100 leetcode c++贪心算法算法
LeetCode热题100_跳跃游戏（78_55）题目描述：输入输出样例：题解：解题思路：思路一（贪心算法）：代码实现代码实现（思路一（贪心算法））：以思路一为例进行调试题目描述：给你一个非负整数数组nums，你最初位于数组的第一个下标。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个下标，如果可以，返回true；否则，返回false。输入输出样例：示例1：输入：num
第十四届蓝桥杯省赛C++C组——子矩阵（蓝桥杯篇章完结撒花） Dawn_破晓蓝桥杯一个月速成日志蓝桥杯 c++c语言
本来想写的速成日志也没写多少，cb国二，最后一题树形DP调了一小时发现h数组没置-1，最后无果，如果没马虎可能有国一水平了，正儿八经准备用了两个月，因为要考研，每天只学2-3小时的算法，一共刷了300多道题吧，由于之前选过ACM（实验课因为周六去，懒得去还给我挂了）和算法分析课，所以还是有点基础的，如果算上一年前刷的题总共加起来也就400多道题吧。说一下历程吧，一年前的题都是老师布置的作业，迫不得
医疗行业的数据安全怎么防护？ jinan886 网络大数据安全开源软件数据分析
医疗行业的数据安全防护是一个系统工程，需要政府、医疗机构、技术提供商及社会各界共同努力，形成合力。通过构建全方位、多层次的数据安全防护体系，不断提升数据安全防护能力，才能为患者提供更加安全、高效的医疗服务，同时保障医疗行业的稳健发展。医疗行业的数据安全防护至关重要，以下是一些关键措施：1.数据加密传输加密：使用SSL/TLS等协议保护数据传输。存储加密：采用国标算法256位等上邦加密软件算法。2.
【C++篇】排队的艺术：用生活场景讲解优先级队列的实现 far away4002 C++c++stl 优先级队列向下（向上）调整算法
文章目录须知欢迎讨论：如果你在学习过程中有任何问题或想法，欢迎在评论区留言，我们一起交流学习。你的支持是我继续创作的动力！点赞、收藏与分享：觉得这篇文章对你有帮助吗？别忘了点赞、收藏并分享给更多的小伙伴哦！你们的支持是我不断进步的动力！分享给更多人：如果你觉得这篇文章对你有帮助，欢迎分享给更多对C++感兴趣的朋友，让我们一起进步！深入理解与实现：C++优先级队列的模拟实现1.引言在算法和数据结构中
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
量子密码学技术架构解析与程序员视角算法
量子计算威胁模型分析传统公钥密码体系（RSA/ECC）的安全假设基于：大数分解问题的计算复杂度（RSA）椭圆曲线离散对数问题（ECC）有限域离散对数问题（DSA）Shor算法的时间复杂度为O((logN)^3)，当量子比特数达到阈值时：2048位RSA可在8小时内破解（理论值）ECC-256的破解时间将降至多项式级别Grover算法对对称密码的影响：AES-256的有效安全性降至2^128哈希函数
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
什么是hessian矩阵红廉骑士兽矩阵线性代数算法机器学习 numpy
Hessian矩阵是一个数学概念，是用来表示函数关于其自变量的二阶偏导数的矩阵。它是一个实对称矩阵，对于多元函数来说，每一个元素是对应自变量关于该函数的二阶偏导数。Hessian矩阵在优化算法和最优化等领域有着重要的应用。
HPC综合-心得与笔记【19】 sakura_sea HPC and 3D Graphics Engine 线性规划
Dijkstra算法【2】基础距离数组dist，设置起点距离为0，其他节点距离为无穷大（∞）用最小堆创建优先队列，将起点放入队列。从队列中取出当前距离最小的节点u。遍历u的每个邻接节点v，计算从起点到v的路径长度：alt=dist[u]+weight(u,v)。如果altdist[u]:continue#遍历邻接节点forv,weightingraph[u].items():alt=dist[u]
高通成都linux engineer intern 一面面经 han_xue_feng java
题解|#KNN算法#在*******里有个叫《题解--2024华南理工校赛.pdf》的文件高通成都linuxengineerintern一面面经两个面试官共25min就结束了，面试氛围还可以，问的很快。1.自我介绍2.问对高通了解多少3.对牛客鼠人传（第四十四集，2024/4/22）刷题：尝试补昨天D，题解看了半天似懂非懂，遂放弃改天再补。做题老是把复杂的问题想简单，简单的问题想复京东物流管理培训
《算法笔记》9.4小节——数据结构专题(2)-＞二叉查找树（BST）问题 A: 二叉排序树圣保罗的大教堂《算法笔记》算法
题目描述输入一系列整数，建立二叉排序数，并进行前序，中序，后序遍历。输入输入第一行包括一个整数n(1#include#include#include#include#include#include#include#include#include#include#include#include#include#defineINF0x3f3f3f3f#definedb1(x)coutleft);Fre
js逆向第4例：猿人学1初识-送分题，AES算法魔改，md5算法魔改，环境检测我是花臂不花 js逆向100例 javascript 算法开发语言
第二届猿人学js逆向大赛，本以为送分题分分钟搞定，没想到第一题就这么难。查看请求存在token加密参数，接下就是打断点找到加密点破解直接进入下一步函数可以看到如下代码vare=Date['now'](),f=a('crypto-js'),g='666yuanrenxue66',h=f['AES']['encrypt'](e+String(d),g,{'mode':f['mode']['ECB'],
SMOTE算法的改进与扩展 Java 第一深情不平衡数据分类机器学习人工智能
一、SMOTE的改进算法1、Boderline-SMOTE只考虑分布在分类边界附近的少数类样本，并将其作为根样本首先通过k-NN方法将原始数据中的少数类样本划分成“Safe”、“Danger”和“Noise”3类，其中“Danger”类样本是指靠近分类边界的样本。对属于“Danger”类少数类样本进行过采样，可增加用于确定分类边界的少数类样本。这样做可以增加这些关键区域的少数类样本数量，使得模型在
DeepSeek的实际应用场景：AI技术如何赋能多领域创新 2501_91189350 人工智能
DeepSeek作为新一代智能技术平台，凭借其强大的算法能力和灵活的部署方式，正在多个行业掀起效率革命。本文将从真实案例出发，解析DeepSeek在不同场景中的落地应用。‌场景一：金融风控建模‌在信贷风险评估领域，传统模型存在数据维度单一、更新滞后等问题。某银行引入DeepSeek的‌动态特征工程模块‌，通过实时整合用户行为数据、社交网络信息等100+维度特征，成功将坏账识别准确率提升至98.5%
力扣算法Hot100——75. 颜色分类飞奔的马里奥算法 leetcode java
解法1：当然可以冒泡排序，时间复杂度O(n2n^2n2)解法2：单指针循环两次，第一次循环将所有的0交换到前面；第二次循环将所有的1交换到0的后面classSolution{publicvoidsortColorsBySinglePointer(int[]nums){intzeroCnt=0,p=0;for(inti=0;i
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Ai时代初期全球不同纬度的层级辐射现象龙胥伯人工智能
基于最新研究成果与行业动态，AI时代的"层级辐射"现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短。这种技术突破推动AI从实验室走向规模化应用，在智能制造、生物医药等领域催生新生态。大语言模型的训练方式（预训练→多任务学习→强化学习
基于Docker 搭建Redis三主三从分布式集群 DBA学习之路 docker redis 容器
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、分布式系统规划二、准备配置文件1.创建redis集群目录三、启动Redis容器四、创建分布式系统1.创建集群2.查看节点信息总结前言提示：这里可以添加本文要记录的大概内容：本次搭建的为”三主三从“的分布式系统，分布式系统中节点存放的数据可以是不同的。当有数据写入请求到达分布式系统后，系统会采用虚拟槽分区算法将数据写入相
TikTokenizer 开源项目教程邱纳巧Gillian
TikTokenizer开源项目教程tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目，旨在提供一个高效、灵活的文本分词工具。该项目利用先进的算法和数据结构，能够快速准确地对文本进行分词处
洛谷P2678[NOIP2015]跳石头(二分算法) 猪猪成 C++笔记洛谷算法 c++
题目：AC通过图如下简短的AC代码如下：#include#includeusingnamespacestd;intmain(){intl,n,m;cin>>l>>n>>m;intarr[50001];intnow,left,right,mid;left=0;right=l;//给2位置变量初始化数值;for(inti=1;i>arr[i];}arr[0]=0;intsum;//记录搬走的石块总和;
宇树科技纯技能要求总结极梦网络无忧杂谈科技
一、嵌入式开发与硬件设计核心技能嵌入式开发：精通C/C++，熟悉STM32、ARM开发熟悉LinuxBSP开发及驱动框架（SPI/UART/USB/FLASH/Camera/GPS/LCD）掌握主流平台（英伟达、全志、瑞芯微等）硬件设计：精通数字/模拟电路设计，熟悉PCB绘制工具（Altium等）掌握MOS驱动电路、变压器设计及EMC优化熟悉制板/贴片流程及焊接扩展技能电机控制：熟悉有感FOC算法
链表操作：分区与回文判断共享家9527 数据结构数据结构 c语言开发语言 leetcode 链表
目录链表分区（Partition）功能概述代码实现要点与难点注意事项链表回文判断（PalindromeList）功能概述代码实现要点与难点注意事项总结在链表相关的算法问题中，理解链表的基本结构和操作至关重要。今天我们深入探讨两个经典的链表问题：链表分区和链表回文判断，通过详细分析代码实现，理解其中的要点、难点和注意事项。作者主页：共享家9527-CSDN博客链表分区（Partition）功能概述链
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
halcon里3d平面度检测程序_激光三角测量法在工业视觉检测上的应用 jiago 王佳东fr
点击上方“3D视觉工坊”，选择“星标”干货第一时间送达激光三角测量法，是工业视觉领域较为常用也是比较容易理解的一种3D检测算法。本文主要从应用层次来阐述，包括相机和激光选型、搭接方式的优劣点分析、软件开发过程中的注意事项等。1.原理及演示将一条单线细激光光线投射到物体表面，由于物体表面高度发生变化，使得激光线发生了弯曲，根据这个线的变形，可以计算出精确的物体表面三维轮廓。如下图所示，基本组成结构有
并查集实现算法 C嘎嘎嵌入式开发算法算法服务器 c++
畅通工程2题目描述：某省调查城镇交通状况，得到现有城镇道路统计表，表中列出了每条道路直接连通的城镇。省政府“畅通工程”的目标是使全省任何两个城镇间都可以实现交通（但不一定有直接的道路相连，只要互相间接通过道路可达即可）。问最少还需要建设多少条道路？输入描述：测试输入包含若干测试用例。每个测试用例的第1行给出两个正整数，分别是城镇数目N(#include#include#include#includ
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

POMO: Policy Optimization with Multiple Optima for Reinforcement Learning学习笔记

文章目录

摘要

零、一些基础

1.梯度近似

2.策略梯度定理

3.REINFORCE

4.REINFORCE with Baseline

5.REINFORCE Actor-Critic

一、介绍

二、相关工作

（1）深度强化学习构建法

（2）推理技术

（3）深度强化学习改善法

三、激励

四、多最优解的策略优化POMO

1.多启动节点探索

2.策略梯度的共享基准

3.推理的多贪婪轨迹

（1）增加实例

五、实验

0.基础

（1）注意力模型

（2）问题设置

（3）训练

（4）推理

（5）代码

1.旅行商问题

2.有能力的车辆路径规划问题

3.0-1背包问题

六、结论

七、附录

八、参考文献

相关领域

你可能感兴趣的:(算法,深度学习,运筹优化,强化学习)