飘逸慕嫣然

神经情景控制（Neural Episodic Control）On arXiv By DeepMind

【声明：鄙人菜鸟一枚，写的都是入门级博客，如遇大神路过鄙地，请多赐教；内容有误，请批评指教，如有雷同，属我偷懒转运的，能给你带来收获就是我的博客价值所在。】
【声明】翻译：张永伟（系中国航天系统科学与工程研究院2016级研究生）修订：博主
这期为大家推荐一篇2017年3月6日发表在 arXiv 上的文章，这篇文章介绍了一种”神经情景控制（Neural Episodic Control）“的新方法，有效提速深度强化学习。后面有时间会单独解析这篇文章，可预读一篇帖子：http://www.dataguru.cn/article-9784-1.html?utm_source=tuicool&utm_medium=referral。文章出来后不久【机器之心】就有人对这篇文章有简要的评论，可参见：https://www.jiqizhixin.com/articles/96e72c9b-6e49-4690-bcad-b902768d955c（虽然只是贴了几张图，翻译了几句话，基本没啥剖析，大家想看的就瞅两眼哈，别认真，主要还是细读原文，英语水平不错的，有耐心的建议读）。
原文来源：Pritzel A, Uria B, Srinivasan S, et al. Neural Episodic Control[J]. 2017. 文章地址：https://arxiv.org/abs/1703.01988

摘要：在诸多领域，深度强化学习的表现已经超越人类。但是这种学习方式效率非常低，与人类相比要达到满意表现所需的数据量要高好几个数量级。为此我们提出了神经情景控制：一种能够快速吸收新经验并依据新经验来采取行动的智能体。该智能体的价值函数采用半值方式表示：一种旧经验缓冲器，包括价值函数渐变状态表示和价值函数快速更新估计两部分。在大量场景下的研究表明，该智能体的学习速度明显快于目前最先进的通用深度强化学习智能体。

1 简介

基于深度强化学习的智能体在各类复杂环境下取得了最先进的成果（Mnih etal.2015；2016），而且其表现经常会超越人类（Silver etal.2016）。虽然这些智能体的最终表现令人印象深刻，但是通常为达到预期的性能水平，需要与环境进行的互动次数比人类要多几个数量级。例如在Atari 2600个环境集合(Bellemare etal., 2013)中，人类学习两个小时后的游戏水平，深度Q-网络(Mnih et al.,2016)需要200多个小时才能达到(Lake et al., 2016)。对于深度强化学习学习速度慢这一问题有些许合理的解释，我们主要集中于下几个方面的问题：
随机梯度下降优化需要较小的学习率。由于神经网络的全局逼近特性，高学习率会造成灾难性干扰(McCloskey & Cohen,1989)。学习率小意味着经验只能被缓慢地学习到神经网络中去。
由于极少数情况下奖励非零，在奖赏（reward）信号稀疏的环境中神经网络很难对环境进行建模。这可以看作是一种类别不均衡的表现，即低奖励采样以某未知数超过高奖励采样。因此，神经网络在预测更大奖励方面不成比例的表现不佳，造成智能体在最佳行动选择时的困难。
用价值引导技术进行奖励信号传播。如 Q-学习，这导致每与环境交互一次奖励（reward）信息就按先前存储器传播一步。当位置转移时，如果信息更新以相反的顺序发生可能会更加有效。然而，按照不相关最小批DQN-style原则，使用随机选则路径的方式对算法进行训练。并且，为了训练的稳定，需要使用缓慢更新目标网络的方式来进一步放慢奖励传播速度。
本次研究我们将集中精力解决上述三个问题。然而，我们必须指出的是最近在搜索广度（Osbandet al.,2016）,分层强化学习（Vezhnevets et al.,2016）和迁移学习（Rusu et al.,2016;Fernando et al.,2017）等方面取得的新进展，同样在深度强化学习基线智能体数据处理效率方面做出了重要贡献。
本文提出的神经情景控制，是一种能够解决上述深度强化学习的缺陷并且能够在广泛环境情景中显著提高学习速度的方法。至关重要的是，我们的智能体能够根据经验快速选择高度成功的策略，而不是像DQN（Mnih etal.,2015）和A3C（Mnih etal.,2016）中需要经过许多优化步骤（例如，统计梯度下降）再做出选择。
这项工作的部分灵感来自于海马体在决策过程中的假设作用（Lengyel &Dayan, 2007; Blundell et al., 2016）和最近一次学习(Vinyals etal., 2016)与神经网络在少量事件存储器方面的研究(Kaiser et al.,2016)。我们的智能体使用半表格式的方式将环境处理的经验（如一些长期存储器，顺序性，前后关系查找的情景存储器）进行保存。半表格是一种只能增加存储器的表示方式，它将缓慢变化的键与价值快速更新结合在一起，使用上下关系搜索键来为在智能体行为选择时找到有用值。因此，智能体的存储器操作与传统的基于表格的RL方法（从状态和行为再到价值估计来建立地图）有非常多的相同之处。与其他强化学习中的神经存储器结构（第3部分详细说明）相比这种存储器方式的独特之处在于从存储器中取回的价值比剩下的深度神经网络要快。回想起在权重更新快速性的工作(Ba et al., 2016;Hinton & Plaut,1987)，虽然我们提出的结构全然不同，但同样有助于改进应用于整个网络的随机梯度下降法典型的权重更新慢的问题。不同于其他存储器结构（例如，LSTM和DNC），我们的存储器结构在写入存储器的时候并没有尝试进行学习，这是另一个不同点。由于其他结构学习过慢并且要花费大量时间，我们则采用将所有经验写入存储器的方式，并且与现存的存储器结构(存储器在每个情景结束后扫描Ohet al.(2015);Graves et al. (2016))相比允许它变得非常大。从大量的存储器中读取信息的方式使得基于kd-tree的最近邻搜索变得更加有效(Bentley,1975)。
本文接下来的组织结构如下：在第2部分我们将对深度强化学习进行回顾；在第3部分将对神经情景控制的算法进行描述；在第4部分我们将给出在Atari学习环境下的实验结果；在第5部分我们将讨论其他将存储器用于强化学习的方法；在最后的第6部分，我们将列出以后的工作内容和对NEC算法主要优点的总结。

2 深度强化学习

强化学习智能体(Sutton &Barto, 1998)的行为价值函数的定义如下：
Qπ(s,a)=Eπ[∑t[γtrt|s,a] ，
其中 a 为智能体在初始状态 s 下的初始行为并且根据期望接下来将采取策略。折扣因子用于权衡对短期收益和长期收益的偏好。
深度 Q 网络智能体(DQN; Mnih etal., 2015)使用Q学习(Watkins & Dayan, 1992)来获得一个价值函数 Q(st,at) 来进行排序。其中行为 at 是在步骤状态 st 下的最佳选择。基于这一价值函数，智能体将执行一个策略来实现搜索广度与搜索精度之间的权衡：智能体会统一按照概率 ϵ 随机选择行为，否则就选择价值最大的行为 at=arg maxaQ(st,a) 。
在DNQ中，行为价值函数 Q(st,at) 的参数是通过卷积神经网络来确定的，先将状态 st 表示成 2 维数据来作为输入，输出向量为当前状态下每个行为的价值。当智能体检测到一次转移时，DQN就将数组 (st,at,rt,st+1) 存储到一个回放缓冲区中，其中的数据将用于训练。神经网络是通过最小化网络输出与 Q 学习目标 yt=rt+γ maxaQ(st+1,a) 之间的方差来进行训练的，目的是从回放缓冲区随机采样获得转移子集。目标网络 Q(st+1,a) 是一个按周期更新的老版本价值网络，且目标网络和取自回放缓冲区的不相关样本的运用对稳定的训练至关重要。
近几年也有一些用来改进DQN性能的方法相继被提出，双DQN模型 (Van Hasselt et al., 2016)能够减小在目标计算方面的偏差。通过优化回放策略，优先回放(Schaul et al.,2015b)进一步提高了双DQN模型的性能。一些作者还提出了通过合并在线策略（on-policy）奖励或者增加优化约束的方式提高反馈奖励传播的方法和 Q 学习的反馈机制(Harutyunyan et al., 2016; Munos et al., 2016;He et al., 2016)。 Q∗(λ) (Harutyunyan et al.,2016)和 Retrace(λ) (Munos et al.,2016)将改变 Q 学习的目标形式以合并在线策略样本和在线策略学习与离线策略学习的随机（fluidly）选择。Munoset al.(2016)指出通过合并在线策略样本，能够提升智能体在 Atari 环境中的学习速度，这说明奖励的传播确实是影响深度强化学习效率的一个瓶颈因素。
A3C (Mnih etal., 2016)是另一个众所周知但完全不同于DQN的深度强化学习算法，它是基于策略梯度的，且同时学习策略和与之相关的价值函数，这些完全从在线策略学习中获得（类似于中 λ=1 的情况）。有趣的是，虽然在 Atari 游戏中智能体的表现没有显著提高，(Mnihet al.2016)也在其卷积神经网络中加入了一个LSTM存储器来给智能体建立存储器的概念。

3 神经情景控制

我们的智能体包含三个组成部分：一个用于处理二维图像 s 的卷积神经网络，一系列存储器模块（每个行为一个），以及一个将行为存储器读出到值的网络。其中的卷积神经网络我们用的是与DQN (Mnih et al.,2015)相同的结构。

3.1 可微神经词典

对于每一个行动，NEC有一个简单的存储模块 Ma=(Ka,Va) ，其中 Ka 和 Va 是同容量且可变维数的向量组。存储器模块的作用是将“键”与相应价值进行自由连接，就像在程序中建立的字典型数据。因此我们称这种存储器模块为可微神经词典（DND）。对DND有两种可能操作：查找和写入，如图1所示。在 DND 上按照键 h 执行查找得到输出值 o :

o = \sum i w i v i ， （ 1 ）

其中代表的第i个元素，而

w i = k ( h , h i ) \sum j k ( h , h j ), （ 2 ）

其中

hi 是数组的第

i 个元素，

k(x,y) 是向量

x 和向量

y 的核，即高斯或者逆核。因此DND中查找操作的输出是存储器价值的加权和，权重是通过查找键和相应的存储器键的核标准化后得到的。为了能够在较大存储器范围中进行查询，在实际中我们需要做两个近似：首先，我们应该将（1）式限制在前

p 个最近邻域内（

p 通常取50）；其次，我们使用一个基于

kd−tree (Bentley,1975)的近似最近邻算法来实现查询。

神经情景控制（Neural Episodic Control）On arXiv By DeepMind_第1张图片

当一个DND被查询后，一个新的键-值对将被写入到存储器中。写入的数值对应于刚才查询到的键。相关数值是有特殊用途的（之后我们确定NEC智能体的更新法则）。写入DND只能通过追加方式：通过在数组

Ka 和

Va 的尾部添加的方式分别写入键和键值。如果一个键已经存在，那么写入时它对应的值将会更新，而不是被复制。
需要指出的是,DND是(Blundell etal.2016)所述存储器模块的一个可微版本。它也是(Vinyals etal., 2016; Kaiser et al., 2016)提出的存储器和查询分类框架的一般化实现。

3.2 智能体架构

图2展示了DND作为NEC智能体的一部分，实现单一行为的过程，同时Algorithm1给出了NEC算法的大纲。通过一个卷积神经网络对状态像素 s 进行处理，得到一个键 h 。在DND中查询键值时会用到键 h ，在查询过程中，对于每个数组元素都将获得相应的权重 Wi 。最终，系统输出DND中键值的加权求和。对于NEC智能体，DND中的值就是相应状态的 Q 值，这样键值对在一开始就被写入存储器中了。因此，这一架构对于给定的一个行动 a 能够产生一个估计 Q(s,a) 。在每个DND存储器模块 Ma 共用网络的卷积部分时，对于智能体可取行为 a 都可以通过这一方式来判断。NEC智能体的行动策略是每次都会选择 Q -value最高的行为。在实际中，我们使用 ε− 贪心策略来进行训练， ε 值较小。

3.3 将 (s,a) 添加到存储器

随着NEC智能体的移动，新的键-值对也不断地写入存储器。根据卷积神经网络编码的查询键 h 的数值，键被附加到相应动作的存储器上。现在我们转向求一个合适的对应值的问题。在(Blundell etal. 2016)一文中，写到存储器中的是蒙特卡洛返回值。我们发现采用蒙特卡洛返回值（在线策略）和离线策略备份混合的方式效果更好，所以对于NEC我们选用N阶 Q 学习，如Mnih etal.(2016) (也可见 Watkins, 1989; Peng & Williams, 1996)。这样就增加了下面的N个在线策略奖励，并且引导出剩余路线的折扣奖励总额（离线策略）。N阶 Q 值估计如下

Q ((N)) (s t, a) = \sum j = 0 N - 1 γ j r (t + j) + γ N m a x a ́ Q (s t + N, a ́), （ 3 ）

公式（3）的引导词，是通过对每个行为

a 查询所有的存储器

Ma 之后建立的，并且返回的是最大的

Q 值。需要指出的是，一个特定的

(s,a) 产生后最早能够被添加到存储器的值是步数

N 。
当一个状态-行为值在DND中出现后（即完全相同的键

h 已经存储在

Ka 中），相应的在

Va 和

Qi 中也会有对应值出现，数值更新方式与经典的表格式

Q 学习算法相同：

Qi←Qi+α(Q(N)(s,a)−Qi),（4）
其中

α 是

Q 的更新学习率。如果状态尚未存在，则附加到

Va ，

h 附加到

Ka 中去。需要指出的是，除了

Q -表格随时间增多这点外，本智能体与经典的表式

Q 学习智能体相比，学习价值函数的方式相同。我们发现可以取较高数值以达到快速更新其的价值函数估计值的目的，也使得被重复查询的状态的表达相对稳定。此外，批量存储器更新（例如，在情景结束时）有助于提高计算性能。当存储器存储空间用完时，我们会将时间和距离最近的项作为近邻值进行重写。

3.4 学习

智能体的参数更新，是通过对给定行为的预测值 Q 和从回放缓冲器中随机采样获得的最小批损失 L2 最小化实现的。实际上，我们将元组 (st,at,Rt) 存储在回放缓冲器中，其中 N 为 N− 阶 Q 规则的水平，而扮演着DQN中目标网络的角色（我们的回放缓冲器，与DQN中的缓冲器极其相似）。这些(st,at,Rt)元组将通过随机均匀采样来生成用于训练的最小批。注意，图2中的架构是完全可微的，所以我们可以通过梯度下降的方式实现损失最小化。反向传播采用更低的学习率（与查询（α）后更新“键值对”时学习率相比）来更新卷积嵌入网络的权重和偏差以及每个特定行为的梯度损失值。

4 实验

在实际复杂环境中，我们调查了神经情景控制对于更大数据量是否能进行高效率学习。我们选择Atari学习环境(ALE;Bellemare et al., 2013)作为问题的研究范围，使用在Schaul et al.(2015a)中用到的 57个Atari游戏对神经情景控制进行了测试。这是一个有趣的任务集合，因为它们包含各种各样的挑战，例如稀少奖励和游戏得分大小不同。大多数一般的算法（像DQN和A3C的变种）应用于这些领域时会需要几千个小时的游戏时间，即这些算法数据效率低下。
我们选取了5个A3C和DQN的变种以及MFEC(Blundellet al., 2016) 作为基准。我们与A3C(Mnih etal., 2016)和 DQN(Mnih etal., 2015)的基础算法进行了比较。我们还与另外两种算法进行了比较，这两种包含返回值(Sutton, 1988)的算法通过加速信用分配传播的方式来获得更高的数据效率，这两种算法为 Q∗(λ) (Harutyunyan et al., 2016) 和 Retrace(λ) (Munos et al., 2016)。另外，我们还与带有优先回放（Prioritised Replay）的DQN进行了比较，这种DQN通过频繁回放显著行为来提高数据效率。由于不能获得Atari所有游戏的游戏结果，我们没有直接与DRQN(Hausknecht& Stone, 2015)以及FRMQN(Oh etal., 2016)进行比较。但要指出的是，结果显示DRQN的表现劣于优先回放。

除了MEFC的折扣率为 γ=1 之外，其他算法都使用 γ=0.99 的折扣率进行训练。在MFEC实现的过程中，我们使用随机预测作为嵌入函数。该方法从最初发布开始，就在Atari游戏方面获得了良好的表现。就NEC的超参数问题，我们选用与DQN相同的卷积架构，而且对于每个行为的最高信息存储量为5*105。梯度下降训练使用的是RMSProp算法(Tieleman& Hinton, 2012)。处理步骤与(Mnih etal.,2015)相同，包括每个行动要重复4次。对于 N 阶 Q 估计，我们选择 N=100 的水平。重演缓冲器只存储了最近观测的105个状态（相对于DQN的106个）和相应的N阶观测 Q 估计。在所有实验中，我们将最近邻数量 P 设置为50。内核函数是一个在短距离的平均值和大距离的加权反向距离之间插值的函数，具体如下：

k (h, h i) = 1 ‖ h - h i ‖ 2 2 + δ, （ 5 ）

根据直觉，当所有的邻居都距离较远的时候，我们并不希望把所有的重量都加到一个数据点上去。例如，高斯核函数能够按指数级速率抑制非最近邻个体。我们所选的核函数具有重尾的优点，这使得算法的鲁棒性增强，并且发现对核超参数问题的敏感度降低了。这里设置

δ=10−3 。
为了协调剩余的超参数问题（SGD学习率、公式4中快速更新学习率、嵌入维度、公式3中的以及

ε -贪心算法的搜索广度），在如下的六个游戏（Beam Rider,Breakout, Pong, Q*Bert, Seaquest和SpaceInvaders.）中我们加入了一个超参数扫描。在这个游戏子集合中，我们选择表现最好的中位数作为超参数值。这是在Bellemare etal. (2013)中提到的一种普通交叉验证程序，并且Mnih et al.(2015)也有用到。
数据效率的试验结果在表1中进行了总结。在小数据领域（少于2000万帧）NEC明显优于所有其他算法，从观测看少于500万帧数据时差异尤为明显。只有在4000万帧的时候，带优先回放的DQN平均水平优于NEC，需注意的是这对应于185个小时的游戏时间。

神经情景控制（Neural Episodic Control）On arXiv By DeepMind_第4张图片

神经情景控制（Neural Episodic Control）On arXiv By DeepMind_第5张图片

为了更加细致的说明NEC的表现，图3至图7给出了智能体在6个游戏(Alien,Bowling, Boxing, Frostbite, HERO, Ms. Pac-Man,Pong)中的学习曲线，从中可以看到几个典型的NEC学习案例。所有学习曲线显示是，在5种不同的初始随机种子下的平均性能。对于MEFC和NEC两个算法，我们每20万帧进行一次评估，其他的算法则每百万步进行一次评估。
在大多数游戏中，初始阶段NEC的学习速度是极快的（见表1），只有同样使用Q函数的MFEC算法能与之比肩。
从平均水平来看（见表2），NEC还是优于MFEC的。与MFEC相反，NEC使用奖励信号来得到一个适用于插值的嵌入函数。在那些像素点较少的游戏中，这一差异的效果是极其显著的。MFEC的简单版本通过在像素空间随机投射的方法来近似

L2 距离，只是不能关注到小但最相关的细节。另一个版本的MFEC使用经训练的隐式变分自动编码器(Kingma &Welling, 2013)，作为模型框架进行距离计算。这种隐式表达不依赖于奖励，并且会受到不相关细节的影响，例如显示当前得分。
为了训练的稳定性1(Mnih etal.,2015)，A3C，DQN以及其他相关算法需要将奖励限制在

[−1,1] 范围内。由于NEC和MFEC不需要限制奖励值范围，所以其行为的质量得到改善并且获得了比其他算法更优的表现(Bowling,Frostbite, H.E.R.O., Ms. PacMan, Alien out of the seven shown)。

神经情景控制（Neural Episodic Control）On arXiv By DeepMind_第6张图片

Alien 和 Ms. Pac-Man这两个游戏都需要对一个角色进行控制，在此我们可以通过收集数量较大的细节来实现对小奖励的收集，同时要避免无敌对手的出现。另一方面，智能体可以拿起一个使敌人容易受伤的特殊物品，允许智能体攻击他们并且会获得比收集小奖励更大的回报。对于使用现有参数法训练的智能体在这方面兴趣不大，因为范围限制之后意味着大小奖励之间没有差别。因此，由于NEC不需要进行奖励限制，所以通过最大化非削减分数（真实分数）它能够大幅超越其他算法。这一点在智能体游戏的时候也能够看出来：参数法会趋向于收集小的奖励，而NEC会积极地尝试如何让对手易受伤害并攻击他们获得大的奖励。

神经情景控制（Neural Episodic Control）On arXiv By DeepMind_第7张图片

在Pong和Boxing这两个原本奖励就在

[−1,1] 范围内的游戏中，NEC的表现也是优于其他算法的。正如预期，尽管普遍具有较高的数据效率，但在获得最高得分方面NEC并没能够超越其他算法。

神经情景控制（Neural Episodic Control）On arXiv By DeepMind_第8张图片

图10给出了在57个1000万帧的Atari游戏中，人类与优先回放（Prioritised-Replay）和MFEC相比的归一化得分表。对于每个算法，我们将所有游戏进行了独立排名，表中y轴以十分位进行划分。
我们可以看到，NEC在1000万帧情况下有25%的游戏能够达到人类水平。而且NEC的表现超越了MFEC和Prioritised-Replay。

5 相关研究

近几年，许多学者在神经网络的记忆结构(LSTM;Hochreiter & Schmidhuber, 1997)，DNC(Graves etal., 2016)，记忆网络(Sukhbaatar etal., 2015; Miller et al., 2016)等方面做了大量研究。按时间进行的后向传播截断法训练的记忆复现神经网络(LSTMs andDNCs)与非复现神经网络同样受到学习速度的限制。其中一些模型已经被应用于强化学习智能体(LSTMs; Bakkeret al., 2003; Hausknecht & Stone,2015), DNCs (Graves et al., 2016), 存储网络 (Ohet al.,2016)。然而这些记忆方式在面对新的应用场景时，都需要重新进行设置。在部分可观或非马尔可夫环境中，当记忆的目的是根据对先前观察进行寻迹以获得最大收益时，这样做是合适的。因此，这些应用可以认为是一种工作记忆。
RNNs能够在记忆中快速描绘出高奖励状态，并且能够学习整个强化学习算法(Wang et al.,2016; Duan et al., 2016)。然而，这项工作需要花费的周期很长，学习时间与问题复杂度相当。
对于Oh et al.(2016)的工作，其想法简述于此。他们在 Q 网络的顶层引入一个记忆适应网，即(FR)MQN。
Kaiser et al.(2016)给出了一种可以加入到神经网络中的键-值对微分层。该层使用余弦相似度来计算k个最近似的记忆的价值的加权平均和。其使用的动态平均更新规则让人想起在第3部分介绍的那个方法。作者给出的结果都是一些基于有监督任务的，他们并没有去考虑在强化学习中的应用问题。其他强化学习算法也都是基于以往的历史经验。事实上，DQN本身就有一个基本的记忆形式：从回放缓冲器到稳定训练可以看作是一个记忆过程。因为这个过程通过不断重复来精炼DQN价值网中的内容。Kumaran et al.(2016)指出，利用DQN重演缓冲器的经验进行训练与动物在睡眠过程中对情景记忆的经验重演的过程是相似的。与其他大多数在深度强化学习记忆方面的研究相比，DQN重演缓冲器的不同指出在于其庞大的规模：保存上百万 (s,a,r,s′) 数组，对DQN来说是很平常的事情。在Q函数近似中用到的局部递归技术是前人提出的：基于与已有记忆的距离，Santamar´ıa et al. (1997)提出使用带启发的K最近邻递归方式来增加记忆。Munos &Moore (1998)提出了重心内插器对价值函数进行建模，并证明了在温和条件下其收敛于最优值函数，但没有给出实证结果。在基于案例推理的范式下（包括启发式存储案例删除），Gabel &Riedmiller (2005) 也建议使用局部回归。Blundell etal.(2016, MFEC)使用k-最近邻的方法进行Q函数估计的局部回归，除了一个需要精确匹配的查询点外，这种方式能够返回其他情形存储的值。他们还提出将从变分自动编码器（Rezende et al.，2014）获得的潜在变量作为嵌入空间，但结果显示随机投射经常获得更好的结果。与此想法相反，上述局部回归的研究都没有通过对奖励信号的学习来得到一个进行局部回归的协变量嵌入空间。我们使用时差学习来得到这个嵌入空间；这是一个关键的区别，正如我们在与MFEC的实验比较中所显示的。

6 讨论

我们提出了神经情景控制（NEC）：一种深度强化学习智能体，对于Atari的2600个游戏中的绝大部分游戏，其学习速度显著快于其他基线智能体。NEC的核心是其存储结构：每个潜在行为对应一个可微神经词典（DND）。NEC将最近的状态表示与相应的价值函数插入到合适的DND中。
实验表明，之前提出的智能体（如Prioritised-Replay (Schaul et al., 2015b) 和 Retrace(λ) (Munos et al., 2016)）相比，在数据效率方面NEC与环境的交互次数要少一个数量级。我们推测NEC通过融合一下三个智能体特征来实现快速学习：存储架构（DND），使用 N 阶 Q 估计以及卷积神经网络给出的状态表达。
存储架构DND能够快速整合当前经验—状态表达和相应的价值估计—使得这些信息能够被快速应用于之后的行为。这种存储会跨过许多情景，于是我们使用一个快速估计最近邻算法（kd−tree）来保证记忆的有效获取。使用 N 阶 Q 值函数在蒙特卡洛估计值和支持非在策估计之间进行插值的方法对 Q 值进行估计。蒙特卡洛估计值反映的是智能体实际获得的奖励，而支持非在策估计的应该更好地代表最优策略的价值，但其变化要慢得多。这两个估计方法的使用，使得NEC可以在两个估计方法之间进行权衡，也可以在他们的优缺点（奖励传播速度 vs 最优性）之间进行权衡。最终，经过一个缓慢变化过程，卷积神经网络输出稳定表达，存储在DND中的键保持相对稳定。
研究表明非参数方法对于深度加强学习工具箱来说是非常有前景的，尤其是在数据效率至关重要的地方。在实验中，我们发现在学习开始的时候，NEC在学习速度方面优于其他智能体；之后Prioritised-Replay在学习方面的表现比NEC要好。进一步改善NEC，使其长期结果显著优于参数智能体这项任务，将纳入到未来的工作中。另一个研究方向则是将本文所述方法应用到更加广泛的任务中去，例如视觉上更复杂的3D世界或真实世界的任务，由于获取数据的成本较高其数据效率非常重要。
声明
本文作者对Daniel Zoran,Dharshan Kumaran, Jane Wang, Dan Belov, Ruiqi Guo, Yori Zwols, Jack Rae,Andreas Kirsch, Peter Dayan, David Silver以及在DeepMind给出有见地的讨论和反馈的朋友表示衷心的感谢。同时感谢Georg Ostrovski,Tom Schaul和 Hubert Soyer提供的基线学习曲线。
参考文献 见原文。

数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen