九三智能控v

【干货】AI顶会NeurlPS-2019强化学习方向论文速递（附链接）：Github持续更新中...

点击上方蓝色字体，关注：决策智能与机器学习，每天学点AI干货

前言

AI自媒体深度强化学习实验室对NeurIPS（前称NIPS）2019年深度强化学习方向的论文做了较为全面的整理和解读，并发布于Github中持续更新相关解读和下载链接。

Github及论文下载链接，请在公众号回复：20190915

概览：NIPS2019会议—深度强化学习方向论文

NeurIPS（前称NIPS）可谓人工智能年度最大盛会。每年圣诞前夕，全球的人工智能爱好者和科学家都会在这里聚集，发布最新研究，并进行热烈探讨。这不仅是一次大的party，也是一次重要的技术发展指向，大会的技术往往这未来几年就会演变成真正的研究甚至应用成果。今年的大会将在12月8日-14日在加拿大温哥华举行，据官方消息，NeurIPS今年共收到投稿6743篇，再次打破了历年来的接收记录。今年接收论文1429篇，其中，Oral论文36篇，占比0.5%；Spotlight论文接收量为164篇，占比2.4%。

今年NeurIPS接受的论文中，接收论文数量最多的机构还是Google，共179篇，其中Deepmind参与的有53篇，Google/Google Brain/Google Research有126篇，远远超出了其他家：Facebook上榜39篇，NVIDIA上榜9篇。高校方面：斯坦福上榜79篇，MIT上榜77篇，卡耐基梅隆上榜75篇。国内，高校方面清华参与的共有35篇，北大26篇，中科大7篇，西安交通大学5篇，还有大连理工也有2篇论文被收录。国内企业投稿也很多，腾讯上榜18篇，阿里巴巴上榜10篇，百度5篇，而最近准备赴港上市的旷视也上榜两篇。

而从论文题目来看

强化学习61篇，占比：4.2%
理论大约（21）篇强化学习技巧（3）篇框架大约（3）篇探索和利用（1）篇元强化学习（4）篇分层强化学习（2）篇+ 逆强化学习（2）篇多智能体（6）篇奖励函数（2）篇应用（6）篇其他（4）篇
GANs出现在了22篇论文中
meta-learning的则有8篇

第一部分：论文标题与分类

理论

Multi-View Reinforcement Learning
Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update
Information-Theoretic Confidence Bounds for Reinforcement Learning
Regret Minimization for Reinforcement Learning by Evaluating the Optimal Bias Function
Real-Time Reinforcement Learning
Convergent Policy Optimization for Safe Reinforcement Learning
Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning
Propagating Uncertainty in Reinforcement Learning via Wasserstein Barycenters
A Geometric Perspective on Optimal Representations for Reinforcement Learning
Finite-Time Performance Bounds and Adaptive Learning Rate Selection for Two Time-Scale Reinforcement Learning
Interval Timing in Deep Reinforcement Learning Agents
Non-Stationary Markov Decision Processes, a Worst-Case Approach using Model-Based Reinforcement Learning
Budgeted Reinforcement Learning in Continuous State Space
Marginalized Off-Policy Evaluation for Reinforcement Learning
Regularized Anderson Acceleration for Off-Policy Deep Reinforcement Learning
Tight Regret Bounds for Model-Based Reinforcement Learning with Greedy Policies
Regret Bounds for Learning State Representations in Reinforcement Learning
Reinforcement Learning with Convex Constraints
Correlation Priors for Reinforcement Learning
Policy Poisoning in Batch Reinforcement Learning and Control
Imitation-Projected Policy Gradient for Programmatic Reinforcement Learning

强化学习技巧

The Option Keyboard: Combining Skills in Reinforcement Learning
When to use parametric models in reinforcement learning?
Robust exploration in linear quadratic reinforcement learning

框架

A Regularized Approach to Sparse Optimal Policy in Reinforcement Learning
A Variational Inference Framework for Reinforcement Learning
Gossip-based Actor-Learner Architectures for Deep Reinforcement Learning

探索和利用

Explicit Planning for Efficient Exploration in Reinforcement Learning

元强化学习

A Meta-MDP Approach to Exploration for Lifelong Reinforcement Learning
SMILe: Scalable Meta Inverse Reinforcement Learning through Context-Conditional Policies
Unsupervised Curricula for Visual Meta-Reinforcement Learning
Meta-Inverse Reinforcement Learning with Probabilistic Context Variables

分层强化学习

Hierarchical Reinforcement Learning with Advantage-Based Auxiliary Rewards
Language as an Abstraction for Hierarchical Deep Reinforcement Learning(Google)

逆强化学习

Learner-aware Teaching: Inverse Reinforcement Learning with Preferences and Constraints
On the Correctness and Sample Complexity of Inverse Reinforcement Learning

多智能体

Regret Minimization for Reinforcement Learning on Multi-Objective Online Markov Decision Processes
Value Propagation for Decentralized Networked Deep Multi-agent Reinforcement Learning
Efficient Communication in Multi-Agent Reinforcement Learning via Variance Based Control
LIIR: Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning
A Structured Prediction Approach for Generalization in Cooperative Multi-Agent Reinforcement Learning
Multi-Agent Common Knowledge Reinforcement Learning

奖励函数

Distributional Reward Decomposition for Reinforcement Learning
Learning Reward Machines for Partially Observable Reinforcement Learning

应用

Staying up to Date with Online Content Changes Using Reinforcement Learning for Scheduling
Loaded DiCE: Trading off Bias and Variance in Any-Order Score Function Gradient Estimators for Reinforcement Learning
InteractiveRecGAN: a Model Based Reinforcement Learning Method with Adversarial Training for Online Recommendation
A Composable Specification Language for Reinforcement Learning Tasks
Near-Optimal Reinforcement Learning in Dynamic Treatment Regimes
Constraint Augmented Reinforcement Learning for Text-based Recommendation and Generation

其他

Generalization in Reinforcement Learning with Selective Noise Injection and Information Bottleneck
Using a Logarithmic Mapping to Enable Lower Discount Factors in Reinforcement Learning
Search on the Replay Buffer: Bridging Planning and Reinforcement Learning
A Family of Robust Stochastic Operators for Reinforcement Learning

第二部分：论文详细解读（部分）

理论方法

Multi-View Reinforcement Learning(UCL出的论文，很遗憾没找到paper)
Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update

该文章提出了一种具有直接值传播的新型深度强化学习算法Episodic Backward Update（EBU）。它的代理对整个事件进行采样并且连续地将状态的值传播到其先前的状态。通过计算效率高的递归算法允许稀疏和延迟奖励直接传播到采样情节的所有转换中。作者在理论上证明了EBU方法的收敛性，并在确定性和随机环境中实验证明了它的性能。特别是在Atari 2600域的49场比赛中，EBU分别仅使用5％和10％的样本，达到了相同的DQN均值和中值人归一化性能。

Information-Theoretic Confidence Bounds for Reinforcement Learning(强化学习的信息理论置信度)
Regret Minimization for Reinforcement Learning by Evaluating the Optimal Bias Function

该论文提出了一种基于面对不确定性（OFU）原理的算法，该算法能够有效地学习具有有限状态作用空间的马尔可夫决策过程（MDP）建模的强化学习（RL）,其通过评估最优偏差函数的状态对差异，在h*跨度的上限H的情况下，提出的算法实现了具有S状态和A动作的MDP的后悔界限，其边界如下。【这是清华大学出的一篇包含大量数学证明的论文】。

Real-Time Reinforcement Learning(实时强化学习)
Convergent Policy Optimization for Safe Reinforcement Learning
Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning

在非策略评估（OPE）中允许人们在不需要进行探索的情况下评估新颖的决策政策，这通常是昂贵的或不可行的。该问题的重要性吸引了许多提出的解决方案，包括重要性抽样（IS），自标准化IS（SNIS）和双重鲁棒（DR）估计。作者基于经验似然提出了新的OPE估计，这些估计总是比IS，SNIS和DR更有效，并且满足与SNIS相同的稳定性和有界性。通过它们对现有的估算器进行分类，除了理论上的保证外，实证研究表明新的估算器具有优势。

Propagating Uncertainty in Reinforcement Learning via Wasserstein Barycenters
A Geometric Perspective on Optimal Representations for Reinforcement Learning（★★★★，推荐看）

本文是一篇由DeepMind, GoogleBrain,牛津大学等共同发表的文章，作者基于价值函数空间的几何性质，提出了强化学习中表征学习的新视角。其利用这种观点提供关于价值函数作为辅助任务的有用性的正式证据。并表述考虑调整表示以最小化给定环境的所有固定策略的值函数的（线性）近似，这种优化减少了对一类特殊值函数的准确预测，他们将其称为对抗值函数（AVF）。结果证明使用值函数作为辅助任务对应于我公式的预期误差放宽，AVF是一个自然的候选者，并确定与原始值函数的密切关系（Mahadevan，2005）。其强调了AVF的特征及其在四室域系列实验中作为辅助任务的实用性。

Finite-Time Performance Bounds and Adaptive Learning Rate Selection for Two Time-Scale Reinforcement Learning

作者研究了两种时间尺度的线性随机近似算法，可用于模拟众所周知的强化学习算法，如GTD，GTD2和TDC。其给出了学习率固定的情况下的有限时间性能界限，并获得这些界限的关键思想是使用由奇异摄动理论驱动的线性微分方程的Lyapunov函数（Lyapunov function motivated by singular perturbation theory for linear differential equations）。并使用边界来设计自适应学习速率方案，该方案在实验中显着提高了已知最优多项式衰减规则的收敛速度，并且可用于潜在地改善学习速率在前期改变的任何其他时间表的性能。确定的时间瞬间。

Interval timing in deep reinforcement learning agents（DeepMind）

作者认为时间的测量是智能行为的核心。一般知道动物和人工代理都可以成功地使用时间依赖来选择动作。在人工智能体中，很少有工作直接解决（1）哪些架构组件是成功开发此能力所必需的，（2）如何在代理的单元和动作中表示这种时序能力，以及（3）是否系统的最终行为会集中在类似于生物学的解决方案上。在这里，我们研究了深度强化学习智能体的区间定时能力，这些代理能力是在间隔再生范式上进行端到端训练，这种范式受到关于时间机制的实验文献的启发。并描述了由经常性和前馈性代理人开发的策略，这些策略都使用不同的机制在时间再生上取得成功，其中一些机制与生物系统具有特定且有趣的相似性。这些发现推动了我们对代理人如何代表时间的理解，并突出了实验启发的方法来表征代理人能力的价值。

Non-Stationary Markov Decision Processes, a Worst-Case Approach using Model-Based Reinforcement Learning

这项工作解决了非平稳随机环境中强大的零射击规划问题。作者研究马尔可夫决策过程（MDP）随时间演变并在此设置中考虑基于模型的强化学习算法。提出两个假设：1）环境以有限的进化速率不断演变; 2）当前模型在每个决策时期都是已知的，但不是它的演化。我们的贡献可以分为四点。 1）定义了一类特定的MDP，称之为非固定MDP（NSMDP）。作者通过对过渡和奖励函数w.r.t做出Lipschitz-Continuity的假设来介绍常规进化的概念。时间; 2）考虑使用当前环境模型但未意识到其未来发展的计划代理。这导致我们考虑一种最坏情况的方法，其中环境被视为对抗剂; 3）遵循这种方法，最后作者提出风险反向树搜索（RATS）算法，一种类似于Minimax搜索的基于模型的零射击方法; 4）通过经验证明了RATS带来的好处，并将其性能与基于模型的参考算法进行了比较。

Budgeted Reinforcement Learning in Continuous State Space

预算马尔可夫决策过程（BMDP）是马尔可夫决策过程对需要安全约束的关键应用的扩展。它依赖于以成本信号的形式实施的风险概念，该成本信号被限制在低于-可调-阈值。到目前为止，BMDP只能在具有已知动态的有限状态空间的情况下求解。这项工作将最先进的技术扩展到连续的空间环境和未知的动态。作者证明了BMDP的解决方案是一个新的预算贝尔曼最优性算子的固定点。这一观察结果使我们能够引入Deep Reinforcement Learning算法的自然扩展来解决大规模BMDP问题，并在口语对话和自动驾驶两个模拟应用上验证了方法。

Marginalized Off-Policy Evaluation for Reinforcement Learning

非策略评估涉及使用不同行为政策获得的历史数据评估政策的绩效。在强化学习的现实应用中，策略政策可能成本高昂且危险，而策略外评估通常是关键步骤。目前，离线策略评估的现有方法主要基于离散树MDP的马尔可夫决策过程（MDP）模型，并且由于重要性权重的累积乘积而具有高方差。在本文中，作者直接基于离散有向无环图（DAG）MDP提出了一种新的非策略评估方法。方法可以应用于大多数非策略评估的估算，无需修改，可以显着减少差异。作者还对方法进行了理论分析，并通过实证结果对其进行了评估。

Regularized Anderson Acceleration for Off-Policy Deep Reinforcement Learning
Tight Regret Bounds for Model-Based Reinforcement Learning with Greedy Policies

最先进的基于模型的有效强化学习（RL）算法通常通过迭代求解经验模型来行动，即，通过对所收集的经验构建的马尔可夫决策过程（MDP）执行完全规划。在本文中，作者关注有限状态有限时间MDP设置中基于模型的RL，并建立用贪婪策略进行探索 - 通过one-step planning行动,可以实现紧密的极小极大表现为reget。因此，可以完全避免基于模型的RL中的完全规划而不会降低性能，并且通过这样做，计算复杂度降低了S因子。结果基于对实时动态编程的新颖分析，然后扩展到基于模型的RL。具体而言，作者概括了执行完整计划的现有算法，以便通过一步规划来实现。对于这些概括，最后以与其全规划对应方相同的速率证明了后悔。

Regret Bounds for Learning State Representations in Reinforcement Learning
Reinforcement Learning with Convex Constraints （普林斯顿、微软）

在标准强化学习（RL）中，学习智能体寻求优化整体奖励。然而，期望行为的许多关键方面更自然地表达为约束。例如，设计者可能想要限制不安全动作的使用，增加轨迹的多样性以实现探索，或者在奖励稀疏时近似专家轨迹。在本文中，作者提出了一种算法方案，可以处理RL任务中的一大类约束：具体而言，任何需要某些向量测量的期望值（例如使用动作）的约束都位于凸集中。这捕获了先前研究的约束（例如安全性和与专家的接近度），但也实现了新的约束类（例如多样性）。作者的方法具有严格的理论保证，并且仅依赖于近似解决标准RL任务的能力。因此，它可以很容易地适用于任何无模型或基于模型的RL。在实验中，结果表明它匹配以前通过约束强制实施安全性的算法，但也可以强制执行这些算法不包含的新属性，例如多样性。

Correlation Priors for Reinforcement Learning
Policy Poisoning in Batch Reinforcement Learning and Control
Imitation-Projected Policy Gradient for Programmatic Reinforcement Learning

作者提出了模仿预测策略梯度（IPPG），这是一种用于学习策略的算法框架，这些策略以结构化编程语言简洁地表示。与神经政策相比，此类计划政策可以更具解释性，可推广性，并且易于进行形式验证;然而，为计划政策设计严格的学习方法仍然是一项挑战。 IPPG，作者对这一挑战的回应，基于三个见解。首先，他将学习任务视为策略空间中的优化，模拟所需策略具有编程表示的约束，并使用“提升和项目”视角解决此优化问题，该视角采用渐变步骤进入无约束策略空间然后投射到受约束的空间。其次，将无约束的政策空间视为混合神经和程序化表示，这使得能够采用最先进的深度政策梯度方法。第三，通过模仿学习将投射步骤作为程序综合，并利用当代组合方法完成这项任务。最后提出了IPPG的理论收敛结果，以及三个连续控制域的经验评估。实验表明，IPPG可以明显优于现有技术。

强化学习优化技巧

The Option Keyboard: Combining Skills in Reinforcement Learning
When to use parametric models in reinforcement learning?（DeepMind, ★★★★）

作者研究了参数化模型何时以及如何在强化学习中最有用的问题。特别是，我们研究参数模型和体验重放之间的共性和差异。基于重放的学习算法与基于模型的方法共享重要特征，包括计划：使用更多计算而无需额外数据来改进预测和行为的能力。我们讨论何时期望从这两种方法中获益，并在此背景下解释先前的工作。我们假设，在适当的条件下，基于重放的算法应该比基于模型的算法具有竞争力或者更好，如果该模型仅用于从观察状态生成虚构的过渡，则更新规则是无模型的。我们在Atari 2600视频游戏中验证了这一假设。基于重放的算法获得了最先进的数据效率，与参数模型的先前结果相比有所改进。

Robust exploration in linear quadratic reinforcement learning

该论文讨论了学习未知线性动力系统控制策略的问题，以最小化二次成本函数。作者提出了一种基于凸优化的方法，它可以稳健地完成这项任务：即最小化最坏情况成本，考虑到观测数据给出的系统不确定性。该方法平衡了开发和探索，以这种方式激励系统，以减少最坏情况成本最敏感的模型参数的不确定性。硬件在环伺服机构的数值模拟和应用证明了这种方法，与两者中观察到的替代方法相比，具有可观的性能和鲁棒性。

框架

A Regularized Approach to Sparse Optimal Policy in Reinforcement Learning（北京大学）

我们提出并研究正则化马尔可夫决策过程（MDP）的一般框架，其目标是找到最大化预期贴现总奖励加上政策正规化期限的最优政策。现存的熵正则化MDP可以投射到我们的框架中。此外，在我们的框架下，许多正则化术语可以带来多模态和稀疏性，这在强化学习中可能是有用的。特别是，我们提出了足够和必要的条件，导致稀疏的最优政策。我们还对所提出的正则化MDP进行了全面的数学分析，包括最优性条件，性能误差和稀疏度控制。我们提供了一种通用的方法来设计正规化形式，并在复杂的环境设置中提出非策略行为者批评算法。我们实证分析了最优策略的数值性质，并比较了离散和连续环境中不同稀疏正则化形式的性能。

A Variational Inference Framework for Reinforcement Learning（牛津大学）

作者试图将概率模型应用于强化学习（RL）使得能够应用强大的优化工具，例如对RL的变分推理。然而，现有的推理框架及其算法对学习最优策略提出了重大挑战，例如，在伪似然方法中缺少模式捕获行为以及在基于最大熵RL的方法中学习确定性策略的困难。于是提出了VIREL，一种新的，理论上基于RL的概率推理框架，它利用参数化的动作-值函数来总结底层MDP的未来动态。这使得VIREL成为一种模式寻求形式的KL分歧，能够自然地从推理中学习确定性最优策略，以及在单独的迭代步骤中优化价值函数和策略的能力，在将变分期望最大化应用于VIREL时，结果表明，演员 -评论者算法可以减少到期望最大化，政策改进等同于E步骤和政策评估到M步骤。然后从VIREL推导出一系列演员评论方法，包括一个适应性探索方案。最后，作者证明了来自这个家族的演员评论算法在几个领域的表现优于基于软值函数的最新方法。

Gossip-based Actor-Learner Architectures for Deep Reinforcement Learning（FaceBook）

多模拟器培训通过稳定学习和提高培训吞吐量，为最近深度强化学习的成功做出了贡献。作者提出了基于Gossip的Actor-Learner Architectures（GALA），其中几个演员学习者（如A2C代理人）以对等通信拓扑结构组织，并通过异步八卦交换信息以利用大量分布式模拟器。并证明在使用松散耦合的异步通信时，GALA代理在训练期间保持在一个ε-球之间。通过减少代理之间的同步量，与A2C（其完全同步的对应物）相比，GALA在计算上更有效且可扩展。 GALA也优于A2C，更加强大，样品效率更高。最后作者展示了可以在单个GPU上并行运行几个松散耦合的GALA代理，并且在可比功耗方面实现了比朴素A2C更高的硬件利用率和帧速率。

探索与利用

Explicit Planning for Efficient Exploration in Reinforcement Learning

元强化学习

A Meta-MDP Approach to Exploration for Lifelong Reinforcement Learning

在该论文中，作者考虑一个强化学习代理如何解决一系列强化学习问题（一系列马尔可夫决策过程）可以使用在其生命早期获得的知识来提高其解决新问题的能力的问题。具体而言，他们关注的是智能体在面对新环境时应该如何探索的问题。尽管时间尺度不同，但寻找最优勘探策略本身可以作为强化学习问题。作者通过实验得出结论，这些实验显示了使用我们提出的方法优化勘探策略的好处。

SMILe: Scalable Meta Inverse Reinforcement Learning through Context-Conditional Policies
Unsupervised Curricula for Visual Meta-Reinforcement Learning（UCB，Google，★★★）

UCB对元学习的研究可以说是出于前沿，本文基于元学习是一种强大的工具，它建立在多任务学习的基础上，以学习如何快速地将模型适应新任务。在强化学习的背景下，元学习算法可以获得强化学习过程，通过元学习先验任务更有效地解决新问题。元学习算法的性能关键取决于可用于元训练的任务：与监督学习算法最佳地概括为从与训练点相同的分布中绘制的测试点一样，元学习方法最好地概括为来自与元训练任务相同的分布。实际上，元强化学习可以减轻从算法设计到任务设计的设计负担。如果我们也可以自动化任务设计过程，我们可以设计一个真正自动化的元学习算法。在这项工作中，作者朝这个方向迈出了一步，提出了一系列无监督的元学习算法，用于强化学习。描述了无监督元强化学习的一般方法，并基于最近提出的无监督探索技术和模型无关的元学习描述了该方法的有效实例化。还讨论了开发无监督元学习方法的实践和概念考虑。实验结果表明，无监督的元强化学习有效地获得了加速强化学习过程，而不需要手动任务设计，显着超过了从头学习的性能，甚至匹配使用手工指定任务分布的元学习方法的性能。

Meta-Inverse Reinforcement Learning with Probabilistic Context Variables

分层强化学习

Hierarchical Reinforcement Learning with Advantage-Based Auxiliary Rewards
Language as an Abstraction for Hierarchical Deep Reinforcement Learning(Google)

解决复杂的，时间延长的任务是强化学习（RL）中长期存在的问题。我们假设解决这些问题的一个关键因素是组合性概念。通过学习可以组成以解决更长任务的概念和子技能的能力，即分级RL，我们可以获得时间延长的行为。然而，获得有层次的RL的有效但一般的抽象是非常具有挑战性的。在本文中，我们建议使用语言作为抽象，因为它提供了独特的组合结构，实现了快速学习和组合泛化，同时保留了极大的灵活性，使其适用于各种问题。我们的方法学习了一个遵循指令的低级策略和一个高级策略，可以重复跨任务的抽象，实质上是允许代理使用结构化语言进行推理。为了研究组合任务学习，我们介绍了使用MuJoCo物理引擎和CLEVR引擎构建的开源对象交互环境。我们发现，使用我们的方法，代理可以学习解决各种时间扩展的任务，例如对象排序和多对象重新排列，包括原始像素观察。我们的分析发现，与使用相同监督的非组合抽象相比，语言的组成性质对于学习各种子技能和系统地推广到新的子技能至关重要。

逆强化学习

Learner-aware Teaching: Inverse Reinforcement Learning with Preferences and Constraints（微软）

反向强化学习（IRL）使智能体能够通过观察（近似）最优策略的演示来学习复杂行为。典型的假设是学习者的目标是匹配教师所展示的行为。在本文中，作者考虑了学习者有自己喜好的环境，并将其考虑在内。这些偏好可以例如捕获行为偏差，不匹配的世界观或物理约束。他们研究了两种教学方法：学习者不可知教学，教师通过忽略学习者偏好的最优政策提供示范，以及教师考虑学习者偏好的学习者意识教学。最后设计了学习者感知的教学算法，并表明与学习者无关的教学可以实现显着的性能提升。

On the Correctness and Sample Complexity of Inverse Reinforcement Learning

逆强化学习（IRL）是找到奖励函数的问题，该奖励函数为给定的马尔可夫决策过程生成给定的最优策略。该论文着眼于有限状态和动作的IRL问题的算法无关几何分析。然后提出了由几何分析驱动的IRL问题的L1正则化支持向量机公式，其中考虑了反向强化问题的基本目标：找到生成指定最优策略的奖励函数。同时进一步分析了具有n个状态和k个动作的逆强化学习的拟议公式，并且显示了用于恢复奖励函数的O（n2log（nk））的样本复杂度，该奖励函数生成满足贝尔曼关于真实性的最优性条件的策略转换概率。

多智能体

Regret Minimization for Reinforcement Learning on Multi-Objective Online Markov Decision Processes
Value Propagation for Decentralized Networked Deep Multi-agent Reinforcement Learning

该论文使用了softmax时间一致性和分散优化方法，获得了原理和数据有效的迭代算法。在每次迭代的第一步中，代理计算其本地策略和值渐变，然后仅更新策略参数。并且代理根据其值函数将消息传播给其邻居，然后更新其自己的值函数。同时使用非线性函数逼近证明了非渐近收敛速度的过程。

Efficient Communication in Multi-Agent Reinforcement Learning via Variance Based Control
LIIR: Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning
A Structured Prediction Approach for Generalization in Cooperative Multi-Agent Reinforcement Learning
Multi-Agent Common Knowledge Reinforcement Learning（牛津大学）

协作多智能体强化学习通常需要分散的政策，这严重限制了智能体协调行为的能力。在本文中，作者表明代理之间的常识允许复杂的分散协调。在大量分散的协作多智能体任务中自然产生了常识，例如，当智能体可以重建彼此观察的部分时。由于智能体可以独立地就他们的共同知识达成一致，他们可以执行复杂的协调政策，以完全分散的方式对这些知识进行调整。作者提出了多智能体常识知识强化学习（MACKRL），一种学习分层策略树的新型随机行为者 - 批评算法。层次结构中的较高级别通过调整其常识来协调代理组，或者通过较小的子组委托较低级别但可能具有更丰富的常识。整个策略树可以完全分散的方式执行。由于最低的策略树级别由每个代理的独立策略组成，因此MACKRL将独立学习的分散策略简化为特殊情况。作者证明了方法可以利用常见知识在复杂的分散协调任务中获得卓越的性能，包括随机矩阵游戏和星际争霸II单元微观管理中的挑战性问题。

Biases for Emergent Communication in Multi-agent Reinforcement Learning

奖励函数

Distributional Reward Decomposition for Reinforcement Learning
Learning Reward Machines for Partially Observable Reinforcement Learning

应用

Staying up to Date with Online Content Changes Using Reinforcement Learning for Scheduling

该论文阐述了一种关于Web页面的优化目标，并在每周大约18M URL数据的基础上进行试验。

Loaded DiCE: Trading off Bias and Variance in Any-Order Score Function Gradient Estimators for Reinforcement Learning
InteractiveRecGAN: a Model Based Reinforcement Learning Method with Adversarial Training for Online Recommendation
A Composable Specification Language for Reinforcement Learning Tasks
Near-Optimal Reinforcement Learning in Dynamic Treatment Regimes
Constraint Augmented Reinforcement Learning for Text-based Recommendation and Generation

其他

Generalization in Reinforcement Learning with Selective Noise Injection and Information Bottleneck
Using a Logarithmic Mapping to Enable Lower Discount Factors in Reinforcement Learning
Search on the Replay Buffer: Bridging Planning and Reinforcement Learning
A Family of Robust Stochastic Operators for Reinforcement Learning

Github地址：https://github.com/NeuronDance/DeepRL/blob/master/DRL%E9%A1%B6%E4%BC%9A%E8%AE%BA%E6%96%87%E8%B5%84%E6%96%99%E4%B8%8E%E8%A7%A3%E8%AF%BB/NIPS2019/NIPS2019.md

作者 | DeepRL

出处 | 深度强化学习实验室（ID：Deep-RL）

本文经深度强化学习实验室授权转载，转载请联系出处

交流合作

商务合作以及加入微信群，请添加微信号：yan_kylin_phenix

注意：请务必说明您的意向，注明姓名+单位+从业方向+地点，否则不予通过，请多谅解。

你可能感兴趣的:(【干货】AI顶会NeurlPS-2019强化学习方向论文速递（附链接）：Github持续更新中...)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h