深度增强学习DRL 第9页

基于Python对数据shape的常见操作详解

这一阵在用python做DRL建模的时候，尤其是在配合使用tensorflow的时候，加上tensorflow是先搭框架再跑数据，所以调试起来很不方便，经常遇到输入数据或者中间数据shape的类型不统一

敲代码的quant·2018-12-25 15:50

关于Alphago的一些感想

欢迎大家关注微信公众号：DRL学习，一起学习强化学习，了解人工智能。

Fiona_Y·2018-12-20 14:19

深度强化学习(DRL)

DRL形成背景深度强化学习（DeepReinforcementLearning）顾名思义，是深度学习与强化学习的结合，因此深度强化学习弥补了DL和RL的不足之处。

coder_Gray·2018-11-29 17:50

深度强化学习(DRL)

DRL形成背景深度强化学习（DeepReinforcementLearning）顾名思义，是深度学习与强化学习的结合，因此深度强化学习弥补了DL和RL的不足之处。

coder_Gray·2018-11-29 17:50

深度增强学习DDPG（Deep Deterministic Policy Gradient）算法源码走读

原文链接：https://blog.csdn.net/jinzhuojun/article/details/82556127本文是基于OpenAI推出deepreinforcementlearning算法集baselines。之前写过该项目的环境setup介绍《常用增强学习实验环境I(MuJoCo,OpenAIGym,rllab,DeepMindLab,TORCS,PySC2)》以及其中的另一重要

ariesjzj·2018-09-15 11:16

深度强化学习（文献篇）—— 从 DQN、DDPG、NAF 到 A3C

DRL的核心思想是，用神经网络来表征值函数或者参数化policy，从而使用梯度优化方法来优化损失。本篇介绍近年来DRL方向的一些经典算法，并将持续

TangowL·2018-09-02 18:55

CVPR18读文笔记：SINT++：Robust Visual Tracking via Adversarial Postive Instance Generation

本文国产，索然性能不是最优，但是VAE+DRL+SINT的集大成之作，还是足够significant。

Trasper1·2018-08-08 18:48

activiti 流程部署的各种方式

一、流程资源流程定义文件：扩展名为bpmn20.xml和bpmn;流程定义的图片：用BPMN2.0规范的各种图形描绘，一般用PNG的格式；表单文件：把表单内容保存在一个文件中，其扩展名为drl;规则文件

gmHappy·2018-07-30 15:19

大话CNN经典模型：LeNet

CNN发展至今，已经有很多变种，其中有几个经典模型在CNN发展历程中有着里程碑的意义，它们分别是：LeNet、Alexnet、Googlenet、VGG、DRL等，接下来将分期进行逐一介绍。

Tiger-Li·2018-07-25 11:10

人工智能-强化学习|无地图探索

强化学习（RL）近年来成为解决这一难题的突破口，而这个实验则使用了深度强化学习（DRL）技术，这种技术比普通强化学习要更加智能。通过实验，研究人员发现DRL中的内在动机因素是解决难题的关键。

阿南君·2018-07-13 12:19

Drools 规则引擎动态读取规则（三）

动态读取非常简单，不需要kmodule配置文件，也不需要drl文件，只需要把drl文件的内容，保存到比如数据库中，然后使用以下代码即可KieSe

justhson·2018-07-09 11:33

深度增强学习PPO（Proximal Policy Optimization）算法源码走读

blog.csdn.net/jinzhuojun/article/details/80417179OpenAI出品的baselines项目提供了一系列deepreinforcementlearning（DRL

ariesjzj·2018-05-27 19:58

深度增强学习PPO（Proximal Policy Optimization）算法源码走读

blog.csdn.net/jinzhuojun/article/details/80417179OpenAI出品的baselines项目提供了一系列deepreinforcementlearning（DRL

ariesjzj·2018-05-27 19:58

Q_learning 强化学习C语言版本

后来稍微了解了一下，发现其实是完全不同的概念，当然它们并非互斥，反而可以组合，于是又有了“深度增强学习”(DeepReinforcementLearning)。

小然_ran·2018-05-18 19:48

深度强化学习系列之(2): DQN原理与Tensorflow实现

上一篇文章《DRL&ADS系列之(1):强化学习概述》已经讲解了利用神经网络近似值函数的方法，即：KaTeXparseerror:Nosuchenvironment:equationatposition8

J.Q.Wang的blog·2018-03-30 20:19

【战报】TGA王者荣耀3月第二周：RXG让一追二，WE强势碾压夺魁

参赛战队B组：GOE、VTG、MG、GT、JCR、MYM、RXG、DNRC组：WE、DRL、RF、PA、DP、UP、DC、YQ比赛结果B组冠军：RXGC组冠军：WE赛事战况B组决赛第一局蓝方GOE选择英

腾讯游戏竞技平台·2018-03-14 00:00

深度强化学习简要概述(A brief Survey of deep reinforcement learning)

MarcPeterDeisenroth,MilesBrundage,AnilAnthonyBharathpaper地址:AbriefSurveyofdeepreinforcementlearning摘要深度强化学习（DRL

yunfanDL·2018-03-09 23:42

这里有一篇深度强化学习劝退文

今天在学校又双叒叕提到了DeepReinforcementLearningThatMatters这篇打响DRL（DeepReinforcementLearning,深度强化学习）劝退第一枪的文章后，回来以后久违刷了一下推特

人工智能爱好者俱乐部·2018-02-26 00:00

DeepMind推出分布式深度强化学习架构IMPALA，让一个Agent学会多种技能

维金编译自DeepMindBlog量子位出品|公众号QbitAI目前，深度增强学习（DeepRL）技术在多种任务中都大获成功，无论是机器人的持续控制问题，还是掌握围棋和雅达利的电子游戏。

人工智能学家·2018-02-08 00:00

DRL之DQN Deep Q Network 学习总结

本次总结从最底下的RefLinks的material中得来，如果对于某些细节不清楚可以看看链接中的内容。我在看10-703的视频的时候，我觉得Russ讲课还是很不错的，很多东西讲得言简意赅，短短几句就把DQN的核心讲得清楚。RL中核心的三个东西：policy，model和valuefunction。policy就是根据当前的state进行对应的action，当然可以是deterministic（确

Snail_Walker·2018-01-11 09:18

几种常见DRL(深度强化学习)方法总结与对比之前提基本概念

从今年的九月份到现在，接触机器学习、深度学习再到现在的深度强化学习已经有三个月的时间了。从javaweb开发到人工智能的领域转变的过程中，学到了很多很杂的东西，感觉这才是我以后要研究的东西。然而，在这个转变的过程中，老是急于求成，虽然代码写过很多，论文看了不少，但是总是觉得基础不够牢固，所以想写下博客来沉淀一下。前提概念1、离散动作和连续动作根据动作的不同类型选择和构造的模型影响很大，之前在研究各

敲代码的quant·2017-12-16 20:42

深度强化学习——DQN

一、DRL原因：在普通的Q-learning中，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。

SGQ1991·2017-12-11 19:05

Python对数据shape的常见操作总结

这一阵在用python做DRL建模的时候，尤其是在配合使用tensorflow的时候，加上tensorflow是先搭框架再跑数据，所以调试起来很不方便，经常遇到输入数据或者中间数据shape的类型不统一

敲代码的quant·2017-12-08 16:47

强化学习入门之Q-Learning1

后来稍微了解了一下，发现其实是完全不同的概念，当然它们并非互斥，反而可以组合，于是又有了“深度增强学习”(DeepReinforcementLearning)。这让人不由得感慨起名的

duanyajun987·2017-11-23 14:06

利用深度强化学习框架解决金融投资组合管理问题（附 GitHub 实现）

这篇文章关于如何利用深度强化学习进行投资组合管理，提出的DRL框架性能大大优于其他算法。机器之心对论文摘要进行了简要翻译，附GitHub实现。

机器之心V·2017-11-22 06:22

Drools Decision Tables 使用指南

droos根据相应的语法和格式要求，会将其装换成相应的drl文件形式的代码。

圈圈_Master·2017-10-19 17:48

深度增强学习（DRL）漫谈 - 信赖域（Trust Region）系方法

它们的结合领域-深度增强学习（Deepreinforcementlearning,DRL）随着在一系列极具挑战的控制实验场景及其它跨领域的成功应用，现在已是各大顶级AI会议的热门topic之一。

ariesjzj·2017-09-16 23:31

深度增强学习（DRL）漫谈 - 信赖域（Trust Region）系方法

它们的结合领域-深度增强学习（Deepreinforcementlearning,DRL）随着在一系列极具挑战的控制实验场景及其它跨领域的成功应用，现在已是各大顶级AI会议的热门topic之一。

ariesjzj·2017-09-16 23:31

David Silver强化学习公开课之二马尔科夫决策过程

参考文献：深度增强学习DavidSilver（二）——马尔科夫决策过程MDP【DavidSilver强化学习公开课之二】马尔可夫决策过程MDPreinforcementlearning，增强学习：MarkovDecisionProcessesDQN

yeqiang19910412·2017-09-14 20:28

Drools 规则引擎----向领域驱动进步（五）

到目前为止，我们已经介绍了一种定义规则和知识的方法:DRL语言。这种语言即使在大多数情况下是不合适的，对于没有技术背景的用户来说也是不合适的。即使这样，DRL也需要

Anokata·2017-08-15 18:02

无监督对话数据清洗利器：Data Purification Framework

转载请注明出处：乐投网-无监督对话数据清洗利器：DataPurificationFramework现在一提到聊天机器人，大家就会想起各种算法模型，端到端、生成式、深度增强学习。

乐投网·2017-08-08 15:05

无监督对话数据清洗利器：Data Purification Framework

作者/吴金龙现在一提到聊天机器人，大家就会想起各种算法模型，端到端、生成式、深度增强学习。有一种给我足够多足够好的数据，我就能用算法突破图灵测试的风范。可恨的是，就是没够多够好的数据。

csdn_csdn__AI·2017-08-08 11:12

关于DRL

DRL:deepreinforcementlearningDRL=DL(deeplearning)+RL(reinforcementlearning)大多数情况下，reward既不为正，也不为负，为0，

编码视界·2017-08-06 17:56

QPBOC与PayWave的异同别

2、预处理增加量DRL（ReaderRiskParameters是可以配置的（可选项），状态检查，金额是否为0，非接交易限额，CVM交易限额）q

Keynes_Chen·2017-08-03 17:53

drools入门(二)-----规则引擎Drools解决汽水问题

SoftDrink.drl#createdon:2011-10-18packagecom.

cactusz·2017-07-06 16:26

深度强化学习——A3C

AsynchronousAdvantageActor-Critic，A3C）是Mnih等人根据异步强化学习（AsynchronousReinforcementLearning，ARL）的思想，提出的一种轻量级的DRL

草帽B-O-Y·2017-06-13 20:33

深度强化学习——DQN

联系方式：[email protected]（DeepQ-Learning）可谓是深度强化学习（DeepReinforcementLearning，DRL）的开山之作，是将深度学习与强化学习结合起来从而实现从感知

草帽B-O-Y·2017-06-05 21:24

<纯干货-5>Deep Reinforcement Learning深度强化学习_论文大集合

本文罗列了最近放出来的关于深度强化学习（DeepReinforcementLearning，DRL）的一些论文。文章采用人工定义的方式来进行组织，按照时间的先后进行排序，越新的论文，排在越前面。

lqfarmer·2017-06-05 16:00

深度增强学习（DRL）漫谈 - 从AC（Actor-Critic）到A3C（Asynchronous Advantage Actor-Critic）

原文地址：http://blog.csdn.net/jinzhuojun/article/details/72851548前言之前在文章《深度增强学习（DRL）漫谈-从DQN到AlphaGo》扯了一些关于

ariesjzj·2017-06-04 22:16

深度增强学习（DRL）漫谈 - 从AC（Actor-Critic）到A3C（Asynchronous Advantage Actor-Critic）

前言之前在文章《深度增强学习（DRL）漫谈-从DQN到AlphaGo》扯了一些关于DRL的内容，但因为是以DQN为主线，其中大部分谈的是value-based方法。

ariesjzj·2017-06-04 22:16

加州伯克利大学2017年最新深度强化学习视频课程_part1

分享一套关于深度强化学习（DeepReinforcementLearning，DRL）一套视频课程，这套课程是加州伯克利大学从2017年初，陆续放出的一套关于DeepReinforcementLearning

lqfarmer·2017-05-26 13:17

<纯干货-4> 加州伯克利大学2017年最新深度强化学习视频课程_part1

分享一套关于深度强化学习（DeepReinforcementLearning，DRL）一套视频课程，这套课程是加州伯克利大学从2017年初，陆续放出的一套关于DeepReinforcementLearning

lqfarmer·2017-05-26 13:00

深度增强学习David Silver（七）——Policy Gradient

本文主要内容：FiniteDifferencePolicyGradientMonte-CarloPolicyGradient上节课我们使用参数估计了价值函数和行动-价值函数，而当讲到策略时，我们只提到ϵ\epsilonϵ-greedy。在这节课，我们将会直接参数化策略πθ(s,a)=P(a∣s,θ)\pi_\theta(s,a)=\sf{P}(a|s,\theta)πθ(s,a)=P(a∣s,θ)

cs123951·2017-05-24 19:07

深度增强学习David Silver（四）——Model-Free Prediction

本节课主要介绍：Monte-CarloLearningTemporal-DifferenceLearningTD(λ)Lecture03讲到了已知环境的MDP，也就是做出行动之后知道到达哪个状态及奖励，但是现实中大部分情况下状态和奖励是未知的，这种情况称为model-free，即环境模型未知。本节课探讨prediction，估计未知环境的MDP的价值函数，下节课讲control。Monte-Car

cs123951·2017-05-15 12:54

基于强化学习的文本生成技术

2013年以来Deepmind团队相继在NIPS和Natures上发表了用深度增强（强化）学习玩Atari游戏，并取得良好的效果，随后Alphago与李世乭的一战更使得深度增强学习家喻户晓。

算法学习者·2017-04-25 01:49

DQN 从入门到放弃1 DQN与增强学习

1前言深度增强学习DeepReinforcementLearning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习End-to-EndLearning的一种全新的算法

算法学习者·2017-04-19 16:39

深度增强学习之Policy Gradient方法1

1前言在之前的深度增强学习系列文章中，我们已经详细分析了DQN算法，一种基于价值Value的算法，那么在今天，我们和大家一起分析深度增强学习中的另一种算法，也就是基于策略梯度PolicyGradient

算法学习者·2017-04-19 16:18

深度增强学习之Policy Gradient方法1

1前言在之前的深度增强学习系列文章中，我们已经详细分析了DQN算法，一种基于价值Value的算法，那么在今天，我们和大家一起分析深度增强学习中的另一种算法，也就是基于策略梯度PolicyGradient

算法学习者·2017-04-19 16:18

drools动态更新

xianlc·2017-04-07 17:00

drools6 KSession 为空的可能解决方法

以前的没研究过在kmodule.xml文件里,kbase的packages对应的是src/main/resources下的文件夹名称，而不是对应的规则文件drl下第一行package的值。

u014514528·2017-03-01 11:00

推荐频道

深度增强学习DRL

基于Python对数据shape的常见操作详解

关于Alphago的一些感想

深度强化学习(DRL)

深度强化学习(DRL)

深度增强学习DDPG（Deep Deterministic Policy Gradient）算法源码走读

深度强化学习（文献篇）—— 从 DQN、DDPG、NAF 到 A3C

CVPR18读文笔记：SINT++：Robust Visual Tracking via Adversarial Postive Instance Generation

activiti 流程部署的各种方式

大话CNN经典模型：LeNet

人工智能-强化学习|无地图探索

Drools 规则引擎 动态读取规则（三）

深度增强学习PPO（Proximal Policy Optimization）算法源码走读

深度增强学习PPO（Proximal Policy Optimization）算法源码走读

Q_learning 强化学习C语言版本

深度强化学习系列之(2): DQN原理与Tensorflow实现

【战报】TGA王者荣耀3月第二周：RXG让一追二，WE强势碾压夺魁

深度强化学习简要概述(A brief Survey of deep reinforcement learning)

这里有一篇深度强化学习劝退文

DeepMind推出分布式深度强化学习架构IMPALA，让一个Agent学会多种技能

DRL之DQN Deep Q Network 学习总结

几种常见DRL(深度强化学习)方法总结与对比之前提基本概念

深度强化学习——DQN

Python对数据shape的常见操作总结

强化学习入门之Q-Learning1

利用深度强化学习框架解决金融投资组合管理问题（附 GitHub 实现）

Drools Decision Tables 使用指南

深度增强学习（DRL）漫谈 - 信赖域（Trust Region）系方法

深度增强学习（DRL）漫谈 - 信赖域（Trust Region）系方法

David Silver强化学习公开课之二 马尔科夫决策过程

Drools 规则引擎----向领域驱动进步（五）

无监督对话数据清洗利器：Data Purification Framework

无监督对话数据清洗利器：Data Purification Framework

关于DRL

QPBOC与PayWave的异同别

drools入门(二)-----规则引擎Drools解决汽水问题

深度强化学习——A3C

深度强化学习——DQN

<纯干货-5>Deep Reinforcement Learning深度强化学习_论文大集合

深度增强学习（DRL）漫谈 - 从AC（Actor-Critic）到A3C（Asynchronous Advantage Actor-Critic）

深度增强学习（DRL）漫谈 - 从AC（Actor-Critic）到A3C（Asynchronous Advantage Actor-Critic）

加州伯克利大学2017年最新深度强化学习视频课程_part1

<纯干货-4> 加州伯克利大学2017年最新深度强化学习视频课程_part1

深度增强学习David Silver（七）——Policy Gradient

深度增强学习David Silver（四）——Model-Free Prediction

基于强化学习的文本生成技术

DQN 从入门到放弃1 DQN与增强学习

深度增强学习之Policy Gradient方法1

深度增强学习之Policy Gradient方法1

drools动态更新

drools6 KSession 为空的可能解决方法

Drools 规则引擎动态读取规则（三）

David Silver强化学习公开课之二马尔科夫决策过程