DRL 第4页

深度强化学习落地方法论（7）——训练篇

目录训练开始前环境可视化数据预处理训练进行中拥抱不确定性DRL通用超参数折扣因子作用原理选取方法FrameSkipping网络结构网络类型网络深度DRL特色超参数DQNDDPGPPO给DRL初学者的建议训练收敛后总结为了保证

wyjjyn·2022-12-06 07:02

【无标题】

针对上述任务卸载决策问题，提出了基于深度强化学习（DRL）和长短时记忆（LSTM）网络的在线预测卸载（O

动物园警铃大作-·2022-12-05 23:53

【论文解析】Fast Adaptive Task Offloading in Edge Computing Based on Meta Reinforcement Learning

最近，许多基于深度强化学习(DRL)的方法被提出，通过与由UE、无线信道和MEC主机组成的MEC环境交互来学习卸载策略。但是这些方法

橙子渣渣·2022-12-05 23:52

基于DRL实现通信资源调度和能源消耗

轨迹优化基于DRL实现通信资源调度和能源消耗论文背景问题建模算法实现论文背景问题建模算法实现论文已投，发表后更新

是一个Bug·2022-12-05 23:18

如何在AI工程实践中选择合适的算法？

在使用深度强化学习（DeepReinforcementLearning，DRL）算法解决实际问题的过程中，明确任务需求并初步完成问题定义后，就可以为相关任务选择合适的DRL算法了。

博文视点·2022-12-05 23:47

复现论文DRL代码程序

复现论文第一步（以DRL为例），download代码andthen创建环境。

jodieone·2022-12-05 10:32

深度强化学习的组合优化[1] 综述阅读笔记

定义（1）定义（2）常见问题2.方法（1）精确方法（2）近似方法（3）深度学习方法3.文章架构一、概述1.神经网络（1）Hopfield网络（2）指针网络Ptr-Net（3）图神经网络3.深度强化学习DRL

好奇小圈·2022-12-04 07:54

图神经网络深度强化学习的挑战与机遇:算法与应用综述

DRL和GNN总结。

小蜗子·2022-12-03 01:59

深度强化学习入门

作者：清凇（就职于阿里巴巴，搜索排序、自然语言处理）https://www.zhihu.com/people/huaqingsong过去的一段时间在深度强化学习领域投入了不少精力，工作中也在应用DRL解决业务问题

人工智能与算法学习·2022-12-02 13:39

综述向：强化学习方法梳理（持续更新）

本文会先分享《深度强化学习综述》中提到的深度强化学习（DRL）模型，后续将分享PPO,DecisionTransformer等新方法。《深度强化学习综述》论文将深度强化学习（DRL

洛基Nickey·2022-12-01 19:56

DRL基础（四）——编程：python与numpy基础

【摘要】人生苦短，我用Python！现代深度强化学习，包括多智能体强化学习，研究者大多使用Python进行试验验证。主要的原因就是Python语言较为贴近自然语言，入门容易，具有各种方便好用的功能包。研究者可以快速开发出各种应用环境验证强化学习算法，实现研究论证与论文发表。本文包含以下内容：Python语言介绍、数据类型、语法、数据结构，类。Numpy的使用：基于Python的数学运算包，是Ten

二向箔不会思考·2022-11-30 13:13

深度强化学习（DRL）学习笔记（1 - 4章）

文章目录前言常用符号摘自课本概念、参数出处或者定义（方便理解和查阅）第一章概率论基础与蒙特卡洛概率论基础（具体自己补）蒙特卡洛第二章深度学习基础线性模型线性回归逻辑斯蒂回归Softmax分类器神经网络全连接神经网络（多层感知层）卷积神经网络（CNN）反向传播和梯度下降梯度下降反向传播第三章马尔可夫决策过程（MDP）基本概念（一定要牢记

流荧静水·2022-11-30 10:03

Gym学习（1）基本的环境搭建与参数含义

因为gym中封装了很多强化学习的环境，我们在入门或者研究DRL时可以轻视调用gym中写好的环境，帮助我们快速完成任务。OpenAIGym是一个环境仿真库，里面包含了很多现有的环境。

小帅吖·2022-11-30 02:56

人工智能-强化学习-算法：DQN（Deep Q-Learning Network）【Deep Learning Network + Q-Learning 】

DQN（DeepQ-LearningNetwork）可谓是深度强化学习（DeepReinforcementLearning，DRL）的开山之作，是将深度学习与强化学习结合起来从而实现从感知（Perception

u013250861·2022-11-27 18:26

强人工智能（Artificial General Intelligence，通用人工智能）论文和资料总结分享目录

小怪兽会微笑·2022-11-25 08:34

Wei Yang Bryan Lim, etc. Federated Learning in Mobile Edge Networks: A Comprehensive Survey.

联邦学习(FL)、ML、MECBAA(宽带模拟聚合)、CNN(卷积神经网络)、CV(计算机视觉)、DDQN(双深度Q网络)、DL(深度学习)DNN(深度神经网络)、DP(差分隐私)、DQL(深度Q学习)、DRL

彭于晏程序分晏·2022-11-24 00:56

Ubuntu18.04搭建深度强化学习环境(Mujoco200 , gym)

自己记录一下DRL的环境搭建,花了一下午,不过还是基本搭建完成了.博主使用的是Ubuntu18.04+Anaconda3+cuda10.1+python3.7+tensorflow2.11.配置Mujoco-py

零壹博弈·2022-11-23 12:57

深度强化学习满足图神经网络:探索路由优化用例

摘要近年来，深度强化学习(DRL)在决策问题上取得了巨大的进步。因此，在自动驾驶软件定义网络中，DRL似乎有望解决许多相关的网络优化问题(如路由)。

小蜗子·2022-11-23 12:55

解读72篇DeepMind深度强化学习论文

来源：王小惟的知乎https://zhuanlan.zhihu.com/p/70127847编辑：DeepRL论文下载方法：pdf合集下载见文章末尾DRL领域交流与讨论加微信：NeuronDance关于

悄悄的努力·2022-11-23 11:24

dqn系列梳理_系列论文阅读——DQN及其改进

DQN作为DRL的开山之作，DeepMind的DQN可以说是每一个入坑深度增强学习的同学必了解的第一个算法了吧。

weixin_39908985·2022-11-23 05:36

【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/编辑：DeepRL一、关于FinRL目前，深度强化学习（DRL

深度强化学习实验室·2022-11-21 22:14

DRL经典文献阅读（二）：确定性策略梯度（DPG+DDPG）【附代码】

原文题目：(一)DeterministicPolicyGradientAlgorithms(二)Continuouscontrolwithdeepreinforcementlearning作者：DavidSilver、GuyLever、NicolasHeess、ThomasDegris、DaanWierstra、MartinRiedmiller发表时间和期刊（或会议）：2014,ICML文章下载：

二向箔不会思考·2022-11-21 21:52

《强化学习周刊》第38期：DreamingV2、Shadow-price DRL、离线强化学习

No.38智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第38期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等，以飨诸位。周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。

智源社区·2022-11-21 17:29

《强化学习周刊》第55期：LB-SGD、MSP-DRL&对抗鲁棒强化学习

No.55智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息，《强化学习周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：方式1：扫描下面二维码，进入《强化学习周刊》主页，选择“关注TA”。方式2：点击本文下方的“阅读原文”，进入《强化学习周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。关于周刊强化学习作为人工智能领域研究热点之一，其研究

智源社区·2022-11-21 17:29

论文笔记（十六）：Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning

LearningtoWalkinMinutesUsingMassivelyParallelDeepReinforcementLearning文章概括摘要1介绍2大规模并行强化学习2.1仿真吞吐量2.2DRL

墨绿色的摆渡人·2022-11-21 13:16

深度增强学习（DRL）漫谈 - 信赖域（Trust Region）系方法

它们的结合领域-深度增强学习（Deepreinforcementlearning,DRL）随着在一系列极具挑战的控制实验场景及其它跨领域的成功应用，现在已是各大顶级AI会议的热门topic之一。

sorroooo·2022-11-20 23:41

机器学习应用——强化学习&课程总结实例 “自主学习Flappy Bird游戏”（MDP&蒙特卡洛强化学习&Q-learning&DRL&DQN）

自主学习FlappyBird”实例读完本篇，你将了解：一、强化学习1.相关概念2.马尔可夫决策过程（MDP）（modelbase模型）3.蒙特卡洛强化学习4.Q-learning算法5.深度强化学习（DRL

柠檬茶@·2022-11-20 13:54

PPO实战学习总结

代码地址如下，需要的可以自取：https://github.com/FLBa9762/PPO_used_in_Gobigger.git一般DRL在实际使用时根据流程可分类为collect、learn、eval

饭了白a·2022-11-20 05:37

DRL基础（十二）——近端策略优化算法PPO【附代码】

主要内容：讲解PPO提出的背景讲解PPO算法的理论和技巧基于Pytorch实现PPO算法，并用于解决gym环境中乒乓球游戏(Pong)PPO完整代码下载链接见文末文章目录1REINFORCE存在的问题2重要性采样3代理目标函数及其裁剪4使用优势函数评价动作5实现代码2016年10月OpenAI公司发布了《Dota2》强化学习游戏智能体OpenAIFive，并且经过多年的开发训练后战胜了当时的世界冠

二向箔不会思考·2022-11-20 05:21

【强化学习-医疗】用于临床决策支持的深度强化学习：简要综述

我们在本文中关注深度强化学习(DRL)模型。DRL模型在计算机视觉和

Wwwilling·2022-11-19 05:03

多智能体深度强化学习综述与批判——Matthew E. Taylor

0.摘要深度强化学习(DeepReinforcementLearning,DRL)近年来取得了突破性的成果，出现了大量与之相关的算法和应用。最近的

二向箔不会思考·2022-11-10 13:16

深度强化学习中应用图神经网络优化无线网络路由

相比之下，具有决策和在线学习能力的深度强化学习（DRL）在面对路由优化问题时效果更好。DRL可以通过强化学习机制和深度神经网络在线或离线学习路由策略。然而，现有的基于DR

小蜗子·2022-10-31 11:41

【论文精读与思考】：深度强化学习的组合优化研究进展

全文目录1组合优化问题概述1.1定义1.2特点1.3求解方法1.3.1精确方法1.3.2近似方法1.4应用2深度强化学习（DRL）解决组合优化问题的概述2.1二者联系2.2目前主要方法2.2.1基于DRL

灰灰嗷·2022-10-26 15:24

【从RL到DRL】强化学习基础（二）——马尔可夫决策过程与相关贝尔曼方程

马尔可夫决策过程绪言马尔可夫决策过程（Markovdecisionprocesses，MDP）马尔可夫过程马尔可夫性质马尔可夫过程马尔可夫奖励过程（MarkovRewardProcess，MRP）价值函数贝尔曼方程(BellmanEquation)贝尔曼方程的解马尔可夫决策过程（MDP）基本组成与概念策略MDP的价值函数贝尔曼期望方程（BellmanExpectationEquation）最优价值

Vulcan_Q·2022-10-23 17:14

深度学习——day8 读论文（2022 硕士毕业论文）大规模车辆路径问题的深度强化学习算法研究

模型设计编码器编码器原理图第一层：扩维嵌入操作第二层：线性回归扩维第三层：注意力层，由两部分组成KQV模型—注意力层机制最重要的组成部分：解码器context—上下文：将有用的信息进行整合①上下文节点context（VRP问题在DRL

想太多!·2022-10-11 14:14

DRL知识体系的从零构建「AI核心算法」

关注：决策智能与机器学习，深耕AI脱水干货作者|FloodSung来源|知乎授权发布1前言近几年来，以DeepMind和OpenAI的AI明星公司基于深度强化学习创造了前所未有的突破，包括AlphaGo，AlphaStar，OpenAIFive,OpenAIRobotHand，可以说掀起了深度学习革命的高潮。这两年来，国内渐渐有AI公司围绕深度强化学习做落地，包括了腾讯，网易，字节跳动，启元世界，

九三智能控v·2022-09-30 07:54

Drools语法-条件部分（一）

一、Drools基础语法规则文件的构成drl是DroolsRuleLanguage的缩写。在规则文件中编写具体的规则内容。

爱编码阿信·2022-08-11 09:58

多Agent 深度强化学习综述

多Agent深度强化学习综述人工智能技术与咨询来源：《自动化学报》，作者梁星星等摘要近年来,深度强化学习(Deepreinforcementlearning,DRL)在诸多复杂序贯决策问题中取得巨大突破

m0_62870606·2022-08-05 07:23

Towhee 每周模型

周报出品人：Towhee技术团队本周我们分享5个视频相关的AI模型：轻便好用的视频动作识别模型系列MoViNets、实现文本与视频跨模态搜索的CLIP4Clip、比CLIP4Clip更好的视频检索模型DRL

·2022-07-22 11:02

拥有更好的文本视频交互，DRL 分离框架改进 CLIP4Clip

于是2022年初，便有DRL（DisentangledRepresentationLearning）跨模态匹配不同粒度的内容。在视频检索任务中，改良后的模型大幅提升了在各大文本视频数据集上的精度。

·2022-07-20 16:29

drools决策表的简单使用

一、背景在之前的文章中，我们的业务规则都是写在了drl文件中，这对开发人员来说是没有什么问题，如果是业务人员则不怎么友好，这篇文章我们简单学习一下drools中决策表的使用，规则是写在excel文件中。

·2022-05-30 08:09

drools决策表的简单使用

一、背景在之前的文章中，我们的业务规则都是写在了drl文件中，这对开发人员来说是没有什么问题，如果是业务人员则不怎么友好，这篇文章我们简单学习一下drools中决策表的使用，规则是写在excel文件中。

huan1993·2022-05-30 08:00

drools执行String规则或执行某个规则文件

1、如何在drools中执行某个drl文件。2、如果我们的规则是一个String类型的字符串，那么该如何执行。

·2022-05-26 15:17

drools中then部分的写法(推荐)

目录1、背景2、支持的方法2.1insert插入对象到工作内存中2.1.1需求2.1.2drl文件编写2.1.3部分java代码编写2.1.4运行结果2.1.5结论2.2insertLogical插入对象到工作内存中

·2022-05-26 11:04

drools规则属性(rule attributes)的使用

在DRL文件中，您通常在规则条件和操作的上方定义规则属性，多个属性位于单独的行中，格式如下：rule"rule_name"//Attribute//Attributewhen//Conditionsthen

·2022-05-18 15:58

drools规则属性(rule attributes)的使用

在DRL文件中，您通常在规则条件和操作的上方定义规则属性，多个属性位于单独的行中，格式如下：rule"rule_name"//Attribute//Attributewhen//Conditionsthen

huan1993·2022-05-18 15:00

drools的类型声明(Type declarations)

一、背景在我们编写drl规则的时候，有些时候需要自己声明一些类，用于辅助之后的规则运行，如果需要用到的类还需要在java中预先声明出来，这样就不灵活了，那么是否可以在drl文件中声明一个类呢？

·2022-05-17 14:10

drools的类型声明(Type declarations)

一、背景在我们编写drl规则的时候，有些时候需要自己声明一些类，用于辅助之后的规则运行，如果需要用到的类还需要在java中预先声明出来，这样就不灵活了，那么是否可以在drl文件中声明一个类呢？

huan1993·2022-05-17 14:00

drools中使用function的方法小结

目录一、背景二、需求三、前置知识1、function语法结构2、drl文件中如何调用java的静态方法四、实现1、项目结构2、引入drools依赖3、编写kmodule.xml文件4、编写Person实体类

·2022-05-17 10:57

drools中query的用法小结

目录一、背景二、需求三、前置需求1、query的语法结构2、java中如何获取query的结果四、实现1、无参数query的使用1、drl文件编写2、java文件编写2、有参数query的使用1、drl

·2022-05-17 10:55

推荐频道

DRL

深度强化学习落地方法论（7）——训练篇

【无标题】

【论文解析】Fast Adaptive Task Offloading in Edge Computing Based on Meta Reinforcement Learning

基于DRL实现通信资源调度和能源消耗

如何在AI工程实践中选择合适的算法？

复现论文DRL代码程序

深度强化学习的组合优化[1] 综述阅读笔记

图神经网络深度强化学习的挑战与机遇:算法与应用综述

深度强化学习入门

综述向：强化学习方法梳理（持续更新）

DRL基础（四）——编程：python与numpy基础

深度强化学习（DRL）学习笔记（1 - 4章）

Gym学习（1）基本的环境搭建与参数含义

人工智能-强化学习-算法：DQN（Deep Q-Learning Network）【Deep Learning Network + Q-Learning 】

强人工智能（Artificial General Intelligence，通用人工智能）论文和资料总结分享目录

Wei Yang Bryan Lim, etc. Federated Learning in Mobile Edge Networks: A Comprehensive Survey.

Ubuntu18.04搭建深度强化学习环境(Mujoco200 , gym)

深度强化学习满足图神经网络:探索路由优化用例

解读72篇DeepMind深度强化学习论文

dqn系列梳理_系列论文阅读——DQN及其改进

【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库

DRL经典文献阅读（二）：确定性策略梯度（DPG+DDPG）【附代码】

《强化学习周刊》第38期：DreamingV2、Shadow-price DRL、离线强化学习

《强化学习周刊》第55期：LB-SGD、MSP-DRL&对抗鲁棒强化学习

论文笔记（十六）：Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning

深度增强学习（DRL）漫谈 - 信赖域（Trust Region）系方法

机器学习应用——强化学习&课程总结 实例 “自主学习Flappy Bird游戏”（MDP&蒙特卡洛强化学习&Q-learning&DRL&DQN）

PPO实战学习总结

DRL基础（十二）——近端策略优化算法PPO【附代码】

【强化学习-医疗】用于临床决策支持的深度强化学习：简要综述

多智能体深度强化学习综述与批判——Matthew E. Taylor

深度强化学习中应用图神经网络优化无线网络路由

【论文精读与思考】：深度强化学习的组合优化研究进展

【从RL到DRL】强化学习基础（二）——马尔可夫决策过程与相关贝尔曼方程

深度学习——day8 读论文（2022 硕士毕业论文）大规模车辆路径问题的深度强化学习算法研究

DRL知识体系的从零构建「AI核心算法」

Drools语法-条件部分（一）

多Agent 深度强化学习综述

Towhee 每周模型

拥有更好的文本视频交互，DRL 分离框架改进 CLIP4Clip

drools决策表的简单使用

drools决策表的简单使用

drools执行String规则或执行某个规则文件

drools中then部分的写法(推荐)

drools规则属性(rule attributes)的使用

drools规则属性(rule attributes)的使用

drools的类型声明(Type declarations)

drools的类型声明(Type declarations)

drools中使用function的方法小结

drools中query的用法小结

机器学习应用——强化学习&课程总结实例 “自主学习Flappy Bird游戏”（MDP&蒙特卡洛强化学习&Q-learning&DRL&DQN）