DRL 第3页

自动驾驶前沿综述：基于深度强化学习的自动驾驶算法

本文会对目前最先进的自动驾驶DRL算法进行汇总和分类。

PaperWeekly·2023-01-30 10:09

Carla安装及运行

入了自动驾驶+DRL的坑了，要求先安装carla进行环境模拟。首先，下载Carla，我是win10系统。

赵YN的csdn·2023-01-29 15:03

Drools入门（三）——规则文件语法

引用https://www.jianshu.com/p/ae9a62588da4扩充多规则文件执行多个drl文件只要package相同则表示它们用的是同一个KieBaseModel，此时获取该KieBaseModel

IT那些事儿·2023-01-28 21:35

【CS 285 DRL Homework 2】Policy Gradients 策略优化

Exp1：原始策略优化（VanillaPolicyGradient）Vanillaadj.普通的，没有新意的；香草的训练算法总体思路主要的训练算法集中在RL_Trainer.run_training_loop中。通过观察一个循环（iteration）的调用过程，可总结为：收集多个路线,，获得train_batch_size个时刻的数据存在replaybuffer中上一步完全结束之后，从buffer

·2023-01-18 19:36

#9文献学习--基于元强化学习的边缘计算快速自适应任务卸载

文献：FastAdaptiveTaskOffloadinginEdgeComputingbasedonMetaReinforcementLearning基于深度强化学习DRL的方法，样本效率很低，需要充分的再培训来学习新环境的更新策略

null_kk·2023-01-18 09:25

Automating DBSCAN via Deep Reinforcement Learning阅读笔记

AutomatingDBSCANviaDeepReinforcementLearning文章链接：https://arxiv.org/abs/2208.04537代码链接：https://github.com/ringbdstack/drl-dbscan

DifferenceEngine·2023-01-17 08:08

【CS 285 DRL Homework 1】模仿学习的策略函数

关于CS285深度强化学习Homework1的笔记很少，百度到前年一些同学的笔记，感觉有点不太对。。这里写一些个人理解，敬供各位批评。策略（Policy）函数的实现连续动作空间&高斯策略实现首先明确，这里的“连续动作空间”($\pi(a|s)$)就是单峰的高斯分布。即动作向量的每个分量连续、独立且分别服从不同参数的高斯分布。因此首先如果是高斯函数($\pi_{\mu,\sigma}(a|s)$),

·2023-01-13 17:35

Qt/QML入门练手小项目

源码地址：链接:https://pan.baidu.com/s/1lSXI12dRL4AhD2WD9ni94A提取码:2fix警报器项目名：Alarms3。

两只鱼丿·2023-01-12 21:34

DRCNN: Dynamic Routing Convolutional Neural Network for Multi-View 3D Object Recognition（2）

接上文，通过将DRL插入到CNN中，我们提出了用于3D物体识别的DRCNN算法。而且，每个3D物体视图的特征都是被同一个CNN1提取出来的。然后这些特征点通过提出的DRL形成新的特征从而代表3D物体。

qq_40864007·2023-01-09 08:19

DRL经典文献阅读（一）：策略梯度理论（Policy Gradient, PG）

原文题目：PolicyGradientMethodsforReinforcementLearningwithFunctionApproximation作者：RichardS.Sutton,DavidMcAllester,SatinderSingh,YishayMansour发表时间：2000年主要内容：强化学习中使用函数近似的策略梯度方法。得出了策略梯度的表达式，进一步推导了使用函数近似情况下的计

二向箔不会思考·2023-01-09 07:33

深度强化学习调研

深度强化学习（DRL）（一）强化学习强化学习（ReinforcementLearning，简称RL）是机器学习领域的一个研究热点，当前已经广泛应用于工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈等领域

流年亦梦·2023-01-05 19:19

【CS 285 DRL Homework 1】模仿学习的策略函数

关于CS285深度强化学习Homework1的笔记很少，百度到前年一些同学的笔记，感觉有点不太对。。这里写一些个人理解，敬供各位批评。策略（Policy）函数的实现连续动作空间&高斯策略实现首先明确，这里的“连续动作空间”($\pi(a|s)$)就是单峰的高斯分布。即动作向量的每个分量连续、独立且分别服从不同参数的高斯分布。因此首先如果是高斯函数($\pi_{\mu,\sigma}(a|s)$),

·2023-01-05 16:14

深度强化学习_参考资料

深度强化学习_参考资料写在前面会议&论文优秀的人啊~博客视频DRL的问题与展望其他应用场景其他知识点写在前面强化学习资料汇总——视频、书籍、教程、PPT、算法、环境、框架、论文、会议期刊、公众号、博客、

popo-shuyaosong·2023-01-03 11:39

【强化学习入门】深度强化学习DRL入门学习资料

文章目录1.顶会目录2.视频教程3.交流社区4.开源项目1.顶会目录AAAI（AAAIConferenceonArtificialIntelligence,AAAI），地址：http://dblp.uni-trier.de/db/conf/aaai/IJCAI（InternationalJointConferenceonArtificialIntelligence,IJCAI），地址：http:/

山野庸才熏悟空·2023-01-03 11:57

TensorFlow 2.0深度强化学习指南

在本教程中，我将通过实施AdvantageActor-Critic(演员-评论家，A2C)代理来解决经典的CartPole-v0环境，通过深度强化学习（DRL）展示即将推出的TensorFlow2.0特性

weixin_34290352·2022-12-30 08:23

深度强化学习落地方法论（5）——状态空间篇

wyjjyn·2022-12-30 08:23

【论文笔记】基于分层深度强化学习的移动机器人导航方法

2.1实验设置2.2实验结果与分析2.2.1训练与测试实验结果2.2.2可视化导航效果2.2.3真实环境下的导航实验3结论摘要针对：基于深度强化学习(deepreinforcementlearning,DRL

Ctrl+Alt+L·2022-12-29 07:28

强化学习图鉴｜人工智能新兴子领域，分布式强化学习是AI技术未来大规模实用化的关键？

研究者们希望设计一整套“算法+系统”的方案，能够让DRL训练程序便捷地运行在各种不同的计算尺度下，在保

OpenDILab开源决策智能平台·2022-12-23 13:06

Reinforcement Learning 强化学习（一）

Task01本次学习主要参照Datawhale开源学习及强化学习蘑菇书EasyRL部分内容参考ShusenWang的github开源项目DRL。

黑小板·2022-12-20 08:50

深度强化学习（DRL）四：DQN的实战(DQN, Double DQN, Dueling DQN)

目录一、环境二、DQN三、DoubleDQN四、DuelingDQN(D3QN)五、小结全部代码:https://github.com/ColinFred/Reinforce_Learning_Pytorch/tree/main/RL/DQN一、环境查看可用的环境fromgymimportenvsprint(envs.registry.all())ValuesView(├──CartPole:[v

钟鸣_·2022-12-19 14:08

深度学习与强化学习的区别以及深度强化学习是什么

有强大的感知与表达能力面向高维数据通过多层的网络结构和非线性变换，组合底层特征形成抽象的易于区分的高层表示以发现数据的分布式特征表示强化学习（RL）具有决策能力通过智能体的试错机制与环境进行不断交互从而最大化智能体从环境中获得的累计奖赏值深度强化学习（DRL

showswoller·2022-12-18 18:48

深度强化学习

前言深度强化学习(DRL)已成为人工智能研究的热点之一。它已被广泛应用于端到端控制、机器人控制、推荐系统、自然语言对话系统等各个领域。

古道西风瘦码·2022-12-18 18:18

深度强化学习Soft-Actor Critic算法高性能Pytorch代码(改写自spinningup，低环境依赖，低阅读障碍)

写在前面DRL各种算法在github上各处都是，例如莫凡的DRL代码、ElegantDRL（易读性NO.1）很多代码不是原算法的最佳实现，在具体实现细节上也存在差异，不建议直接用在科研上。

Y. F. Zhang·2022-12-16 23:10

深度强化学习DDPG算法高性能Pytorch代码(改写自spinningup，低环境依赖，低阅读障碍)

写在前面DRL各种算法在github上各处都是，例如莫凡的DRL代码、ElegantDRL（推荐，易读性NO.1）很多代码不是原算法的最佳实现，在具体实现细节上也存在差异，不建议直接用在科研上。

Y. F. Zhang·2022-12-16 23:40

强化学习调参技巧二：DDPG、TD3、SAC算法为例：

DRL算法的分数应该明显高于随机动作（随机执行动作）。DRL算法不应该低于传统算法的分数。如果没有传统算法，那么也需要自己写一个局部最优的算法评

·2022-12-15 14:29

Policy Evaluation收敛性、炼丹与数学家

完美的学习算法昨天和同学在群里讨论DRL里badcase的问题。

3A是个坏同志·2022-12-14 21:57

【论文笔记】MIT-基于DRL的行人环境移动机器人导航

MIT_papers_readingNumtitleauthortime1DecentralizedNon-communicatingMultiagentCollisionAvoidancewithDeepReinforcementLearningYuFanChen,MiaoLiu,MichaelEverett,andJonathanP.How20172SociallyAwareMotionPla

209SPiriT·2022-12-13 14:54

深度强化学习训练调参方法

转载自https://zhuanlan.zhihu.com/p/99901400为了保证DRL算法能够顺利收敛，policy性能达标并具有实用价值，结果有说服力且能复现，需要算法工作者在训练前、训练中和训练后提供全方位一条龙服务

Enoch Liu98·2022-12-10 02:54

强化学习（RL)——Reinforcement learning

强化学习一、强化学习简介二、强化学习发展历程三、深度强化学习DRL四、马尔可夫决策过程五、值函数六、Q值七、蒙特卡洛（MC）与时序差分（TD）八、强化学习的代表算法1.Q-learning算法2.DQN

雨落i·2022-12-08 02:01

【从RL到DRL】强化学习基础（一）——强化学习基本介绍、基本的智能体概念

目录强化学习介绍关于强化学习强化学习基本要素（TheRLProblem）智能体组成智能体分类强化学习问题强化学习介绍关于强化学习强化学习在不同的学科中其实都具有不同的存在形式机器学习的分支有监督学习：利用一组已知类别的训练样本调整分类器的参数，使得习得的分类器能对未知样本进行分类或预测无监督学习：从无标注的数据中学习隐含的结构或模式强化学习：就是学习“做什么才能使数值化的收益信号最大化”，是机器通

Vulcan_Q·2022-12-08 02:51

PARL源码走读——使用策略梯度算法求解迷宫寻宝问题

不仅仅适合零基础的小白快速搭建DRL环境，也十分适合科研人员复现论文结果。废话不多说，我们从强化学习最

飞桨PaddlePaddle·2022-12-06 12:02

深度强化学习落地方法论（7）——训练篇

目录训练开始前环境可视化数据预处理训练进行中拥抱不确定性DRL通用超参数折扣因子作用原理选取方法FrameSkipping网络结构网络类型网络深度DRL特色超参数DQNDDPGPPO给DRL初学者的建议训练收敛后总结为了保证

wyjjyn·2022-12-06 07:02

【无标题】

针对上述任务卸载决策问题，提出了基于深度强化学习（DRL）和长短时记忆（LSTM）网络的在线预测卸载（O

动物园警铃大作-·2022-12-05 23:53

【论文解析】Fast Adaptive Task Offloading in Edge Computing Based on Meta Reinforcement Learning

最近，许多基于深度强化学习(DRL)的方法被提出，通过与由UE、无线信道和MEC主机组成的MEC环境交互来学习卸载策略。但是这些方法

橙子渣渣·2022-12-05 23:52

基于DRL实现通信资源调度和能源消耗

轨迹优化基于DRL实现通信资源调度和能源消耗论文背景问题建模算法实现论文背景问题建模算法实现论文已投，发表后更新

是一个Bug·2022-12-05 23:18

如何在AI工程实践中选择合适的算法？

在使用深度强化学习（DeepReinforcementLearning，DRL）算法解决实际问题的过程中，明确任务需求并初步完成问题定义后，就可以为相关任务选择合适的DRL算法了。

博文视点·2022-12-05 23:47

复现论文DRL代码程序

复现论文第一步（以DRL为例），download代码andthen创建环境。

jodieone·2022-12-05 10:32

深度强化学习的组合优化[1] 综述阅读笔记

定义（1）定义（2）常见问题2.方法（1）精确方法（2）近似方法（3）深度学习方法3.文章架构一、概述1.神经网络（1）Hopfield网络（2）指针网络Ptr-Net（3）图神经网络3.深度强化学习DRL

好奇小圈·2022-12-04 07:54

图神经网络深度强化学习的挑战与机遇:算法与应用综述

DRL和GNN总结。

小蜗子·2022-12-03 01:59

深度强化学习入门

作者：清凇（就职于阿里巴巴，搜索排序、自然语言处理）https://www.zhihu.com/people/huaqingsong过去的一段时间在深度强化学习领域投入了不少精力，工作中也在应用DRL解决业务问题

人工智能与算法学习·2022-12-02 13:39

综述向：强化学习方法梳理（持续更新）

本文会先分享《深度强化学习综述》中提到的深度强化学习（DRL）模型，后续将分享PPO,DecisionTransformer等新方法。《深度强化学习综述》论文将深度强化学习（DRL

洛基Nickey·2022-12-01 19:56

DRL基础（四）——编程：python与numpy基础

【摘要】人生苦短，我用Python！现代深度强化学习，包括多智能体强化学习，研究者大多使用Python进行试验验证。主要的原因就是Python语言较为贴近自然语言，入门容易，具有各种方便好用的功能包。研究者可以快速开发出各种应用环境验证强化学习算法，实现研究论证与论文发表。本文包含以下内容：Python语言介绍、数据类型、语法、数据结构，类。Numpy的使用：基于Python的数学运算包，是Ten

二向箔不会思考·2022-11-30 13:13

深度强化学习（DRL）学习笔记（1 - 4章）

文章目录前言常用符号摘自课本概念、参数出处或者定义（方便理解和查阅）第一章概率论基础与蒙特卡洛概率论基础（具体自己补）蒙特卡洛第二章深度学习基础线性模型线性回归逻辑斯蒂回归Softmax分类器神经网络全连接神经网络（多层感知层）卷积神经网络（CNN）反向传播和梯度下降梯度下降反向传播第三章马尔可夫决策过程（MDP）基本概念（一定要牢记

流荧静水·2022-11-30 10:03

Gym学习（1）基本的环境搭建与参数含义

因为gym中封装了很多强化学习的环境，我们在入门或者研究DRL时可以轻视调用gym中写好的环境，帮助我们快速完成任务。OpenAIGym是一个环境仿真库，里面包含了很多现有的环境。

小帅吖·2022-11-30 02:56

人工智能-强化学习-算法：DQN（Deep Q-Learning Network）【Deep Learning Network + Q-Learning 】

DQN（DeepQ-LearningNetwork）可谓是深度强化学习（DeepReinforcementLearning，DRL）的开山之作，是将深度学习与强化学习结合起来从而实现从感知（Perception

u013250861·2022-11-27 18:26

强人工智能（Artificial General Intelligence，通用人工智能）论文和资料总结分享目录

小怪兽会微笑·2022-11-25 08:34

Wei Yang Bryan Lim, etc. Federated Learning in Mobile Edge Networks: A Comprehensive Survey.

联邦学习(FL)、ML、MECBAA(宽带模拟聚合)、CNN(卷积神经网络)、CV(计算机视觉)、DDQN(双深度Q网络)、DL(深度学习)DNN(深度神经网络)、DP(差分隐私)、DQL(深度Q学习)、DRL

彭于晏程序分晏·2022-11-24 00:56

Ubuntu18.04搭建深度强化学习环境(Mujoco200 , gym)

自己记录一下DRL的环境搭建,花了一下午,不过还是基本搭建完成了.博主使用的是Ubuntu18.04+Anaconda3+cuda10.1+python3.7+tensorflow2.11.配置Mujoco-py

零壹博弈·2022-11-23 12:57

深度强化学习满足图神经网络:探索路由优化用例

摘要近年来，深度强化学习(DRL)在决策问题上取得了巨大的进步。因此，在自动驾驶软件定义网络中，DRL似乎有望解决许多相关的网络优化问题(如路由)。

小蜗子·2022-11-23 12:55

解读72篇DeepMind深度强化学习论文

来源：王小惟的知乎https://zhuanlan.zhihu.com/p/70127847编辑：DeepRL论文下载方法：pdf合集下载见文章末尾DRL领域交流与讨论加微信：NeuronDance关于

悄悄的努力·2022-11-23 11:24

推荐频道

DRL

自动驾驶前沿综述：基于深度强化学习的自动驾驶算法

Carla安装及运行

Drools入门（三）——规则文件语法

【CS 285 DRL Homework 2】Policy Gradients 策略优化

#9文献学习--基于元强化学习的边缘计算快速自适应任务卸载

Automating DBSCAN via Deep Reinforcement Learning阅读笔记

【CS 285 DRL Homework 1】模仿学习的策略函数

Qt/QML入门练手小项目

DRCNN: Dynamic Routing Convolutional Neural Network for Multi-View 3D Object Recognition（2）

DRL经典文献阅读（一）：策略梯度理论（Policy Gradient, PG）

深度强化学习调研

【CS 285 DRL Homework 1】模仿学习的策略函数

深度强化学习_参考资料

【强化学习入门】深度强化学习DRL入门学习资料

TensorFlow 2.0深度强化学习指南

深度强化学习落地方法论（5）——状态空间篇

【论文笔记】基于分层深度强化学习的移动机器人导航方法

强化学习图鉴｜人工智能新兴子领域，分布式强化学习是AI技术未来大规模实用化的关键？

Reinforcement Learning 强化学习（一）

深度强化学习（DRL）四：DQN的实战(DQN, Double DQN, Dueling DQN)

深度学习与强化学习的区别以及深度强化学习是什么

深度强化学习

深度强化学习Soft-Actor Critic算法高性能Pytorch代码(改写自spinningup，低环境依赖，低阅读障碍)

深度强化学习DDPG算法高性能Pytorch代码(改写自spinningup，低环境依赖，低阅读障碍)

强化学习调参技巧二：DDPG、TD3、SAC算法为例：

Policy Evaluation收敛性、炼丹与数学家

【论文笔记】MIT-基于DRL的行人环境移动机器人导航

深度强化学习训练调参方法

强化学习（RL)——Reinforcement learning

【从RL到DRL】强化学习基础（一）——强化学习基本介绍、基本的智能体概念

PARL源码走读——使用策略梯度算法求解迷宫寻宝问题

深度强化学习落地方法论（7）——训练篇

【无标题】

【论文解析】Fast Adaptive Task Offloading in Edge Computing Based on Meta Reinforcement Learning

基于DRL实现通信资源调度和能源消耗

如何在AI工程实践中选择合适的算法？

复现论文DRL代码程序

深度强化学习的组合优化[1] 综述阅读笔记

图神经网络深度强化学习的挑战与机遇:算法与应用综述

深度强化学习入门

综述向：强化学习方法梳理（持续更新）

DRL基础（四）——编程：python与numpy基础

深度强化学习（DRL）学习笔记（1 - 4章）

Gym学习（1）基本的环境搭建与参数含义

人工智能-强化学习-算法：DQN（Deep Q-Learning Network）【Deep Learning Network + Q-Learning 】

强人工智能（Artificial General Intelligence，通用人工智能）论文和资料总结分享目录

Wei Yang Bryan Lim, etc. Federated Learning in Mobile Edge Networks: A Comprehensive Survey.

Ubuntu18.04搭建深度强化学习环境(Mujoco200 , gym)

深度强化学习满足图神经网络:探索路由优化用例

解读72篇DeepMind深度强化学习论文