ADP&RL 第20页

【经验】深度强化学习训练与调参技巧

来源：知乎(https://zhuanlan.zhihu.com/p/482656367)作者：岳小飞天下苦RL久矣，其中最苦的地方莫过于训练和调参了，人人欲“调”之而后快。

风度78·2022-11-30 13:24

Stable Baselines/RL算法/A2C

StableBaselines官方文档中文版GithubCSDN尝试翻译官方文档，水平有限，如有错误万望指正AsynchronousAdvantageActorCritic(A3C)的同步、确定性变体。它使用多个workers来避免使用重播缓存。要点核心原始文献：https://arxiv.org/abs/1602.01783OpenAI博客：https://openai.com/blog/bas

quantLearner·2022-11-30 13:21

ResNet、MobileNet预训练权重

ResNet全部预训练文件下载方式ResNet50.pth链接：https://pan.baidu.com/s/1Q2ueq3UBruCl4RL2TIYUfg提取码：0517MobileNetV3.pth

李卓璐·2022-11-30 10:08

Transformer + RL：是强化学习魔高一尺，还是 Transformer 道高一丈？（1）

引言：为什么Transformer在RL上不workTransformer最早发源于自然语言处理领域（NLP），以一个非常惊人的标题“AttentionisAllYouNeed”催生了无数后续工作，而Transformer

OpenDILab开源决策智能平台·2022-11-30 06:50

Online Decision Transformer

摘要最近的工作表明，离线强化学习(RL)可以表述为序列建模问题(Chenetal.,2021;Janneretal.,2021)，并通过类似于大规模语言建模的方法来解决。

Wwwilling·2022-11-30 06:45

RC滤波器（高通/低通）

RC既可以构成低通滤波电路，也可以构成高通滤波电路1、高通滤波器如果输入是个直流电压，ui电压的变化率为0，所以RL上没有电流通过，根据欧姆定律，即out=0V，电容完全”隔直“，也就是说频率为0的信号完全不可以通过隔直通交电路频率较低的正弦信号

Liangzhi.Hu·2022-11-29 21:29

论文笔记之RL优化——高斯平滑的Q函数

学习目的：近期需要去学习下TD3算法，一种在连续动作空间比DDPG更好的policy-based算法。其中需要用到smoothed-Q。TD3论文中reference了这篇SmoothedQforLearningGaussianPolicies(还有补充材料)。在当时而言，这是一种比较新的思想，因为以往的Policy-based算法通过分别训练Actor网络μθ\mu_\thetaμθ和Criti

Ton10·2022-11-29 19:38

深度强化学习CS285-Lec18 Meta-Learning in RL

Meta-RL概述一、问题定义1.1监督学习1.2元学习1.3Meta-Learning的数据集设定与学习方式1.3.1元学习的数据集是怎样的？

Nemo555·2022-11-29 18:31

深度强化学习CS285-Lec17 Distributed RL

TransferLearning与DistributedRL概述一、分布式RL架构1.1DQN1.2GORILA1.3A3C1.4IMPALA1.5Ape-X1.6R2D3二、其它引用较高的分布式RL架构

Nemo555·2022-11-29 18:01

日常学习记录——openpyxl保存操作

wb1.save(“文件名”)defpreDataSet():wb1=load_workbook('E:\MyWord\study\RL0314\西瓜.xlsx')sheet1=wb1.worksheets

锂盐块呀·2022-11-29 15:58

When Machine Learning Meets Congestion Control: A Survey and Comparison

通过阅读本论文可以对拥塞控制算法有一个较为清晰的认识，区分传统算法及辨识各种传统算法的优劣，特别是本文通过导引的方式可以让读者了解机器学习在拥塞控制算法中的应用现状，对应该使用哪种机器学习的方法给读者指明了方向，并使得读者认识到应用RL

嘿喵井长·2022-11-29 03:31

深度学习调参的经验

1总结一下在旷视实习两年来的炼丹经验，我主要做了一些RL，图像质量，图像分类，GAN相关的任务，日常大概占用5-10张卡。

neu_wyn·2022-11-29 01:31

强化学习简介

1.RL描述的是一个与环境交互的学习过程2.以人开车为例，分析agent、environment、action、state、reward。其中，reward指导agent的action。

脑瓜嗡嗡0608·2022-11-28 21:51

论文阅读 Fast Reinforcement Learning Via Slow Reinforcement Learning

论文阅读RL^2FastReinforcementLearningViaSlowReinforcementLearning1.摘要2.introduction3.实现4.小结1.摘要强化学习可以对于单个任务有较好的效果

孙敬博·2022-11-28 20:04

【强化学习论文合集】IJCAI-2021 强化学习论文

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

Allenpandas·2022-11-28 19:21

【强化学习论文合集】NeurIPS-2021 强化学习论文

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

Allenpandas·2022-11-28 19:21

【强化学习论文合集】专栏介绍（订阅前必读）

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

Allenpandas·2022-11-28 19:17

[EasyRL]——第一章强化学习基础

第一章强化学习基础转载自：蘑菇书EasyRL1.1强化学习概述**强化学习（reinforcementlearning，RL)**讨论的问题是智能体（agent）怎么在复杂、不确定的环境（environment

雨落俊泉·2022-11-28 09:40

强化学习第 1 章绪论

1.1强化学习概述强化学习（reinforcementlearning，RL）讨论的问题是智能体（agent）怎么在复杂、不确定的环境（environment）里面去最大化它能获得的奖励。

西西弗的小蚂蚁·2022-11-28 09:09

强化学习基础

以下学习笔记来自Datawhale组队学习的强化学习课程第一章，内容主要是强化学习的一些基础知识链接：https://datawhalechina.github.io/easy-rl/#/chapter1

zxc123qwer·2022-11-28 09:09

论文浅尝 | Efficient RDF graph storage based on RL

笔记整理：郑国鹏，天津大学硕士链接：https://link.springer.com/article/10.1007/s11280-021-00919-x动机知识是人工智能的基石，它通常以RDF图的形式表示。各个领域的大规模RDF图对图数据管理提出了新的挑战。关系型数据库因其成熟稳定的特性，是存储图数据库的热门方案。然而，在关系型数据库中管理结构复杂的RDF图需要复杂的存储结构设计。为了解决这个

开放知识图谱·2022-11-28 07:22

基于张成方案建立秘密分割方案

分配秘密sss假设M^\hat{M}M^是有lll列的单调张成方案，庄家持有的秘密为sss，可以按如下步骤构建秘密分割方案：从Kl\mathcal{K^l}Kl中生成一个随机向量r⃗=(r1,r2,...,rl

l齐天·2022-11-27 17:47

【强化学习】用强化学习通关超级马里奥！

Datawhale干货作者：肖遥，华中农业大学，Datawhale优秀学习者DQN算法实践之速通超级马里奥作为强化学习(ReinforceLearning,RL)的初学者，常常想将RL的理论应用于实际环境

风度78·2022-11-27 10:50

RL gym 环境（3）—— 环境向量化（批量训练）

本文介绍如何在gym套件中训练向量化的环境，所谓“向量化”，可以理解为把所有环境的observation、action、reward、info等所有信息都合在一起，拼成一个“环境向量”，从而把多个独立环境的训练过程组织在一起。agent和这些环境的交互可以是串行的，也可以是并行的。本文参考自官方文档Vectorisingyourenvironments请先看之前关于gym套件的基础介绍RLgym环

云端FFF·2022-11-26 14:28

【RL】强化学习另一种思路：policy-based方法

博主的github链接，欢迎大家来访问~：https://github.com/Sh-Zh-7强化学习经典算法实现地址：https://github.com/Sh-Zh-7/reinforce-learning-impl之前我们所介绍的，都是所谓value-based方法，它的中心思想是：既然我们要求的策略，是在给定状态的基础上选择动作。那么我通过研究动作的价值，就可以得到最优的策略。接下来要讲的

BananaScript·2022-11-26 02:20

从零实践强化学习之基于表格型方法求解RL(PARL)

Lesson2-1MDP、Q表格一、强化学习MDP四元组S:state状态A:action动作R:reward奖励r[st,at]P:probability状态转移概率p[st+1,rt|st,at]强化学习是一系列决策的过程,通过当前的环境状态和收到的奖励来决定下一次执行的动作Model-based:P函数和R函数已知Model-free：P函数和R函数未知二、Q表格：状态动作价值Q(st,at

小蒋的技术栈记录·2022-11-25 07:07

ubuntu 18.04.5中flow, smarts & xingtian 多智能体RL环境构建

ubuntu18.04.5中flow,smarts&xingtian多智能体RL环境构建Flow虚拟环境构建由于需要在同一个主机上运行多个环境，不同的环境具有不同的依赖包。

Jimmy-TONG·2022-11-24 15:42

【强化学习论文合集】AAAI-2022 强化学习论文 | 2022年合集（二）

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

Allenpandas·2022-11-24 11:50

【强化学习论文合集】AAMAS-2022 强化学习论文 | 2022年合集（三）

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

Allenpandas·2022-11-24 11:50

【强化学习论文合集】ICLR-2022 强化学习论文 | 2022年合集（四）

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

Allenpandas·2022-11-24 11:50

【强化学习论文合集】ICML-2022 强化学习论文 | 2022年合集（一）

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

Allenpandas·2022-11-24 11:44

【强化学习论文合集】IJCAI-2022 强化学习论文 | 2022年合集（五）

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

Allenpandas·2022-11-24 07:53

【强化学习论文合集】ICRA-2022 强化学习论文 | 2022年合集（六）

强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

Allenpandas·2022-11-24 07:53

Grad-CAM

在以下三个不同阶段都有作用：当AIHumans（RL，Reinforcementlearning）解释技术教人们如何做更好的选

younghuup·2022-11-24 05:03

OnRL: 基于在线强化学习的移动视频传输优化

摘要机器学习模型，尤其是强化学习(RL)，在优化视频流应

阿里巴巴淘系技术团队官网博客·2022-11-23 22:50

动态生产物流环境下物料搬运任务分配与路径规划的强化学习模型

Areinforcementlearningmodelformaterialhandlingtaskassignmentandrouteplanningindynamicproductionlogisticsenvironment摘要本研究分析了强化学习(RL

C_h_o_o·2022-11-23 22:49

《Deep learning Based Text Classification:A comprehensive Review》文本综述

论文中涉及到的范围很广，从MLP，RNN，CNN到GNN，RL。我对GNN，RL也不是很熟悉，只是简单记录一下，供自己参考。文本分类介绍总结这项工作中，作者：

big_matster·2022-11-23 15:53

从示范中学习

LearningfromDemonstrationReinforcementLearningfromDemonstrationthroughShaping,IJCAI2015,Brussel此文章考虑了如果demon不是最优，或者cover不全面的情况下，如何利用demon来帮助RL

CQUT-115·2022-11-23 11:16

RL的Q Learning原理及简单算例

1.Q-learning简述 Q-learning是一种强化学习算法。强化学习指的是让计算机在什么都不懂的情况下，通过不断的和环境进行互动得到反馈，来改善自身的行动策略，最终找到规律并达到学习目的的方法。所以强化学习的过程只涉及两个对象，一个是智能体agent，它可以发出行动action，接受反馈并评估；另一个是环境environment，它是agent行动的前提，并能对agent的行动做出

Zeror_·2022-11-23 05:11

DQN论文笔记

targetnetwork单独计算TD目标Summary参考：https://zhuanlan.zhihu.com/p/260521821.Abstract本文将深度神经网络应用于ReinforcementLearning（RL

微笑~你好·2022-11-23 05:07

dqn系列梳理_系列论文阅读——DQN及其改进

先前，将RL和DL结合存在以下挑战：1.deeplearning算法需要大量的labeleddata，RL学到的reward大都是稀疏、带噪声并且有延迟的(延迟是指action和导致的reward之间)

weixin_39908985·2022-11-23 05:36

2021极术通讯-基于Mali GPU开发移动游戏中的光线追踪内容

芯方向·【WarpDrive】GPU加速RL：一块V100运行上千个智能体、数千个环境，这个「曲率引擎」框架实现RL百倍提速在强化学习研究中，一个实验就要跑数天或数周，有没有更快的方法

极术社区·2022-11-23 00:35

华为河伯

华为诺亚方舟实验室开源了一个贝叶斯优化+RL的仓库，里面包括几部分：贝叶斯研究（1）HEBO：异方差进化贝叶斯优化HEBO:HeteroscedasticEvolutionaryBayesianOptimisation

臻甄·2022-11-22 18:21

强化学习面试题大全

主要参考资料：datewhale的强化学习教程：https://github.com/datawhalechina/easy-rl【强推】王树森张志华《深度强化学习》强化学习概述简单介绍一下强化学习。

姜呆·2022-11-22 14:08

Useful Policy Invariant Shaping from Arbitrary Advice论文翻译导读分析

这是摘要强化学习（RL）是一种强大的学习范式，在该范式中，agent可以学习最大化稀疏和延迟的奖励信号。尽管RL在复杂领域取得了许多令人印象深刻的成功，但学习可能需要数小时、数天甚至数年的训练数据。

难受啊！马飞...·2022-11-22 12:40

近端策略优化算法(PPO)：RL最经典的博弈对抗算法之一「AI核心算法」

关注：决策智能与机器学习，深耕AI脱水干货作者：AbhishekSuran转载请联系作者提要：PPO强化学习算法解析及其TensorFlow2.x实现过程（含代码）在本文中，我们将尝试理解Open-AI的强化学习算法：近端策略优化算法PPO（ProximalPolicyOptimization）。在一些基本理论之后，我们将使用TensorFlow2.x实现PPO。为什么PPO?因为PPO可以方便地

九三智能控v·2022-11-22 09:27

【IEEE2017】RL：机器人库：一种面向对象的机器人应用程序的方法

RL：机器人库：一种面向对象的机器人应用程序的方法摘要：摘要：我们讨论了机器人库（RL）的架构和软件工程原理。

明月醉窗台·2022-11-22 00:26

机器人C++库（12) Robotics Library 之路径规划算法：PRM、RRT、EET算法

机器人C++库（12）RoboticsLibrary之路径规划算法：PRM、RRT、EET算法RL库的运动规划(rl::plan)模块集成了以下经典的路径规划算法：PRM算法:概率路线图算法RRT算法：

明月醉窗台·2022-11-21 23:30

Generative AI Models for Drug Discovery：有关药物分子生成的深度学习模型（综述类文章）| RNN, VAE, GAN, 强化学习RL

同时，作者描述了如何将强化学习（RL）算法应用于生成式人工智能，以便在更好地利用分布式硬件的同时获得更真实的效果。2分子生成的简单模

啊啦灯神叮·2022-11-21 23:51

《Deep Reinforcement Learning for Autonomous Driving: A Survey》笔记

BRaviKiran,IbrahimSobh,VictorTalpaert,PatrickMannion,AhmadA.AlSallab,SenthilYogamani,andPatrickPérez调研(D)RL

learning_DRL·2022-11-21 21:26

推荐频道

ADP&RL

【经验】深度强化学习训练与调参技巧

Stable Baselines/RL算法/A2C

ResNet、MobileNet预训练权重

Transformer + RL：是强化学习魔高一尺，还是 Transformer 道高一丈？ （1）

Online Decision Transformer

RC滤波器（高通/低通）

论文笔记之RL优化——高斯平滑的Q函数

深度强化学习CS285-Lec18 Meta-Learning in RL

深度强化学习CS285-Lec17 Distributed RL

日常学习记录——openpyxl保存操作

When Machine Learning Meets Congestion Control: A Survey and Comparison

深度学习调参的经验

强化学习简介

论文阅读 Fast Reinforcement Learning Via Slow Reinforcement Learning

【强化学习论文合集】IJCAI-2021 强化学习论文

【强化学习论文合集】NeurIPS-2021 强化学习论文

【强化学习论文合集】专栏介绍（订阅前必读）

[EasyRL]——第一章 强化学习基础

强化学习 第 1 章 绪论

强化学习基础

论文浅尝 | Efficient RDF graph storage based on RL

基于张成方案建立秘密分割方案

【强化学习】用强化学习通关超级马里奥！

RL gym 环境（3）—— 环境向量化（批量训练）

【RL】强化学习另一种思路：policy-based方法

从零实践强化学习之基于表格型方法求解RL(PARL)

ubuntu 18.04.5中flow, smarts & xingtian 多智能体RL环境构建

【强化学习论文合集】AAAI-2022 强化学习论文 | 2022年合集（二）

【强化学习论文合集】AAMAS-2022 强化学习论文 | 2022年合集（三）

【强化学习论文合集】ICLR-2022 强化学习论文 | 2022年合集（四）

【强化学习论文合集】ICML-2022 强化学习论文 | 2022年合集（一）

【强化学习论文合集】IJCAI-2022 强化学习论文 | 2022年合集（五）

【强化学习论文合集】ICRA-2022 强化学习论文 | 2022年合集（六）

Grad-CAM

OnRL: 基于在线强化学习的移动视频传输优化

动态生产物流环境下物料搬运任务分配与路径规划的强化学习模型

《Deep learning Based Text Classification:A comprehensive Review》文本综述

从示范中学习

RL的Q Learning原理及简单算例

DQN论文笔记

dqn系列梳理_系列论文阅读——DQN及其改进

2021极术通讯-基于Mali GPU开发移动游戏中的光线追踪内容

华为河伯

强化学习面试题大全

Useful Policy Invariant Shaping from Arbitrary Advice论文翻译导读分析

近端策略优化算法(PPO)：RL最经典的博弈对抗算法之一「AI核心算法」

【IEEE2017】RL：机器人库：一种面向对象的机器人应用程序的方法

机器人C++库（12) Robotics Library 之路径规划算法：PRM、RRT、EET算法

Generative AI Models for Drug Discovery：有关药物分子生成的深度学习模型（综述类文章）| RNN, VAE, GAN, 强化学习RL

《Deep Reinforcement Learning for Autonomous Driving: A Survey》笔记

Transformer + RL：是强化学习魔高一尺，还是 Transformer 道高一丈？（1）

[EasyRL]——第一章强化学习基础

强化学习第 1 章绪论