深度强化学习第3页

【 ChatGPT作者LilianWeng博客总结】智能体=LLM(大语言模型)+记忆+规划技巧+工具使用...

来源：深度强化学习实验室 Lii’Log的博客https://lilianweng.github.io/posts/2023-06-23-agent/本文约7500字，建议阅读15分钟LLM的潜力不仅仅限于生成写得好的副本

数据派THU·2023-12-04 07:21

【论文阅读】1 SkyChain：一个深度强化学习的动态区块链分片系统

SkyChain一、文献简介二、引言及重要信息2.1研究背景2.2研究目的和意义2.3文献的创新点三、研究内容3.1模型3.2自适应分类账协议3.2.1状态块创建3.2.2合并过程3.2.3拆分过程3.3评价框架3.3.1性能3.3.1.1共识延迟3.3.1.2重新分片延迟3.3.1.3处理事务数3.3.1.4约束3.3.2安全性3.3.3问题介绍四、基于DRL的动态分片框架4.1模型设计4.2训

Camina hacia ti·2023-12-01 20:17

文章解读与仿真程序复现思路——电力系统保护与控制EI\CSCD\北大核心《基于深度强化学习的城市配电网多级动态重构优化运行方法》

这个标题涉及到城市配电网（UrbanPowerDistributionNetwork）的优化运行方法，其中使用了深度强化学习（DeepReinforcementLearning）技术，并且特别强调了多级动态重构

电网论文源程序·2023-12-01 09:47

深度强化学习-策略梯度算法深入理解

1引言在深度强化学习-策略梯度算法推导博文中，采用了两种方法推导策略梯度算法，并给出了Reinforce算法的伪代码。

indigo love·2023-12-01 01:40

＜深度强化学习落地方法论＞笔记

Part1.需求分析DRL的过拟合天性DRL解决的是从过去经验中学习有用知识，并用于后续决策的问题。比起视觉方面的检测、识别等，决策是一个更高层的行为，所以对环境要求更为严苛，导致DRL十分依赖过拟合，并且泛化能力非常差（唯一被允许在训练集上测试的算法的称号不是盖的）。此外，由于训练过程中缺乏直接监督的信号，DRL对数据量的要求也非常巨大。所以在DRL训练中，Value函数去过拟合环境转移特性与r

什么都不太行的syq·2023-11-27 01:04

深度强化学习落地方法论（4）——动作空间篇

目录前言对动作空间的三个要求完备性高效性合法性结语前言在将DRL应用于实际项目时，可能最轻松愉快的部分就是动作空间定义了。倒不是因为这项工作简单，而是agent的控制方式往往早就定死了，留给我们发挥的空间很小，就好像我们无法决定DOTA里允许多少种操作，也无法改变一台机器人的关节数量和各自的角度范围，Gym用户甚至从来都不用为这个问题操心，action空间有多少维，连续还是离散，各种domain早

wyjjyn·2023-11-27 01:34

《深度强化学习落地指南》读书笔记2--动作空间设计

动作空间设计大有可为动作空间设计：这里大有可为动作空间设计三原则动作空间设计：这里大有可为你好！这是你第一次使用Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器,可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。概要：对于特定任务而言，动作空间在事实上决定了任何算法所能达到的性能上限；action、state、reward三者之间常常需要一定的协同设计。

第一剑柄·2023-11-27 01:03

深度强化学习中的动作屏蔽（Action Masking）

RLlib中的example有一个代码是action_masking，很感兴趣，所以学习了一下主要功能是：“动作屏蔽”允许代理根据当前观察选择动作。这在许多实际场景中非常有用，在这些场景中，不同的时间步长可以执行不同的操作。解释动作屏蔽的博客文章：https://boring-guy.sh/posts/masking-rl/RLlib支持动作屏蔽，即通过稍微调整环境和模型来禁止这些动作，如本示例所

星行夜空·2023-11-27 01:58

基于通用学习环境和多智能体深度强化学习的列车运行图

2.摘要针对不同铁路系统的列车运行图问题，本文提出了一种多智能体深度强化学习方法。建立了一个通用的列车运行图学习环境，将

当交通遇上机器学习·2023-11-26 02:44

Gym迎来首个完整环境文档，强化学习入门更加简单！

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/编辑：OpenDeepRLOpenAIGym是一款用于研发和比较强化学习算法的环境工具包

Datawhale·2023-11-25 21:56

【重磅】ICLR2020 || 106篇深度强化学习顶会论文汇总

关注：决策智能与机器学习，深耕AI脱水干货来源|EndtoEnd.ai作者|DeepRL报道|深度强化学习实验室编辑|九三山人【导读】今年的ICLR大会转到了线上举行，DeepMind和哈佛的研究人员投稿了一篇神经网络控制虚拟小白鼠模的论文十分亮眼

九三智能控v·2023-11-23 00:27

Talk | CoRL‘23 最佳系统论文奖入围，庄子文：用深度强化学习让机器狗学会跑酷

他与大家分享的主题是:“用深度强化学习让机器狗学会跑酷”，系统地介绍了他的团队在基于强化学习算法和软动力学约束让四足机器人的运动能力远超传统移动机器人的算法所做的一系列研究成果。

TechBeat人工智能社区·2023-11-22 13:56

深度学习基础

深度强化学习教程链接DataWhale强化学习课程JoyRLhttps://johnjim0816.com/joyrl-book/#/ch7/main深度学习基础强化学习的问题可以拆分成两类问题，即预测与控制

数分虐我千百遍·2023-11-22 01:04

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于深度强化学习的园区综合能源系统低碳经济调度》

这个标题涉及到基于深度强化学习的园区综合能源系统低碳经济调度。让我们逐步解读一下：1.园区综合能源系统：指的是一个区域内综合利用多种能源的系统，可能包括电力、热能、风能、太阳能等。

电网论文源程序·2023-11-20 18:04

强化学习中的Transformer发展到哪一步了？清北联合发布TransformRL综述

©作者|WenzheLi等来源|机器之心强化学习（RL）为顺序决策提供了一种数学形式，深度强化学习（DRL）近年来也取得巨大进展。然而，样本效率问题阻碍了在现实世界中广泛应用深度强化学习方法。

PaperWeekly·2023-11-19 19:05

小白也想写综述（一）

前言在选择科研方向时，考虑自己的兴趣和职业目标是非常重要的：综述论文的价值：撰写综述论文，尤其是在深度强化学习和区块链这样的前沿技术领域，能够帮助建立扎实的理论基础，并且对整个领域有一个全面的认识。

Joy T·2023-11-19 10:38

小白也想搞科研（一）之DRL优化数据库查询执行计划

我知道深度强化学习在许多领域都取得了显著的成果，你觉得我们可以如何将DRL应用到数据库优化中？研究员B:一个有趣的应用可能是使用DRL来优化查询执行计划。

Joy T·2023-11-19 10:38

基于深度强化学习的智能汽车决策模型

1.基于深度强化学习的智能汽车决策模型以神经网络为核心的智能体最主要的优势在于其依靠大量的数据自主学习的能力，通过数据驱动智能体可以应对各种未经历过的复杂环境。

闲看庭前梦落花·2023-11-19 01:34

英伟达用AI设计GPU：最新H100已经用上，比传统EDA减少25%芯片面积

QbitAl·2023-11-18 20:52

GAN-DQN

GAN-DQN本期介绍一项来自麦吉尔大学的有趣工作，它拓展了分布强化学习在深度学习框架下的应用，提出了一个十分有趣的深度强化学习框架：GAN+DQN。

GPlearndunk·2023-11-17 05:17

深度强化学习论文中的阴影折线图——总结和分析

前言作为目前人工智能算法的一个重要领域，强化学习算法的表现非常出色，然而，强化学习算法的结果是出了名的不稳定：超参数的搜索空间往往非常大，算法对不同超参数都较为敏感，且哪怕仅仅只有随机数种子的不同，算法的结果都可能出现不小的偏差。因此，当今主流的论文都会汇报多个随机数种子下，强化学习算法的平均表现。为了能将算法的表现与随机性同时展示在同一张图中，论文一般会使用带阴影区域的折线图来汇报训练过程中，r

别出BUG求求了·2023-11-14 18:11

强化学习：10种真实的奖励与惩罚应用

在自动驾驶汽车中的应用各种论文都提出了“深度强化学习用于自动驾驶”。

AI科技大本营·2023-11-14 15:48

【新书推荐】【2020】深度强化学习

人类最好从反馈中学习，我们被鼓励采取能带来积极结果的行动，同时又被消极后果的决定所吓倒。这种强化过程可以应用到计算机程序中，使它们能够解决经典编程无法解决的更复杂的问题。Humanslearnbestfromfeedback—weareencouragedtotakeactionsthatleadtopositiveresultswhiledeterredbydecisionswithnegati

梅花香——苦寒来·2023-11-13 18:57

DoorGym：开源的可拓展的开门仿真环境，用于域随机化的强化学习、深度强化学习

0.概述目的：创建一个可以改变门把手形状、类型、位置、环境颜色、照明条件、机械臂结构的仿真环境，以训练出鲁棒性更高、更能关注到任务本质特征、容易迁移到现实的模型网址：环境下载，1.领域随机化DR假设很难对目标域进行完美建模，但很容易创建许多不同的模拟来近似目标域2.引擎Unity：用来为视觉提供渲染画面Mujoco：使用对应框架和接口3.环境组成：机械臂、门、门把手、门框、墙；其中前三者的物理特性

阿航626·2023-11-12 04:57

机器学习之深度强化学习

机器学习之深度强化学习机器学习最酷的分支应该算是深度学习（Deeplearning）和强化学习（Reinforcementlearning）。

丫头片子不懂事·2023-11-11 06:11

【深度强化学习】1. 基础部分

文章目录强化学习纲要-基础部分强化学习应用案例强化学习在做什么？基本要素分类1.按照Agent有没有对环境建模来分类2.按照Agent的决策方式来分类时序决策过程动作空间智能体主要组成部分1.Policy2.ValueFunction3.ModelExplorationandExploitation知识点补充致谢参考内容强化学习纲要-基础部分【DataWhale打卡】第一天：学习周博磊讲的强化学习

*pprp*·2023-11-10 13:22

Jupyter Notebook：内核似乎挂掉

梦断紫丁香·2023-11-09 04:25

具有非线性动态行为的多车辆列队行驶问题的基于强化学习的方法

研究人员专注于通过传统控制策略以及最先进的深度强化学习(RL)方法解决自动驾驶车辆控制的各种方法。在这项研究中，除了提出基于RL的最优间隙控制器之

龙晨天·2023-11-07 20:21

利用深度强化学习求解车辆调度问题时的框架该怎么样设计？

设计一个深度强化学习框架来解决车辆调度问题是一个复杂而有挑战性的任务。

喝凉白开都长肉的大胖子·2023-11-06 01:06

Google DeepMind研究员杨梦娇：基础模型与顺序决策的问题、方法、及应用

她的研究兴趣包括模仿学习、深度强化学习(RL)、顺序决策、和基础模型。她的工作涵盖了离线强化学习、顺序决策的表示学习，以及控制、规划和RL的生成建模。

智源社区·2023-11-05 22:21

强化学习路线规划之深度强化学习代码

虽然说很多代码都有问题，但是不管它们，我不是为了去debug，紧盯住自己的目标，目标是整理出一条通常的强化学习之路，让自己以及看到这些博客的大家在学习的时候能够少走一些弯路。所以从q-learning和Sarsa开始，这些基础代码不需要借助框架，所以没什么太大问题。但是深度学习的话就要借助TensorFlow或者pytorch框架，而这两个框架都分别出了两个版本，就导致前后的兼容性较差，前人的经验

eyexin2018·2023-11-05 20:16

【强化学习】14 —— A3C（Asynchronous Advantage Actor Critic）

A3C是一种非常有效的深度强化学习算法，在围棋、星际争霸等复杂任务上已经取得了很好的效果。接下来，我们先从A3C的名称入手，去解析这个算法。

yuan〇·2023-11-04 00:53

小郁同学·2023-11-03 16:02

深度强化学习

深度强化学习14.1强化学习问题14.1.1强化学习定义14.1.2马尔可夫决策过程14.1.3强化学习的目标函数14.1.4值函数14.1.5深度强化学习14.2基于值函数的学习方法14.2.1动态规划算法

爱蹦跶的小贺·2023-11-03 04:20

强化学习简单介绍

2.动作值函数（Q函数）3.贝尔曼方程的表达式状态值函数的贝尔曼方程：动作值函数的贝尔曼方程：4.贝尔曼方程的应用策略迭代和值迭代策略迭代值迭代Q学习Q学习的基本原理Q学习的优缺点优点：缺点：应用领域深度强化学习深度强化学习的主要组成部分

百年孤独百年·2023-11-01 12:33

强化学习 DQN 速成

强化学习DQN速成这是对《深度强化学习》王树森张志华中DQN部分的缩写以及部分内容的个人解读书中的DQN是一个相对终极版本的存在，相信体量会比网络上其他资料要大很多基本概念我们通过贪吃蛇来引入几个基本概念符号中文说明

Jarden_·2023-11-01 05:21

深度强化学习中的神经网络部分的作用是什么？一般如何选择合适的神经网络呢？

在深度强化学习中，神经网络部分通常用于实现值函数近似或策略近似，以帮助智能体学习如何在一个环境中做出决策以获得最大的累积奖励。

喝凉白开都长肉的大胖子·2023-10-31 13:20

强化学习--Prioritised Replay DQN

二、核心算法(深度强化学习)PrioritisedReplayDQN总结前言强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，

百度pkq·2023-10-31 03:14

深度强化学习用于博弈类游戏-基础测试与说明【1】

深度强化学习用于博弈类游戏-基础【1】1.强化学习方法2.强化学习在LOL中的应⽤2.1环境搭建2.2游戏特征元素提取1)小地图人物位置：2)人物血量等信息3)在整个图像上寻找小兵、防御塔的位置4）自编码器提取

cnjs1994·2023-10-29 17:56

【强化学习】10 —— DQN算法

文章目录深度强化学习价值和策略近似RL与DL结合产生的问题深度强化学习的分类Q-learning回顾深度Q网络（DQN）经验回放优先经验回放目标网络算法流程代码实践CartPole环境代码结果参考深度强化学习价值和策略近似我们可以利用深度神经网络建立这些近似函数深度强化学习使强化学习算法能够以端到端的方式解决复杂问题

yuan〇·2023-10-29 08:56

关于我自学基于深度强化学习后课评

随着科技的发展和社会的进步，这个世界变得越来越神奇，我们大家看到了围棋高手和“阿尔法围棋”的人机大战，我们也见识到了人工智能、无人驾驶、语音识别、移动支付等等各种各样最新的技术和概念，这一切都是创造精神带给我们的，也让我们对未来充满了更多的`期待欢迎大家和我一起探讨自动驾驶相关技术，没学习之前我也很好奇这种无人驾驶是怎样实现的？我目前也发过上百个无人驾驶相关数据，大家有需要可以下载来看，下载都是免

面试题库test·2023-10-28 21:28

在Win10上安装Pytorch0.4.0及其他相关安装包（基于《深度强化学习入门与实践指南》）

最近在学习《深度强化学习入门与实践指南》，书中给出了其所有代码所用的安装包及版本如下图：但是这些版本代码比较老了，特别是Pytorch的0.4.0版本在官网上一直没找到，折腾了好一段时间。

CGEFAstro·2023-10-25 04:31

深度增强学习：走向通用人工智能之路

深度增强学习：走向通用人工智能之路本文是系列文章中的第一篇，是对深度增强学习/深度强化学习的基本介绍以及对实现通用人工智能的探讨。现在但凡写人工智能的文章，必提AlphaGo。

isuccess88·2023-10-23 15:37

深度强化学习第 5 章 SARSA 算法

上一章介绍了Q学习的表格形式和神经网络形式（即DQN）。TD算法是一大类算法的总称。上一章用的Q学习是一种TD算法，Q学习的目的是学习最优动作价值函数Q⋆Q_⋆Q⋆本章介绍SARSA，它也是一种TD算法，SARSA的目的是学习动作价值函数Qπ(s,a)Q_π(s,a)Qπ(s,a)。5.1表格形式的SARSA5.1.1推导表格形式的SARSA学习算法5.2神经网络形式的SARSA5.3多步TD目标

Chen_Chance·2023-10-21 16:42

深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

2017-03-25机器之心原创作者：DukeLee参与：马亚雄、吴攀、吴沁桐、AracWu强化学习在与之相关的研究者中变得越来越流行，尤其是在DeepMind被Google收购以及DeepMind团队在之后的AlphaGo上大获成功之后。在本文中，我要回顾一下DavidSilver的演讲。DavidSilver目前任职于GoogleDeepMind团队。他的演讲可以帮助我们获得对强化学习（RL）

舍得叔叔·2023-10-21 05:47

深度强化学习第 4 章 DQN 与 Q 学习

4.1DQN最优动作价值函数的用途假如我们知道Q⋆Q_⋆Q⋆，我们就能用它做控制。我们希望知道Q⋆Q_⋆Q⋆，因为它就像是先知一般，可以预见未来，在t时刻就预见t到n时刻之间的累计奖励的期望。假如我们有Q⋆Q_⋆Q⋆这位先知，我们就遵照先知的指导，最大化未来的累计奖励。然而在实践中我们不知道Q⋆Q_⋆Q⋆的函数表达式。是否有可能近似出Q⋆Q_⋆Q⋆这位先知呢？对于超级玛丽这样的游戏，学出来一个“先

Chen_Chance·2023-10-20 22:52

Pytorch训练深度强化学习时CPU内存占用一直在快速增加

最近在用MATD3算法解决多机器人任务，但是在训练过程中，CPU内存一直在增加（注意，不是GPU显存）。我很头疼，以为是算法代码出了问题，导致了内存泄漏，折腾了1天也没解决。后来用memory_profiler对代码分析，才发现是这个函数占用的内存一直在增加：defstore_transition()说白了，就是经验池的存储函数，也就是因为一直往经验池里加数据导致内存增加。那为啥以前我没感觉到内存

Coder_Jh·2023-10-20 12:25

《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.6 人工智能的未来

在我们写第二版时，人工智能中一些最显著的发展涉及强化学习，最明显的是“深度强化学习”——通过深度人工神经网络进行函

oni小涛·2023-10-19 13:31

AutoPentest-DRL-使用深度强化学习的自动渗透测试

AutoPentest-DRL是基于深度强化学习（DRL）技术的自动渗透测试框架。

GuiltyFet·2023-10-18 11:32

深度强化学习发展现状及展望：万字总结解读83篇文献

深度强化学习是深度学习与强化学习相结合的产物，它集成了深度学习在视觉等感知问题上强大的理解能力，以及强化学习的决策能力，实现了端到端学习。

Coder_Jh·2023-10-18 04:52

推荐频道

深度强化学习

【 ChatGPT作者LilianWeng博客总结】智能体=LLM(大语言模型)+记忆+规划技巧+工具使用...

【论文阅读】1 SkyChain：一个深度强化学习的动态区块链分片系统

文章解读与仿真程序复现思路——电力系统保护与控制EI\CSCD\北大核心《基于深度强化学习的城市配电网多级动态重构优化运行方法》

深度强化学习-策略梯度算法深入理解

＜深度强化学习落地方法论＞ 笔记

深度强化学习落地方法论（4）——动作空间篇

《深度强化学习落地指南》读书笔记2--动作空间设计

深度强化学习中的动作屏蔽（Action Masking）

基于通用学习环境和多智能体深度强化学习的列车运行图

Gym迎来首个完整环境文档，强化学习入门更加简单！

【重磅】ICLR2020 || 106篇深度强化学习顶会论文汇总

Talk | CoRL‘23 最佳系统论文奖入围，庄子文：用深度强化学习让机器狗学会跑酷

深度学习基础

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于深度强化学习的园区综合能源系统低碳经济调度》

强化学习中的Transformer发展到哪一步了？清北联合发布TransformRL综述

小白也想写综述（一）

小白也想搞科研（一）之DRL优化数据库查询执行计划

基于深度强化学习的智能汽车决策模型

英伟达用AI设计GPU：最新H100已经用上，比传统EDA减少25%芯片面积

GAN-DQN

深度强化学习论文中的阴影折线图——总结和分析

强化学习：10种真实的奖励与惩罚应用

【新书推荐】【2020】深度强化学习

DoorGym：开源的可拓展的开门仿真环境，用于域随机化的强化学习、深度强化学习

机器学习之深度强化学习

【深度强化学习】1. 基础部分

Jupyter Notebook：内核似乎挂掉

具有非线性动态行为的多车辆列队行驶问题的基于强化学习的方法

利用深度强化学习求解车辆调度问题时的框架该怎么样设计？

Google DeepMind研究员杨梦娇：基础模型与顺序决策的问题、方法、及应用

强化学习路线规划之深度强化学习代码

【强化学习】14 —— A3C（Asynchronous Advantage Actor Critic）

强化学习书籍与课程推荐

深度强化学习

强化学习简单介绍

强化学习 DQN 速成

深度强化学习中的神经网络部分的作用是什么？一般如何选择合适的神经网络呢？

强化学习--Prioritised Replay DQN

深度强化学习用于博弈类游戏-基础测试与说明【1】

【强化学习】10 —— DQN算法

关于我自学基于深度强化学习后课评

在Win10上安装Pytorch0.4.0及其他相关安装包（基于《深度强化学习入门与实践指南》）

深度增强学习：走向通用人工智能之路

深度强化学习 第 5 章 SARSA 算法

深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

深度强化学习 第 4 章 DQN 与 Q 学习

Pytorch训练深度强化学习时CPU内存占用一直在快速增加

《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.6 人工智能的未来

AutoPentest-DRL-使用深度强化学习的自动渗透测试

深度强化学习发展现状及展望：万字总结解读83篇文献

＜深度强化学习落地方法论＞笔记

深度强化学习第 5 章 SARSA 算法

深度强化学习第 4 章 DQN 与 Q 学习