深度强化学习DRL

启元世界（Inspir.ai）技术浅析（一）

公司汇聚了来自全球顶尖公司和高等学府的技术专家，专注于深度强化学习、推荐算法以及机器学习系统平台等前沿领域，并成功将人工智能技术应用于数字娱乐、智能决策和机器人等多个领域。

爱研究的小牛·2025-01-30 12:28

基于CNN+Transformer混合模型实现交通流量时序预测(PyTorch版)

商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域，讨论了各种复杂的深度神经网络思想，如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习

矩阵猫咪·2025-01-26 16:34

深度强化学习在高频交易中的动态策略优化与收益提升

文章目录1.高频交易的核心挑战与强化学习的适应性1.1高频交易中的核心问题1.2强化学习的适配性分析2.基于深度Q网络（DQN）的高频交易策略设计2.1状态空间构建：从LOB到特征工程2.2动作空间与奖励函数设计2.3DQN模型架构与训练优化3.业务视角下的策略优化与风险管理3.1策略有效性验证3.2实时部署与延迟优化3.3合规与伦理考量4.实验：基于NASDAQLOB数据的策略对比4.1数据集与

二进制独立开发·2025-01-26 04:36

【强化学习】PyTorch-RL框架

学习环境配置四、学习资源五、实践与应用六、常见问题与解决方案七、深入理解强化学习概念八、构建自己的强化学习环境九、调试与优化十、参与社区与持续学习一、框架简介PyTorch-RL是一个基于PyTorch框架的深度强化学习项目

大雨淅淅·2025-01-20 05:52

深度强化学习(DRL)原理与代码实战案例讲解

1.背景介绍1.1人工智能的演进：从符号主义到连接主义人工智能(AI)的发展经历了漫长的历程，从早期的符号主义到如今的连接主义，标志着人工智能从基于规则的推理演变到基于数据的学习。符号主义AI试图通过逻辑和符号系统来模拟人类的思维过程，而连接主义AI则侧重于构建类似于人脑神经网络的结构，通过大量数据进行训练，从而实现智能。1.2强化学习：智能体与环境的互动强化学习(ReinforcementLea

AI大模型应用之禅·2025-01-19 09:27

【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析

【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析介绍常用技巧算法步骤DQN源码实现网络结构训练策略DQN算法进阶双深度Q网络（DoubleDQN）竞争深度Q网络（DuelingDQN）优先级经验回放

视觉萌新、·2025-01-17 15:17

探索未来，大规模分布式深度强化学习——深入解析IMPALA架构

探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿

汤萌妮Margaret·2024-09-15 12:30

深度强化学习：智能体的学习与决策

引言深度强化学习结合了强化学习与深度学习的优势，通过智能体与环境的交互，使得智能体能够学习最优的决策策略。深度强化学习在自动驾驶、游戏AI、机器人控制等领域表现出色，推动了人工智能的快速发展。

Network_Engineer·2024-09-08 12:58

深度强化学习之DQN-深度学习与强化学习的成功结合

目录概念深度学习与强化学习结合的问题DQN解决结合出现问题的办法DQN算法流程总结一、概念原因：在普通的Q-Learning中，当状态和动作空间是离散且维数不高的时候可以使用Q-Table来存储每个状态动作对应的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。一是因为当问题复杂后状态太多，所需内存太大；二是在这么大的表格中查询对应的状态也是一件很耗时的事情。image通常的做法是把

CristianoC·2024-09-07 14:39

（18-1）基于深度强化学习的股票交易模型：项目介绍+准备环境

在本章的这个项目中，实现了一个用于股票交易的DRL模型，旨在展示DRL在金融领域的潜力，提供其在股票交易中应用的实际例子。

码农三叔·2024-09-05 11:52

人工智能&机器学习&深度学习

深度强化学习：一切运用了神经网络作为参数结构进行优化的强化学习算法。人工智能定义与分类人工智能（Art

AA杂货铺111·2024-09-03 06:26

学习日志6

关于量子强化学习：论文Variational_Quantum_Circuits_for_Deep_Reinforcement_Learning：变分量子电路在深度强化学习中的应用论文主要内容：将经典深度强化学习算法

Simon#0209·2024-09-02 22:21

【科技前沿】用深度强化学习优化电网，让电力调度更聪明！

Hey小伙伴们，今天我要跟大家分享一个超级酷炫的技术应用——深度强化学习在电网优化中的典型案例！如果你对机器学习感兴趣，或是正寻找如何用AI技术解决实际问题的方法，这篇分享绝对不容错过！‍

风清扬雨·2024-09-01 19:05

drools in java_drools 编程例子

这篇文章主要讲解如何在项目中执行DRL文件并取得结果。

weixin_39829501·2024-08-24 16:33

基于人工智能的期权量化交易

基于人工智能的期权量化交易基于人工智能的期权量化交易基于人工智能的期权量化交易该文基于人工智能AI的深度强化学习,进行股票期权的量化投资策略研究及回测评估。作者建立了人工智能学习及交易系统。

阿岛格·2024-02-20 17:23

强化学习入门到不想放弃-1

本来想写到深度学习里的，但是线下和别人聊RLHF，和PPO,DPO的时候，我发现大家一脑袋问号，其实也正常，深度学习里面数学的东西没那么多，入门容易一点，强化学习（现在也都谈强化深度学习，或者深度强化学习了

周博洋K·2024-02-20 06:29

王树森：学 DRL 走过的弯路太多，想让大家避开（文末赠送福利）

大家都知道，深度强化学习（DeepReinforcementLearning，DRL）就是应用了神经网络的强化学习。而强化学习是机器学习的一个分支，研究如何基于对环境的观测做出决策，以最大化长期回报。

人工智能与算法学习·2024-02-12 15:43

KIE

生命周期Author创作使用DRL、BPMN2、决策表、类进行知识创作构建将创作的知识构建为可部署的单元

金刚_30bf·2024-02-10 18:23

深度强化学习系列【1】- 强化学习的背景、基础理论等

深度强化学习系列【1】-强化学习的背景、基础理论等1.深度强化学习的背景、发展与理论变迁1.1序1.2AlphaGo的崛起1.3Waymo(谷歌收购)加州公共道路无人驾驶项目获批1.4关于生物的神经元数

cnjs1994·2024-02-06 17:52

深度强化学习基础【1】-动态规划问题初探（leetcode算法的63题-不同路径II）

这深度强化学习基础【1】-动态规划问题初探（leetcode算法的63题-不同路径II）1.问题描述2.问题分析3.Python编程实现3.1For循环遍历3.2滚动数组实现3.3试验测试结果1.问题描述

cnjs1994·2024-02-06 17:20

PyTorch 2.2 中文官方教程（八）

这个教程将带你了解深度强化学习的基础知识。最后，你将实现一个能够自己玩游戏的AI马里奥（使用双深度Q网络）。虽然这个

绝不原创的飞龙·2024-02-05 08:45

深度强化学习——基本概念(1)

一、基本概念1、状态、动作、智能体可以认为状态就是第一张图的环境，虽然状态和observation还是有区别智能体Agent是马里奥，动作Action就是上下左右的运动2、策略函数（policyΠ）强化学习的重点就是求出这个策略函数，使得在任意一个给定状态S可以做出最应该采取的动作，只要有了policy函数，就可以让超级玛丽自动做出动作来打赢游戏，agent的动作是随机的，根据policy输出的概

Tandy12356_·2024-02-05 02:19

OpenAI Gym 高级教程——深度强化学习库的高级用法

PythonOpenAIGym高级教程：深度强化学习库的高级用法在本篇博客中，我们将深入探讨OpenAIGym高级教程，重点介绍深度强化学习库的高级用法。

Echo_Wish·2024-02-05 02:49

论文阅读-一种用于大规模分布式文件系统中基于深度强化学习的自适应元数据管理方案

名称：AnAdaptiveMetadataManagementSchemeBasedonDeepReinforcementLearningforLarge-ScaleDistributedFileSystemsI.引言如今，大型集群文件系统的规模已达到PB甚至EB级别，由此产生的数据呈指数级增长。系统架构师不断设计和优化技术和方法，以向用户提供理想的服务。在这种情况下，元数据管理在提高系统性能中扮

向来痴_·2024-02-03 17:59

机器学习---强化学习---目前的坑

微尘强化学习MAB嗑盐ing；nlp/推荐系统预备卒53人赞同了该回答深度强化学习~1.深度强化学习可能是非常采样低效的（sampleinefficient）：强化学习也有其规划谬误，学习一个策略通常需要比想象更多的样本

Iverson_henry·2024-02-02 16:40

深度强化学习（王树森）笔记11

深度强化学习（DRL）本文是学习笔记，如有侵权，请联系删除。本文在ChatGPT辅助下完成。

阿正的梦工坊·2024-02-01 20:38

时空AI技术：深度强化学习在智能城市领域应用介绍

深度强化学习是近年来热起来的一项技术。深度强化学习的控制与决策流程必须包含状态，动作，奖励是三要素。在建模过程中，智能体根据环境的当前状态信息输出动作作用于环境，然后接收到下一时刻状态信息和奖励。

JUST极客·2024-02-01 18:30

使用Isaac Gym 来强化学习mycobot 机械臂执行抓取任务

当尝试使用机器人进行深度强化学习时，在物理机器上准备大量训练数据可能具有挑战性。但是，使用模拟器，很容易收集大量数据集。然而，对于那些不熟悉它们的人来说，模拟器可能看起来令人生畏。

大象机器人·2024-02-01 13:57

一起学习飞桨深度强化学习算法DQN

LEARN_FREQ=5#trainingfrequencyMEMORY_SIZE=200000MEMORY_WARMUP_SIZE=200BATCH_SIZE=64LEARNING_RATE=0.0005GAMMA=0.99#trainanepisodedefrun_train_episode(agent,env,rpm):total_reward=0obs=env.reset()step=0w

路人与大师·2024-01-31 18:35

icra2021 reinforcement learning paper list

reinforcementlearningAutonomousVehicleNavigationDeepReinforcementLearningforMaplessNavigationofaHybridAerialUnderwaterVehiclewithMediumTransition自从在Atari类游戏中将深度Q学习应用于连续动作域以来，用于运动控制的深度强化学习

吃醋不吃辣的雷儿·2024-01-31 08:09

深度强化学习（王树森）笔记09

深度强化学习（DRL）本文是学习笔记，如有侵权，请联系删除。本文在ChatGPT辅助下完成。

阿正的梦工坊·2024-01-30 09:19

深度强化学习（王树森）笔记07

深度强化学习（DRL）本文是学习笔记，如有侵权，请联系删除。本文在ChatGPT辅助下完成。

阿正的梦工坊·2024-01-30 00:53

深度强化学习基本概念-王树森课程笔记

学习资料：深度强化学习课程-王树森目录一、概率论知识二、强化学习专业术语三、强化学习的随机性来源1.action2.statetransition四、Rewards,Returns&ValueFuctions1

淀粉爱好者·2024-01-29 12:06

深度强化学习 _Actor-Critic 王树森课程笔记

Actor-CriticMethod一、ValueNetwokandPolicyNetwork1.Policynetwork(Actor):π(a∣s;θ)\pi(a|s;\bm\theta)π(a∣s;θ)2.Valuenetwork(Critic):q(s,a;w)q(s,a;\textbf{w})q(s,a;w)二、训练神经网络1.用TD算法更新价值网络2.用策略梯度算法更新策略网络三、Ac

淀粉爱好者·2024-01-29 12:06

深度强化学习（王树森版）学习笔记（一）——机器学习基础

向南而行灬·2024-01-29 12:35

深度强化学习（王树森）笔记06

深度强化学习（DRL）本文是学习笔记，如有侵权，请联系删除。本文在ChatGPT辅助下完成。

阿正的梦工坊·2024-01-29 12:01

人工智能时代的十大核心技术：重塑未来的无限可能 - 第八章 - 深度增强学习，开启AI智能新篇章

其中，深度增强学习（DeepReinforcementLearning,DRL）作为AI领域的一颗璀璨明星，正引领着AI系统在复杂环境中实现更高的智能水平。那么，深度增强学习究竟是什么呢？

百家峰会·2024-01-29 12:59

深度强化学习_AlphaGo 王树森课程笔记

AlphaGo一、游戏规则二、设计思路三、Training1.策略网络1.1State(ofAlphaGoZero)1.2PolicyNetwork1.3BehaviorCloning1.4策略梯度2.价值网络2.1PolicyValueNetworks(AlphaGoZero)2.2训练价值网络四、Execution：MonteCarloTreeSearch1.主要思想2.MCTS步骤2.1St

淀粉爱好者·2024-01-29 03:53

深度强化学习之价值学习-王树森课程笔记

学习资料深度强化学习课程-王树森目录一、Value-basedlearning二、DeepQ-Network(DQN)1.原理2.DQN结构（以超级玛丽为例）3.用DQN操作Agent打游戏三、TemporalDifferenceLearning

淀粉爱好者·2024-01-29 03:23

深度强化学习之策略学习-王树森课程笔记

学习资料深度强化学习课程-王树森目录一、Policy-basedlearning二、PolicyNetwork三、Policy-BasedReinforcementLearning（策略学习）1.用神经网络近似状态价值函数

淀粉爱好者·2024-01-29 03:23

王树森《深度强化学习》学习笔记

基本概念马尔可夫决策过程(MDP)智能体（agent）：强化学习的主体，由谁做动作或决策，谁就是智能体环境（environment）：与智能体交互的对象，可以抽象的理解为交互过程中的规则或机理状态(state)：每个时刻，环境都有一个状态，即对当前时刻环境的概括。状态是做决策的依据状态空间（statespace）：所有可能存在状态的集合动作（action）：智能体基于当前状态所做出的决策动作空间（

ustb_student·2024-01-29 03:22

深度强化学习（王树森）笔记04

深度强化学习（DRL）本文是学习笔记，如有侵权，请联系删除。本文在ChatGPT辅助下完成。

阿正的梦工坊·2024-01-29 03:19

【机器学习】强化学习（八）-深度确定性策略梯度（DDPG）算法及LunarLanderContinuous-v2环境训练示例...

训练效果DDPG算法是一种基于演员-评论家（Actor-Critic）框架的深度强化学习（DeepReinforcementLearning）算法，它可以处理连续动作空间的问题。

十年一梦实验室·2024-01-28 09:53

废土

我是十年前王国所培养出来的强化人，我们强化的目的是为了与Drl的机器人军队相抗衡。

清风醉红楼·2024-01-28 09:28

深度强化学习在避障轨迹规划中的应用【matlab电气工程】

一、主要内容前基于深度强化学习的避障方法，通常是引入额外的奖励函数，例如当机械臂发生碰撞时给予一个惩罚。

坷拉博士·2024-01-28 02:55

深度学习学习笔记-论文研读4-基于深度强化学习的多用户边缘计算任务卸载调度与资源分配算法

本人学识浅薄，如有理解不到位的地方还请大佬们指出，相互学习，共同进步概念引入强化学习DQN算法边缘计算边缘计算，是指在靠近物或数据源头的一侧，采用网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务。其应用程序在边缘侧发起，产生更快的网络服务响应，满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算处于物理实体和工业连接之间，或处于物理实体的顶端。而云端计算，仍然可

丰。。·2024-01-27 17:17

XGBoost系列8——XGBoost的未来：从强化学习到AutoML

目录写在开头1.XGBoost在强化学习中的应用1.1构建强化学习问题1.2XGBoost与深度强化学习的对比1.3实际任务中的成功案例2.XGBoost与AutoML的结合2.1XGBoost在自动特征工程中的应用

theskylife·2024-01-26 21:21

Hierarchical Object Detectionwith Deep Reinforcement Learning

摘要我们提出了一种方法，在深度强化学习agent引导的图像中执行层次对象检测。其关键思想是关注图像中包含更丰富信息的部分，并将其放大。

fayetdd·2024-01-26 09:16

深度强化学习-策略梯度及PPO算法-笔记（四）

策略梯度及PPO算法策略梯度PolicyGradient基础知识策略梯度的计算细节TipsTip1：AddaBaselineTip2：AssignSuitableCredit策略梯度优化的技巧Reinforce蒙特卡洛MC与时序差分TDReinforce算法PPO（ProximalPolicyOptimization）基础知识FromOn-policytoOff-policyImportanceS

wield_jjz·2024-01-25 14:03

2019年上半年收集到的人工智能强化学习干货文章

2019年上半年收集到的人工智能强化学习干货文章从0到1-强化学习篇关于人工智能中强化学习的扫盲强化学习简介深度强化学习探索强化学习算法背后的思想起源！强化学习基础什么是强化学习？

城市中迷途小书童·2024-01-24 22:57

推荐频道

深度强化学习DRL

启元世界（Inspir.ai）技术浅析（一）

基于CNN+Transformer混合模型实现交通流量时序预测(PyTorch版)

深度强化学习在高频交易中的动态策略优化与收益提升

【强化学习】PyTorch-RL框架

深度强化学习(DRL)原理与代码实战案例讲解

【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析

探索未来，大规模分布式深度强化学习——深入解析IMPALA架构

深度强化学习：智能体的学习与决策

深度强化学习之DQN-深度学习与强化学习的成功结合

（18-1）基于深度强化学习的股票交易模型：项目介绍+准备环境

人工智能&机器学习&深度学习

学习日志6

【科技前沿】用深度强化学习优化电网，让电力调度更聪明！

drools in java_drools 编程例子

基于人工智能的期权量化交易

强化学习入门到不想放弃-1

王树森：学 DRL 走过的弯路太多，想让大家避开（文末赠送福利）

KIE

深度强化学习系列【1】- 强化学习的背景、基础理论等

深度强化学习基础【1】-动态规划问题初探（leetcode算法的63题-不同路径II）

PyTorch 2.2 中文官方教程（八）

深度强化学习——基本概念(1)

OpenAI Gym 高级教程——深度强化学习库的高级用法

论文阅读-一种用于大规模分布式文件系统中基于深度强化学习的自适应元数据管理方案

机器学习---强化学习---目前的坑

深度强化学习（王树森）笔记11

时空AI技术：深度强化学习在智能城市领域应用介绍

使用Isaac Gym 来强化学习mycobot 机械臂执行抓取任务

一起学习飞桨 深度强化学习算法DQN

icra2021 reinforcement learning paper list

深度强化学习（王树森）笔记09

深度强化学习（王树森）笔记07

深度强化学习基本概念-王树森课程笔记

深度强化学习 _Actor-Critic 王树森课程笔记

深度强化学习（王树森版）学习笔记（一）——机器学习基础

深度强化学习（王树森）笔记06

人工智能时代的十大核心技术：重塑未来的无限可能 - 第八章 - 深度增强学习，开启AI智能新篇章

深度强化学习_AlphaGo 王树森课程笔记

深度强化学习之价值学习-王树森课程笔记

深度强化学习之策略学习-王树森课程笔记

王树森《深度强化学习》学习笔记

深度强化学习（王树森）笔记04

【机器学习】强化学习（八）-深度确定性策略梯度（DDPG）算法及LunarLanderContinuous-v2环境训练示例...

废土

深度强化学习在避障轨迹规划中的应用【matlab电气工程】

深度学习学习笔记-论文研读4-基于深度强化学习的多用户边缘计算任务卸载调度与资源分配算法

XGBoost系列8——XGBoost的未来：从强化学习到AutoML

Hierarchical Object Detectionwith Deep Reinforcement Learning

深度强化学习-策略梯度及PPO算法-笔记（四）

2019年上半年收集到的人工智能强化学习干货文章

一起学习飞桨深度强化学习算法DQN