ReinForcement 第12页

Enhancing Text-based Reinforcement Learning Agentswith Commonsense Knowledge

摘要在本文中，我们考虑了利用基于文本的环境和游戏作为评估环境来评估强化学习技术进展的最新趋势。这种对文本的依赖使自然语言处理的进步进入了这些代理的范围，一个循环的线程是使用外部知识来模仿和更好的人类水平的性能。我们展示了一个这样的代理实例，它使用来自ConceptNet的常识知识，在两个基于文本的环境中显示出良好的性能。1.介绍多年来，模拟环境和游戏被广泛用于展示和推动强化学习技术的进步。最近一个

小蜗子·2022-12-31 08:33

RLHF：基于人类反馈（Human Feedback）对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

HuggingFace发表了一篇博客，详细讲解了ChatGPT背后的技术原理——RLHF。笔者读过之后，觉得讲解的还是蛮清晰的，因此提炼了一下核心脉络，希望给对ChatGPT技术原理感兴趣的小伙伴带来帮助。此外，文末整理了几篇关于RLHF最热门的12篇必读论文，卖萌酱打包好挂在公众号后台了，感兴趣的小伙伴可以在公众号“夕小瑶的卖萌屋”后台回复【1212】领取。在过去几年里，基于prompt范式的A

u013250861·2022-12-31 08:58

机器学习方法的基本分类

目录1、监督学习（supervisedlearning）2、无监督学习（unsupervisedlearning）3、强化学习（reinforcementlearning）4、半监督学习（semi-supervisedlearning

宁静_致远_·2022-12-30 20:09

强化学习RL——多臂老虎机问题

说明：本篇是学习ReinforcementLearningChapter2Multi-armBandits多臂老虎机问题的总结和感悟。

乌鸦不像写字台·2022-12-30 13:03

利用 AI 强化学习算法，训练50级比卡超，单挑70级超梦！

作者|MichaelIp责编|寇雪芹出品|AI科技大本营（ID:rgznai100）强化学习（ReinforcementLearning,RL），是机器学习的范式和方法论之一，用于描述和解决智能体（agent

AI科技大本营·2022-12-30 08:51

【论文 AAAI 2020】强化学习投资组合 + 自然语言处理

论文题目：Reinforcement-LearningBasedPortfolioManagementwithAugmentedAssetMovementPredictionStates会议：TheThirty-FourthAAAIConferenceonArtificialIntelligence

greenmoss·2022-12-29 15:21

马尔科夫链（Markov Chain），机器学习和人工智能的基石

01强化学习（ReinforcementLearning）最近，机器学习（MachineLearning）和人工智能（Artificial

喜欢打酱油的老鸟·2022-12-29 14:34

强化学习(Reinforcement Learning)

强化学习的本质可以说为是对贝尔曼方程(Bellmanequation)求最优近似解，强化学习的任务通常称为马尔可夫决策过程(MarkovDecisionProcess,MDP)。应用场景就不说了…MDP(MarkovDecisionProcess)马尔可夫决策过程M=(S,A,,Psa,γ,R):S：目标的状态集合A：目标可以做的所有动作集合s0−→−a0s1−→−a1s2−→−a3⋯Psa：状态

梅mmmmm·2022-12-29 12:19

value iteration和Q-learning算法

Valueiteration和Q-learning构成了强化学习(ReinforcementLearning,RL)的两个基本算法。

半月夏微凉·2022-12-29 12:17

分层强化学习 Data-Efficient Hierarchical Reinforcement Learning（HIRO）（NeurIPS 2018）

\quad分层的思想在今年已经延伸到机器学习的各个领域中去，包括NLP以及很多representataionlearning。\quad近些年，分层强化学习被看作更加复杂环境下的强化学习算法，其主要思想就是将一个大的问题进行分解，思路是依靠一个上层的policy去将整个任务进行分解，然后利用下层的policy去逐步执行。Code:https://github.com/tensorflow/mode

卉卉卉大爷·2022-12-29 07:05

分层强化学习综述：Hierarchical reinforcement learning: A comprehensive survey

论文名称：Hierarchicalreinforcementlearning:Acomprehensivesurvey论文发表期刊：ACMComputingSurveys期刊影响因子：10.282（2022

小帅吖·2022-12-29 07:34

强化学习笔记：分层强化学习

为了解决维度灾难，研究者提出了分层强化学习（hierarchicalreinforcementlearning，HRL）。HRL的主要目标是将复杂的问题分解成多个小问题，分别解

UQI-LIUWJ·2022-12-29 07:03

论文笔记：Hierarchical Deep Reinforcement Learning:Integrating Temporal Abstraction and Intrinsic

2016nips1abstract&introduction在反馈稀疏的环境中学习目标导向的行为是强化学习算法面临的主要挑战。主要困难之一是探索不足，导致智能体无法学习稳健的策略。而具有内在动机的智能体可以为了自己的利益而探索新的行为，而不是直接解决外部目标。这种内在行为最终可以帮助智能体解决环境提出的任务。这篇论文提出了分层DQN(h-DQN)，这是一个集成分层动作价值函数的框架，在不同的时间尺

UQI-LIUWJ·2022-12-29 07:03

论文分享：基于深度强化学习的无人机三维导航

论文题目：DoubleCriticDeepReinforcementLearningforMapless3DNavigationofUnmannedAerialVehicles作者：RicardoBedinGrando1

执着且专注·2022-12-29 07:03

Hierarchical deep reinforcement learning (H-DQN)

论文简述原论文：(http://papers.nips.cc/paper/6233-hierarchical-deep-reinforcement-learning-integrating-temporal-abstraction-and-intrinsic-motivation.pdf

master_hao·2022-12-29 07:03

机器人强化学习——Data-Efficient Hierarchical Reinforcement Learning

1简介以前的分层强化学习在一个学习的嵌入空间中表示goal和reward，本文直接使用原始形式的观测数据作为goal。并且以前的方法使用on-policy学习生成目标状态，效率低。离线学习面临的问题：（1）off-policy算法不稳定（2）在离线数据中，相同的高维goal不一定对应相同的低维action。具体解释在后面针对第二个问题，本文提出off-policycorrection。1.1高维控

千羽QY·2022-12-29 07:03

论文阅读之Virtual-to-real Deep Reinforcement Learning

目录论文意义具体思路强化学习算法的选择测试有效性网络架构反馈设计实验结果分析仿真训练实验测试。实验对照虚拟环境测试真实环境测试实验分析实验结论不足之处（个人意见）论文意义规划机器人的运动，从当前位置移动到目标位置。传统方法：基于激光测绘来获得一个全局障碍图（“Simultaneouslocalizationandmapping:parti），然后对机器人的行为进行规划。但是问题主要有二：建立全局障

暖透流年·2022-12-29 07:30

【论文笔记】基于分层深度强化学习的移动机器人导航方法

1.1.3行为选择模型1.2模型训练2实验分析2.1实验设置2.2实验结果与分析2.2.1训练与测试实验结果2.2.2可视化导航效果2.2.3真实环境下的导航实验3结论摘要针对：基于深度强化学习(deepreinforcementlearning

Ctrl+Alt+L·2022-12-29 07:28

Multi-Agent Deep Reinforcement Learning for Large-scale Traffic Signal Control

目录摘要引言方法总结本文将A2C算法与IQL算法结合，应用到多体的交通信号灯领域，并且为了解决部分可观测的、非稳定的问题，采取了综合邻居信息和空间衰减因子的方法。摘要对于复杂城市交通网络的适应性交通信号灯控制（adaptivetrafficsignalscontrol），强化学习（RL）是一种非常有前景的方法，并且深度神经网络进一步增强了它学习的能力。问题：然而，对于大规模的ATSC，由于联合动作

Conn22·2022-12-29 00:09

[论文笔记]Spectrum Sharing in Vehicular Networks Based on Multi-Agent Reinforcement Learning

本文的研究目标是车在网络中的频谱资源分配问题，具体来讲是如何实现多个V2V链路重用V2I链路的频谱。车载链路中环境的快速变化使传统的在基站处收集CSI信息以进行集中式资源管理成为难题，而本方法将资源共享建模为多主体强化学习问题，并使用适合于分布式实现的基于指纹的深度Q网络实现。V2V链路通过与环境交互更新Q网络进而改善频谱和功率分配。经过验证此方法可以以分布式的方式同时提高V2I链路容量和V2V链

Love_marginal·2022-12-29 00:07

MARL算法系列（1）：IQL【原理+代码实现】

原文题目：Multiagentcooperationandcompetitionwithdeepreinforcementlearning作者：Tampuu,ArdiandMatiisen,TambetandKodelja

二向箔不会思考·2022-12-29 00:01

构建强化学习_如何构建强化学习项目（第1部分）

Istartedmyworkasanundergraduateresearcher.WhatIcanclearlysayisthatitistruethatworkingonaresearchprojectishard,butworkingonanReinforcementLearning

weixin_26752765·2022-12-28 16:03

论文阅读6-----基于强化学习的推荐系统 Deep Reinforcement Learning for List-wise Recommendations

界限消除者·2022-12-28 16:01

基于强化学习的可解释性推荐文献三篇

AReinforcementLearningFrameworkforExplainableRecommendation.IEEE2018现在很多推荐模型的机制是复杂且难以解释的，此时需要在对推荐结果进行事后解释

白水baishui·2022-12-28 16:56

OM | 论文精读：深度强化学习与智慧交通(一）

论文标题：DeepReinforcementLearningforIntelligentTransportationSystems:ASurvey论文作者：AmmarHaydar

运筹OR帷幄·2022-12-28 09:18

机器学习的四种学习方法

文章目录监督学习（SupervisedLearning）无监督学习（UnsupervisedLearning）半监督学习（Semi-supervisedLearning)强化学习（ReinforcementLearning

侬本多情。·2022-12-27 23:33

基于强化学习的图像配准 - Image Registration: Reinforcement Learning Approaches

配准定义给定参考图像I_f和浮动图像I_m，所谓的配准就是寻找一个图像变换T，将浮动图像I_m变换到和I_f相同的坐标空间下，使得两个图像中对应的点处于同一坐标下，从而达到信息聚合的目的。在医学图像配准中，最常见的例子便是将同一个部位的CT图像变换移动到与MRI图像的位置相同，如下图：而配准又分为刚性配准（rigidregistration）和非刚性配准（non-rigidregistration

qq_20448873·2022-12-27 10:10

强化学习-稀疏奖励及模仿学习

稀疏奖励实际上用reinforcementlearninglearnagent的时候，多数的时候agent都是没有办法得到reward的。

数据铁人·2022-12-26 23:34

【RL】Reinforcement Learning Tips and Tricks

强化学习教程资源：https://stable-baselines3.readthedocs.io/en/master/guide/rl.htmlSB3教程：https://github.com/araffin/rl-tutorial-jnrr19/blob/sb3/1_getting_started.ipynb与有固定数据集的监督学习相比，强化学习用来训练智能体的数据来自于智能体与环境的交互。由

None072·2022-12-26 23:02

Q-learning

问题分析我们可以通过强化学习（reinforcementlearning）来解决小鸟怎么飞这个问题。强化学习中有状态（state）、动作（action）、奖赏（reward）这三个要素。智能体（

在路上@Amos·2022-12-26 23:31

模仿学习（Imitation Learning）概述

1.2BehaviorCloning1.2.1算法思路1.2.2算法步骤1.2.3算法特性1.2.4算法改进dataaggregation1.3InverseReinforcementLearning1.3.1

qq_22749225·2022-12-26 23:01

Easy_RL 01：强化学习基础

目录0Overview1RL概况1.1RL定义1.2RL中的建模问题Environment&StateActionAgent2RL实践（python）3RL应用0Overview强化学习（reinforcementlearning

a2426·2022-12-26 23:29

多智能体强化学习算法【一】【MAPPO、MADDPG、QMIX】

MADDPG、QMIX】多智能体强化学习算法【二】【MADDPG、QMIX、MAPPO】多智能体强化学习算法【三】【QMIX、MADDPG、MAPPO】近些年，多智能体强化学习（Multi-AgentReinforcementLearning

汀、·2022-12-26 15:14

强化学习笔记

cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html课程：Berkeleycs188http://inst.eecs.berkeley.edu/~cs188/fa18/书籍：Reinforcementlearning

FlorianFang·2022-12-26 08:57

强化学习学习笔记

入门源码（pytorch实现DQN玩gym，根据代码可以很快了解框架运行流程）https://download.csdn.net/download/mossfan/86902062强化学习是什么强化学习（ReinforcementLearning

mossfan·2022-12-26 08:20

Machine learning week 10(Andrew Ng)

文章目录Reinforcementlearning1.Reinforcementlearningintroduction1.1.WhatisReinforcementLearning?

小白有颗大白梦·2022-12-26 07:35

利用官方torch版GCN训练并测试cora数据集

2708份论文名称，及对应的特征向量组成，分成了七大类，分别是，Case_Based、Genetic_Algorithms、Neural_Networks、Probabilistic_Methods、Reinforcement_L

小风_·2022-12-25 09:38

多智能体强化学习在智能工厂在线调度中应用

来源：RoboticsandComputer-IntegratedManufacturing/2021论文：Multi-agentreinforcementlearningforonlineschedulinginsmartfactories

码丽莲梦露·2022-12-24 22:25

机器学习_周志华_西瓜书_学习笔记_第16章--强化学习

16、强化学习强化学习（ReinforcementLearning，简称RL）是机器学习的一个重要分支，前段时间人机大战的主角AlphaGo正是以强化学习为核心技术。

Tenora鸢栀·2022-12-24 14:12

机器学习第16章（强化学习）

强化学习（reinforcementlearning）16.1任务与奖赏策略的优劣取决于长期执行这一策略后所得到的累积奖赏，在强化学习任务中，学习的目的就是要找到能使长期累积奖赏最大化的策略。

罗辑罗辑·2022-12-24 14:41

机器学习（周志华）第十六章强化学习

摇臂赌博机2.1ϵ\epsilonϵ-贪心2.2Softmax3有模型学习4免模型学习4.1蒙特卡洛强化学习4.2时序差分学习5值函数近似6模仿学习6.1直接模仿学习6.2逆强化学习1任务与奖赏强化学习（ReinforcementLearning

YJY131248·2022-12-24 14:10

NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING 2020-05-07

NEURALCOMBINATORIALOPTIMIZATIONWITHREINFORCEMENTLEARNINGAbstract(借用pointernetwork用policygradient优化,)givenasetofcitycoordinates

zjy2015302395·2022-12-24 10:06

【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

目录论文一、概论二、模型参数公式网络Critic网络actor-critic算法搜索策略三、实验及结果几种不同的实验组合实验结论四、迁移到背包问题定义实验结论![在这里插入图片描述](https://img-blog.csdnimg.cn/20200519165501917.png)论文强化学习+指针网络+组合优化一、概论主要是用强化学习中的策略梯度方法，来计算为TSP建立的指针网络模型的参数。同

Vajuw·2022-12-24 10:34

Paper Reading 3:Continuous control with Deep Reinforcement Learning

优点：End-to-End将DeepReinforcementLearning应用在连续动作空间缺点：对于3D赛车，有时候并不能学习到好的p

songrotek·2022-12-24 10:31

论文学习：Decoupling Value and Policy for Generalization in Reinforcement Learning（强化学习中泛化的解耦价值和策略）

摘要：Standarddeepreinforcementlearningalgorithmsuseasharedrepresentationforthepolicyandvaluefunction,especiallywhentrainingdirectlyfromimages.However

Love Q·2022-12-24 10:55

POMO: Policy Optimization with Multiple Optima for Reinforcement Learning学习笔记

文章目录摘要零、一些基础1.梯度近似2.策略梯度定理3.REINFORCE4.REINFORCEwithBaseline5.REINFORCEActor-Critic一、介绍二、相关工作（1）深度强化学习构建法（2）推理技术（3）深度强化学习改善法三、激励四、多最优解的策略优化POMO1.多启动节点探索2.策略梯度的共享基准3.推理的多贪婪轨迹（1）增加实例五、实验0.基础（1）注意力模型（2）问

好奇小圈·2022-12-24 10:23

机器学习实战（一）：The Machine Learning Landscape

TypesofMachineLearningSystemssupervised,unsuper‐vised,semisupervised,andReinforcementLearningonline,batchlearninginstance-based

一城山河·2022-12-23 15:36

MDP模型之Grid World(值迭代方法)

近期在学习人工智能课程的时候接触到了强化学习(ReinforcementLearning)，并介绍到了一种叫做MDP(马尔可夫决策)的思想，最终布置了伯克利大学的GridWorld作为作业(这段话套的好深

UncoDong·2022-12-23 14:36

通过代码学Sutton强化学习1：Grid World OpenAI环境和策略评价算法

经典教材ReinforcementLearning:AnIntroduction第二版由强化领域权威RichardS.Sutton和AndrewG.Barto完成编写，内容深入浅出，非常适合初学者。

MyEncyclopedia·2022-12-23 14:03

Reinforcement Learning SARSA算法实现以及grid world模拟

gridworldSARSA算法实现gridworldOpenAIGym的Environment大部分是连续空间而不是离散空间的的Environment类，使用gridworld.py就可以模拟Environment的类【1】，【2】。使用这个类可以进行自定义格子的大小，水平和垂直格子数目。每个格子的奖励，初始状态。gridworld.py的初始化函数：def__init__(self,n_wid

Snail_Walker·2022-12-23 14:03

推荐频道

ReinForcement