Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons_第1张图片

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons_第2张图片

 

Abstract

  动物会重复奖励的行为,但基于奖励的学习的生理基础仅得到了部分阐明。一方面,实验证据表明神经调节剂多巴胺携带有关奖励的信息并影响突触可塑性。另一方面,强化学习理论为基于奖励的学习提供了框架。奖励调节的脉冲时序依赖可塑性(R-STDP)的最新模型已迈出了弥合两种方法之间差距的第一步,但仍面临两个问题。首先,强化学习通常是在不适合自然情况描述的离散框架中制定的。其次,生物学合理的R-STDP模型需要精确计算奖励预测误差,但神经元如何计算该价值仍有待证明。在这里,我们通过将Doya(2000)的连续时序差分(TD)学习扩展到以连续时间操作的具有连续状态和动作表示的执行者-评论者网络中脉冲神经元的情况,以提出这些问题的解决方案。在我们的模型中,评论者学会了实时预测期望的未来奖励。它的活动以及实际奖励,决定了向其自身和执行者传递神经调节性TD信号的能力,而后者负责选择动作。在仿真中,我们通过许多与报道的动物表现相符的试验,证明了这种架构可以解决与Morris类似水迷宫般的导航任务。我们还使用我们的模型来解决acrobot和cartpole问题这两个复杂的运动控制任务。我们的模型提供了一种计算大脑奖励预测误差的合理方法。此外,从分析得出的学习规则与多巴胺调节的STDP的实验证据是一致的。

 

Author Summary

  每只狗的主人都知道,动物会重复能够获得奖励的行为。但是,基于奖励的学习所基于的大脑机制是什么?实验研究指出,神经元之间的突触连接具有可塑性,神经调节剂多巴胺起着重要作用,但是在学习过程中突触活动和神经调节之间相互作用的确切方式尚不清楚。在这里,我们提出一个模型,解释奖励信号如何与突触可塑性相互作用,并使用该模型解决模拟的迷宫导航任务。我们的模型从强化学习的理论中扩展了一个概念:一组神经元形成一个“执行者”,负责选择动物的运动方向。另一组神经元,即“评论者”,其作用是预测智能体将获得的奖励,它利用实际奖励与预期奖励之间的不匹配来指导两组输入的突触。我们的学习智能体学会可靠地走迷宫,以找到奖励。值得注意的是,我们从理论考虑中得出的突触学习规则与基于实验证据的先前规则相似。

 

Introduction

 

  动物行为学习的许多实例,例如觅食中的寻路,或者——一个更加人为的例子——Morris水迷宫导航,可以解释为探索和反复试验学习。 在两个例子中,动物最终学会的行为都是导致高报酬的行为。 这些可以是食欲奖励(即食物)或更间接的奖励,例如在水迷宫中寻找平台的救济。
在了解如何在哺乳动物的大脑中学习这种行为方面已取得重要进展。
一方面,强化学习框架[1]为稀疏奖励事件的学习提供了一种理论和算法。 强化学习的一种特别吸引人的形式是时差(TD)学习[2]。
在标准设置中,该理论假设代理通过在离散时间步长中选择适当的动作来在其环境中的状态之间移动。 奖励是在状态和行动的某些结合中给出的,代理商的目的是选择其行动,以最大程度地获得其所获得的奖励。 已经开发了几种算法来解决该问题的标准格式,其中一些算法已与尖峰神经系统一起使用。 这些包括REINFORCE [3,4]和部分可观察到的Markov决策过程[5,6],以防代理商对自己的状态不完全了解。
另一方面,实验表明,当发生奖励或奖励预测事件时,与愉悦相关的神经递质多巴胺会释放到大脑中[7]。 多巴胺已被证明可以在定时非特定方案中调节可塑性的诱导[8-11]。 多巴胺最近还显示出可调节依赖于时机的可塑性(STDP),尽管尚不清楚诱导长期增强(LTP)和长期抑郁(LTD)的确切时机和多巴胺的要求[12]。 –14]。

将生物神经网络与强化学习联系起来的一个关键问题是强化学习的典型表述依赖于状态,动作和时间的离散描述,而尖峰神经元会在连续时间内自然进化,并且生物学上合理的“时间步伐”很难 预见。较早的研究表明,可能涉及外部复位[15]或theta振荡[16],但尚无证据支持这一点,并且尚不清楚为什么进化会比连续决策机制更倾向于较慢的决策步骤。 实际上,生物学决策通常是通过连续时间中的整合过程来建模的[17],其中当整合值达到阈值时触发实际决策。

 

 

Results

 

Spiking Neuron Critic

 

Linear Track Simulation

 

Spiking Neuron Actor

 

Water-Maze Simulation

 

Acrobot Task

 

Cartpole Task

 

Discussion

 

Biological Plausibility

 

Limitations

 

Synaptic Plasticity and Biological Relevance of the Learning Rule

 

Insights for Reward-Modulated Learning in the Brain

 

Models

 

Neuron Model

 

Acrobot Task

 

Cartpole Task

 

Actor Dynamics

 

Other Reward-Modulated Synaptic Learning Rules

 

Simulation Details

 

Derivation of δV/δwij

 

Derivation of the Squared TD Gradient Learning Rule

 

Noise Correlation Problem

 

Noise Correlation in the TD-LTP Rule

 

The Trouble with Continuous Q-Learning

 

你可能感兴趣的:(Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons)