多智能体强化学习-COMA

多智能体强化学习-COMA

论文全称:Counterfactual Multi-Agent Policy Gradients
论文地址:https://arxiv.org/abs/1705.08926v1

摘要

协作多智能体系统可以很自然地用于建模许多现实世界的问题,例如网络分组路由或自主车辆的协调。因此,需要新的强化学习方法来有效地学习这种系统的分散策略。为此,提出了一种新的多智能体参与者批评方法,称为反事实多智能体策略梯度(COMA)。COMA使用一个集中的批评家来估计Q函数,并使用分散的参与者来优化代理的策略。此外,为了解决多代理信用分配的挑战,它使用了一个反事实的基线,将单个代理的行为边缘化,同时保持其他代理的行为不变。COMA还使用了一种临界表示法,允许在一次向前传球中有效地计算反事实基线。

一、介绍

多智能体学习中存在的问题有:
1)智能体的联合动作空间随着智能体的数量呈指数级增长。
2)多智能体信用分配。
为了解决上面的问题,提出了COMA。

二、COMA方法

COMA三个主要思想:1)批评家的中心化,2)反事实基线的使用,3)允许对基线进行有效评估的批评家表示法的使用。

2.1 集中批评家

COMA使用了一个集中的批评家。批评只在学习中使用,而在执行过程中只需要演员。由于学习是集中的,因此可以使用一个集中的批评家,即以联合行动和所有可用的状态信息为条件,而每个代理人的政策条件仅限于其自身的行动观察历史。实现了参数共享。
多智能体强化学习-COMA_第1张图片

当使用这种集中式批评家的一种常见的方法是,每个演员都要根据该批评家估计的TD误差,遵循一个梯度:在这里插入图片描述
然而,这种方法未能解决关键的信用分配问题。因为TD error只考虑全局报酬,对于每个参与者计算的梯度并没有明确地解释特定的智能体的行为是如何为全球回报做出贡献的。

2.2 反事实基线计算优势函数

COMA使用反事实的基线。这个想法的灵感来自于差异奖励。它通过使用集中式批评家来计算一个优势函数来解决置信分配问题,该函数将当前操作的值与一个反事实的基线进行比较,该基线将单个代理的操作边缘化,同时保持其他代理的操作不变。
差异奖励是实现多智能体信用分配的一种有效方法。其中每个智能体都会从一个成形的奖励 在这里插入图片描述

中学习,该奖励将全局奖励与智能体a的操作替换为默认操作ca时收到的奖励进行比较。智能体a改进Da的任何操作也会提高真正的全局奖励r(s,u),因为r(s,(u−a,ca))不依赖于智能体a的操作。然而,它们通常需要访问模拟器来估计r(s,(u−a,ca))。当模拟器已经被用于学习时,差异奖励增加了必须进行的模拟的数量,因为每个代理的差异奖励需要一个单独的反事实模拟。另外,在许多应用中,如何选择ca还不清楚。
因此,反事实基线计算优势函数来解决置信分配问题,优势函数(重要)如下:在这里插入(图片描述
后面一部分是基线计算公式。该基线使用集中的批评家来推理只有智能体a行为改变的反事实。
因此,Aa(s,ua)不依赖于额外的模拟,而是为每个agent计算一个单独的基线。评价当前动作的好坏不跟默认动作比了,而是跟当前策略的平均效果比。

2.3 高效的Critic

COMA使用了一种批评家表示法,可以有效地计算反事实基线。在单个前向传递中,它计算给定代理的所有不同操作的Q值,条件是所有其他代理的操作。结构如下图所示:
多智能体强化学习-COMA_第2张图片
网络的输入部分是其他智能体的动作u−a t,当前多智能体系统的联合状态 St,当前智能体的观测 oa t,当前智能体a和当前智能体的上一时刻的动作ut-1 ,网络为智能体a的每个动作输出Q值。因此,反事实优势可以通过参与者和评论家对每个智能体的单个前向传递来有效计算。此外,输出的数量只有| U |而不是(| U | n)。

三、结论

COMA通过使用反事实基线来解决多智能体信用分配的挑战,该基线将单个代理的行为边缘化,同时保持其他代理的行为不变。并在实验中表明COMA显著提高了最终性能和训练速度。但是对于大量智能体来说,集中的批评者更难训练,因此难以应用到大规模多智能体系统中。

你可能感兴趣的:(强化学习,多智能体,COMA,机器学习,人工智能,算法)