MARL——多智能体强化学习特点与架构总结

1. 特点概述

1) 多智能体系统中,每个agent未必能观测到所有的状态信息,此时智能体i得到的观测 o i o^{i} oi通常不等于状态 S S S
2) 智能体动作选择互相影响。
3) 需要通信机制。

2. 3种框架

完全分布式

这种算法框架和单智能体强化学习一样,每个个体都根据自身观测进行训练学习。个体之间没有交流。
这种效果通常不好,因为没有考虑智能体动作选择互相影响的关系。
MARL——多智能体强化学习特点与架构总结_第1张图片

集中式训练,集中式执行 (完全集中式)

存在一种中央控制器(相当于一个中心/全知节点),能够拿到所有agent的观测、奖励函数等,获得所有信息进行训练,执行时根据训练好的策略(不同智能体的策略参数可能不同),传给每个agent,由agent执行。
这种架构每个智能体上没有策略网络,需要花时间与中心节点进行通信与同步。
MARL——多智能体强化学习特点与架构总结_第2张图片
MARL——多智能体强化学习特点与架构总结_第3张图片

集中式训练,分布式执行

每个agent上都有自己的网络,中央控制器有 n n n个价值网络。中央控制器的价值网络是全知的,能够根据所有agent的观测和动作进行评判,针对其所对应的agent传回来的奖励 r i r_i ri进行训练更新。执行的时候,每个agent根据自身网络执行即可。
MARL——多智能体强化学习特点与架构总结_第4张图片
MARL——多智能体强化学习特点与架构总结_第5张图片

!!! 以上内容参考王树森老师的宝藏讲解视频

你可能感兴趣的:(Python与强化学习,架构,学习)