多智能体强化学习简介

前言

兜兜转转总算找到了一些看得进去的知识和文章,能把博弈论知识混杂到无人机集群之中的最好方式还是很少的,也算机缘巧合找到这个学习资料还算不十分贫瘠的领域。当然难度也是TOP级别的,毕竟自己连单智能体的强化学习都没整明白。

最后,我是跌跌撞撞摸索了好久才终于摸到了一些探索的方向,所以特别想写出来告诉后生,一定要找个能带领你去研究的实验室,至少这个方向导师是熟悉的,不然什么都靠你自己去摸索能摸到锤子。

矩阵博弈

首先多智能体强化学习的定义很简单,多智能体每个个体通过与环境交互获得奖励值来改善自身的学习行为,从而获得该环境下的最有策略的过程。因为多智能体之间必然会包含各式各样的合作和竞争过程,因此博弈的概念就有了用武之地。

对于矩阵博弈的结果,我们想得到更优的效果,往往需要采取一定的策略,策略分为纯策略和混合策略,我们拿几个简单的游戏举例子:

典型的囚徒博弈,这里不细讲,人们往往会选择更加符合自身利益的选择,因此理智的参与者都会选择保全自己,尽管这样的结果并不是最优的,但是几乎是100%发生的,这就是纯策略;而对于抛硬币,一个百分之50随机的结果往往才能得到均衡的结果,这时我们采取的策略并不是只有一种,可能是正也可能是反,这就是混合策略。

线性规划求解双智能体零和博弈

这部分是参考加拿大科学家霍华德著作《多智能体机器学习:强化学习方法》,他使用了三个典型的汇报矩阵去求解纳什均衡值,公式如下:
多智能体强化学习简介_第1张图片

马尔科夫博弈

当然,上面的例子只是双人博弈中最常见的例子和最简单的解决方法,对于更复杂和真实的情况,我们往往需要马尔科夫博弈来帮忙。

顾名思义,马尔科夫博弈是由马尔可夫决策过程和博弈论相结合的产物,首先马尔可夫决策过程表示了多智能体系统的状态符合马尔可夫性,即下一刻状态只与当前状态有关,与前面的时刻没有直接关系;其次博弈代表了多智能体之间的关系,或是合作,或是竞争,亦或两者都有。

首先回顾一下博弈论,现代意义上的博弈论一般分为合作博弈和非合作博弈,一般来讲我们大多数讲的都是后者,非合作博弈根据参与博弈的参与人做决策的先后顺序可以分为:静态博弈和动态博弈,前者我们刚刚已经举了例子,即双智能体零和博弈,后者则是参与人有先后顺序的参与博弈。

接着还有一些概念,如占优策略,其是指如果一方在任何情况下从某种策略中得到的回报均大于从另外一种策略得到的回报,那么这个策略就可以成为占优策略,理性的智能体都是会选择占优策略,也因此囚徒困境中每人按照自己占优策略的选择最后导致了最差情况的发生。但是一般情况来说,并非会有占优策略,更重要的是更具有一般性的纳什均衡策略,但是当我们可以得知对手的策略时,纳什均衡策略可能并不是最优的。

环境

目前来看,最适合的强化学习环境还是基于Python的GYM环境,于是又重新拾起来anaconda。。。

道阻且长

下一篇博客可能就是记录个人第一天实习入职的相关分享了,又是新的开始了,加油

你可能感兴趣的:(姹紫嫣红旁,有青青绿绿)