均值场博弈_平均场博弈论(Mean-field Games)简介

平均场博弈论(Mean-Field Games)研究的是大量对象之间的博弈,探索在一个竞争的环境中,对象如何选择最优的决策。例如股市里大量根据其他用户行为交易股票的股民,海里游动的鱼群,在世界杯现场看足球赛的观众等。目前,平均场博弈论在经济、金融、机器学习等方面都有应用。那什么是平均场呢?平均场的博弈是指在博弈的场景中,某个对象进行决策所依赖的信息来自于场景中所有对象的决策的概率分布,而不是对其他对象的决策进行单个考虑。例如,去市场买菜,我们可以去了解其他所有买菜和卖菜人的买卖行为来做自己买菜的决定,这样是非常麻烦和不方便的。在平均场博弈论中,我们只需要根据菜的市场价来决定自己是否买菜,而这个市场价已经反映了市场中买卖的所有参与者对菜的买卖决策,所以菜的市场价可以看做是一种平均场,反映了市场中其他参与对象决策的概率分布。因此,根据市场价来决策简化了我们做决定的时间和难度。

1.

个对象的博弈

平均场博弈论是对

个对象在

趋向于无穷大的时候的博弈情况的近似。因此,我们首先看看

个对象的博弈。假设现在环境中有

个对象。为了简化模型,我们假设对象之间是不可区分的,例如我们可以想象成有

只蚂蚁,或者

只鸟,每个对象的情况都差不太多,除了所处的状态不同,其他没有多大的差异。

我们用

来表示时间为

的时刻第

个对象所处的位置。为了说明更广泛的情况,我们将

称作第

个对象的状态,它不仅可以表示位置,也可以有其他意义,比如某个股民手里股票的价值等。假设

的变化由下面的常微分方程决定

其中,

的变化率,

为该对象的初始状态,如果

表示对象的位置,那么

可以看做对象移动的速度。我们将

称为对象

的控制。对象在移动的过程中,有一定的消耗,消耗函数量为

,其中

为除了第

个对象外的其他对象的经验概率分布函数。例如,在对城市车流的的建模中,我们可以取

表示车流量密度越大的地方,速度越大的情况下车的运行耗费越大。最后,当包含对象

的系统在时刻

停止的时候,我们假设对象

会有一个最终消耗

。这个消耗依赖于对象

的最终状态

,以及

时刻其他对象的概率分布

,例如在车流的建模中,我们考虑汽车刹车的时候,会对汽车有个额外的磨损,我们可以将其考虑在函数

中。因此,在整个

的时间过程中,对象

的总耗费由下列函数给出:

其中

为其他对象的控制变量。因此,对象

的目标就是在观察到其他对象的决策

的情况下,选择一个最优策略

,使得自己的消耗最少,即

对象

在知道其他对象的策略的情况下,制定自己的最优决策,这个最优决策也会被其他对象知道,其他对象会根据对象

的最优决策来优化自己的最优决策,其他对象优化后的决策发过来也会影响对象

优化自己的策略。如此往复,最后会达到一个策略的均衡,在此均衡处,如果其他的对象不改变自己的策略,那么对象

改变自己的策略对它自己来说也没有任何好处。这就是著名的纳什均衡。具体到我们的场景,我们定义下列纳什均衡点。记

所对应的纳什均衡点。对每个

,我们记

。那么,

为下列优化问题的解

2. 平均场博弈(Mean-field Games)

这里,我们考虑

趋向于无穷大的情况。现实世界中,几乎不存在无穷多个对象的博弈。那么为什么要考虑

趋向于无穷大的情况呢?其中一个原因就是问题

相当大的时候生成的方程非常的多,不利于计算和分析。而当

趋向于无穷的时候,我们却能得到少量的方程,并且能给原来的

个对象的问题很好的近似(可以参考我们在文章最开头处所举出的买菜的例子)。下面,我们考虑

因为在最开始的时候,我们假设场景中的对象都是不可区分的。那么,当

趋向于无穷大的时候,我们可以选择一个代表性的对象来考虑,记该代表性的对象的状态为

。那么根据

的变化遵守下列的常微分方程

即,

个对象的经验分布,当

的时候,

会收敛到一个概率密度

,即所有的对象的分布情况服从概率

。同时,

也是所有对象都遵从常微分方程

所描述的状态改变方式进行变化的时候所服从的概率分布。假设我们先知道纳什均衡点处的概率分布

,即,相当于我们知道了其他对象的均衡策略,那么该对象所需要处理的,就是找到一个策略

使得自己的消耗函数最小。与

类似,我们定义消耗函数

那么,代表性的对象的最优控制

应该为

的最小值点,即

这时,我们可以使用最优控制中的动态规划来处理

的求解。记

且记

相关的值函数,那么根据最优控制理论,

满足汉Hamilton-Jacobi-Bellman等式

并且得到最优控制

那么,根据

,代表性的对象的状态

满足常微分方程

所有的对象的状态在均衡的条件下都按照

的微分方程描述的轨迹变化,其概率分布应该服从

。那么均衡状态下的所有对象的概率分布

需要满足下列的传输方程(为了方便书写,我们在下面的写法中使用

来代替

)

其中,

为所有对象的初始状态下的概率分布。 综合

,在平均场博弈论中,我们研究下列的方程组:

通过求解

,我们得到了均衡状态下的值函数

与概率分布

,那么根据

,我们就能求得对象在均衡点处的最优策略。

总结

在本文中,我们简要介绍了一下平均场博弈论,并推导了典型的平均场博弈论的方程组。在

中,我们只考虑了确定性的对象的状态改变。我们也可以考虑受噪声扰动下的状态改变,即,

满足

其中

衡量了噪声的大小,

为布朗运动。这时候,

中的方程组会变成二阶的偏微分等式。目前的平均场的研究也包括了多个族群(例如,金融里买卖不同类型股票的人与不同衍生品的人)、共同噪声(例如,买股票的人都观看同一个金融分析频道)等因数的影响。随之,类似

的方程也会变得更加复杂,并能建模更加复杂的真实情况。

你可能感兴趣的:(均值场博弈)