均值场博弈_平均场博弈(mean field game)

The New Big Fish Called Mean-Field Game Theory

原文链接http://www.science4all.org/article/mean-field-games/​www.science4all.org

主要内容

在经典博弈论中,它对附近其他鱼类的行为做出反应。这是非常复杂的,因为不同的鱼类之间会有大量的相互作用。这意味着经典博弈论对应于一长串高度耦合的方程。如果你不明白我的意思,别担心。本质上,我的观点是,经典博弈论模型几乎不可能用3条鱼来解决,而用更多的鱼来解决它会变得“成倍困难”。

我在这里非常宽松地使用“指数难度”的概念! 那不好,你不应该这样做! 但是,基本上,一种理解的方式是,国家的数量与鱼类的数量成指数增长。

那么,平均场博弈论中的情况如何?

他们被巧妙地认为!在均场博弈论中,每条鱼都不关心其他每条鱼。 相反,它关心的是附近的鱼类在全球范围内如何移动。 换句话说,每条鱼仅对质量做出反应。 而且,令人惊讶的是,可以使用功能强大的常用统计力学工具很好地描述这一质量!当然,质量运动必然是每条鱼所做的结果。 这意味着我们实际上在每条鱼和所有物体之间仍然具有耦合方程。

总结:

1、现在博弈论随着智能体的增长会产生"指数爆炸"的作用

2、MFG中智能体不关心其他每个智能体的动作,将其他智能体的动作等效为虚拟的“平均单位”。不同于传统算法,随着数量的增长其结果反而更加准确。HJB方程:个体根据整体状态作出的最优控制 FPK方程:整体在个体作出动作后整体状态的更新

2、Hamilton-Jacobi-Bellman方程

从数学上讲,这意味着它们可以控制速度,箭头是指向其运动方向的箭头。 另外,箭头越长,鱼游得越快。 因此,鱼在任何时候都根据其位置和质量来控制其速度。

我将定义平均场博弈的两个主要对象之一:控制速度变量u。控制是取决于位置x和时间t的速度选择。 至关重要的是,如果所有鱼类都相似,那么它们都具有相同的最佳控制。 因此,我们只需要一个控制变量来描述所有鱼类的行为!

如何建模?

基本上,在每个时间点,鱼都会因为其速度而付出不安全位置代价和动能消耗代价。 因此,鱼必须在匆忙达到未来的安全位置和目前不耗尽能量之间取得平衡。 此设置称为最佳控制问题。

鱼的位置不安全性以成本为:

这取决于鱼的位置x和鱼团质量的“位置”m(我将在后面详细解释)。同时,由于速度的原因,存在“燃料消耗”成本。通常,速度成本是用动能来模拟的,它等于

(或多或少是一个乘法因子)。总的来说代价是

如何解决最优控制问题呢?

像象棋一样解决最佳控制!

举个例子:

当然! 看下图。 在左侧,假定当前位置是箭头从何处出来。 保持静止状态未来的总成本为4,而没有速度成本。 同时,向左移动一步会产生2的未来总成本和2的速度成本,这总计为4。此外,向左移动一步会增加1的未来总成本和2的速度成本, 最多3。因此,向左移动比向左移动或静止不动要便宜。 实际上,这是成本最低的举动。 这就是为什么最佳控制在于向下移动的原因。 有趣的是,现在我们知道当前位置的最优控制是什么,我们可以得出当前总成本,即当前不安全性(1),未来总成本(1)和速度成本(2)的总和:4。

从离散化时间点扩展到连续时间空间

通过增加离散化的细节并遵循牛顿的步骤,我们实际上可以得出动态编程的连续版本。 这样就产生了著名的Hamilton-Jacobi-Bellman方程,从本质上讲,它只是动态编程的连续扩展的表示

表示在时刻t时位置x时就位的不安全感,在位置x和时间t的速度选择必须最小化

第一项是未来总成本(在未来位置),第二项是速度成本,最后一项表示当前位置不安全代价。

总结:

1、智能体通过控制变量u 来使得代价函数最小,根据HJB方程取得当前状态下的m

2、HJB方程是一个连续的过程。

3、Fokker-Planck-Kolmogorov

所以,如果我重述一下,HJB方程告诉我们鱼是如何对物质做出反应的。但是,正如我们已经讨论过的,质量来源于鱼的行为。现在解决“质量m”是什么意思?

关于质量m,有一种直观的理解:让我们想象一下所有可能的轨迹。然后,我们就可以简单地计算出m(x,t)在某一时刻t恰好处于某一位置x的鱼的比率。更准确地说

是鱼类在生存空间

的概率分布。但是,为了得到微分方程,平均场对策通常假设这种分布可以用一个概率密度函数来描述

现在,与向后的Hamilton-Jacobi-Bellman方程相反,我们现在要向前推导:我们将从现在的质量和控制中推导出近期的质量。

首先,我们需要注意的是,控件所提供的速度与描述质量如何移动不太相关。 相反,正如统计力学所注意到的,重要的是鱼类的“运动量”,物理学家称之为动量。 这种势头确实说明了鱼类如何运动。 在给定的点上,此动量等于速度乘以运动中的鱼的数量。 因此,它是矢量场

现在,通过将所有进出点的数量加起来,我们得到了Liouville方程。为您省去细节,我们得到的是,我们所得出的所有结论加起来

这意味着质量的变化为

这是Liouville方程。

在我们的研究中,布朗运动的重要作用是,鱼类有一种自然的趋势,从拥挤的区域到不太拥挤的区域。因此,当安全性使鱼收敛到一个最安全的点时,布朗运动使它们在空间中扩散。将后一种观点加入到Liouville方程中,就得到了著名的福克-普朗克方程,也称为Kolmogorov正向方程,我将其命名为Fokker-Planck-Kolmogorov方程。

点与周围的相对拥挤程度由拉普拉斯算子(Laplacian)测量

因此,Fokker-Planck-Kolmogorov方程为

其中

代表布朗运动的强度。 更确切地说,它是布朗运动在一个时间单位(通常以米/秒为单位)中的标准偏差。

总结:

1、Liouville方程/FPK方程是主要描述的是鱼群中智能体采取动作之后,整体系统状态如何向着下一个状态转移的过程。

2、FPK相比于Liouville方程中引入了布朗运动,其作用是描述不确定因素对于智能体控制变量的影响。

3、Liouville方程

方程描述的是向量场mu代表在时间t时刻,点x处形成的向量函数,该函数包含两个自变量x,t

div(mu)为向量场函数的散度,是一个在时间t和位置x的值。该值受到时间t和位置x的影响。

m的更新等式为:m对时间的偏导数等于当前位置当前时间下的散度的相反数。根据等式可以求得m的值。

4、Time-Independency

这种与时间无关的无限地平线设置有两种主要的模型。首先考虑总成本是平均成本,这意味着

其次是涉及折现率,折现率表示现在的价值大于未来的价值。

表示此折扣率,我们有

对于平均场博弈的影响体现在两个方面现在,控制u不再依赖于时间变量。它们只是根据位置给出速度的指令。这意味着,在空间的每个点上,都有一个速度。这就是物理学家所说的向量场。

现在,质量仅由不变的变量m描述。 这意味着鱼的数量保持静止。 或者说,由于这取决于惯性系统的切换,因此,这些鱼类总共以相同的速度运动(直至布朗运动,并沿着水流将动能降至最低)。

4、Linear-Quadratic Games

在本文中,到目前为止,每当我给出公式时,我都假定我们处于(几乎)线性二次方程组中。 这意味着控制器线性确定速度(像公式中一样

,或更一般而言,如果

)速度成本是二次方的(如动能

位置的不确定性也是二次的(事实上,我们不需要陈述最后一节的定理)。关键的是,这使得Hamilton-Jacobi-Bellman方程很容易转化为偏微分方程。

也就是说,去掉常数项,它得到

因此,在考虑了布朗运动后,我们得到了

在具有折现率

和时间无关设置下,我们得到

此时偏微分方程存在唯一的解,可以用模拟数值的方法进行近似求解。

5、Let’s Conclude

确定初始的质量

,从

使用HJB方程更新当前的

,由

使用FPK方程更新

。反复迭代直到收敛。

参考文献:陶哲轩关于MFG的解释:https://terrytao.wordpress.com/2010/01/07/mean-field-equations/​terrytao.wordpress.com

2.MFG知乎:Kawayikiwi:平均场博弈论数值算法之系数法​zhuanlan.zhihu.comhttps://mp.weixin.qq.com/s?__biz=MzIzNDk2MDQ3MQ==&mid=2247484544&idx=1&sn=03decfd676b8332d68b3820985d010ff&chksm=e8ef27b8df98aeaecaf480d95221ac6758ea14004afb7fc1917066956e272cd548da1a0179a1&scene=21#wechat_redirect​mp.weixin.qq.com

你可能感兴趣的:(均值场博弈)