最近开始学习一些多智能体强化学习相关的内容,因此我打算写一些多智能体强化学习和博弈论相关的学习记录。这篇博客主要介绍博弈论的一些基础示例和基础知识。
举个例子:
假设有一门课程,你需要在准备期末考试和期末报告中做出选择(两部分权重相同)来最大化你的期末分数。你的同学也需要做出决定来最大化他的分数。两个人之间不能交流。
准备考试在这个部分可以获得92分,不准备可以获得80分
准备报告,加入你和你的同学都准备你们能在这部分获得100分,如果一个人准备了,你们获得92分,都不准备你们获得84分。
我们可以得出这样的一个图,假设要你做决定,你会怎么做呢?
假设你的同学选择作报告,那么你选择准备考试能得到更多的分。假设你的同学选择准备考试,那么你也要选择准备考试来获得更高的分。很巧的是你的同学也会有同样的想法,于是你们都选择了准备考试,两个人拿到了88分。如果两个人都选择了做presentation则大家都能拿到更高的分数。在这个例子中选择准备考试的策略被称为dominant strategy(优势策略)。
优势策略
:优势策略是对其他参与人每种策略的最佳对策
纳什均衡由John Nash在1950年提出。
纳什均衡
:For strategy S by player 1 and T by player 2, the pair (S,T) is a Nash equilibrium if S is a best response to T, and T is a best response to S
在纳什均衡中没有智能体希望单方面的选择一个其它的策略,在上述的例子中两个人都选择准备报告或者两个人都选择准备考试这两种情况就是纳什均衡。
用更数学的表达方法就是:
s i ∗ = arg max s i ∈ S i u i ( s 1 ∗ , … , s i − 1 ∗ , s i , s i + 1 ∗ , … , s n ∗ ) s_{i}^{*}=\arg \max _{s_{i} \in S_{i}} u_{i}\left(s_{1}^{*}, \ldots, s_{i-1}^{*}, s_{i}, s_{i+1}^{*}, \ldots, s_{n}^{*}\right) si∗=argsi∈Simaxui(s1∗,…,si−1∗,si,si+1∗,…,sn∗)
其中 s i ∈ S i s_i\in S_i si∈Si代表可能的策略, s i ∗ s_i^* si∗代表第i个智能体的最优策略。
前面的智能体采取的策略都是确定性的策略,假设智能体以不同的概率执行不同的动作,那么它的策略被称为混合策略。
纳什在1951年的时候提出任何有限博弈都有一个混合策略的纳什均衡。下面用一个简单的例子来学习一下混合策略中的纳什均衡。
在这个例子中player1(左),player2(上)。假设player1采取U的概率为 π 1 \pi_1 π1,D的概率为 ( 1 − π 1 ) (1-\pi_1) (1−π1)。假设player2采取L的概率为 π 2 \pi_2 π2,R的概率为 ( 1 − π 2 ) (1-\pi_2) (1−π2)。
对于player1而言选择U和选择D对于player2来说收益一样,可以得到
2 π 2 = 1 − π 2 π 2 = 1 / 3 \begin{aligned} 2\pi_2 &= 1- \pi_2 \\ \pi_2 &= 1/3 \end{aligned} 2π2π2=1−π2=1/3
对于player2而言选择L和选择R对于player1来说收益一样,可以得到
π 1 = 5 ( 1 − π 1 ) π 1 = 5 / 6 \begin{aligned} \pi_1 &= 5(1-\pi_1) \\ \pi_1 &=5/6 \end{aligned} π1π1=5(1−π1)=5/6
从而我们可以得到纳什均衡平衡点: {(5/6)U+(1/6)D,(1/3)L+(2/3)R}
参考:
汪军老师UCL多智能体强化学习网课