对策也叫博弈 , 是自古以来的政治家和军事家都很注意研究的问题。 作为一门正式学科,是在20世纪40年代形成并发展起来的。直到1944年冯·诺依曼(von Neumann) 与摩根斯特恩(O .Morgenstern)的《博弈论与经济行为》一书出版,标志着现代系统博弈理论的初步形成。书中提出的标准型、扩展型和合作型博弈模型解的概念和分析方法 , 奠定了这门学科的理论基础 , 成为使用严谨的数学模型研究冲突对抗条件下最优决策问题的理论。然而 , 诺依曼的博弈论的局限性也日益暴露出来。由于它过于抽象 , 使应用范围受到很大限制,所以影响力很有限。20世纪50年代,纳什( Nash)建立了非合作博弈的“纳什均衡”理论, 标志着博弈的新时代开始 , 是纳什在经济博弈论领域划时代的贡献 , 是继冯·诺依曼之后最伟大的博弈论大师之一。1994年纳什获得了诺贝尔经济学奖。他提出的著名的纳什均衡概念在非合作博弈理论中起着核心作用。由于纳什均衡的提出和不断完善 , 为博弈论广泛应用于经济学、管理学、社会学、政治学、军事科学等领域奠定了坚实的理论基础。
对策论亦称竞赛论或博弈论, 是研究具有斗争或竞争性质现象的数学理论和方法。 一般认为 , 它是现代数学的一个新分支 , 是运筹学的一个重要学科。对策论发展的历史并 不长, 但由于它研究的问题与政治、经济、军事活动乃至一般的日常生活等有着密切联系,并且处理问题的方法具有明显特色 , 所以日益引起广泛注意。
在日常生活中, 经常会看到一些相互之间具有斗争或竞争性质的行为 , 如下棋、打牌、 体育比赛等。还比如战争活动中的双方 , 都力图选取对自己最有利的策略, 千方百计去战胜对手。在政治方面 , 国际间的谈判 , 各种政治力量之间的 斗争 , 各国际集团之间的斗 争等无一不具有斗争的性质。在经济活动中, 各国之间、各公司企业之间的经济谈判 , 企业之间为争夺市场而进行的竞争等 , 举不胜举。
具有竞争或对抗性质的行为称为对策行为。在这类行为中 , 参加斗争或竞争的各方各自具有不同的目标和利益。为了达到各自的目 标和利益 , 各方必须考虑对手的各种可能的行动方案 , 并力图选取对自己最有利或最合理的方 案。对策论就是研究对策行为中斗争各方是否存在着最合理行动方案 , 以及如何找到最合理行动方案的数学理论和方法。
以下称具有对策行为的模型为对策模型或对策。 对策模型的种类可以千差万别 , 但本质上都必须包括以下三个基本要素。
1. 局中人
在一个对策行为(或一局对策)中,有权决定自己行动方案的对策参加者, 称为局中人。通常用 I 表示局中人的集合。如果有n个局中人, 则 I = {1, 2, ⋯, n}。一般要求一个对策中至少要有两个局中人。对策中关于局中人的概念具有广义性,也就是不一定具体到人,也可以是组织,团地。需要强调的一点是 , 在对策中总是假定每一个局中人都是“ 理智的”决策者或竞争者 , 即对任一局中人来讲 , 不存在利用其他局中人决策的失误来扩大自身利益的可能性。
2. 策略集
一局对策中, 可供局中人选择的一个实际可行的完整的行动方案称为一个策略。 参加对策的每一局中人i,i∈I,都有自己的策略集 Si。一般,每一局中人的策略集中至少应包括两个策略。
3. 赢得函数(支付函数)
在一局对策中,各局中人选定的策略形成的策略组称为一个局势, 即若Si是第i个局中人的一个策略,则 n个局中人的策略组:s=(s1 ,s2 ,⋯,sn)就是一个局势。全体局势的集合S可用各局中人策略集的笛卡儿积表示 , 即S= S1×S2×⋯×Sn,当一个局势出现后,对策的结果也就确定了。也就是说, 对任一局势 s∈ S, 局中人i可以得到一个赢得值 Hi (s)。显然, Hi (s)是局势 s的函数,称为第 i个局中人的赢得函数。
在齐王与田忌赛马的例子中,局中人集合为 I={1,2},齐王和田忌的策略集可分别 用 S1 ={a1 ,a2 , a3 , a4 ,a5 ,a6 }和 S2 ={β1 ,β2 ,β3 ,β4 ,β5 ,β6 }表示。这样,齐王的任一策略 ai 和田忌的任一策略βj 就形成了一个局势sij。如果a1=(上,中,下),β1 =(上,中,下),则在局 势 s11下齐王的赢得值为H1(s11) = 3 , 田忌的赢得值为H2(s11)=- 3, 如此等等。以上讨论了局中人、策略集和赢得函数这三个概念。当这三个基本要素确定后 , 一个对策模型也就给定了。
对策论在经济管理的众多领域中有着十分广 泛的应用 , 下面列举几个可以用对策论思想和模型进行分析的例子。
费用分摊问题:假设沿某一河流有相邻的 3 个城市 A、B、C,各城市可单独建 立水厂, 也可合作兴建一个大水厂。经估算 , 合建一个大水厂 , 加上敷设管道的费用 , 要比单独建3个小水厂的总费用少。但合建大厂的方案能否实施, 要看总的建设费用分摊得是否合理。如果某个城市分摊到的费用比它单独建设水厂的费用还多的话 , 它显然不会接受合作的方案。问题是应如何合理地分摊费用, 使合作兴建大水厂的方案得以实现?
拍卖问题:最常见的一种拍卖形式是先由拍卖商把拍卖品描述一番,然后提出第一个报价。接下来由买者报价, 每一次报价都要比前一次高 , 最后谁出的价最高拍卖品即归谁所有。假设有n个买主给出的报价分别为p1 ,⋯, pn ,且不妨设 pn > pn - 1 > ⋯ >p1 ,则买主 n 只要报价略高于 pn - 1 , 就能买到拍卖品, 即拍卖品实际上是在次高价格上卖出的。现在的问题是 , 各买主之间可能知道他 人的估价 , 也可能不知道他人的估价 , 每人应如何报价对自己能以较低的价格得到拍卖品最为有利 ? 最后的结果又会怎样 ?
囚犯难题:设有两个嫌疑犯因涉嫌作案被警官拘留,警官分别对两人进行审讯。根据法律,如果两个人都承认此案是他们干的, 则每人各判刑7年; 如果两人都不承认 , 则由于证据不足 , 两人各判刑1年 ; 如果只有一人承认并揭发对方, 则承认者予以宽大释放 , 而不承认者将判刑9年。因此, 对两个囚犯来说 , 面临着一个在“承认”和“不承认” 这两个策略间进行选择的难题。
上面几个例子都可看成是一个对策问题 , 所不同的是有些是二人对策 , 有些是多人对策;有些是有限对策, 有些是无限对策;有些是零和对策, 有些是非零和对策; 有些是合作对策, 有些是非合作对策等等。为了便于对不同的对策问题进行研究, 可以根据不同方式 进行分类 , 通常的分类方式有 :
(1) 根据局中人的个数,分为二人对策和多人对策;
(2) 根据各局中人的赢得函数的代数和是否为零,分为零和对策与非零和对策;
(3) 根据各局中人间是否允许合作,分为合作对策和非合作对策;
(4) 根据局中人的策略集中的策略个数,分为有限对策和无限对策。
此外 , 还有许多其他的分类方式。例如根据策略的选择是否与时间有关, 可分为静态对策和动态对策 ; 根据对策模型的数学特征 , 可分为矩阵对策、连续对策、微分对策、阵地对策、凸对 策、随机对策等 。
在众多对策模型中,占有重要地位的是二人有限零和对策(finite two-person zero- sum game) , 又称为矩阵对策。这类对策是到目前为止在理论研究和求解方法方面都比较完善的一个对策分支。矩阵对策可以说是一类最简单的对策模型 , 其研究思想和方法十分具有代表性 , 体现了对策论的一般思想和方法 , 且矩阵对策的基本结果也是研究其他对策模型的基础。
矩阵对策的数学模型
二人有限零和对策就是矩阵对策 , 是指只有两个参加对策的局中人 , 每个局中人都只有有限个策略可供选择。在任一局势下, 两个局中人的赢得之和总是等于零 , 即双方的利益是激烈对抗的。“齐王赛马”就是一个矩阵对策的例子 , 齐王和田忌各有6个策略, 一局 对策结束后 , 齐王的所得必为田忌的所失 , 反之亦然。
在矩阵对策中,一般用I、II分别表示两个局中人,并设局中人I有 m个纯策略α1 ,α2 , ⋯,αm ,局中人II有 n 个纯策略β1 ,β2 , ⋯,βn , 则局中人I、 II的策略集分别为:S1 ={α1 ,α2 ,⋯,αm},S2 ={β1,β2,⋯,βn},当局中人I选定纯策略αi 和局中人II选定纯策略βj 后,就形成了一个纯局势(αi ,βj )。可见这样的纯局势共有m×n个。对任一纯局势(αi,βj),记局中人I的赢得值为aij,并称:
为局中人I的赢得矩阵(或为局中人II的支付矩阵)。由于假定对策为零和的,故局中人II的赢得矩阵就是 - A。
当局中人I、II和策略集 S1 、S2 及局中人I的赢得矩阵 A 确定后, 一个矩阵对策也就给定。通常 , 将一个矩阵对策记成G={I,II;S1,S2;A}或 G={S1,S2;A}
若等式成立 , 记 VG = ai*j*。 则称VG为对策G的值, 称使该式成立的纯局势(αi*,βj*)为G在纯策略下的解(或平衡局势),αi*与βj*分别称为局中人I,II的最优纯策略。
矩阵对策 G = { S1 , S2 ; A}在纯策略意义下有解的充分必要条件是 : 存在纯局势(αi* ,βj* )使得对一切i=1,⋯,m,j=1,⋯,n,均有:
aij* ≤ai* j* ≤ai* j或者ai * j * 是矩阵 A 的一个鞍点
矩阵对策的值是唯一的。即当局中人I采用构成解的最优纯策略时 , 能保证他的赢得VG不依赖于对方的纯策略。
矩阵对策的混合策略
对矩阵对策 G= { S1 , S2 ; A}来说,局中人I有把握的至少赢得是 ,局中人II有把握的至多损失是
一般,局中人I赢得值不会多于局中人II损失值,即总有v1 <= v2.
设有矩阵对策G={S1,S2;A},其中S1 ={α1,α2,⋯,αm},S2 ={β1,β2,⋯, βn},A=(aij )m×n记
则s1,s2分别称局中人I和II的混合策略集,和分别称局中人I和II的混合策略,
局中人I的赢得函数记成E(x,y)=xT Ay=∑∑aijxiyj这样得到的一个新的对策记成 G* = { S1* , S2* , E}, 称 G* 为对策 G 的混合扩充。
一个混合策略x=(x1,⋯,xm)T 可设想成当两个局中人多次重复进行对策G时,局中人I分别采取纯策略 α1 , ⋯,αm 的频率。若只进行一次对策, 混合策略 x = ( x1 , ⋯, xm )T 可设想成局中人I对各纯策略的偏爱程度。
设G* ={S1* ,S2* ;E}是矩阵对策G={S1 ,S2 ;A}的混合扩充,如果
记其值为VG。则称VG 为对策G* 的值,称使上式成立的混合局势(x* ,y* )为G在混合策略意义下的解(或简称解) , x* 和 y* 分别称为局中人I和II的最优混合策略(或简称最优策略)。当G 在纯策略意义下解不存在时, 自动认为讨论的是在混合策略意义下的解,相应的局中人I的赢得函数为 E(x,y)。
矩阵对策G={S1 ,S2 ;A}在混合策略意义下有解的充要条件是:存在 x* ∈ S1* , y* ∈S2* ,使(x* , y* )为函数 E( x, y)的一个鞍点,即对一切 x∈S1* , y∈S2* ,有E(x,y* )≤E(x* ,y* )≤E(x* ,y)
矩阵对策的基本定理
对任一矩阵对策G={S1,S2;A},一定存在混合策略意义下的解。
设(x* ,y* )是矩阵对策G的解,v=VG,则:
(1) 若 xi* >0,则∑aij yj* = v。
(2)若yj* >0,则∑aij xi* = v。
(3) 若∑aij yj* < v,则 xi* = 0
(4) 若∑aij xi* > v ,则则 yj* = 0
设有两个矩阵对策:G1 ={S1,S2;A1},G2 ={S1,S2;A2},其中A1 =(aij),A2 =(aij +L),L为任一常数,则有:
(1) VG = VG + L
( 2 ) T ( G1 ) = T ( G2 )
设有两个矩阵对策G1 ={S1,S2;A},G2 ={S1 ,S2 ;αA}其中α> 0 为任一常数。则(1) VG =αVG,( 2 ) T ( G1 ) = T ( G2 )
设G={S1,S2;A}为—矩阵对策,且A=-AT 为斜对称矩阵(亦称这种对策 为对称对策)。则
(1) VG =0
(2) T1 (G) = T2 (G),其中 T1 (G)和 T2 (G)分别为局中人I和II的最优策略集。
设有矩阵对策G={S1,S2;A},其中S1 ={α1,⋯,αm},S2 ={β1,⋯,βn},
A=(aij),如果对一切j=1,⋯,n都有ai0j≥ak0j,即矩阵A的第i0 行元素均不小于第k0 行的对应元素,则称局中人I的纯策略αi0 优超于αk0 ;同样,若对一切 i= 1,⋯, m,都有 aij0 ≤ail0 即矩阵 A的第l0 列元素均不小于第 j0 列的对应元素,则称局中人II的纯策略
βj 0 优 超 于 βl 0 。
设G={S1,S2;A}为矩阵对策,其中S1 ={α1,⋯,αm},S2 ={β1,⋯,βn},
A=(aij )如果纯策略α1 被其余纯策略α2 ,⋯,αm 中之一所优超,由G可得到一个新的矩 阵对策 G′= { S′1 , S2 ; A′}其中S′1 ={α2 ,⋯,αm},A′= ( ai j ′) ( m - 1 ) × n,aij =aij i=2,⋯,m j=1,⋯,n。于是有:
( 1 ) V G′ = V G ;
(2) G′中局中人II的最优策略就是其在 G中的最优策略;
(3)若(x2* ,⋯,xm* )T 是G′中局中人I的最优策略,则x* =(0,x2* ,⋯,xm* )T 便是其 在 G中的最优策略。
上面定理实际给出了一个化简赢得矩阵 A的原则,称之为优超原则。根据这个原则,当局中人I的某纯策略 ai 被其他纯策略或纯策略的凸线性组合所优超时 , 可在矩阵 A 中 划去第 i 行而得到一个与原对策 G 等价但赢得矩阵阶数较小的对策 G′, 而 G′的求解往往 比 G 的求解容易些 , 通过求解 G′而得到 G 的解。类似地 , 对局中人II来说 , 可以在赢得矩 阵 A 中划去被其他列或其他列的凸线性组合所优超的那些列。
我们根据上面的定理,可以得到一些矩阵对策的解法,如2x2矩阵对策的公式法求解,图解法,求线性方程组解解法等,也可以利用线性规划求解。线性规划方法是具有一般性的 , 另外还有两种具有一般性的解法 : 求全部解的矩阵法和至少保证求出一个解的微分方程法。
其他类型的对策有:
二人无限零和对策
矩阵对策最简单的推广就是局中人的策略集 从有限集变为无限集, 例如是 [ 0 , 1 ] 区 间。
多人非合作对策
指局中人之间互不合作 , 对策略的选择不允许事先有任何交换信息的行为 , 不允许订立任何约定 , 矩阵对策就是一种非合作对策
合作对策
合作对策的基本特征是参加对策的局中人可以进行充分的合作, 即可以事先商定好, 把各自的策略协调起来 ; 可以在对策后对所得到的支付进行重新分配。合作的形式是所有局中人可以形成若干联盟 , 每个局中人仅参加一个联盟 , 联盟的所得要在联盟的所有成员中进行重新分配。一般说来 , 合作可以提高联盟的所得 , 因而也可以提高每个联盟成员的所得。但联盟能否形成以及形成哪种联盟 , 或者说一个局中人是否参加联盟以及参加哪个联盟, 不仅取决于对策的规则 , 更取决于联盟获得的所得如何在成员间进行合理的重新分配。如果分配方案不合理 , 就可能破坏联盟的形成, 以至于不能形成有效的联盟。因此 , 在合作对策中, 每个局中人如何选择自己的策略已经不是要研究的主要问题了 , 应当强调的是如何形成联盟,以及联盟的所得如何被合理分配(即如何维持联盟)。
其实,关于对策论或者叫博弈论,有很多著名的故事和实例,如囚徒问题,纳什均衡等等,这里只是简单介绍。