市场中在位者与进入者的博弈过程
先看一个完全信息的动态博弈过程:
本题的描述为:
已经在市场中进行销售行为的是在位者,他会通过调整价格来达到两个结果:在下一轮影响进入者是否进入的决策;以及影响自己在本轮的收益情况。
最下面给出了竖着的两行得益,第一行是在第一阶段,进入者还没有进入的时候,在位者的收益,可以看到由于在位者不同的价格选择,他的得益值会有所波动。并且由于第一轮进入者还没有进入,所以进入者的收益一直为0。
第二阶段进入者会根据上一轮在位者的定价选择是否进入市场,然后第二行所显示的收益就是第二轮进入者决定了进入市场与否之后在位者与进入者的收益。
横着看第二行的得益我们可以得出:不论在位者的定价是多少,只要进入者进入市场,他第二阶段就会得到1的利润,不进入的话只能得到0。所以我们知道,如果进入者是一个理性人的话,他一定会选择进入。
如果再竖着看在位者两期的总收益的话,在位者定价为4,总收益是2+3=5;定价为5.总收益为9,定价为6,总收益为10,所以如果在位者是一个理性人,她一定会选择利益最大化,也就是定价为6的这个决策。
这个我们同样分析也可以得到结论:进入者如果选择进入,则总会得到-1的收益,而如果选择不进入,会得到0的收益,所以我们可以得知进入者肯定会选择不进入。
而在位者在定价为4的时候,得益为15,定价为5,得益为18,定价为6,得益为17。所以最终结果一定是在位者把价格定为5。
在本题中我们是明确知道在位者的类型究竟是高成本还是低成本,然后才判断出高成本两者分别会选择什么策略,低成本两者分别会选择什么策略。
但是如果我们现在进入者只能观察到在位者定的价格,但是无法观测到或者了解到在位者到底是高成本类型还是低成本类型,也就是不知道自己进入之后得到的收益到底是0还是1。也就是我们观察到定价为4的时候,其实不知道这时高成本类型的在位者定的还是低成本类型的在位者定的。所以这就是一个不完全信息问题,但他又带有先后的行为选择的不同,就把它定义为不完全信息动态博弈。
根据第三章,动态博弈可以划分为子博弈,然后根据子博弈精炼纳什均衡来找到均衡解,但是这个不完全信息动态博弈并不存在子博弈,因此第三章的从后往前的倒退的求解方法无法用于不完全信息动态博弈的求解。
所以我们就考虑能不能从开始向后进行分析。那么从前往后分析的话我们要考虑到开始行动的人他可能会有哪些选择:其实就是在位者定的价格。但是这里面就涉及到如果我们定一个价格使对方能够感觉到或者从中分析出我们是一种什么类型的话那就有可能会影响我们的利润,
在完全信息动态博弈下,如果是高成本在位者,她一定会定价为6,低成本在位者一定为定价为5.
但是在不完全信息动态博弈下在位者可以通过定价来伪装自己从而是自己得到更大的收益值。
比如在位者如果不伪装直接定价为6的话,进入者一看就知道他是高成本类型,因为高成本类型定价为6会使得在位者收益最大,所以进入者此时就会选择进入市场,所以此时在位者只能得到10的收益。
但如果高成本在位者不定价为6,反而定价为5,那么进入者有可能被误导觉得在位者是低成本类型,所以选择不进入。那么此时高成本在位者会得到13的收益。
所以在这种信息不完全的情况下,先行动者不一定按照完全信息情况下的方案进行选择,他有可能隐藏自己的真实类型也有可能是明确的展示自己的类型从而达到更高的收益,。
定义:至少部分博弈方没有关于博弈的全部信息的动态博弈。(全部信息其实就是指博弈对方的类型)
“自然”首先选择参与人的类型,参与人自己知道,其他参与人不知道: 之后参与人开始先后行动,后行动者能观测到先行动者的行动,但不能观测到先行动者的类型。
参与人的行动是类型依存的,后行动者可通过观察先行动者所选择的行动来推断其类型或修正对其类型的先验信念(概率分布),然后选择最优行动。先行动者预测到自己的行动将被后行动者所利用,就会设法选择传递对自己最有利的信息。
因此,博弈过程不仅是参与人选择行动的过程,而且是参与人不断修正“信念”的过程。
所以先行动者可以对自己的类型进行伪装从而达到对自己更有利的获益水平。
所以不完全信息动态博弈大致有这么几个特点:
在每一个信息集上,决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布(信念);
给定该信息集上的概率分布和其他参与人的后续战略,参与人的行动必须是最优的:每一个参与人根据贝叶斯法则和均衡战略修正后验概率。
这样的均衡我们称之为精炼贝叶斯纳什均衡
精炼贝叶斯均衡是战略组合 s ∗ ( θ ) = [ s i ∗ ( θ i ) , ⋯ , s n ∗ ( θ n ) ] s^*(\theta)=\left[s_i^*\left(\theta_i\right), \cdots, s_n^*\left(\theta_n\right)\right] s∗(θ)=[si∗(θi),⋯,sn∗(θn)]和后验概率组合 p ~ = ( p 1 ~ , . . . p 2 ~ ) \widetilde{p}=(\widetilde{p_1},...\widetilde{p_2}) p =(p1 ,...p2 ),满足:
s i ∗ ( s − i , θ i ) ∈ a r g m a x s i ∑ θ − i p ~ i ( θ − i ∣ a − i h ) u i ( s i , s − i , θ i ) s_i^*\left(s_{-i}, \theta_i\right) \in \operatorname{argmax_{s_i}} \sum_{\theta_{-i}} \widetilde{p}_i\left(\theta_{-i} \mid a_{-i}^h\right) u_i\left(s_i, s_{-i}, \theta_i\right) si∗(s−i,θi)∈argmaxsiθ−i∑p i(θ−i∣a−ih)ui(si,s−i,θi)
`PBE要求均衡战略在每个“后续博弈(continuation game)”上构成贝叶斯均衡。
`不完全信息博弈中必须使用前向法(forward manner)进行贝叶斯修正.
因为如果在位者这样选择,进入者观测到 p = 6 p=6 p=6就知道在位者是高成本,即 p ( 6 ) = 1 p(6)= 1 p(6)=1;观测到 p = 5 p =5 p=5就知道在位者是低成本, u ( 5 ) = 0 u(5)=0 u(5)=0。给定这个后验信念,进入者将进入,当且仅当他观测到 p = 6 p = 6 p=6
我们说不完全信息动态博弈中参与人通常不再采用完全信息动态博弈中的最优解,这个通常指的是先行动者,因为他们需要考虑自己的行动对后行动者的概率判断。
不完全信息动态博弈的解法我们通常是提出一个均衡,然后证明他是否成立,比如:
(1) 当 μ < 1 / 2 μ<1/2 μ<1/2时(高成本在位者的可能性低于1/2),精炼贝叶斯均衡是:不论高成本还是低成本,在位者选择 p = 5 p =5 p=5。当且仅当观测到 p = 6 p = 6 p=6(基于 μ ( 6 ) = 1 μ(6)=1 μ(6)=1),进入者将进入。
证明:假设给定进入者的先验概率和战略
证明过程就是要看给定了进入者的先验概率和战略之后,高成本在位者是不是他的最优选择,低成本是不是他的最优选择,然后证明如果在位者是这样的选择,再分析进入者是不是他的最优反应,如果双方都是最优反应,那么它符合纳什均衡要求,以及贝叶斯法则要求,那么就是这一章的精炼贝叶斯纳什均衡。
高成本在位者
如果选择 p = 6 p = 6 p=6,进入者进入,总利润为10;如果选择 p = 5 p = 5 p=5,进入者不进入。总利润为13。因此, p = 5 p=5 p=5是最优的。
低成本在位者
如果选择 p = 5 p =5 p=5的总利润为18,大于其他任何价格的总利润。因此 p = 5 p=5 p=5也是其最伏选择.
因此综上可以看到,两类型的在位者都认为 p = 5 p = 5 p=5是最优反应,那么接下来就看在在位者是这个反应的前提下,进入者的反应是不是能达到最优:
给定两类型的在位者都选择 p = 5 p = 5 p=5,并且进入者不能从观测到的价格中得到任何新的信息,即
进入的期望利润 μ ′ ( 5 ) = ( μ × 1 ) / [ 1 × μ + ( 1 − μ ) × 1 ] = μ < 1 / 2 μ'(5)=(μ×1)/[1×μ+(1-μ)×1]=μ<1/2 μ′(5)=(μ×1)/[1×μ+(1−μ)×1]=μ<1/2
不进入的期望利润是0,因此不进入是最优的。 μ x 1 + ( 1 − μ ) × ( − 1 ) = 2 μ − 1 < 0 μx1+(1- μ)×(-1)=2μ-1<0 μx1+(1−μ)×(−1)=2μ−1<0
所以上述的提出的均衡确实是精炼贝叶斯纳什均衡。
上面这样的均衡也叫做混同均衡(pooling equilibrium):两类在位者选择相同的价格。(不同类型的先行动者选择相同的方案)
(2) 当 μ ≥ 1 / 2 μ≥1/2 μ≥1/2时,精炼贝叶斯均衡:低成本的在位者选择 p = 4 p=4 p=4,高成本的在位者选择 p = 6 p = 6 p=6;进入者选择不进入,如果观测到 p = 4 p=4 p=4(基于 μ ( 4 ) = 0 μ (4)=0 μ(4)=0);进入者选择进入,如果观测到 p = 6 p =6 p=6或 p = 5 p =5 p=5(基于 μ ( 6 ) = 1 μ(6)= 1 μ(6)=1)。
如果不同类型的在位者选择相同的价格,进入者得不到新的信息。
进入的斯望利润是 μ × 1 + ( 1 − μ ) × ( − 1 ) = 2 μ − 1 > 0 μ×1+(1-μ)×(-1)= 2μ -1>0 μ×1+(1−μ)×(−1)=2μ−1>0,不进入的期望利润是0。因此进入是最优的。
给定进入者一定会进入,在位者的最优选择是单阶段最优垄断价格,即高成本在位者选择 p = 6 p=6 p=6,低成本在位者选择 p = 5 p = 5 p=5。但是,已经证明这不可能是一个均衡。
证明:
给定进入者的先验概率和战略·低成本在位者
-如果选择 p = 4 p =4 p=4,进入者不进入,总利润为15;
-如果选择 p = 5 p=5 p=5,进入者进入,总利润为14。因此, p = 4 p=4 p=4是最优选择·高成本在位者
-如果选择 p = 4 p =4 p=4,进入者不进入,总利润为9
-如果选择 p = 6 p =6 p=6,进入者进入,总利润为10。-因此 p = 6 p = 6 p=6是最优选择。
·给定在位者战略和 μ ( 6 ) = 1 μ(6)=1 μ(6)=1和 μ ( 4 ) = 0 μ(4)=0 μ(4)=0是正确的
-如果观测到 p = 4 p =4 p=4进入者选择不进入;如果观测到 p = 6 p =6 p=6进入者选择进入。
分离均衡(separating equilibrium):不同类型的在位者选择不同的价格
这个是后行动的参与人对先行动的参与人的行动不完全了解,而之前的不完全信息博弈指的是后行动的参与人对线行动的参与人的类型不完全了解。
要求1: 在每一信息集中,应该行动的参与人必须对博弈进行到该信息集中的哪个节有一个推断。对于非单节信息集,推断是在信息集中不同节点的一个概率分布;对于单节的信息集,参与人的推断就是到达单一决策节的概率为1。
要求2: 给定参与人的推断,参与人的战略必须满足序贯理性的要求,即在每一个信息集中应该行动的参与人(以及参与人随后的战略),对于给定的该参与人在此信息集中的推断,以及其他参与人随后的战略必须是最优反应。
-定义: 对于一个扩展式博弈中给定的均衡,如果博弈根据均衡战略进行时将以正的概率达到某信息集,称此信息集处于均衡路径之上。反之,如果博弈根据均衡战略进行时,肯定不会达到某信息集,称之为处于均衡战略路径之外的信息集。
·要求3: 在处于均衡路径之上的信息集中,推断由贝叶斯法则及参与人的均衡战略给出。
·要求4: 对处于均衡路径之外的信息集,推断由贝叶斯法则以及可能情况下的参与人的均衡战略决定。
二手车质量有可能号有可能坏,卖方可以选择卖也可以选择不卖,买方可以选择买也可以选择不买。
我们此处用 r r r表示买方, s s s表示卖方, g g g表示好车, b b b表示其他车。
卖的车当中属于好车的概率:等于好车拿出来卖的概率乘以好车的先验概率,除以卖的车的总概率(全概率)。
p ( g ∣ s ) = p ( g ) p ( s ∣ g ) p ( s ) = p ( g ) p ( s ∣ g ) p ( g ) p ( s ∣ g ) + p ( b ) p ( s ∣ b ) \begin{aligned} & p(g \mid s)=\frac{p(g) p(s \mid g)}{p(s)} \\ & =\frac{p(g) p(s \mid g)}{p(g) p(s \mid g)+p(b) p(s \mid b)} \end{aligned} p(g∣s)=p(s)p(g)p(s∣g)=p(g)p(s∣g)+p(b)p(s∣b)p(g)p(s∣g)
我们给定初始条件:
p ( s ∣ g ) = 1 p ( s ∣ b ) = 0.5 p ( g ) = p ( b ) = 0.5 \begin{aligned} & p(s \mid g)=1 \\ & p(s \mid b)=0.5 \\ & p(g)=p(b)=0.5 \end{aligned} p(s∣g)=1p(s∣b)=0.5p(g)=p(b)=0.5
得到卖的车当中属于好车的概率:
p ( g ∣ s ) = p ( g ) p ( s ∣ g ) p ( s ) = p ( g ) p ( s ∣ g ) p ( g ) p ( s ∣ g ) + p ( b ) p ( s ∣ b ) = 0.5 × 1 0.5 × 1 + 0.5 × 0.5 = 2 3 p(g \mid s)=\frac{p(g) p(s \mid g)}{p(s)}=\frac{p(g) p(s \mid g)}{p(g) p(s \mid g)+p(b) p(s \mid b)}=\frac{0.5 \times 1}{0.5 \times 1+0.5 \times 0.5}=\frac{2}{3} p(g∣s)=p(s)p(g)p(s∣g)=p(g)p(s∣g)+p(b)p(s∣b)p(g)p(s∣g)=0.5×1+0.5×0.50.5×1=32
上图显示的收益是:(卖方收益,买方收益)
好车交易成功时,卖方获得 P P P的货币收益,买方获得的收益是好车的价值 V V V减去支付的货币价值 P P P,也就是 V − P V-P V−P。好车没有交易成功的时候双方既没有收益也没有损失。
如果差车成交的话,买方得到的价值是差车的价值 W W W减去支付的货币价值 P P P。而卖方由于想要差车和好车卖一个价格,所以他会对差车进行一个伪装,所以对于差车,卖方会有一个伪装成本 C C C,所以如果差车交易成功,卖方得到的收益是货币价值减去支付出去的伪装成本,即 P − C P-C P−C。如果差车没有交易成功,那么买家没有任何损失或者收益,但是卖方会有 − C -C −C的伪装成本损失。
特别要注意本题的假设: P > C P>C P>C才能激励卖方对差车进行伪装, V > P V>P V>P就是买方买到好车的价值是高于他付出的货币的价值的,这是符合一般规律的,并且还有就是 P > W P>W P>W,也就是买方买到坏车,坏车的价值是低于买方支付的货币的价值的,这也是符合一般规律的。
这个均衡问题也没有子博弈,所以我们仍需要从前往后进行求解,从前面提出一种均衡策略,然后证明她是否成立,那么提出均衡的时候有这么几种均衡:
均衡类型:
纯战略完美贝叶斯均衡
市场部分成功的混同均衡
~卖方选择卖,不管车子好差
~买方选择买,只要卖方卖
~买方的判断是
p ( g ∣ s ) = p g , p ( b ∣ s ) = p b p(g|s)= p_g,p(b|s)= p_b p(g∣s)=pg,p(b∣s)=pb
~条件:
差车概率很小
买到差车损失不大
伪装费用较小 P > > c P >>c P>>c
市场完成成功的分离均衡
~卖方在车好时卖,车差时不卖
~买方选买,只要卖方卖
~买方的判断为: p ( g ∣ s ) = 1 , p ( b ∣ s ) = 0 p(g|s)=1, p(b|s)=0 p(g∣s)=1,p(b∣s)=0
~条件: P < C P
市场完全失败的合并均衡 W<P
~卖方选择不卖
~买方选择不买
~买方的判断为: p ( g ∣ s ) = 0 , p ( b ∣ s ) = 1 p(g|s)=0, p(b|s)=1 p(g∣s)=0,p(b∣s)=1
~条件: W < P W
混合战略精练贝叶斯均衡 P>C,W<P
条件: P > C , W < P P>C,W
市场接近失败的数字例子:
假设: V = 3000 , W = 0 , P = 2000 , C = 1000 V=3000,W =0,P =2000,C=1000 V=3000,W=0,P=2000,C=1000
P g = P b = 0.5 P_g= P_b=0.5 Pg=Pb=0.5
均衡:
■卖方在车好时选卖,车差时以0.5概率随机选择卖或不卖
■买方以0.5概率随机选择买或不买
■买方的判断为
p ( g ∣ s ) = 2 / 3 , p ( b ∣ s ) = 1 / 3 p(g|s)=2/3,p(b|s) = 1/3 p(g∣s)=2/3,p(b∣s)=1/3
这种博弈也是在海萨尼转换的基础上进行的。
用图来表示就是:
首先自然为参与人1选择他的类型(此处我们假设为两种: θ 1 \theta_1 θ1和 θ 2 \theta_2 θ2),概率分别为 P P P和 1 − P 1-P 1−P:
之后参与人1就会发送信号,类型为 θ 1 \theta_1 θ1的可以发出 m 1 m_1 m1这样的信号,类型为 θ 2 \theta_2 θ2的也可以发出 m 1 m_1 m1这样的信号。
但是要注意的是,参与人2在接收到 m 1 m_1 m1信号之后是不能完全确定这是属于 θ 1 \theta_1 θ1还是 θ 2 \theta_2 θ2发出的。参与人2只能通过一定的信息去推断这个信息是属于 θ 1 \theta_1 θ1发出的概率是 x x x,属于 θ 2 \theta_2 θ2发出的概率是 1 − x 1-x 1−x。
参与人1的两个类型 θ 1 \theta_1 θ1和 θ 2 \theta_2 θ2也可以发出 m 2 m_2 m2这样类型的信号。然后参与人2从自己的行为空间再进行选择。并且推断这个消息属于 θ 1 \theta_1 θ1和 θ 2 \theta_2 θ2发出的概率分别为 x x x和 1 − x 1-x 1−x。
由于不完美信息动态博弈同样不存在子博弈,也就是最后一个阶段无法完全割裂开进行分析,所以在这样的情况下我们只能采用前向的方法,也就是分析最先行动的参与人她该怎么行动。
所以我们就是按照上一节课的思想,看最线行动的参与人有哪些可能的选择,把这些分别来进行讨论,看能不能构成均衡。所以我们就是先提出一些均衡的可能性,然后看他能否成立。那么我们可以提出的均衡类型一共有三种:分离均衡(不同类型的先行动者会采取不同的行动,也就是发出不同的信号),混同均衡(不同类型的先行动者发出相同的信号),准分离均衡(一些人发出相同的信号,一些人随机选择)
p\left(\theta^2\right)
p (θ1∣m1)=a×p(θ1)+0×p(θ2)a×p(θ1)=1p (θ1∣m2)=(1−a)×p(θ1)+1×p(θ2)(1−a)×p(θ1)<p(θ1)p (θ2∣m2)=(1−a)×p(θ1)+1×p(θ2)1×p(θ1)>p(θ2)
末端显示的收益值是(发送方收益值,接收方收益值),先验概率是0.5。
有4个可能的纯战略精炼贝叶斯均衡:
①混同于 m 1 m^1 m1;
②混同于 m 2 m^2 m2;
③分离均衡, θ 1 \theta^1 θ1选择 m 1 m^1 m1, θ 2 \theta^2 θ2选择 m 2 m^2 m2;
④分离均衡, θ 1 \theta^1 θ1选择用 m 2 m^2 m2, θ 2 \theta^2 θ2选择 m 1 m^1 m1;
下面分别讨论这四种情况:
θ 1 θ 2 } → m 1 ⟶ 推断 ( p , 1 − p ) = ( 0.5 , 0.5 ) (这个结果不是直接写出的,而是通过之前的推导,也就是贝叶斯全概率公式的推导得到的,这里省略中间步骤,直接给出结果了) ⟶ a ≻ a 2 a 1 → { θ 1 : ( 1 , 3 ) θ 2 : ( 2 , 4 ) \begin{aligned} & \left.\begin{array}{l} \theta_1 \\ \theta_2 \end{array}\right\} \rightarrow m_1 \stackrel{\text {推断}}{\longrightarrow}(p, 1-p)=(0.5,0.5)(这个结果不是直接写出的,而是通过之前的推导,也就是贝叶斯全概率公式的推导得到的,这里省略中间步骤,直接给出结果了) \\ & \stackrel{a \succ a_2}{\longrightarrow} a_1 \rightarrow\left\{\begin{array}{l} \theta_1:(1,3) \\ \theta_2:(2,4) \end{array}\right. \\ & \end{aligned} θ1θ2}→m1⟶推断(p,1−p)=(0.5,0.5)(这个结果不是直接写出的,而是通过之前的推导,也就是贝叶斯全概率公式的推导得到的,这里省略中间步骤,直接给出结果了)⟶a≻a2a1→{θ1:(1,3)θ2:(2,4)
则如果选择 a 1 a_1 a1的话,他得到的期望收益值是 3 ∗ 0.5 + 4 ∗ 0.5 = 3.5 3*0.5+4*0.5=3.5 3∗0.5+4∗0.5=3.5。如果选择 a 2 a_2 a2的话,收益值就是 ( 4 , 0 ) , ( 0 , 1 ) (4,0),(0,1) (4,0),(0,1)这两个组合,那么接收者的期望收益就是 0 ∗ 0.5 + 1 ∗ 0.5 = 0.5 0*0.5+1*0.5=0.5 0∗0.5+1∗0.5=0.5。根据期望收益最大化的原则,我们选择 a 1 a_1 a1作为行动。所以我们通过计算就可以得出,如果发送方固定选择发送 m 1 m_1 m1作为发送信号的话,接收方会用 a 1 a_1 a1这个行动作为应对,因为 a 1 a_1 a1这个行动会使得接收方获得最大的期望收益。那么接收方在用 a 1 a_1 a1这个行动时,收益组合就是要么是 ( 1 , 3 ) (1,3) (1,3),要么是 ( 2 , 4 ) (2,4) (2,4)。可以看到发送方的收益值要么是1要么是3。
那么如果想让这个策略可以达成一个均衡,我们要推导出的是使得“发送方选择 m 2 m_2 m2作为信号发送的时候发送方的收益不会有这么多”成立的条件。
那么下面看如果发送方选择发送 m 2 m_2 m2的话:
m 2 → { a 1 { θ 1 : ( 2 , 1 ) θ 2 : ( 1 , 0 ) a 2 { θ 1 : ( 0 , 0 ) θ 2 : ( 1 , 2 ) m_2 \rightarrow\left\{\begin{array}{l} a_1\left\{\begin{array}{l} \theta_1:(2,1) \\ \theta_2:(1,0) \end{array}\right. \\ a_2\left\{\begin{array}{l} \theta_1:(0,0) \\ \theta_2:(1,2) \end{array}\right. \end{array}\right. m2→⎩ ⎨ ⎧a1{θ1:(2,1)θ2:(1,0)a2{θ1:(0,0)θ2:(1,2)
两种类型的发送者是否都愿意选择 m 1 m_1 m1,要分析接收者对 m 2 m_2 m2将如何反应。
若 2 ( 1 − q ) + q ∗ 0 ≥ q ∗ 1 + ( 1 − q ) ∗ 0 → q ≤ 2 / 3 2(1-q)+q*0≥q*1+(1-q)*0\rightarrow q≤2/3 2(1−q)+q∗0≥q∗1+(1−q)∗0→q≤2/3,接收者对 m 2 m_2 m2的反应必为 a 2 a_2 a2。
所以如果满足 q ≤ 2 / 3 q≤2/3 q≤2/3,那么就会发生:发送人发送 m 2 m_2 m2的话,接收人一定要选择 a 2 a_2 a2来确保自己获得最大期望收益。而发送人选择 a 2 a_2 a2的时候接收人获得的收益我们看看是多少:如果接收人是 θ 1 \theta_1 θ1的话,发送 m 2 m_2 m2,接收人选择 a 2 a_2 a2应对,那么收益组合是(0,0),发送人的收益是0,如果发送人发送的是 m 1 m_1 m1,接收人会用 a 1 a_1 a1来应对,此时收益组合是(1,3),此时发送人的收益是1。同理可以分析发送人为 θ 2 \theta_2 θ2的时候的收益值,也可以得到相同的结论,就是发送 m 1 m_1 m1的收益值会大于发送 m 2 m_2 m2的收益值。所以我们就确定了, q ≤ 2 / 3 q≤2/3 q≤2/3就是这个混同均衡成立的条件。
所以混同均衡为:
[ ( m 1 , m 1 ) , ( a 1 , a 2 ) , p = 0.5 , q ≤ 2 / 3 ] \left[\left(m_1, m_1\right),\left(a_1, a_2\right), p=0.5, q \leq 2 / 3\right] [(m1,m1),(a1,a2),p=0.5,q≤2/3]
上面 ( m 1 , m 1 ) (m_1,m_1) (m1,m1),指的是两个类型的发送人都选择发送 m 1 m_1 m1。
( a 1 , a 2 ) (a_1,a_2) (a1,a2)中的 a 1 a_1 a1指的是在发送方选择发送 m 1 m_1 m1的时候接收方会选择 a 1 a_1 a1作为应对。后面的 a 2 a_2 a2指的是保证了当前面的 ( m 1 , m 1 ) (m_1,m_1) (m1,m1)条件不成立的时候他会选择 a 2 a_2 a2,所以这个条件也是使得发送方不愿意发送 m 2 m_2 m2的制约条件。
也就是 ( m 2 , a 2 ) (m_2,a_2) (m2,a2)不在均衡路径上,但是他是促使 ( m 1 , a 1 ) (m_1,a_1) (m1,a1)这个均衡路径成立的条件。如果没有这个限制, ( m 1 , a 1 ) (m_1,a_1) (m1,a1)这个均衡就难以保证。所以即使他不在均衡路径上,但是他保证了均衡的实现,同时如果 ( m 1 , a 1 ) (m_1,a_1) (m1,a1)不成立,后面就会发生 ( m 2 , a 2 ) (m_2,a_2) (m2,a2)这样的情况。
所以我们的思路总结一下就是:根据构造均衡的几个出发点(四种均衡类型)构造出一个,然后来进行推断,推断过后得出一个均衡能够成为一个均衡所需要具备的条件,以及不在均衡路径上的要促使均衡实现的制约条件是什么
θ 1 θ 2 } → m 2 ⟶ 推断 ( q , 1 − q ) = ( 0.5 , 0.5 ) ⟶ 1 ∗ 0.5 < 2 ∗ 0.5 a 2 → { θ 1 : ( 0 , 0 ) θ 2 : ( 1 , 2 ) \begin{aligned} & \left.\begin{array}{l} \theta_1 \\ \theta_2 \end{array}\right\} \rightarrow m_2 \stackrel{\text {推断}}{\longrightarrow}(q, 1-q)=(0.5,0.5) \\ & \stackrel{1*0.5<2*0.5}{\longrightarrow} a_2 \rightarrow\left\{\begin{array}{l} \theta_1:(0,0) \\ \theta_2:(1,2) \end{array}\right. \\ & \end{aligned} θ1θ2}→m2⟶推断(q,1−q)=(0.5,0.5)⟶1∗0.5<2∗0.5a2→{θ1:(0,0)θ2:(1,2)
但 θ 1 → m 1 ⟶ a 1 > a 2 ,接收方会选择 a 2 的战略 a 1 → ( 1 , 3 ) \theta_1\rightarrow m_1 \stackrel{a_1>a_2,接收方会选择a_2的战略}{\longrightarrow}a_1\rightarrow(1,3) θ1→m1⟶a1>a2,接收方会选择a2的战略a1→(1,3)
因此,类型 θ 1 \theta^1 θ1不愿意发送 m 2 m^2 m2
于是不存在发送者战略为 ( m 2 , m 2 ) (m^2,m^2) (m2,m2)的均衡。
第一步还是根据我们规定的发送者的战略分析出接收者会采取的战略
θ 1 → m 1 ⟶ 推断 ( p , 1 − p ) ⟶ p = μ ( θ 1 ∣ m 1 ) = μ ( θ 1 ) / μ ( θ 1 ) = 1 ( 1 , 0 ) ⟶ 选择 a 1 得到的收益是 3 ,选择 a 2 得到 0 ,所以 a 1 ≻ a 2 ,当然选择 a 1 a 1 → θ 1 : ( 1 , 3 ) \begin{aligned} & \theta_1 \rightarrow m_1 \stackrel{\text { 推断 }}{\longrightarrow}(p, 1-p) \stackrel{p=\mu\left(\theta_1 \mid m_1\right)=\mu\left(\theta_1\right) / \mu\left(\theta_1\right)=1}{\longrightarrow}(1,0) \\ & \stackrel{选择a_1得到的收益是3,选择a_2得到0,所以a_1 \succ a_2,当然选择a_1}{\longrightarrow} a_1 \rightarrow \theta_1: \quad(1,3) \end{aligned} θ1→m1⟶ 推断 (p,1−p)⟶p=μ(θ1∣m1)=μ(θ1)/μ(θ1)=1(1,0)⟶选择a1得到的收益是3,选择a2得到0,所以a1≻a2,当然选择a1a1→θ1:(1,3)
第二步是看看接收者采取上面我们推断出来的战略的时候,发送者的有没有比我们规定的战略更好的战略,也就是检验既定战略是否是最优的
θ 2 → m 2 ⟶ 推断 ( q , 1 − q ) ⟶ 1 − q = μ ( θ 2 ∣ m 2 ) = μ ( θ 2 ) / μ ( θ 2 ) = 1 ( 0 , 1 ) ⟶ a 2 → θ 2 : ( 1 , 2 ) \begin{aligned} & \theta_2 \rightarrow m_2 \stackrel{\text { 推断 }}{\longrightarrow}(q, 1-q) \stackrel{1-q=\mu\left(\theta_2 \mid m_2\right)=\mu\left(\theta_2\right) / \mu\left(\theta_2\right)=1}{\longrightarrow}(0,1) \\ &{\longrightarrow} a_2 \rightarrow \theta_2: \quad(1,2) \end{aligned} θ2→m2⟶ 推断 (q,1−q)⟶1−q=μ(θ2∣m2)=μ(θ2)/μ(θ2)=1(0,1)⟶a2→θ2:(1,2)
检验对给定的接收者战略 a 1 , a 2 a^1,a^2 a1,a2,发送者的战略是否最优:
θ 2 → m 1 ⟶ a 1 > a 2 a 1 → ( 2 , 1 ) \theta_2\rightarrow m_1 \stackrel{a_1>a_2}{\longrightarrow}a_1\rightarrow(2,1) θ2→m1⟶a1>a2a1→(2,1)
因此,类型 θ 2 \theta_2 θ2不愿意发送 m 2 m^2 m2
于是不存在发送者战略为 ( m 1 , m 2 ) (m^1,m^2) (m1,m2)的均衡。
θ 1 → m 2 ⟶ 推断 ( q , 1 − q ) ⟶ q = μ ( θ 1 ∣ m 2 ) = μ ( θ 1 ) / μ ( θ 1 ) = 1 ( 1 , 0 ) ⟶ a 1 ≻ a 2 a 1 → θ 1 : ( 2 , 1 ) \begin{aligned} & \theta_1 \rightarrow m_2 \stackrel{\text { 推断 }}{\longrightarrow}(q, 1-q) \stackrel{q=\mu\left(\theta_1 \mid m_2\right)=\mu\left(\theta_1\right) / \mu\left(\theta_1\right)=1}{\longrightarrow}(1,0) \\ &\stackrel{a_1 \succ a_2}{\longrightarrow} a_1 \rightarrow \theta_1: \quad(2,1) \end{aligned} θ1→m2⟶ 推断 (q,1−q)⟶q=μ(θ1∣m2)=μ(θ1)/μ(θ1)=1(1,0)⟶a1≻a2a1→θ1:(2,1)
θ 2 → m 1 ⟶ 推断 ( p , 1 − p ) ⟶ 1 − p = μ ( θ 2 ∣ m 1 ) = μ ( θ 2 ) / μ ( θ 2 ) = 1 ( 0 , 1 ) ⟶ a 1 ≻ a 2 a 1 → θ 2 : ( 2 , 4 ) \begin{aligned} & \theta_2 \rightarrow m_1 \stackrel{\text { 推断 }}{\longrightarrow}(p, 1-p) \stackrel{1-p=\mu\left(\theta_2 \mid m_1\right)=\mu\left(\theta_2\right) / \mu\left(\theta_2\right)=1}{\longrightarrow}(0,1) \\ & \stackrel{a_1 \succ a_2}{\longrightarrow} a_1 \rightarrow \theta_2: \quad(2,4) \end{aligned} θ2→m1⟶ 推断 (p,1−p)⟶1−p=μ(θ2∣m1)=μ(θ2)/μ(θ2)=1(0,1)⟶a1≻a2a1→θ2:(2,4)
θ 1 → m 1 ⟶ a 1 > a 2 a 1 → ( 1 , 3 ) \theta_1\rightarrow m_1 \stackrel{a_1>a_2}{\longrightarrow}a_1\rightarrow(1,3) θ1→m1⟶a1>a2a1→(1,3)
θ 2 → m 2 ⟶ a 1 → ( 1 , 0 ) \theta_2\rightarrow m_2 {\longrightarrow}a_1\rightarrow(1,0) θ2→m2⟶a1→(1,0)
所以,分离精炼贝叶斯均衡为:
[ ( m 2 , m 1 ) , ( a 1 , a 1 ) , p = 0 , q = 1 ] [(m_2,m_1),(a_1,a_1),p=0,q=1] [(m2,m1),(a1,a1),p=0,q=1]
首先看接收方根据接收到的信息做出的行为选择:
①当接受到 m 1 m^1 m1后其行动须使期望收益最大化,即
a ∗ ( m 1 ) ∈ arg max E U [ θ i , m 1 , a k ( m 1 ) ] max E U [ θ i , m 1 , a k ( m 1 ) ] = max { 3 p + 4 ( 1 − p ) , ( 1 − p ) } = max { 4 − p , 1 − p } = 4 − p ∴ a ∗ ( m 1 ) = a 1 \begin{aligned} & a^*\left(m^1\right) \in \arg \max E U\left[\theta^i, m^1, a_k\left(m^1\right)\right] \\ & \max E U\left[\theta^i, m^1, a_k\left(m^1\right)\right] \\ & =\max \{3 p+4(1-p),(1-p)\} \\ & =\max \{4-p, 1-p\}=4-p \\ & \therefore \quad a^*\left(m^1\right)=a^1 \end{aligned} a∗(m1)∈argmaxEU[θi,m1,ak(m1)]maxEU[θi,m1,ak(m1)]=max{3p+4(1−p),(1−p)}=max{4−p,1−p}=4−p∴a∗(m1)=a1
②当接受到 m 2 m^2 m2后其行动须使期望收益最大化,即
a ∗ ( m 2 ) ∈ arg max E U [ θ i , m 2 , a k ( m 2 ) ] max E U [ θ i , m 2 , a k ( m 2 ) ] = max { q , 2 ( 1 − q ) } = max { q , 2 − 2 q } = { q , q > 2 / 3 2 − 2 q , q ≤ 2 / 3 ∴ a ∗ ( m 2 ) = { a 1 , q > 2 / 3 a 2 , q ≤ 2 / 3 \begin{aligned} & a^*\left(m^2\right) \in \arg \max E U\left[\theta^i, m^2, a_k\left(m^2\right)\right] \\ & \max E U\left[\theta^i, m^2, a_k\left(m^2\right)\right] \\ & =\max \{q, 2(1-q)\}=\max \{q, 2-2 q\} \\ & =\left\{\begin{array}{l} q, q>2 / 3 \\ 2-2 q, q \leq 2 / 3 \end{array}\right. \\ & \therefore \quad a^*\left(m^2\right)=\left\{\begin{array}{l} a^1, q>2 / 3 \\ a^2, q \leq 2 / 3 \end{array}\right. \end{aligned} a∗(m2)∈argmaxEU[θi,m2,ak(m2)]maxEU[θi,m2,ak(m2)]=max{q,2(1−q)}=max{q,2−2q}={q,q>2/32−2q,q≤2/3∴a∗(m2)={a1,q>2/3a2,q≤2/3
然后看发送方如何选择:
③当发送者类型为 θ 1 \theta^1 θ1,在给定接受者的最优行动条件下,发送者选择信号 m m m使其效用最大化,即:
m ∗ ( θ 1 ) ∈ argmax U [ θ 1 , m j , a ∗ ( m j ) ] ( a ∗ 就表示给定的接收者的最优行动条件 ) max U [ θ 1 , m j , a ∗ ( m j ) ] 根据前面的推导可以知道:接收到 m 1 的时候,接收者一定会选择 a 1 但是接收到 m 2 的时候接收方不一定选择哪一个行动,具体要看 q 的取值 , 所以就有了下面两个式子: = { m a x { U ( θ 1 , m 1 , a 1 ) , U ( θ 1 , m 2 , a 1 ) } , q > 2 / 3 m a x { U ( θ 1 , m 1 , a 1 ) , U ( θ 1 , m 2 , a 2 ) } , q ≤ 2 / 3 { m a x { 1 , 2 } = 2 , q > 2 / 3 m a x { 1 , 0 } = 1 , q ≤ 2 / 3 m ∗ ( θ 1 ) = { m 2 , q > 2 / 3 m 1 , q ≤ 2 / 3 \begin{aligned} & m^*\left(\theta^1\right) \in \operatorname{argmax} U\left[\theta^1, m^j, a^*\left(m^j\right)\right] \\ &(a^*就表示给定的接收者的最优行动条件)\\ & \max U\left[\theta^1, m^j, a^*\left(m^j\right)\right] \\ &根据前面的推导可以知道:接收到m_1的时候,接收者一定会选择a_1\\ &但是接收到m_2的时候接收方不一定选择哪一个行动,具体要看q的取值,所以就有了下面两个式子:\\ & =\left\{\begin{array}{l} \mathrm{max}\left\{U\left(\theta^1, m^1, a^1\right), U\left(\theta^1, m^2, a^1\right)\right\}, q>2 / 3 \\ \mathrm{max}\left\{U\left(\theta^1, m^1, a^1\right), U\left(\theta^1, m^2, a^2\right)\right\}, q \leq 2 / 3 \end{array}\right. \\ & \left\{\begin{array}{l} \mathrm{max}\{1,2\}=2, q>2 / 3 \\ \mathrm{max}\{1,0\}=1, q \leq 2 / 3 \end{array}\right. \\ & m^*\left(\theta^1\right)=\left\{\begin{array}{l} m^2, q>2 / 3 \\ m^1, q \leq 2 / 3 \end{array}\right. \end{aligned} m∗(θ1)∈argmaxU[θ1,mj,a∗(mj)](a∗就表示给定的接收者的最优行动条件)maxU[θ1,mj,a∗(mj)]根据前面的推导可以知道:接收到m1的时候,接收者一定会选择a1但是接收到m2的时候接收方不一定选择哪一个行动,具体要看q的取值,所以就有了下面两个式子:={max{U(θ1,m1,a1),U(θ1,m2,a1)},q>2/3max{U(θ1,m1,a1),U(θ1,m2,a2)},q≤2/3{max{1,2}=2,q>2/3max{1,0}=1,q≤2/3m∗(θ1)={m2,q>2/3m1,q≤2/3
④当发送者类型为 θ 2 \theta^2 θ2,在给定接受者的最优行动条件下,发送者选择信号 m m m使其效用最大化,即:
m ∗ ( θ 2 ) ∈ arg max U [ θ 2 , m j , a ∗ ( m j ) ] max U [ θ 2 , m j , a ∗ ( m j ) ] = { max { U ( θ 2 , m 1 , a 1 ) , U ( θ 2 , m 2 , a 1 ) } , q > 2 / 3 max { U ( θ 2 , m 1 , a 1 ) , U ( θ 2 , m 2 , a 2 ) } , q ≤ 2 / 3 { max { 2 , 1 } = 2 , q > 2 / 3 max { 2 , 1 } = 2 , q ≤ 2 / 3 ∴ m ∗ ( θ 2 ) = m 1 \begin{aligned} & m^*\left(\theta^2\right) \in \arg \max U\left[\theta^2, m^j, a *\left(m^j\right)\right] \\ & \max U\left[\theta^2, m^j, a *\left(m^j\right)\right] \\ & =\left\{\begin{array}{l} \max \left\{U\left(\theta^2, m^1, a^1\right), U\left(\theta^2, m^2, a^1\right)\right\}, q>2 / 3 \\ \max \left\{U\left(\theta^2, m^1, a^1\right), U\left(\theta^2, m^2, a^2\right)\right\}, q \leq 2 / 3 \end{array}\right. \\ & \left\{\begin{array}{l} \max \{2,1\}=2, q>2 / 3 \\ \max \{2,1\}=2, q \leq 2 / 3 \end{array}\right. \\ & \therefore \quad m^*\left(\theta^2\right)=m^1 \end{aligned} m∗(θ2)∈argmaxU[θ2,mj,a∗(mj)]maxU[θ2,mj,a∗(mj)]={max{U(θ2,m1,a1),U(θ2,m2,a1)},q>2/3max{U(θ2,m1,a1),U(θ2,m2,a2)},q≤2/3{max{2,1}=2,q>2/3max{2,1}=2,q≤2/3∴m∗(θ2)=m1
综合得到初步的均衡结果如下:
{ a ∗ ( m 1 ) = a 1 a ∗ ( m 2 ) = { a 1 , q > 2 / 3 a 2 , q ≤ 2 / 3 \left\{\begin{array}{l} a *\left(m^1\right)=a^1 \\ a^*\left(m^2\right)=\left\{\begin{array}{l} a^1, q>2 / 3 \\ a^2, q \leq 2 / 3 \end{array}\right. \end{array}\right. ⎩ ⎨ ⎧a∗(m1)=a1a∗(m2)={a1,q>2/3a2,q≤2/3
{ m ∗ ( θ 1 ) = { m 1 , q > 2 / 3 m 2 , q ≤ 2 / 3 m ∗ ( θ 2 ) = m 1 \left\{\begin{array}{l} m^*\left(\theta^1\right)=\left\{\begin{array}{l} m^1, q>2 / 3 \\ m^2, q \leq 2 / 3 \end{array}\right. \\ m^*\left(\theta^2\right)=m^1 \end{array}\right. ⎩ ⎨ ⎧m∗(θ1)={m1,q>2/3m2,q≤2/3m∗(θ2)=m1
{ ( m 1 , m 1 ) , ( a 1 , a 2 ) } , q ≤ 2 / 3 { ( m 2 , m 1 ) , ( a 1 , a 1 ) } , q > 2 / 3 \begin{aligned} &\left\{\left(m^1, m^1\right),\left(a^1, a^2\right)\right\}, q \leq 2 / 3\\ &\left\{\left(m^2, m^1\right),\left(a^1, a^1\right)\right\}, q>2 / 3 \end{aligned} {(m1,m1),(a1,a2)},q≤2/3{(m2,m1),(a1,a1)},q>2/3
然后还要检验我们推断出的均衡是否满足不完美信息动态博弈的要求3和要求4(即无论在不在均衡路径上都要符合贝叶斯法则)。
对于第一个均衡,按照要求3,4分析:
p ( m 1 ∣ θ 1 ) = 1 , p ( m 2 ∣ θ 1 ) = 0 p ( m 1 ∣ θ 2 ) = 1 , p ( m 2 ∣ θ 1 ) = 0 μ ( θ 1 ∣ m 1 ) = 1 × 0.5 1 × 0.5 + 1 × 0.5 = 1 2 μ ( θ 2 ∣ m 1 ) = 1 × 0.5 1 × 0.5 + 1 × 0.5 = 1 2 μ ( θ 1 ∣ m 2 ) < 2 3 μ ( θ 2 ∣ m 2 ) ≥ 2 3 { ( m 1 , m 1 ) , ( a 1 , a 2 ) } , p = 1 / 2 , q ≤ 2 / 3 \begin{array}{ll} p\left(m^1 \mid \theta^1\right)=1, p\left(m^2 \mid \theta^1\right)=0 & p\left(m^1 \mid \theta^2\right)=1, p\left(m^2 \mid \theta^1\right)=0 \\ \mu\left(\theta^1 \mid m^1\right)=\frac{1 \times 0.5}{1 \times 0.5+1 \times 0.5}=\frac{1}{2} & \mu\left(\theta^2 \mid m^1\right)=\frac{1 \times 0.5}{1 \times 0.5+1 \times 0.5}=\frac{1}{2} \\ \mu\left(\theta^1 \mid m^2\right)<\frac{2}{3} & \mu\left(\theta^2 \mid m^2\right) \geq \frac{2}{3} \\ \left\{\left(m^1, m^1\right),\left(a^1, a^2\right)\right\}, p=1 / 2, q \leq 2 / 3 \end{array} p(m1∣θ1)=1,p(m2∣θ1)=0μ(θ1∣m1)=1×0.5+1×0.51×0.5=21μ(θ1∣m2)<32{(m1,m1),(a1,a2)},p=1/2,q≤2/3p(m1∣θ2)=1,p(m2∣θ1)=0μ(θ2∣m1)=1×0.5+1×0.51×0.5=21μ(θ2∣m2)≥32
对于第二个均衡,按照要求3,4分析:
p ( m 1 ∣ θ 1 ) = 0 p ( m 2 ∣ θ 1 ) = 1 p ( m 1 ∣ θ 2 ) = 1 p ( m 2 ∣ θ 1 ) = 0 μ ( θ 1 ∣ m 1 ) = 0 μ ( θ 1 ∣ m 2 ) = 1 μ ( θ 2 ∣ m 1 ) = 1 μ ( θ 2 ∣ m 2 ) = 0 { ( m 2 , m 1 ) , ( a 1 , a 2 ) } , p = 0 , q = 1 \begin{array}{|ll|} \hline p\left(m^1 \mid \theta^1\right)=0 & p\left(m^2 \mid \theta^1\right)=1 \\ p\left(m^1 \mid \theta^2\right)=1 & p\left(m^2 \mid \theta^1\right)=0 \\ \mu\left(\theta^1 \mid m^1\right)=0 & \mu\left(\theta^1 \mid m^2\right)=1 \\ \mu\left(\theta^2 \mid m^1\right)=1 & \mu\left(\theta^2 \mid m^2\right)=0 \\ \left\{\left(m^2, m^1\right),\left(a^1, a^2\right)\right\}, & p=0, q=1 \end{array} p(m1∣θ1)=0p(m1∣θ2)=1μ(θ1∣m1)=0μ(θ2∣m1)=1{(m2,m1),(a1,a2)},p(m2∣θ1)=1p(m2∣θ1)=0μ(θ1∣m2)=1μ(θ2∣m2)=0p=0,q=1
二手车交易博弈的参与者 i = 1 , 2 i=1,2 i=1,2,参与者1为卖主,参与者2为买主。参与者1的类型空间为 T = { t 1 , t 2 } T=\left\{t1,t2\right\} T={t1,t2},其中 t 1 t_1 t1表示卖主所出售的二手车是低质量的, t 2 t_2 t2表示卖主出售的二手车是高质量的。参与者1知道自己的类型,参与者2不知道,但参与者2对两种类型具有信念 P ( t ) = α P(t)= α P(t)=α, P ( t 2 ) = 1 − α P(t2)= 1-α P(t2)=1−α。参与者1的信号空间为KaTeX parse error: Expected '}', got 'EOF' at end of input: M={P1,Pz3,其中 p r , p 2 pr,p2 pr,p2分别表示卖主对二手车的两种不同的要价, p 1 < P z p1
设卖主将低质量的二手车伪装成高质量二车手所需付出的成本为 c c c,买主购得高质量二手车的价值为 V V V,买主购买低质量二手车的价值为 W W W,且 W < V W
- p = P ( t 1 ∣ p 1 ) , 1 − p = P ( t 2 ∣ p 1 ) ; q = P ( t 1 ∣ p 2 ) , 1 − q = P ( t 2 ∣ p 2 ) \text { - } p=P\left(t_1 \mid p_1\right), 1-p=P\left(t_2 \mid p_1\right) ; q=P\left(t_1 \mid p_2\right), 1-q=P\left(t_2 \mid p_2\right) - p=P(t1∣p1),1−p=P(t2∣p1);q=P(t1∣p2),1−q=P(t2∣p2)
①买主(参与者2)的行为选择
max a i ∈ { a 1 , a 2 } ∑ t k ∈ T P ( t k ∣ p j ) ⋅ u 2 ( t k , p j , a i ) = max a i ∈ { a 1 , a 2 } [ P ( t 1 ∣ p j ) ⋅ u 2 ( t 1 , p j , a i ) + P ( t 2 ∣ p j ) ⋅ u 2 ( t 2 , p j , a i ) ] \begin{aligned} & \max _{a_i \in\left\{a_1, a_2\right\}} \sum_{t_k \in T} P(t k \mid p j) \cdot u_2(t k, p j, a i) \\ & =\max _{a_i \in\left\{a_1, a_2\right\}}\left[P\left(t_1 \mid p_j\right) \cdot u_2\left(t_1, p j, a_i\right)+P\left(t_2 \mid p_j\right) \cdot u_2\left(t_2, p j, a_i\right)\right] \\ & \end{aligned} ai∈{a1,a2}maxtk∈T∑P(tk∣pj)⋅u2(tk,pj,ai)=ai∈{a1,a2}max[P(t1∣pj)⋅u2(t1,pj,ai)+P(t2∣pj)⋅u2(t2,pj,ai)]
卖主要低价时,
max a i ∈ { a 1 , a 2 } [ p ⋅ u 2 ( t 1 , p 1 , a i ) + ( 1 − p ) ⋅ u 2 ( t 2 , p 1 , a i ) ] \max _{a_i \in\left\{a_1, a_2\right\}}\left[p \cdot u_2\left(t_1, p_1, a_i\right)+(1-p) \cdot u_2\left(t_2, p_1, a_i\right)\right] ai∈{a1,a2}max[p⋅u2(t1,p1,ai)+(1−p)⋅u2(t2,p1,ai)]
卖主要高价时,
max a i ∈ { a 1 , a 2 } [ q ⋅ u 2 ( t 1 , p 2 , a i ) + ( 1 − q ) ⋅ u 2 ( t 2 , p 2 , a i ) ] \max _{a_i \in\left\{a_1, a_2\right\}}\left[q \cdot u_2\left(t_1, p_2, a_i\right)+(1-q) \cdot u_2\left(t_2, p_2, a_i\right)\right] ai∈{a1,a2}max[q⋅u2(t1,p2,ai)+(1−q)⋅u2(t2,p2,ai)]
p × 0 + ( 1 − p ) × 0 = 0 p \times 0+(1-p) \times 0=0 p×0+(1−p)×0=0
p × ( W − p 1 ) + ( 1 − p ) × ( V − p 1 ) = V − p 1 − p ( V − W ) p \times\left(W-p_1\right)+(1-p) \times\left(V-p_1\right) \\ =V-p_1-p(V-W) p×(W−p1)+(1−