Yale开放课程博弈论22

22. 作弊、惩罚和外包

 

假设我和杰克进行持续的交易,我给他提供水果,他给我提供蔬菜。

按照上节课讲的扳机策略,一旦我背叛他,那么在之后的交易中他会一直背叛我。

 

那么对于今天我是选择合作还是欺骗?有下面这样一个公式:

今天我欺骗杰克的动机小于 (明天我和杰克合作的前景)-(明天杰克欺骗我的惩罚)

 

gain if cheat today ≤ (value ofrelationship after "corperation") - (value ofrelationship after "cheating")

 

我们重新考虑重复囚徒困境问题,每次继续进行下去的概率是d

 

上面不等式的左边为诱惑(选择欺骗比选择合作多得的收益):3-2 = 1

右边为惩罚:(C表示合作,D表示背叛)

(value of (C,C) forever) – (value of (D,D)forever)

=(value of 2 forever) - (value of 0forever)

=2+2d+2d^2+... = X = 2 /(1-d)

 

可是上面左边的是今天的诱惑,右边是明天的惩罚,可是明天可能我们的关系已经不存在了,所以右边还需要再乘以d,即有1≤2d/(1-d),得d≥1/3。

 

如果delta<1/3,那么第一轮就会选择策略D,可是按照之前的策略,之后的所有博弈我将选择D,这样收益全是0,为什么我还要这样做呢,为什么选择了D之后不能再选择C呢?

 

现在我们来考虑如果我选择D之后选择C策略,对手则在第一轮选择C,看到我第一轮选择D之后其他几轮全部选择D:

(D,C)(C,D)(D,D)(D,D)

我的总收益是3-d,如果按照之前的策略第二轮我还是该选择D,这个时候我的总收益是3。

 

如果是在第二回合欺骗,而不是第一回合又会怎样呢?其实从第二回合开始看,跟上面是一样的。

 

如果delta大于1/3,这么做就无利可图,因为通过选择C可以促成之后的合作。

 

通过扳机策略在囚徒困境中能促成合作,条件是博弈进行下去的概率≥1/3

 

结论:如果这段关系有较大的概率持续下去,那么它能够促成今日的善行。

因为你们之间关系继续的概率,是你给未来赋予的加权。

 

已经大四的同学找到另一半的,如果将来双方要去不同的城市工作,也就是异地恋,根据社会学的统计他们间的关系持续下去的概率会降低。

也就是说在大四最后一段时间,他们可能会选择欺骗。

 

但是,在现实生活中扳机策略还有劣势,因为它会因一些特别小的失误而反应过激。比如说我和杰克进行持续的交易,某一天我忘带眼镜不小心给了他一个烂苹果,按照这个策略,在之后的交易里他将一直背叛我。

 

所以我们接下来设计在一个回合内的惩罚措施。

 

修正策略为:一开始选择策略C,如果上回合是(C,C)或(D,D)则选择C;否则选择D。

 

这样的话,如果某次我失误地选择了D,则下一次我们都选择D,然后下下次我们都会选择C,从而通过一个(D,D)的回合回到了正常的状态。

 

对于新的策略,我们再来看看上面的那个不等式:

(3-2) ≤ (value of 2 forever)– (value of 0 tomorrow and value of 2 forever from the next day)

1 ≤ 2d/(1-d) * (1-d) = 2d

d≥1/2

 

也就是说想要惩罚宽松点,我们需要更高的d。如果你希望惩罚措施别太严格,只要未来的加权d更大。

 

下面看一个实例,重复的道德风险问题。

 

弗里多尼亚市场价格为1,我要在那里做投资(成本1),请了一个代理人帮忙,给代理的工资是w,如果成功的话净收益是3,但是代理人可能会欺骗你。

如果你不选择投资,那么自己的收益是0,代理人的收益是1(他可以找一份其他工作,获得市场价格1)。

如果你选择投资,代理人诚实的话,双方的收益分别为3-w,w。

如果你选择投资,代理人背叛的话,双方的收益分别为-1和2(他干回老本行的工资是1,还骗走了你投资的1)。

 

那么,我要付代理人多少钱才能办成这件事?

 

如果w=1和市场价格一样,代理人会欺骗。

均衡情况下,应该设定w* = 2 。

 

新兴市场的额外工资(wage premium) 是100%。

 

上面是一次性外包投资,下面来看一个长期的投资。

假设重复相互作用的概率是d,工资w**该怎么定呢?

 

欺骗的收益是2-w**

2-w** ≤ d*[(value of w**forever) – (value of 1 forever)]

w**≥ 2(1-d)+d

 

当d = 0时,w**=2  one-shot wage

当d = 1时,w**=1  ongoing wage

当d = 1/2时,w** = 1.5,奖励工资只有50%

 

总结:如果希望在持续关系中今天能够促成善行,那么明天一定要有奖赏,如果明天继续的概率不是很大,那么奖励就要更多。

你可能感兴趣的:(Yale开放课程博弈论22)