一听:AI,比人类自身更了解人类的偏好?

这几天,马斯克和美国的社交媒体公司推特又打起来了。你知道,今年初马斯克大张旗鼓地宣布要收购推特。一开始,推特是拒绝的,认为这是恶意收购,还启动了所谓的“毒丸计划”来对抗。不过后来,推特还是半推半就,和马斯克达成了收购协议,价格都谈好了。

没想到,就在7月8号,“负心汉”马斯克突然翻脸,向美国证券交易委员会发函,要终止对推特的收购。这下,推特又不干了,向马斯克索赔10亿美元的“分手费”。对此,马斯克在推特上回了一句话:“真讽刺,呵呵。”马斯克表示,推特从一开始就不欢迎他的收购,公司管理层一直在用数据作假、财务反制等各种手段阻碍收购的正常推进,这才让他决定停止收购。

消息就是这样,来看看能学到什么知识。

这场闹剧估计一时半会还不会收场,咱们可以继续吃瓜。如果从博弈论的角度看,这其实是典型的由于参与各方的相互不信任,造成的双输局面。交易的参与者没能找到共同认可的合作机制,导致最后终于有人忍不住“掀桌子”。

合作的失败显然会增加社会的运行成本。科学家们就想,能不能用AI算法设计一种大家都愿意接受的合作机制呢?最近,英国的人工智能公司Deepmind在《自然·人类行为》杂志上发表了一项很有趣的研究。他们设计了一种由四个真人玩家参与的模拟投资游戏,然后通过人工智能算法,找到了最受玩家欢迎的合作机制。

这个游戏的玩法是这样的:最开始的时候,四名玩家会随机拥有不同数量的初始资金。也就是说,玩家之间存在初始的“贫富差距”。在游戏第一步:每个人需要从自己的初始资金里“投资”一部分钱到一个“公共资金池”,具体投多少全凭自愿。游戏的第二步:这个由大家共同出资的“公共资金池”会增值60%。第三步,公共资金池连同增值部分一起,按照某种分配机制返还给四名玩家。然后,回到游戏的第一步,开始下一轮投资。这样总共进行10轮。

说到这儿你大概听出来了,这里面每个玩家想要获得理想收益,最关键的因素不是一开始获得的初始资金,而是公共资金池连同增值部分的分配机制。如果分配机制让大家觉得不公平,会导致玩家在后面的投资越来越少,公共资金池渐渐萎缩,每个人都没法获得理想收益,从而形成多输局面。

那么,怎样的分配机制才算“公平”呢?经济学里的传统利益分配机制,大概有这么几种原则:

第一,按人头分配。也就是,不论四个玩家上一轮各自投资多少,每个人分1/4。

第二,按股权分配。也就是,按上一轮每个玩家出资额的比例进行分配。

第三,按付出分配。这个机制稍微复杂一些,就是每个人分配到的金额,是按照自己上一轮投资的金额占自己总资产的比例来分配的。比如,一个人的初始金额只有2元,他把这2元全部投进公共资金池了。另一个人的初始金额是10元,他也拿出了2元来投资。也就是说,虽然投资额相等,但第一个人投入了100%的钱,第二个人只投了20%的钱,第一个人分到的钱就是第二个人的5倍。

可以预见,这三种分配机制各有各的问题。比如按人头分配,肯定会造成搭便车现象,你一分钱不投,也可以分到和别人一样的收益。按股权分配,可能会造成贫富分化的马太效应,一开始运气好、初始资金比较多的玩家,会越来越有钱,而一开始运气不好的玩家根本没有反超的机会。这两种分配机制下,玩家在结束游戏之后,表示游戏体验都不是很好。第三种按付出分配,体验略好一些,但也肯定不是最优解。

能不能在这三种机制之外,找到更好的分配方式呢?科学家们请出了人工智能来帮忙,分三步走:

第一步,研究人员收集了大量由人类玩家产生的游戏数据,让AI算法学习人类玩家的行为模式,变成一个跟人类行为模式很像的“虚拟玩家”。

第二步,研究人员让这些“虚拟玩家”相互进行游戏,并且在每次游戏结束后对游戏的满意度打分。这些虚拟玩家在不同的分配机制下,开展了上万次的游戏,最终找到了一种“虚拟玩家”满意度最高的分配方式。

第三步,研究人员招募了3000多名志愿者,让这些人类玩家分别在AI挑选的分配方式,还有刚刚介绍的三种经典分配方式下玩这个游戏,投票选出自己最满意的分配方式。

实验结果显示,由AI选出的分配机制,成功地击败了三种经典分配机制,获得了最多人类玩家的投票。

听到这儿,你肯定很好奇。这个AI选择的分配机制是什么样的呢?这是一个根据游戏进程随时调整的复杂机制,有点像一个黑盒子,很难概括成上面那种简单的规则。不过,它有一些可以被观察到的特点,比如,既追求投资效率,也注意缩小玩家之间的贫富差距。在追求投资效率方面,如果一个玩家投资的额度还不到自己全部资金的50%,说明他参与的积极性不是很高,他不会获得任何回报,这个规则意在鼓励大家多投资。在追求平等方面,分配规则会在最开始几轮游戏的时候,对那些一开始运气不好分到钱较少的玩家进行适当倾斜。

值得一提的是,这个AI分配机制不仅仅击败了三种经典分配机制,也击败了人类玩家随机应变设定的分配机制。研究人员开展了一个补充实验,在这个实验里,没有固定的分配方式,而是由一个人类裁判员来决定每一轮的分配。

按理说,这位人类裁判员拥有着“上帝视角”,可以依据游戏中每个人的投资积极性、贫富差距等信息随时灵活调整分配方式,理论上可能让玩家更满意。结果呢,几百名人类裁判员获得平均满意度,还是低于AI的分配机制。看来,AI真的可以做到,比人类自身更了解人类的偏好。

你可能感兴趣的:(一听:AI,比人类自身更了解人类的偏好?)