"小故事，有道理……

你一定听说过刺猬和狐狸的故事。如果没有听过也没关系，你只要知道故事里有两个关键角色就行。以塞亚·柏林说，刺猬知道一件大事，狐狸知道许多小事。

知道一件大事的刺猬，拿着锤子看什么都是钉子，以不变应万变。知道许多件小事的狐狸，不执着于宏大叙事，也不急切于找到根本答案，兵来将挡，水来土掩，走一步看一步，根据反馈决定下一步，以万变应万变。

柏林说的当然是人，人的两种认知框架和学习模式：自上而下，还是自下而上？追求定于一，还是安于多？柏林说，刺猬偶尔蒙对，但经常铸成大错。狐狸小错不断，但也不犯大错，从反馈中学习，保持开放，持续进化。在柏林之后，刺猬与狐狸之争似乎就有了定论，狐狸赢了。

人没有千里眼顺风耳。往前看的能见度总是有限的，因为世界不确定；因为因果链条杂乱纠缠；因为可测量的往往不重要，而重要的往往不可测量；因为人的偏好既非一成不变，而在任一时刻也并不清晰可辨；还因为并不能从每个人的偏好简单加总出人群整体的偏好；更因为人与人之间始终在斗心眼。面对社会这个动态复杂系统，刺猬宣布自己知道终极答案，不管你信不信，反正我是不信的。

不过，今天主要是为了给狐狸提个醒，不要高兴太早。狐狸们从反馈中学习，而反馈里有陷阱。

反馈的三种学习方法

先申明一点，重视反馈没有错，不重视反馈那是自取灭亡。反馈是人们评价决策、校准行为的最重要依据。教师和学校教育的最大功能，就是为下一代系统性地提供有反馈的学习，使他们步步进阶。不仅下一代，所有人都是有反馈才有学习，反馈的质量决定学习的质量。

从反馈中学习一般有三种方法。

第一种方法是从自己的经验中学习。

你过去做什么以及怎样做获得成功，将来就会更多地用同样方法做同样的事，反之则减少。从得失中学习是最朴素的学习机制，每个人天生就趋利避害。

博弈论研究也支持这个学习策略，哈佛大学教授诺瓦克（Martin Nowak）经过无数次计算机模拟后得出结论，所谓“赢继续输就变（Win-Stay-Lose-Shift）”，赢就接着来，输就换个招。你不用观察对方是什么策略，你只要看自己的得失，赢就继续输就换，简洁到人人无师自通。

从反馈中学习的第二种方法是模仿。

别人怎么成功，你就学习他的成功经验，哪怕是想象出来的成功经验，常常有用。中国经济过去40年的高速增长，本质上也要归功于对其他成功经济体增长模式的模仿。所谓摸着石头过河，自己去摸很重要，但更重要的是有个现成的方向可以让你摸过去。你知道自己要过河最重要。

模仿最有意思的地方是由表及里，从外在成功倒推内在的成功机理，先回溯，再模仿。其实并不存在万能方法判定解剖到了哪一层，就真正管用。

中国近代以来通过模仿追赶西方，从器物层面开始，所谓中体西用，中为体，西为用，那就不用动大手术了，坚船利炮先买后造就行；然后发现这样不行，精英们形成共识得动制度，于是有了辛亥革命武昌城头一声枪响；这就够了吗？有人认为还是不够，国民性才是问题所在，必须触及灵魂最深处，非改造文化不可。到底哪一层管用？就算今天我们回过去看，也难说有结论。

模仿是本能。我小学一年级的时候成绩不好，就模仿班上第一名。她看黑板我看黑板，她写字我写字，她托腮帮子我也托腮帮子，后来我的成绩就变成了第一名，到今天我也不知道模仿她托腮帮子有多少帮助。

从反馈中学习的第三种方法是进化算法。

物竞天择，适者生存。适应性越高的越能活下来，有越多的后代，扩散开去。至于适应性高的原因是什么，不是很重要。天地不仁，以万物为刍狗，刍狗不必要了解天地的想法，本来就了解不到，了解到了搞不好吓自己一跳。

人之所以是今天这个样子，不是因为哪只黑猩猩做了伟大计划要站起来，而是适应的就活下来开枝散叶，几百万年一代代重复，才变成今天这个样子。倒回去看进程，有无数种其他可能性倒毙在半路。现实的就是合理的，合理的就是现实的。进化算法就是模拟自然界的套套逻辑（tautology）：适者才能生存，而生存下来的就是适者。自然界就在循环论证。

在全社会的层面上，天然采用着进化算法。无数种观念和行为彼此竞争，适应者留下来，传开去。从个人的层面看，进化算法不容易用，因为进化算法走的是盲选路线，而盲选需要从中选择的池子很大，得有大量有差异的观念和行为接受选择。个人没办法精神分裂到那个地步。

当然，个人虽然不能精神分裂，但可以考虑通过货币作中介来模拟分裂。有人把钱投给许多基金经理，定期再评估，超过基准的保留，低于基准的淘汰，就是近似地模拟进化算法。

对进化算法来说，在个人与社会之间的组织层面才是最有趣的。组织总会要求齐一性、科层制和标准化，所以足够多元化和差异性如果要保留下来，必须是有意识为之才做得到。许多公司在内部设计机构的、文化的、激励的区隔，特地打造出体制内孤岛，以防止观念经由传染而趋同，合理性就在于此。

比如说，微信能够崛起，跟团队在广州，而不在总部深圳很有关系。后来腾讯把这套方法总结成赛马机制，事先可能是无心插柳。

我把反馈这一部分小结一下。刚才讲了狐狸从反馈中学习的三种主要方法：从自己的经验中学习，从模仿他人中学习，使用进化算法模拟学习。三种方法都重视反馈，根据反馈调整行为，本质上都属于适应性学习，都很有用，只是别忘了一点：重视反馈要有限度。狐狸很精明，太精明了也不行，有陷阱等着它。

适应性学习的陷阱

适应性学习的共同陷阱，就是它们都是短视的。无论是机会还是威胁，它们都更重视近在眼前的机会和威胁，而不够重视将来的机会和威胁。

从自已的经验中学习，依靠的是即时得失反馈；通过模仿他人学习，依靠的是观察别人的得失反馈；进而用进化算法，则更是只以即时成败论英雄，连原因都懒得了解。

适应性学习之所以有用，就是因为短视有合理性：你不在每个短期中活下来，就没有长期可言。但过度偏好即期收获也挖下陷阱，你在每一个短期中都得分，变得越来越适应环境，获得了越来越多的稳定，到最后没有新东西，环境一旦剧变，你拿什么去对付变化？

适应性学习都是从历史记录中学习，而不是从历史的所有可能中学习（counterfactual thinking）。因为它只能学习已经发生的事情，不能学习没有发生，但有可能发生的事情。所以，它注定没有应对剧变的想象力。

适应性学习带来两大陋习，一个是为了眼前得失牺牲将来，另一个是不肯为了全局牺牲局部。

为眼前利益牺牲将来，最典型的是上市公司每一季度都要保持利润增长，结果反而没有长期增长的新引擎，每一步都很满足，最后却落得没有未来。不肯为全局牺牲局部，最典型的是“在我死后哪管洪水滔天”。

所以，光有狐狸是不行的，还得有人做刺猬。狐狸要想活得日子长久，得搭刺猬的便车。刺猬有宏大模型、远大眼光、颠覆性理想，时常把我们带到巨坑里去，刺猬太多肯定不行，但没有刺猬的话，狐狸迟早会掉入自己挖的陷阱：到最后大家都是狐狸，极度适应当下的环境，最后变成一群精致的利己主义者，面面相觑没有出路。

重要的是怎么管理刺猬，别让它把我们带到坑里，能做的是试点。做大事之前先试点，低投入，隔离影响。低投入，所以失败不会有灾难性后果；隔离影响，所以失败的后果不会传染全身。当然，问题没有消失，只是推到了下一个环节：当试点产生经验，需要推广开来时，它会面临着那堵将特区与整体隔开来的高墙，真正的冲突在那里等着它。

想好了怎么管理刺猬，但首先你还得有刺猬。想想刺猬们真是一种独特的生物：与狐狸这群精致的利已主义者们正好相反，他们着眼长期得失，不惜牺牲短期得失，而且不管是自己还是大家的得失；刺猬中的绝大多数注定会失败得很惨，即使算上极少数获得成功的，作为一个整体，刺猬的平均预期收益是很低的。套用管理学大师马奇的话说，只有傻到有英雄主义才会做刺猬，他们是适应性过程中出现的bug。

不过，没有他们这些bug出现，就没有社会的生生不息。乔布斯建议年轻人stay foolish，坚持傻下去，意味深长。

"小故事，有道理……

你可能感兴趣的:("小故事，有道理……)