——概率论解决随机问题的本质,就是把局部的随机性转变为整体上的确定性。
比如一座城市,哪些家庭今天会要孩子、婴儿会在哪一刻诞生,这些都是随机的,但是从整体上来看,这座城市的出生率、每年新生儿的数量,却是大致确定的。
或者说抛硬币,每次的结果都是随机的,但是整体来看正反的概率都是1/2。
概率论不是帮你预测下一秒会发生什么,而是为你刻画世界的整体确定性。某一次结果的随机,是低层次的事;而概率论,是高层次的、确定性的认知。
——随机性不等于不确定性
随机性和不确定性最大的差别就在于,这个事件可能出现的结果是否可知。
简单地讲,随机性是这个事件可能出现的结果我都知道,只是不知道下一次会出现哪个结果。
随机播放音乐,虽然不知道接下来会播放哪一首,但歌单里总共10首歌,下一首肯定是这10首里的一首。
而不确定性,是我连可能出现结果的选项都不知道。
比如,我今天出门会发生什么事情,这就是不确定性,而不是随机性。因为可能发生的事太多了,堵车、下雨、碰到熟人、捡到钱……都可能发生,根本没法穷尽所有可能的结果。
而只有知道了全部可能的结果,才能分析它们的概率;不知道可能的结果,就没法深入研究。所以说,概率论面对和处理的是随机性,而不是不确定性。随机事件结果选项可知的特性,是概率论发挥作用的基础。
当然,很多不确定性是可以转变成随机性的。
比如“我今天出门会发生什么事”这个问题,可能的结果没法穷尽,是个不确定性的问题。但如果把问题修改一下,“今天出门遇到的第一个人,是我认识的还是不认识的呢”,就把不确定性的问题变成了随机性的问题,变成了可能遇到认识的人和不认识的人的概率问题了。
尽量把不确定的问题,转变为随机的问题,用概率去研究,就是对付它们的科学方法。
再复杂的概率问题,也都是基于三个计算法则的。哪三个法则呢?
第一个,我称之为“排列组合法则”;
第二个,是“加法法则”;
第三个,是“乘法法则”。
—排列组合法
适用于结果有限,而且每种结果都是等可能性的情况。
—加法法则
如果说排列组合法则是针对单个随机事件的概率计算,加法法则针对的就是多个随机事件。以两个随机事件为例,一个随机事件发生或者另一个随机事件发生的概率,也就是这两个随机事件发生其一的概率,等于两个随机事件各自发生概率的和
不过,加法法则也有个限定条件,就是这两个随机事件不能同时发生,我们也称之为“互斥”。
举个反例。天气预报说,周六下雨的概率是50%,周日下雨的概率是60%,那周末两天有降雨的概率是多少呢?是周六下雨的概率直接加上周日下雨的概率吗?一加结果是110%,超过1了。前面说了,概率一定在0和1之间,不可能大于1,所以这么算肯定不对。到底哪里错了呢?
可能你已经发现了,周六下雨和周日下雨并不互斥,周六下雨了,周日也可以下雨,它们可以同时发生。也就是说,还存在 “周六和周日都下雨”的情况,所以不能直接用加法法则。那怎么办呢?用加法法则得出的结果减去周六周日都下雨的概率就好了。
以两个随机事件为例,加法法则是两个随机事件发生其一的概率,将两个随机事件各自发生的概率相加。
—乘法法则是两个独立事件同时发生的概率,将两个随机事件各自发生的概率相乘就行了。
不过,乘法法则也有个限定条件,得是独立事件。如果是独立事件,彼此互不影响,可以直接使用乘法法则。如果是非独立事件,那就不能直接乘了,而是要对乘法法则做个变形,也就是利用条件概率。
常用的度量概率的方法有三种——定义法、频率法、迭代法。
定义法,是通过自然世界的对称性来定义概率;
频率法,是用随机事件发生的频率来计算概率;
迭代法,是用一种动态发展的、考虑个人差异的角度来度量概率。
当我们用概率解决生活问题的时候,发现还是有些事情解决不了。
首先,有些事是没法试的。
其次,很多事不断发展,它的概率是不断变化的。
而且,很多问题还和个体的差异有关。
类似的问题还有很多。或者是数据量不足,或者是概率本身不断变化,或者是和个体密切相关,这些事情的概率都没有办法通过反复试验、收集数据来预测
所以有了迭代法
迭代法就是说,先利用手头少量的数据做推测,甚至是主观猜测一件事儿的概率,然后再通过收集来的新数据,不断调整对这件事概率的估算。最常用的方法就叫作“贝叶斯”。
整体不需要通过补偿来对局部产生作用,大数定律并不通过补偿来实现。
大数定律不会对已经发生的情况进行补偿,而是利用大量的正常数据,削弱那部分异常数据的影响。正常数据越多,异常数据的影响就越小,直到小到可以忽略不计。
如何保证未来一定有大量的正常数据呢?
均值回归
整体通过均值回归对局部起作用
均值回归的意思是说,如果一个数据和它的正常状态偏差很大,那么它向正常状态回归的概率就会变大。
其实,均值回归更准确的叫法应该是“趋均值回归”,趋向均值的方向回归。所以它产生作用的对象,是那些特殊的、异常的、极端的数据。这些异常的状态是没法长期持续的,所以回归正常值的概率会变大。不过,至于是比正常值稍微高一些,还是稍微低一些,都有可能,完全是随机的。
比如,一个同学正常的数学水平是80分,这次超水平发挥考了100分,下一场考试,他大概率考不到100分,但可能考90分,可能考80分,也可能考70分。这些都比100分正常,都更接近他的真实水平,所以都是均值回归。而不是说上次考100分,这次只能考60分、50分来补偿上次的高分。
总之,大数定律不需要补偿,而是通过均值回归,通过产生大量的正常数据,削弱之前异常数据的影响。
比如我们经常会说一些俗语,运气不好的时候,会说“三十年河东,三十年河西。严格地说,都有一定的道理,但又都不全对。
为什么说有一定的道理呢?因为它们蕴含了朴素的概率思维,知道在大多数情况下,不正常的状态难以持续。正常情况下,谁的运气也不可能一直坏嘛。
为什么说它们不全对呢?因为不管是“三十年河东,三十年河西”,还是“否极泰来”,背后都蕴含着刚才我们说的补偿思维,认为三十年河东后,之后三十年一定河西;
而我们现在知道,大数定律不需要通过补偿来实现。极度的坏运气过后不一定就有好运气,而是通过均值回归,让运气回到不那么坏的正常状态。所以更准确的说法应该是,“否极”后,可能“泰来”,也可能是回到运气不好不坏的状态,都有可能。
本质上,数学期望是对事件长期价值的数字化衡量。
大数定律把局部的随机性变成了整体上的确定性,也就是概率;而数学期望又把概率代表的长期价值变成了一个具体的数字,方便我们比较。
数学期望相同,并不代表两件事的价值就一样。随机结果的波动程度,同样对一件事的价值,对我们的决策影响巨大,在描述和思考一个随机事件的时候,我们还得考虑这种波动性。这就涉及到一个专业概念,叫作“方差”。
方差描述的就是,随机结果围绕数学期望的波动范围。
方差的本质,就是对风险的度量。一个随机事件的方差越大,可能的结果离期望值越远,就说明它的风险越大。
生活里也是这样。虽然日常我们追求稳定,但是如果能在稳定的基础上适当增加一些方差,增加一些波动性,比如偶尔一次旅行、出去吃顿好的、给媳妇买个奢侈品包,都会让生活更加丰富多彩,幸福感更高。
——条件概率
说白了,条件概率就是计算和量化某个条件对随机事件的影响。日常生活中,我们总说“找到关键因素”,其实是在寻找对这件事产生重大影响的条件。是的,我们在计算条件概率。
——贝叶斯推理
根据新信息不断调整对一个随机事件发生概率的判断,这就是贝叶斯推理。
贝叶斯推理的两大优势
第一,起点不重要,迭代很重要。
贝叶斯不是推理一次就完了,它是个反复的过程。每找到一个新信息,就进行一次推理,得到一个新判断。而下一个信息,要么进一步证实我们的判断,要么削弱我们的判断,就要对之前的判断进行调整。这样不断微调、不断微调,慢慢的,结果一定会和真实状况越来越接近。毫不夸张的说,贝叶斯最后一定会无穷逼近于真理。
第二,信息越充分,结果越可靠。
尽可能丰富的信息,是贝叶斯走向准确的最大保障。
拿机器学习来说吧,它的底层理论就是贝叶斯。为什么谷歌训练人工智能识别猫和狗时,要给它看成千上万张照片?为什么特斯拉的自动驾驶汽车要进行各种路测,千方百计收集用户开车的数据?就是因为数据越多,供它调整的机会越多,它的计算结果就会越精确,越逼近真相。
—概率思维的三个原则
原则一:对抗直觉,能算就算。
很多概率相关的事情,不要相信自己的直觉,只要动笔简单算一算,就很容易得出结论。
原则二:寻找条件,增大概率
寻找影响这件事的关键条件。
生活中,几乎所有涉及个体的决策都是如此。想要成功,就要找到对自己成功影响最大的那个条件概率。换句话说,想要成功,就是找到最大化概率的条件。
对于创业来说,成功的平均概率可能只有1%,但如果你拥有关键技术、找到了蓝海、采取了差异化竞争策略,你成功的概率就会大大增加。
原则三:相信系统,长期主义
如果寻找条件概率不足以大幅度提高我们做一件事的成功率,而只是让我们获得一些微弱的优势,比如只让成功率提高到了55%,具体某一次决策时,仍然有一半的可能性会失败,这时候该怎么办呢?
这就要说到概率思维的第三个原则——相信系统,长期主义。
还记得网上那个励志鸡汤吗?1.01的365次方是37.8,而0.99的365次方是0.03,激励我们每天进步一点点。虽然这是一个鸡汤,但不得不说,它是有道理的。
表面上看两个概率相差无几,但只要加入“时间”这一个变量,长期结果就会大不一样——只要有1%的概率优势,长期来看,势必会造成赢者通吃的局面
“训练时,用正确姿势投丢的球比用错误姿势投进的球,更有价值。”其实就是我们说的相信系统,坚持长期主义。用错误的姿势投球,可能某一次能蒙进,但只有用标准的姿势反复练习,把这个姿势固定成肌肉记忆,才能真正提高自己的命中率。
而所谓的科学决策,其实是一个决策系统,只要决策系统有概率优势,我们就要长期坚持,相信系统,而不在乎单次决策的随机结果的好坏。
(如果在某种条件下的条件概率只是大一点,一方面你的优势并不明显,而且不能保证每次都会好一点,有时候人家可能偶尔比你好。毕竟这是随机的,就好比你投篮,用正确的方法投篮比不用正确的方法投篮,在这个条件下,投中的概率比错误的方式好一点,但是这也是随机的,可能某次错误的投球方式比你用正确的方法投的还要准。但是只要我长期用正确的方式这样训练,投中率就会慢慢提高,这就是长期主义,相信系统,不在乎单次随机结果的好坏)
其实我们学习也都是如此。你流的每一滴汗,读的每一本书,都会一点点的改变你的身体,改变你的认知。这些微小的改变,这些微小的概率提升,在时间的作用下都能被无限放大——每天进步一点点,相信时间的力量
站在当下,未来任何事都只是一个概率。所谓坚持,所谓努力,其实就是寻找一个大概率的方向,然后相信系统,相信长期主义。当然,你得坚持活着,等到长期的到来。
参考文献
得到-刘嘉《概率论22讲》