《概率论22讲》学习笔记

音频:概率论22讲
作者:刘嘉

01 | 全局:从局部随机性到整体确定性

知道了概率论的本质

  1. 把局部的随机性转变为整体的确定性,是概率论解决问题的本质。
  2. 概率论不是用来预测未来,也不是对一次偶然的结果进行计算,它是更高层次的、确定性的认知。
  3. 概率论的大厦像什么?我更愿意说:概率论不是一栋建筑,而是一个城市。我可以不知道城市里每一栋建筑的样子,但我确定地知道这个城市的建筑模式。

02 | 随机:随机性不等于不确定性

  1. 随机性不等于不确定性。概率论研究的是随机性,而不是不确定性。
  2. 随机分真伪。真随机是数学上的理想概念,是绝对不可预测。而我们最常遇到的,是在效果上类似于真随机效果的随机。
  3. 随机是这个世界的决定性力量。

03 | 概率:对世界可能性的度量

  1. 概率是随机事件发生可能性大小的定量描述。
  2. 概率是随机事件在样本空间的比率。
  3. 样本空间的完备性是一个幽灵。从某种角度来说,我们对世界的认识,就是对样本空间完备性的认识。

04 | 独立性:随机事件的相互关系

  1. 如果一个随机事件发生的结果,不会影响另一个随机事件的概率,那它们就是互相独立的事件,反之就是非独立事件。
  2. 只有明白了随机事件之间的关系,判断它们是否有独立性,才能正确分析和度量它的概率。
  3. 很多看似独立的事件,其实都是互相联系、互相影响的。评估随机事件的概率时,对独立事件的设定需要格外谨慎。

05 | 概率计算:定义问题比计算更重要

  1. 排列组合法则、加法法则、乘法法则,是概率计算最基础的三个法则,可以解决大部分概率计算问题。
  2. 大部分人不会做概率题,不是因为不会计算,而是因为没看明白题目。
  3. 概率计算之所以复杂,是因为很难将现实问题准确的抽象成“对”的概率问题。准确的翻译现实问题,就是概率思维的核心。

06 | 概率度量:建立整体确定性的三种方式

这就是精益思维的数学依据。小步快跑、MVP都明白了。
迭代法就是说,先利用手头少量的数据做推测,甚至是主观猜测一件事儿的概率,然后再通过收集来的新数据,不断调整对这件事概率的估算。最常用的方法就叫作“贝叶斯”。

08 | 大数定律:局部频率不是整体概率

黄金定律
到此为止,我们先用弱大数定律找到了整体,又用强大数定律确定了整体一定是稳定的。大数定律又被称为“黄金定理”,它让我们真正能用整体的确定性来对抗局部的随机性。

常见误区
整体不需要对局部进行补偿
这种整体对局部的约束作用,是怎么进行的呢?
很多人会有一种朴素的想法,叫作“补偿思维”。举个例子,当硬币连续抛了10次都是正面朝上后,很多人就认为,下一次反面朝上的概率肯定得更高一些。因为只有这样才能补偿不平衡的状况,要不然怎么保证最终硬币正面朝上的概率还是50%呢?
看起来很合理,但我要告诉你的是,这种思维是错的。整体不需要通过补偿来对局部产生作用,大数定律并不通过补偿来实现。
还是刚才的例子,假如抛硬币前10次都是正面,那想让正面朝上的概率稳定在50%,后面是不是得抛出更多的反面来补偿呢?不需要。

09 | 数学期望:对随机事件长期价值的衡量

决策的数学依据
几乎所有金融产品的价值,比如基金、股票是否值得投资,也都可以使用数学期望来衡量。如果赢的期望超过输的期望,也就是说,如果数学期望是正的,就证明它值得长期投资。这就是金融领域“价值投资”的真谛。

11 | 概率分布:认识现实世界的数学模型

面对不确定性,先假设再求证,贝叶斯定理思维。假设权是你拥有的最大权利!
用模型不断逼近世界的真相
找到了变化规律的,可以用概率分布模型描述。还没有找到变化规律的怎么办呢?只能束手无策吗?
当然不是。
一般情况下,面对一个无法解释的现象,专家会先假设它服从某个概率分布模型,然后再去验证假设。
比如对于股市这个问题,过去的经济学家发现:股票的波动情况和抛硬币一样,连续两天都涨或连续两天都跌的可能性差不多都是50%,挺服从正态分布的。于是,他们就用正态分布来模拟股市,并根据这个模型的数学特征,比如数学期望、方差、极端情况出现的可能性等,来构建整个金融体系的风险系统。
最后,人们拿模型的预测和现实中股市的涨跌情况做个对比,发现变化挺一致的。所以人们就认为,股市的变化服从正态分布这个模型。
但是很快,这个结论就出问题了。金融危机爆发的时候,市场完全不遵循正态分布的规律。在正态分布的模型中,几十亿年才会出现一次的极端情况,会在一天内反复出现。
这时候,人们终于明白——用正态分布来评估股市的风险,可能压根就是错的。换句话说,我们可能从一开始就选错了模型。
请注意,是我们选错了模型,而不是说模型本身是错的。概率分布模型是逻辑的产物,百分之百是正确的;但是模型那么多,我们选择时可能出错。打个比方,菜刀的设计没有错,但你用菜刀钉钉子,就不免会伤到手。错的不是菜刀,而是你选错了工具。

12 | 正态分布:最简单却最重要的概率分布

专业和业余的数学量化就是概率的均值和标准差。
其他人总是用“刻意练习”“精准”等来评价专业和业余,但在数学家看来,这些词都太模糊。真正精确的标准只有两个——均值和标准差。专业就是均值更高,标准差更小,业余恰恰相反。

13 | 中心极限定理:正态分布是概率分布的神

信息熵和正态分布联系起来了
而巧合的是,正态分布就是所有已知均值和方差的分布中,信息熵最大的一种分布。如果熵不断增长是孤立系统确定的演化方向,那熵的最大化,也就是正态分布,就是孤立系统演化的必然结果。

14 | 幂律分布:给人带来希望的魔鬼

幂律分布是对抗熵增的有效办法,也就是长期主义的数学依据。
其中一个比较主流,也是我最喜欢的,是1982年诺贝尔物理学奖得主肯尼斯·威尔逊的观点。因为这个研究给人类对抗熵增,对抗世界的宿命,提供了新的希望。
威尔逊的研究突破,源于水变成冰这个常见的生活现象。他发现,在水变成冰的过程中,存在一个神奇的临界温度——在临界温度之前,水分子里原子的自旋都是随机指向不同的方向;可一旦到了临界温度,就会非常有序地指向同一个方向。
这是个神奇的事情,为什么在那一瞬间突然就从混乱变成了有序呢?
威尔逊收集了很多临界态一瞬间的关键数据,结果发现,每个指标都在临界态附近涌现出了幂律分布。换句话说,在水变成冰,也就是从无序到有序的临界状态上,所有指标都呈现出幂律分布的现象。而我们知道,无序是熵值最大,有序是熵值最小,所以这也就说明,在从无序到有序这个熵减的过程中,幂律分布必然发生。
为什么说这个结论给人带来希望呢?
你想,如果这个理论是幂律分布产生的原因,那幂律分布就是我们对抗熵增的必经状态。只要一个生命还存在,一个系统还在演化,它就必然在做熵减的工作,所以出现幂律分布也就不足为奇。这也正好解释了正态分布和幂律分布在生活里都很常见,秒杀其他分布的原因。
所以你看,虽然幂律分布像魔鬼一样狡诈、难以预料,但它可能是我们对抗熵增的必然选择,是每个系统从无序到有序,从混沌到清晰,从未知世界到规律世界的必经之路。幂律分布存在的地方,看似凶险,却恰恰是对抗熵增,对抗死寂,对抗死亡的角斗场,是我们的希望之光。

19 | 贝叶斯推理:概率是对信心的度量

概率本质上是对信心的度量,信心也就是确定性。
在贝叶斯的世界里,概率本质上是对信心的度量,是我们对某个结果相信程度的一种定量化的表达。
生活里,我们说的很多概率,其实表达的都是我们对某个结果的相信程度。
比如说,一场精彩的球赛看下来,我们总说比赛跌宕起伏、千回百转,其实就是因为场上局势不断变化,我们对比赛结果、对某支球队输赢的信心在不断调整。

起点不重要,迭代更重要。
生活里,为什么我们总是寻找新信息,争取信息完备?其实就是为了运用尽可能多的信息,提高自己判断的准确率,本质上还是贝叶斯推理。
这其实是一种非常高级的思维模式。起点不重要,迭代很重要,就需要保持充分的开放和积累;而信息越充分,结果越可靠,又要求随时调整、不断逼近真相。这样每次精进一点,每次精进一点,这样的人可不就越活越通透,越活越聪明吗?

20 | 贝叶斯计算:定量解决逆概率问题

需求决定科学价值。
从数学上,贝叶斯老先生并没有发明任何东西,他只是对条件概率公式做了简单变形。如果你相信条件概率公式,就得坚信贝叶斯公式也一定正确。

21 | 主观与客观:不同的概率学派在争什么?

下围棋和打麻将的比喻太贴切了!
而贝叶斯,是个动态的、反复的过程。每个新信息的加入都要重新进行一遍计算,获得一个新概率。贝叶斯没有什么限制条件,只是在这一次次获得新信息、重新计算的过程中迭代自己的判断。它甚至不认为现实的事儿都有正确答案,因为所谓答案,也是在不断变化的。
打个比方,频率法就像下围棋,对局双方都是完全信息的,每个人都能看到双方棋局的全貌。在某个时刻,一定存在一个最优解,而且对于下棋的双方都是一样的;而贝叶斯更像打麻将,只能看到自己的牌,而看不到别人的牌,参与者获得的是非完全信息。根据局势的不断变化,每个人都会针对自己获得的信息决定怎么打,也许有不一样的最优解和打法。

概率论的两兄弟
确切的说,频率法和贝叶斯这两种方法都是基于严格的数学证明和推导,都是客观的,但在使用的过程中,都会或多或少的产生主观性。
说实话,主观、客观属于哲学讨论的范畴,是认识论的基本问题。在现在的数学领域,应用数学家基本是不太讨论这些问题的,而是两者都用,哪个好用用哪个。
不管是过去,还是在大数据技术非常火的现在,频率法都非常有用,甚至在很多领域可能都是最好的方法。它特别适合解决那些普遍的、通用的、群体性的问题,比如抛硬币、玩德州扑克,或者计算生育率、患病概率、飞机失事率等。毕竟对于这类问题,得到最终那个普适的概率值就好了嘛。
而贝叶斯更适合解决变化的、个体的、无法重复的概率问题,比如明天比赛某球队获胜的概率、发生金融危机的概率,以及人工智能这些技术等。毕竟它衡量的就是信心,而且本身就是通过搜集不同的信息,不断调整、不断迭代的。
而在更多的时候,两个方法并不是泾渭分明,而是混合着使用的。
通常,我们会先用频率法获得先验概率,再用贝叶斯计算某个证据的权重。这时候,频率法就是贝叶斯方法的前提,提供相对靠谱的先验概率。而有些问题,贝叶斯方法又能为频率法提供原始的估算,方便频率法在茫茫的噪音中快速定位问题。这时候,贝叶斯又为频率法提供了支撑。
也许很多年以后,数学家能做出突破,将频率法和贝叶斯融合为一个统一的理论。但现在,用好它就行了。频率法和贝叶斯就像概率论的两个儿子,虽然两个儿子性格不同,但它们常常合作解决现实问题。这就叫“兄弟同心,其利断金”。

你可能感兴趣的:(《概率论22讲》学习笔记)