《刘嘉·概率论22讲》学习笔记(完)

00.发刊词:学一门让你抓住未来的学问

  • 未来是不确定的,只要涉及到选择,涉及到决策,就一定会用到概率思维。
  • 用概率思维进行决策的第一步,就是要把现实问题,变成一个对的概率问题。
  • 概率论的四大基石——随机、概率、独立性和概率计算。

01.全局:从局部随机性到整体确定性

  • 概率论解决随机问题的本质,就是把局部的随机性转变为整体上的确定性。概率论的产生,能对未来发生的随机事件做出数学上确定的判断。
  • 某一次结果的随机,是低层次的事;而概率论,是高层次的、确定性的认知。

02.随机:随机性不等于不确定性

  • 随机就是不可预测。
  • 概率论面对和处理的是随机性,而不是不确定性。随机事件结果选项可知的特性,是概率论发挥作用的基础。
  • 尽量把不确定的问题,转变为随机的问题,用概率去研究,就是对付他们的科学方法。
  • 只要一件事情是伪随机的,他就一定有规律。
  • 随机是这个世界的决定性力量。

03.概率:对世界可能性的度量

  • 概率是随机事件发生可能性大小的定量描述。
  • 概率值就是计算随机事件在样本空间的比率。
  • 一件事儿可能发生的所有结果,就是这事儿的样本空间。
  • 子集和全集的比率,也就是随机事件占样本空间的比率,就是这个随机事件发生的概率。
  • 概率永远在0和1之间,不可能是负数。
  • 样本空间里所有基本事件概率之和是1。
  • 从某种角度来说,我们对世界的认识,就是对样本空间完备性的认识。

04.独立性:随机事件的相互关系

  • 如果随机事件之间没有任何关联,就可以说这些随机事件是相互独立的。
  • 只有明白了随机事件之间的关系,判断它们是否具有独立性,才能正确分析和度量它的概率。
  • 很多看似独立的事件,其实都是互有联系、互相影响的。

05.概率计算:定义问题比计算更重要

  • 排列组合法适用于结果有限,而且没种结果都是等可能性的情况。
  • 排列和组合相比较,排列要考虑顺序。
  • 加法法则是指,某几样事件其中之一发生的概率,等于各自概率之和。
  • 加法法则的限定条件是两个随机事件不能同时发生,即“互斥”。
  • 乘法法则是几个事件同时发生的概率,将几个随机事件的概率相乘。
  • 乘法法则的限定条件是独立事件。
  • 正确翻译现实问题,是概率计算最复杂的地方。概率思维的核心,就是准确的将现实问题转换成对的概率问题。

06.概率度量:建立整体确定性的三种方式

  • 常用的度量概率的方法有三种——定义法、频率法和迭代法。
  • 无差别原理——如果没有充分理由说明某件事的概率,就给予每个结果相同的概率。
  • 频率法是说,只要数据量足够大,一个随机事件发生的频率就会无限接近它发生的概率。
  • 这种依靠大量数据获得真相的思路,是现代统计学的基础,广泛的应用在各个学科之中。
  • 迭代法是指,先利用手头少量的数据做推测,甚至是主观猜测一件事儿的概率,然后再通过收集来的新数据,不断调整对这件事概率的估算。最常用的方法就是“贝叶斯”。
  • 三种方法并不是泾渭分明,而是常常融合使用,一起更清晰和全面地认识这个世界。

07.频率法:概率是对发生频率的计算

  • 频率就是某个随机事件在整体事件中出现的比例。
  • 频率法认为,在有足够多的数据的情况下,随机事件发生的频率会无限接近他真实的概率。
  • 频率法理解这个世界的底层逻辑是,一个随机事件的发生,是存在一个真实的、客观的概率。
  • 只要重复的试验或者观测的数据足够多,随机事件发生的频率就会无限接近它的概率。这就是“大数定理”。
  • 大数定理表明,在相同环境、重复试验的条件下,用历史数据预测未来是可行的,也是合理的。这是统计学的根基,也是很多使用统计学方法进行研究的学科的根基。
  • 衡量需要重复的次数,可以用两个概念——“精度误差”和“置信度”。
  • 现实中,几乎所有的数据调查和统计结果,一方面都是基于频率来测量概率这个底层逻辑;另一方面,也都要进行相应程度的妥协。

08.大数定律:局部频率不是整体概率

  • 当数据量很少的时候,一件事发生的频率可能和它的真实概率相差很大。
  • 整体不需要通过补偿来对局部产生作用,大数定律并不通过补偿来实现。
  • 大数定律不会对已经发生的情况进行补偿,而是利用大量的正常数据,削弱那部分异常数据的影响。
  • 均值回归是指,如果一个数据和它的正常状态偏差很大,那么它向正常状态回归的概率就会变大。
  • 大数定律不需要补偿,而是通过均值回归,通过产生大量的正常数据,削弱之前异常数据的影响。

09.数学期望:对随机事件长期价值的衡量

  • 数学期望简称期望,就是对随机事件不同结果的概率加权求平均。
  • 数学期望之所以有效,也是因为大数定律在背后起作用。
  • 计算数学期望要把所有的随机结果数值化,只有赋予每个结果一个具体的值,才能进行数学期望的计算。

10.方差:围绕数学期望波动程度的度量

  • 数学期望相同,并不代表两件事的价值就一样。随机结果的波动程度,同样一件事的价值,对我们的决策影响巨大。
  • 方差描述的是随机结果围绕数学期望的波动范围。
  • 方差的本质是对风险的度量。

11.概率分布:认识现实世界的数学模型

  • 通过从整体上描述一个随机事件所有可能的结果和对应的概率分布情况,就能像上帝俯瞰世界一样,从整体上把握这件事的基本轮廓,也就为进一步探索其中的规律提供了可能。
  • 一般情况下,面对一个无法解释的现象,专家会先假设他服从某个概率分布模型,然后再去验证假设。
  • 概率分布模型是对现实规律的抽象,每种分布都是这样的模型,分别代表一种概率分布规律。

12.正态分布:最简单却最重要的概率分布

  • 正态分布三个数学特性
    • 均值就是期望,在正态分布中,平均值就代表随机事件的价值。
    • 极端值很少,极端值出现的概率低,极端值对均值的影响小。
    • 标准差决定胖瘦。
      《刘嘉·概率论22讲》学习笔记(完)_第1张图片
  • 几个标准差覆盖的概率值。
  • 不同的正态分布曲线的比较方法
    • 只有均值不同,能比较好坏。
    • 只有标准差不同,能比较波动。
    • 标准差和均值都不同,能比较专业和业余。专业就是均值更高,标准差更小,业余恰恰相反。

13.中心极限定理:正态分布是概率分布的神

  • 说一个东西是神,至少有三个特性:合法性、正统性和主宰性。
  • 合法性:中心极限定理提供保证
    -大量独立的随机变量相加,无论各个随机变量的分布是怎样的,他们相加的结果必定会趋向于正态分布。
  • 正统性:正态分布是所有分布的参照系。如果一个随机事件不服从正态分布,那它就一定不满足正态分布背后的中心极限定理。要么是影响因素不够多,要么是各种影响因素的影响力太大。
  • 主宰性:正态分布是世界的宿命
    • 正态分布普遍存在
    • 所有分布最终都会变成正态分布
    • 正态分布是世界的宿命(信息熵最大的一种分布)

14.幂律分布:给人带来希望的魔鬼

《刘嘉·概率论22讲》学习笔记(完)_第2张图片

  • 随机变量中,越小的数值,出现的概率越大;越大的数值,出现的概率越小。
  • 在任何的观测尺度下,幂律分布都呈现相同的分布特征。
  • 幂律分布的三个特点:
    • 幂律分布让平均数失去意义。
    • 幂律分布让原本不会发生的极端事件发生。
    • 幂律分布完全不可预测。
  • 幂律分布产生的原因,目前没有统一的答案。
  • 幂律分布是熵减的必经状态,是对抗熵增,对抗死寂,对抗死亡的希望之光。

15.泊松分布:打开统计推断的大门

《刘嘉·概率论22讲》学习笔记(完)_第3张图片

  • 随机事件发生k次的概率,等于λ的k次方除以k的阶乘,再乘以自然底数e的-λ次方。
    • 自然底数e:数学常量,已知。
    • k:随机事件发生的次数。
    • λ:整体概率与要求解问题匹配后对应的数值。等于问题中的样本数÷整体概率的样本数(整体概率是50年1次,就是1/50。想知道100年,λ就是1/50乘以100)。
  • 泊松分布的两个性质:
    • 泊松分布是正态分布的一种微观视角。
      《刘嘉·概率论22讲》学习笔记(完)_第4张图片
    • 泊松分布的时间间隔是无记忆性的。之前的情况对之后的情况没有影响。
    • 由于泊松分布间隔的无记忆性,所以一定存在一些短间隔和长间隔,而且它们很难一长一短、一长一短这样有规律的出现,而是会混杂着出现,否则就不叫随机了。
  • 泊松分布打开了统计推断的大门,统计一段时间内事件发生的次数,如果这个数字服从泊松分布,则整个事件发生的概率,就服从正态分布。

16.假设检验(上):基于概率反证法的统计推断

  • 如果能证明一个结论发生的概率特别特别小,就可以推翻这个结论,接受和他相反的结论。这个推断规程就叫做“假设检验”。
  • 能否推翻假设的标准,一般都是5%。
  • H0(零假设)和H1(备择假设)。这是一对假设,只要互相对立就行。
  • P值。就是在H0这个假设下,当前现象以及更极端现象出现的概率。
  • 显著性水平。一般情况下是5%。
  • 假设检验是基于概率的反证法,而要用概率的反证法,就要用到概率分布。

17.假设检验(下):为什么会导致错误结论?

  • 既然假设检验要从个别推导全部,就一定会忽视一些极端的小概率情况。
  • 假设检验很容易导致系统性偏差,让人们更容易相信一些反常的结论。
  • 使用假设检验时,还要注意显著性水平的设置要和问题联动,以及根据问题选择正确的分布。

18.条件概率:贝叶斯公式的基础

  • 如果一个随机事件的概率会因为某个 条件而产生变化,那在这个条件发生的情况下,这个随机事件发生的概率就是条件概率。
  • 计算公式:P(A|B)=P(AB)/P(B)
  • 条件概率只表示统计意义上的相关性,并不代表因果关系。

19.贝叶斯推理:概率是对信心的度量

  • 应用于看到了一些现象,要去推测背后的原因。
  • 根据新信息不断调整对一个随机事件发生概率的判断,就是贝叶斯推理。
  • 在贝叶斯的世界里,概率本质上是对信心的度量,是我们对某个结果相信程度的一种定量化的表达。
  • 贝叶斯推理的两大优势:
    • 起点不重要,迭代很重要。贝叶斯最后一定会无穷逼近于真理。
    • 信息越充分,结果越可靠。

20.贝叶斯计算:定量解决逆概率问题

  • P(A|B)=P(B|A)*P(A)/P(B)
  • 现象B出现的情况下事件A发生的概率,等于事件A发生时现象B出现的概率,乘以事件A发生的概率,再除以现象B出现的概率。
  • 贝叶斯公式的伟大意义就在于,对于逆概率这种难搞的概率问题,有了简洁的计算公式。
  • 先验概率就是在看到新现象、重新计算之前,基于经验甚至主观猜测得到的概率。
  • 先验知识的选择
    • 相信历史数据
    • 参考专家意见
    • 平均设置概率
  • 贝叶斯计算 难度不是在计算本事,而是寻找调整因子的客观数据。

21.主观与客观:不同的概率学派在争什么?

  • 在正确性上,贝叶斯学派与频率学派并不是势同水火的关系,而都是完全正确、完全有效的,没有什么本质的区别。
  • 频率法和贝叶斯最大的差异就是两个方法的假设不一样。
  • 频率法更像是做题,必须有明确的、严格的前提约束,严格界定好所有的条件。
  • 贝叶斯没有什么限制条件,只是在这一次次获得新信息、重新计算的过程中迭代自己的判断。
  • 频率法和贝叶斯这两种方法都是基于严格的数学证明和推导,都是客观的,但在使用的过程中,都会或多或少的产生主观性。
  • 通常会先用频率法获得先验概率,再用贝叶斯计算某个证据的权重。

22.原则:怎样提高自己的概率思维?

  • 概率思维的三大黄金原则:
    • 对抗直觉,能算就算。什么是反直觉?本质上就是直觉错判了一件事的概率。
    • 寻找条件,增大概率。想要成功,就要找到对自己成功影响最大的那个条件概率。
    • 相信系统,长期主义。所谓科学决策,其实是一个决策系统,只要决策系统有概率优势,就要长期坚持,相信系统,而不在乎单次决策的随机结果的好坏。
  • 所谓坚持,所谓努力,其实就是寻找一个大概率的方向,然后相信系统,相信长期主义。

你可能感兴趣的:(数学学习)