为什么(the book of why)

有段时间,没有通过笔记的方式,梳理读书的内容了,这次重新拾起来,我想有两个原因,一个是这本书的内容价值太大,二是第一遍基本没怎么读懂,那就必须得用点硬手段,强迫加深自己对这本书的理解了。

导言:思维胜于数据

因果推断引擎示意

通过将客观数据,和主观业务经验/主观认知,相结合,解决目标问题的方法论。

  1. 知识:推理主体过去的经验,认知、思维、经验底蕴。
  2. 假设:研究者在现有知识的基础上认为有必要明确表述出来的陈述。
  3. 因果模型:因果图模型,因果推断逻辑的外在表现形式,通过一种更简洁、清晰的方式,帮助人们更好认知因素之间的因果关系。
  4. 可验证的蕴涵,将通过主观经验建立的图结构,转化为数据语音,"因素D和L相对独立,不相关",对比真实数据结论,验证假设无误。
  5. 我们提交的问题,例:P(L|do(D))
  6. 因果推断的结果,注意如果前置因果图模型里因素不够,可能这个结果是无法顺利得到的

我们平常工作中说的业务漏斗、业务模型,本质就是因果图,对产生一份业务结果需要经过关键环节的抽象。

因果关系之梯

因果关系的三个层级

  • 第一层级,是观察能力,发现环境中规律的能力。

买啤酒的顾客也爱买尿布,这是规则。

  • 第二层级,是行动能力,预测对环境刻意改变的后果。
  • 第三层级,是想象能力,反事实的想象能力,通过想象不存在的世界,推测观察到的现象为何
因果推断的三层境界

为什么我们要努力推演接近第三个层级?
举个例子,<假如我们把牙膏的价格提高一倍,则之前买了牙膏的顾客仍在选择购买的概率是多少?>
正确的预测,某个因素改变对结果的影响,后续在真实世界就能用过更快、更精准的方式,采取措施,改进目标。

从海盗到豚鼠:因果推断的起源

豚鼠出生体重示例的因果图

p+ l * l' * q = 5.66克/天
计算l、l'、q,的路径系数,再用5.66减去他,就得到了P对X的影响。

从证据到因:当贝叶斯牧师预见福尔摩斯先生

从因推出果,叫前向概率,从果逆推因,叫逆推概念。

因果关系的三种结构

  • chain,A—>B—>C,链式结构
  • fork,A<—B—>C,叉结构
  • collider,A—>B<—C,对撞结构

混杂和去混杂:或者,消灭潜伏变量

解决了混杂因子的黄金方法,随机样本,AB实验

烟雾缭绕的争论:消除迷雾,澄清事实

香烟致癌,在今天看是板上钉钉的结论,但在20世纪下半叶的美国,还是个激烈讨论、论证的问题。


美国人均香烟消费量和肺癌及支气管癌死亡率

这个图已经带很强的因果性信息了,关键点在:

  • 两个曲线的形状非常拟合
  • 前者和后者的波峰上升节点间的时间差距近乎一致,大概是30年左右

在无法对是否吸烟做AB实验的情况下,因果派和否定派各执一词,否定派的认知是,吸烟和癌症之间有混杂因子,例如人可能有吸烟基因,这种基因让人们渴望吸烟,也是他们更有可能患上肺癌。

吸烟对新生儿的影响-因果论证过程

在20世纪60年代中期,雅各布指出,如果婴儿碰巧存在出生时体重不足的问题,那么期母亲在怀孕期间吸烟似乎反而有益于新生儿的健康,这个被称作"出生体重悖论"

实验的过程:

  1. 通过对比,发现吸烟母亲的胎儿重量的确比不吸烟的母亲胎儿重要轻7盎司。
  2. 吸烟母亲的低体重样儿存活率要比不吸烟母亲的婴儿高

这就好像说,母亲吸烟有保护胎儿的作用一样

混杂因子影响的方式

你可能感兴趣的:(为什么(the book of why))