图灵社区| 别拿相关当因果! 因果关系入门

date: 2019-01-29 15:07:47
title: 图灵社区| 别拿相关当因果! 因果关系入门

http://www.ituring.com.cn/book/1780

想法

这本书的英文原文是「why: a guide to finding and using causes」, 是不是感觉中文书名有点「标题党」的感觉:

  • 翻译界流行「信达雅」, 而信/达/雅的古义(其实没那么远, 民国时就不一样)和我们现在理解的就不一样
  • 汉语处理逻辑性强的语境存在一定的弱势, 你可以回忆一下遇到的「多义」的情况, 以及百家争鸣中各类「无可无不可」(两家完全相反的道理, 听起来却都有道理)
  • 西方在逻辑训练上相应完备一些, 在文字著作的标题上可以窥见一斑, 你可以找找看「物种起源」「国富论」这些著作的原文标题

本着国人一贯的「功利主义」(为之用), 列举值得一读的理由:

  • 数据时代提高思辨能力和逻辑推理能力

大数据时代, 大部分人都被这个概念给「洗」过, 但大数据揭示的其实是相关性, 并非是因果关系. 绝大多数时候, 因果关系都会产生相关性, 这也是起这样标题的原因之一. 就拿啤酒和尿布来说, 大数据帮助我们发现了这个相关性, 却并不会解释其中的因果, 但就 为之用 而言(营销), 可以帮助做出 放一起提高销售量 的决策.

  • 哲学/经济学/统计学/逻辑学都试图理清因果关系

黑格尔有一句伤国人自豪感的话: 中国无哲学. 较为核心的论断就是中国的哲学基本都关乎 为之用, 纯粹的思辨较少, 严谨的科学论断就更少了. 从这一点展开: 一向强调经世致用的东方, 以及一直研究无用之学的西方, 却是后者产生了近代科学.

举一个国学中的例子:

埏埴以为器,当其无,有器之用。凿户牖以为室,当其无,有室之用。故有之以为利,无之以为用。 -- 道德经 十一章

两个排比之后, 就得出了一个结论, 读者就可以在这个模糊的结论上尽情的展开, 哪怕用错了, 也是读者 没有领悟透彻.

  • 关于成功的一份 科学 参考

比如人们常常会问那些成功人士是如何取得成功的,然后试图通过复制他们的做法来取得成功。这一做法从很多方面来讲都是存在严重问题的,比如人们不善于分辨哪些因素是重要的,哪些因素是不重要的,并且往往会低估机遇的重要性而高估自己的技能

  • 因果关系总览

因果: 原因 -> 结果
原因定义: 使某种结果更可能/更不可能出现
因果关系有关因素: 心理 相关性 时间
寻找因果关系: 观察法 计算法 实验法
因果关系之用: 解释 -> 行动 -> 展望

跨多个学科, 举了丰富的实例来论述因果关系

笔记

数据时代提高思辨能力和逻辑推理能力
哲学/经济学/统计学/逻辑学都试图理清因果关系

一套基于原因的思考体系:要问的问题、应引起怀疑的危险信号以及证实因果关系的方法
这种计算方法错误的原因在于,它假定这些事件是相互独立的
然而,这一统计数据完全是错误的。即使这个数据是正确的,也不应该这样用
然而,所有的领域在哲学上的起源都是 一样的。

原因定义: 使某种结果更可能/更不可能出现
休谟: 因果关系简化为规律
康德: 必然性是因果关系的基本特征
什么是(定义) -> 怎么找(方法) -> 怎么用(预测/解释/干预) -> 人类在因果上的「有限理性」的研究
我们能够感知到因果关系 -> 推理vs感知
关联法 反向阻断法 间接推理法
因果推理活动通常包含两部分: 寻找结构和寻找影响力
看和做(观察和干预)是有差别的

一个重要的文化差异是,参与者认为哪些因素与结果存在因果相关性。
复制人类思维的算法,但是人类思维在很多方面都不如计算机程序
在错误的因果观念中,最有说服力的形式之一就是迷信
成见威胁现象
严谨的因果思维需要我们认识到这种行为可能会让我们陷入偏见,并且必须接受与我们的信念相反的证据
样本污染问题
相关性不是因果关系
没有变化就没有相关性
大部分人都只关心导致某个结果的原因是什么。
比如人们常常会问那些成功人士是如何取得成功的,然后试图通过复制他们的做法来取得成功。这一做法从很多方面来讲都是存在严重问题的,比如人们不善于分辨哪些因素是重要的,哪些因素是不重要的,并且往往会低估机遇的重要性而高估自己的技能
如果我们只有两个变量,而且每个变量只有两个值,那我们就可以用皮尔逊相关系数的简化版——Phi 相关系数。
证实性偏差可能还会导致你对那些与你的假设相矛盾的证据产生怀疑——你可能会认为这些证据的来源不可靠,或者获取这些证据的实验方法有问题。
同时购买尿布和啤酒
这也意味着寻找和分析因果关系的绝大部分工作就是,找一些方法来将具有因果关系的相关性和不具有因果关系的相关性区分开来。
因果关系并不是相关性的唯一解释
事实上,0.05 常常被用作P值测量中的临界值
在阅读关于显著性发现的报告时,如果这个发现是从大量同时进行的测试中计算出来的,那么就有必要看看这些报告的作者们是如何处理多重对比问题的。
辛普森悖论
跑步的积极作用可能恰好会被它的消极作用抵消
当下的某个原因能够导致某件事情在过去发生
当一个事件经常发生在另一事件之前时(卖伞的小贩们会在下雨之前开始卖伞,但这绝对不是下雨的原因),我们可能会错误地将一些无关的事件联系在一起。
休谟处理非对称性问题的方法是,默认原因和结果不可能同时发生,而且原因必须先于结果发生
延迟
即时效应
没有任何时间信息的情况是最复杂的
EPR 悖论
反向因果关系
时间只能朝一个方向运动
原因必须早于结果
外部效度
差分法
此外,这些变量的值通常都很小,所以,它们的任何变化在统计学上都不具有显著性。
在此之后,因而必然由此造成
与此同时发生,因而必然由此造成
如果你高中毕业了,找到了一份工作,并且婚后才生的孩子,那么你 98% 不会穷困潦倒
我们还将讨论这些方法的局限性,以及观察数据通常存在的一些局限性。
契合是指某个原因是导致某种结果的必要条件
契合法和差异法
剩余法
John Snow 发现了 1854 年伦敦爆发霍乱的原因,这是历史上使用穆勒五法的最有名的案例之一。
在现实生活中,很多结果可能是通过多种方式产生的,并且这种情况往往都存在一系列原因。
INUS 条件
考察样本的大小(比如研究的人口群体有多大)尤为重要
休谟的研究方法的核心是原因和结果之间存在的规律性,而概率法的基本理念则是原因让结果出现的可能性更大。
筛选法
辛普森悖论
在制定政策时,我们需要知道某个群体中出现的概率是否也适用于这个政策针对的群体。
与事实相反的事情通常是指单一的事件而不是普遍的特性
拉斯普金案
反事实推理
后果的可预见性
很多情况都可能会导致数据出现虚假的因果关系
除了要确保找到了正确的变量集,我们还需要确保观察到的内容反映了观察对象的真实行为
有一项检查十分昂贵
实际上,我们只能假设在样本足够大的时候,样本的分布会反映数据背后的真实结构。
这种图形叫作动态贝叶斯网络
忠实性原则
近似法
格兰杰因果关系检验法
回归分析
没有一种方法是完美的,所以一定要了解每一种方法的局限性
与健康有关的很多说法似乎都经不起时间的检验,最终发生了逆转
干预措施常被视为检验因果推理活动的黄金准则
主观性
量化评估
随机对照试验(RCT)
坏血病。
为了防止干预组和对照组之间出现样本污染问题,人们采用了一种群集设计,即随机分配各个群体而不是个体。
随机试验的目的是限制选择偏差
幸存者偏差可以被归为一种选择偏差
在某些情况下,无论是出于道德考量还是成本因素,我们根本无法对参与者和各种情形进行随机处理,这时就需要利用其他类型的研究。一种是队列研究
还有一种是病例对照研究
安慰剂效应
双盲试验
三盲试验
通过控制试验来保证内部有效性(这意味着它能够回答我们提的问题)常常会牺牲外部有效性(试验结果具有更广泛的普遍性)
人们设计了一些检查清单和指导原则来评估 RCT 的研究结论,并规定了在一项研究中应该报告哪些内容
值得注意的是,复制研究和再现研究是不同的,后者的目标是要引入变化来测试研究结论的普遍性。
这是一种关于事物运行机制的知识,或者说是关于某个原因如何导致某种结果的知识。
睡眠异常症患者意外杀人
他们分析案件的这种方法可以指导我们分析其他案例。
也就是说,即使我们解决了超定问题,还必须考虑两个人使用同一推理方法可能也会得出不同的因果结论
研究概率变化的方法:观察在某个原因出现之后,某个事件发生的概率是如何变化的,并且这个概率是如何随着时间的变化而改变的。
就法律案例而言,使用这种方法的主要障碍是无法处理超定问题
对一名陪审员来说,什么样的故事才是可信的?这个问题一部分取决于陪审员的经验,另一部分取决于这个故事对证据的解释力(这个故事到底能够解释多少证据)
证据是随着时间而逐条提供给陪审员的,却不一定是按照时间顺序提供给陪审员的
这个审判过程为我们提供了一个解释各种事件的框架
组合中的因素大致可以分为两种类型:第一种类型的因素为我们指明某个原因对结果产生了影响(强度、一致性以及生物梯度),第二种类型的因素则为我们提供了证据,这些证据表明存在着某种可以让某个原因对结果产生
上述影响(特异性、时间性、可信度、连贯性、实验以及类比性)的机制。
事物之间可能会出现很强的相关性,却不存在相应的因果关系。
特异性指的不仅仅是一个原因导致的各种结果之间的差异,还包括这个原因对每一个结果的影响程度
特异性往往取决于我们的认知程度
至于有没有可能产生多重效应,这要取决于我们假设的关系的运行机制。
如果餐厅标出食物的脂肪含量数据,那么顾客点的食物的脂肪含量就会下降
了解背景可以帮助我们预测一项干预措施是否会成功,并且可以帮助我们解释为什么某项干预措施可能已经失败了
有些人甚至认为,我们通过挖掘这些数据来了解事物之间的相关性就足够了。
本书最大的启示之一在于,要想找到事情发生的原因绝不是一件容易的事
不论数据的大小如何,我们都必须对我们的发现进行质疑,要多问问“为什么”。
杜威打败杜鲁门
物理事件中的因果关系
评估干预政策
观察性研究还是实验研究
如果你只有一把锤子,那么每一个问题都像是一根钉子。
概率模型不是因果推理的唯一方法,反事实推理法也不是解释事件的唯一方法
近几年来,人们越来越意识到我们需要的是一组能够互补的方法,而不是一种能够解决所有问题的方法
基于证据的刑事量刑制度
这种方法更像是保险公司使用寿险精算表来给保险产品定价一样。

你可能感兴趣的:(图灵社区| 别拿相关当因果! 因果关系入门)