1. 相关性是什么?
0x1:相关性的定义
X和癌症有关,Y和中风有关,Z和心脏病发作有关。这三句话描述了三个相关性,告诉我们彼此的两个现象是相关的,却没说它们是如何关联在一起的。
两个变量相关的基本意思是,一个变量发生的变化与另一个变量发生的变化是随时间同步关联的。比如:
- 孩子们的身高和年龄相关,因为随着年龄的增长,孩子们的身高也会增长,他们会慢慢长大。
这些相关性满足时间协变的普遍性原则,包括:
- 概率分布典型性:相关性存在于不同的样本之间,一次测量多个不同年龄段的孩子,都存在显性的相关性
- 时序稳定性:相关性存在于不同样本的不同时间段之间,在多个孩子的不同年龄段多次测量,都存在显性的相关性
与此相反的是,身高和出生月份之间却没有长期的相关性,也就是说,即使我们改变了出生月份,我们的身高也并不会发生有规律的变化。
年龄和身高呈现明显的正相关,而身高并没有随着出生年月的变化为变化,看起来就像一堆随机放置的点
需要特别注意的是,对变量的相关性观测必须是时序同步的。举个例子,如果我们只有一组考试成绩的数据和一组学习时间的数据,而没有将相应的考试成绩和学习时间一一对应(同一时间的观测),那就无法确定二者之间是否具有相关性。这是因为我们只能看到个体在每一个变量上的变化,而没有看到这两个变量是如何共同发生变化的。也就是说,我们无法得知更长的学习时间是否对应更高的考试成绩。
相关性的主要用途注意就是预测。这意味着如果知道一个孩子的年龄,我们就能大致预测出他的身高,但如果我们只知道他们的出生月份,则无法预测出他的身高。
0x2:”变化“,相关性存在的必要但不充分条件
这个小节我们来讨论一个问题,先抛开是否存在因果、异或是强相关或弱相关,相关性存在的最基本条件是什么?这个问题关于到我们能够对很多表面上存在相关性的结果进行科学证伪。
来看一个例子,你想知道如何写申请才能获批某项资助,所以就去找所有申请到这项资助的朋友,询问他们自认为让他们成功获批的因素,从朋友们的反馈中你得出了下列这些分析结果,
- 所有人在申请中都使用了 Times New Roman 字体
- 有一半人说每页至少有一个报表
- 有三分之一的人在截止日期的前一天提交申请
这是否意味着在这些因素和资助成功获批之间存在相关性呢?答案是否定的!
回到相关性的定义可以看到,相关性要求两个变量是时序协变的。但在上面例子可以看到,虽然条件在发生变化,但是结果没有发生变化(结果只有一个固定值),所以我们无法确定是否还有其他因素和结果有关。
相关性存在的必要但不充分条件是:两个变量都要发生动态变化,且同时两者之间存在一定程度的协变趋势。如果两个变量没有共同发生改变,我们就无法找到它们之间的相关性。
2. 相关性的测量与解释
0x1:相关性的测量指标
1、皮尔森相关系数
皮尔森相关系数是指两个变量(协方差、方差)如何通过各自的变化而发生共同的变化。皮尔森相关系数假定两个变量之间是线性关系,即一个变量增大,另一个变量也会以相同的比例增大。
两个变量 与 之间的皮尔逊相关系数计算公式为:
即两个变量的协方差与两个变量的标准差之积的比值。
比如我们调查了一些学生在期末考试前喝了多少杯咖啡,然后又记录了他们的期末考试成绩。如下图所示,
两个变量之间的相关性非常高,相关系数接近1,所以图上的黑点似乎紧紧地聚在一条无形的直线两侧。
如果将两个变量之间的关系都变得更弱一些,即每次喝同样杯数的咖啡,但考试成绩的变化更大,那么这些黑点就会更为分散,变量之间的相关性也会更低。
变量之间这种不断增加的变化的极限就是变成两个完全不相关的变量,即相关系数为零,如下图所示,
在这种情况下,我们将无法根据饮用的咖啡数量来对考试成绩做出任何预测。
2、非线性相关系数度量
现实世界中并不一定都是线性变量,可能还存在更为复杂的非线性变量,因此同样也存在更为复杂的非线性相关关系。
例如:
- 如果不喝咖啡会让人精神不振,并且会降低考试成绩
- 但是喝咖啡太多(超过一个临界阈值)又会让人神经过敏,并且影响考试发挥
我们将收集到的一些数据画出来可能就是下图的曲线,
在上图中,人们和咖啡的杯数从0增加到5,考试成绩是持续上升的,然后在5到10杯之间,考试成绩随着和咖啡杯数的增加而慢慢下降。
我们会发现在这个例子中,皮尔森相关系数刚好为零,但是这些数据却呈现出了明显的规律性。
同样的现象在生物医学(缺乏维生素或维生素服用剂量过多都可能导致健康问题)和金融(将税率和收入联系在一起的拉弗曲线)等应用领域都存在。
0x2:对相关性的解释
1、对相关性的过高解释
1)认知偏差
我们之所以会找到一些错误的相关性,除了数学方面的原因之外,另一个比较重要的原因就是人们在观察数据可能会发现一些虚假的规律,有些认知偏差会让我们在无关的因素之间推断出联系。
比如前面说的证实性偏差会使人们去寻找证据来证实他们的观点。
如果你认为一种药物会引起某种副作用,那你可能会去网上搜索其他吃了这个药并且出现了副作用的病人。但是,这种做法意味着你是在忽略所有不能证实你的假设的数据,而不是寻找那些有可能让你重新评估你的观点的证据。
2)解释性偏差
人们除了在寻找和使用证据时存在偏差,在解释证据时也可能存在偏差。
如果一种新药正在接受临床测试,而一名医生已经知道有病人正在服用这种药,并且认为这个药对病人是有帮助的,那么在这种情况下,他就有可能会寻找迹象来证明这个 药物是有效的。由于病人的很多指标都是主观的(比如运动强度和疲劳程度等),这就有可能导致医生对这些指标的估算存在偏差,并导致医生推理出一个并不存在的相关性。
3)错觉相关 - 证实性偏差的一种特殊形式
”错觉相关“指的是看到一个实际上并不存在的相关性。关节炎症状和天气之间可能存在一定的联系,这种联系广为流传以至于人们常常把它当成事实。
然而,当研究人员综合考量了病人自述、临床医生的评价和一些客观的测量数据,试图客观地研究这一相关性时,却发现这两者之间并没有任何相关性。事实上,真正的罪魁祸首可能是空气湿度。
这种偏差和抽样偏差很相似,我们之所以会错误地认定某种相关性,是因为我们只关注了一部分数据。如果你期望变量之间存在负相关性,那么你就可能只关注整个数据集中那些能够证实这一观点的一小部分数据。这就是它是一种证实性偏差的原因。
2、对相关性的过低忽视
1)重视非线性相关性
如果孩子们的体重总是随着年龄的增长而增长,这里显然两者之间是存在相关性的,但是体重是以指数级增长的(随着年龄的增长,体重增长得越来越多),那么皮尔森相关系数会比想象的要低,因为皮尔森系数适用的是线性关系。对待观测对象间存在的非线性相关性要十分关注。
2)重视样本数据的概率分布典型性 - 抽样偏差
另外一个主要原因是,我们所用的数据可能不具代表性,不能反映数据的基本概率分布情况。
例如,如果只使用医院的入院数据和急诊科数据来研究流感致死情况,那我们得到的流感死亡率就会比社会整体人群的实际流感死亡率高得多。这是因为病人一般是因为症状比别人严重或者还有其他疾病才会去医院,而且去医院的流感病人可能更容易死于流感。
所以我们看到的并不是流感导致的所有结果,而是流感病毒在那些有其他疾病或者流感症状十分严重的病人身上导致的结果。换句话说,这是一个机遇有偏样本的有偏估计。
为了更好阐述这个问题,我们假设有两个变量:SAT总成绩和学习时间。
然而,由于数据收集的困难(这在实际工程实践中很常见)我们并没有所有SAT考生的成绩数据,只有那些数学和语文总分超过1400分(下图灰色部分)的考生的成绩数据。在这个限定范围的数据中,成绩好的考生包括那些天生擅长考试的学生(不学习也能考得好)和后天刻苦学习的考生。
如果仅使用灰色区域的考生的成绩数据,我们是无法找到这两个变量(SAT总成绩、学习时间)之间的相关性的。
但如果我们将统计的范围扩大,使用所有考生的考试成绩数据,就会发现这两个变量之间存在很强的相关性。
这就是所谓的【样本概率分布典型性问题】,在工程中,我们常常陷入的一个误区有如下几个:
- 样本数据的获取成本很大,数据分析师往往很难获取到足够的样本
- 正、负例样本不平衡,正例样本数量较少,很多时候强依赖人工标注,在安防领域这个问题尤其突出
- 样本代表性不足,收集到的样本往往只代表了一小部分群体,没有覆盖到整个待观测的总群体
这种抽样偏差十分常见,例如那些调查访客政治观点的网站。网站的访问并不是从人群中随机抽取的调查对象,而是本身就比较关注政治问题的激进访客。
那些调查极端政治偏见的网站的访客,情况就更明显了,这些访客的政治观点与一般人的政治观点之间的偏差就更大了。
0x3:多重测试与P值 -- 相关性发现与测量中常见的误区
我们让以为参与者进入功能性磁共振成像扫描仪,然后给这位参与者看各种社会场景的图片,并让其判断每一张图片中人的情感状态。
通过功能性磁共振成像扫描仪,研究人员能够测量参与者大脑中各个区域的血液流量,并且经常会用这一测量结果作为神经活动指标,以此来判断不同种类的任务会用到大脑中的哪些区域。最后扫描出来的彩色图像可以向我们展示大脑中哪些区域的血液流量明显增加了,这就是一些论文中谈到的大脑中有些区域在特定的刺激下“亮了起来”的含义。找到大脑中那些被激活的区域,可以让我们深入了解大脑的各个部分是如何连接在一起的。
在这项研究中,我们发现参与者大脑中有好几个区域的血液流量都发生了十分显著的变化,即P=0.01的统计显著性,那么,这个区域是否和人们想象他人情感的活动有关呢?
这里存在一个重大的统计方法的误区,那就是多重测试问题!
一次进行多个测试是会出问题的,在磁共振成像研究中,人们考察了大脑中好几千个很小的区域,所以其中有一个区域呈现出明显的血液流动现象也并不奇怪,因为有很多原因都可能导致这一现象。这种问题被称为多重假设检验,它指的是同时检验大量假设。
在多重假设检验中,可能会单纯因为巧合而出现一些似乎具有显著相关性的结果。正确的方法是,每一次测试都需要控制变量。
鉴别因果性最好和最科学的方法就是控制变量与盲测,例如美国FDD药品测试的随机双盲测试。
3. 相关性的用途
相关性最主要的用途就是预测,这也是当下IT技术智能化转型中被应用地最广泛的一种技术之一。
关于基于相关性的预测,目前学界也存在不少争议,很多研究者认为相关性并不可靠,很多相关性的得出过程伴随着很多抽样偏差与解释偏差,而且基于相关性的预测模型无法应对未来可能出现的黑天鹅事件。
笔者对这个问题也有过一些思考,这里瑾发表一些个人的浅见:首先,我觉得我们都要认清现实,当下的人工智能还远远不是硅基生命体的阶段,人工智能或者叫机器学习模型的效果很大程度还是取决于数据,对于数据来说,算法工程师和数据分析师最主要的工作就是从数据中提取规律,这里所谓的规律大部分时候指的就是【统计相关性】。基于数据的有监督训练得到的模型,其本质上就是一个统计相关性模型,从这个角度来说,相关性是可以被用于预测任务的,当然前提是我们得出的相关性要具有显著性。
0x1:相关性的医学用途
1、西医追求因果性
现代科学追求因果性,找到现象后面的真正原因,比如
- “苹果为什么要掉下来”
- “心脏瓣膜的作用何在”
科学语言满足逻辑,概念的内涵清晰不容含混,结论要经过严格推理,以理性地解决“为什么”的问题。
这种追求生动体现在医学上,生理病理实验都要搞清楚分子和细胞层面的变化,以设计相应的药物来矫正,知道药物在体内是如何发挥作用的,作用的靶点是什么,会影响哪些受体等等,这些都是对因果性的追求。
但是在现代西医的早期,认识几乎都来源于相关性,
- 种牛痘能预防天花
- 奎宁能治疗疟疾
- 福尔马林能消毒
- 阿司匹林的疗效
这些都是相关性认识,但这不是稳定态,西医要求替之以因果性。生命科学不断深入,到一定程度,就变成对分子之间关系的探索,或搞懂分子和细胞之间的相互作用,那是化学反应,更可归结到物理现象,因而可做到因果性。
但是科学的进步总是需要一个过程的,很多生理和病理现象还无法认识,很多结论只能由统计得出,这是相关性,比如
- 论证饮食和癌症的关系
- 疾病表现和地域的关系
循证医学也有很多相关性的成分。这只是医学欠发达阶段的无奈之举,骨子里,西医有对因果性的渴望。并非西医一定追求机理,基于高尚的情怀而追求因果性,而是出于实用的考量。人们发现相关性并不保险,西药有效,能显著改变疾病进程,这是优点也是缺点,强烈的作用要求严格的安全考量,所以努力做到因果性,各期药物试验有浓浓的相关性,近几十年来,监管力量在加大,但毒副作用还是层出不穷,逼着人们搞懂因果性,尽量抛弃相关性,以最大限度地缩减麻烦。
2、相关性更可取
因果性要求对生命的深刻理解,难度很大。要追求因果性,就得从原子分子层面解决问题,就遭遇了生命复杂系统,工作很难展开,下层的因果性知识需要在整体场景展现出来,在诸元的影响下,真正的因果性被污染了。
相反,相关性思路更可取,只要有人探索获得了解决方法,其他人模仿就好,整个过程都不涉及机理。
我们毫不否认生命的科学性,坚信任何生命现象都能基于物质基础找到解释,发现因果关系,但这是未来的远景,在当下,因果性只能局部体现,在整体生命层面尚无能为力。这种考量下,用相关性这种“世俗的”方法对待医学,是一份非常务实的做法。
人类有某种相似内质,这是相关性的理论基础。这种思路相对安全,生命是缓慢变化的,前人表现的现象,在后人身上也会相似地表达。生命是“平滑的”,没有现象上的断崖,癌症在看似突然发生,那只是有限能力下的观察,它一定是有原因的。相关性获得的结论稳定、可控、可预测,掌握足够多数据,就可消除各种随机性。
0x2:相关性的市场预测用途
很多零售商都在努力寻找能够预测人们购买行为的指标,他们之所以这样做就是依据相关性可预测未来行为的原理。
有人宣称,塔吉特公司在一名青少年的家人还不知情的情况下就已经”知道“她怀孕了。这件事让塔吉特公司上了新闻头条。
当然,塔吉特公司并不是真正知道哪个女孩怀孕了,而是利用他们从其他顾客身上收集到的海量数据(以及从其他来源购买到的数据)来了解哪些因素与怀孕的各个阶段具有相关性。
比如说,经过足够的观察,塔吉特公司发现单独购买乳液或棉球并不能说明什么,但是那些怀孕的女士通常会同时购买这两样商品以及一些维生素补充剂。
在有了足够的采购模式以及预产期(可以从婴儿登记处获得或者根据顾客购买早孕测试纸的日期估算出来)数据后,塔吉特公司就能判断出一名顾客怀孕的可能性有多大,并且能够估算出她已经怀孕多久了。
Amazon、Netflix、LinkeIn这类网站就是利用相关性来为用户推荐各种互补性商品、用户可能会喜欢的电影和可能会用到的链接。
比如Netflix网站能够找到那些和你一样喜欢某类电影的人,然后向你推荐一些在这些人中评价很高而你还没有看过的电影。
0x3:使用相关性的风险
1、找到伪相关性
使用相关性的风险之一在于,对于两个变量之间的任何相关性,我们都可能会找到一些理由理解来解释这种相关性是如何产生的,从而导致人们对结果过分自信。
一个关于数据挖掘的著名案例是,有人利用杂货店的交易数据发现了人们经常同时购买尿布和啤酒这一现象。于是有人认为,经常在周末来临之前去商店买尿布的男士,会顺便买一些啤酒来”奖励“自己。但是当追踪到这个故事的根源之后,Daniel Power(2002)发现最初的相关性数据并没有提到性别以及时间因素,更没有像有些人说的那样 -- 杂货店特意将这两样商品放得很近,以便一起销售来增加收益。
2、相关性的使用范围限制
Amazon网站发现,购买某个校园剧和购买AP考试(美国大学预修课程考试)复习用书这两个行为高度相关。很明显,美国青少年是这两种购买行为的主体。
如果Amazon网站只想向同一购买数据群体(美国本土)推荐这些商品,那么他们不知道这两种购买行为的主体也没有关系。但如果Amazon网站开始把AP复习用书推荐给其他国家的顾客,那应该没多少人会买,因为这些考试的参与者主要是美国学生。
所以,即便某种相关性既真实存在又十分可靠,如果我们试图将它用在另一个不具备让这相关性起作用的特征的群体中,那么它可能不会起到任何预测作用。
很显然,Amazon从美国本土购买者身上得到的相关性,并没有告诉我们为什么这些事物之间存在联系 --- 购买者都是十六七岁、正在准备AP考试、喜欢看主人公年龄和他们相仿的电视剧,没有这些因果信息,我们很难将这种相关性推广到全世界去进行推荐预测。
4. 因果关系是什么?
0x1:因果关系的感知 -- 时空因素
一般情况下,原因的出现往往要先于结果(不管时间上是否接近),即时序性,而且原因和结果之间存在一定的物理联系,即空间性。
1、时间因素对因果关系的影响
如果我们看到一个台球向另一个台球滚动并且撞击了它,然后第二个台球开始向同样的方向滚动,我们会自然地认为第二个台球的运动是由第一个台球引起的。这里最重要的判断依据就是时间先后顺序因素。
尽管事件发生的顺序对因果关系至关重要,但是我们也十分在意原因和结果之间的延迟。如果你和一个得了流感的朋友一起看电影,三个月后你也得了流感,那你可能不会认为是你朋友传染给你的,当然也不会完全排除这种可能。
这个概率性的判断来自于你对病毒传播的先验认识,即:病毒的传播存在潜伏期,接触某个病毒并不会立即引发相应的症状,但是潜伏期也是有时间限制的,也不太可能在三个月后才出现症状。
实际上,接触病毒和引发疾病之间的时间很短,我们可以利用这个时间段来缩小范围,找到可能是哪一次接触引发了某个疾病。
时间因素往往能让我们区分原因和结果,例如体重下降前就已经生病了,这说明这个疾病不可能是体重下降引起的。
时间因素能让我们的干预措施发挥作用,例如有些药物必须在接触病毒后立刻服用。
时间因素还能让我们预测未来将会发生的事情,例如知道股票价格的上涨时间比仅仅知道它会在未来某个不确定的时间段上涨更有用。
2、时间延迟对因果关系的影响
有研究发现,尽管原因和结果之间的延迟会增加人们准确判断因果关系的难度,但这在一定程度上也可能取决于人们对这种延迟的不同预期。
如果在击打高尔夫球和高尔夫球飞出去之间出现了10分钟的延迟,这就与我们所知道的物理知识严重矛盾。但如果一个人接触了致癌物,然后在十年之后才得了癌症,这么长的延迟却不会让人感到意外。
时间延迟的长度对我们的影响可能有一部分取决于我们对问题的认识,以及我们对事物运行机制的了解。这属于先验知识的范畴。
延迟并不会妨碍我们的推理活动,也不会降低原因的可能性,就时间问题而言,最重要的是我们观察到的延迟与我们预期的延迟之间的关系。
3、物理距离对因果关系的影响
“南美的一只蝴蝶挥动翅膀,有可能引起北美的一场龙卷风。”
蝴蝶效应是气象学家洛伦兹1963年提出来的。其大意为:一只南美洲亚马孙河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,可能在两周后引起美国德克萨斯引起一场龙卷风。其原因在于:蝴蝶翅膀的运动,导致其身边的空气系统发生变化,并引起微弱气流的产生,而微弱气流的产生又会引起它四周空气或其他系统产生相应的变化,由此引起连锁反应,最终导致其他系统的极大变化。此效应说明,事物发展的结果,对初始条件具有极为敏感的依赖性,初始条件的极小偏差,将会引起结果的极大差异。
在蝴蝶效应描述的现象中,原因和结果是通过很多很多的中间因素,环环相扣逐步传递因果效应的。从观测者的角度看,就会发现原因和结果之间存在巨大的物理距离,从而影响了人们对因果关系的置信度哦按段。
继续沿用上面关于台球撞击的例子,如果第一个台球并没有实际撞击上第二个台球,而是在离第二个台球不远处就停住了,但是第二个台球还是向相同方向开始运动了,那么你可能就不太会认为第二个台球的运动是第一个台球引起的。这就是空间上的位置因素影响了人们对因果关系的判断。
0x2:时间的方向性
1、因果关系反过来对事物认知的影响
假设有个朋友跟你说某种新药对她的过敏有效,如果她说这种新药让她不大喷嚏了(潜在台词是说新药和不打喷嚏之间存在因果关系),那么你会怎样假定开始吃药和不大喷嚏之间的顺序呢?
有研究表明,关于因果关系的了解,会影响我们感知事件之间时间顺序和时间间隔的方式。
对于这个例子来说,我们会得出以下两个判断:
- 吃药在前,停止打喷嚏在后
- 吃药和停止打喷嚏之间的时间间隔应该不会太长
2、测量手段的精度对时间方向性度量的影响
有时两个事件看起来好像是同时发生的,但其实是测量粒度或观察能力有限导致的。
比如,微阵列实验一次检测数千个基因的活动情况,而对基因活动水平的检测通常是固定的时间间隔(比如每小时一次)进行的。从数据上看,两个基因的活动模式看起来好像是一样的(同时出现多过度表达或低表达)。然而,事实可能是那个被上调的基因引起另一个基因也随机被上调。
但是,由于观测检测的原因,我们看不到这种顺序,而且也没有任何背景知识表明有一个基因先发生了变化,那么我们只能确定这两个基因的表达水平是相关的,而无法确定一个基因是否会导致另一个基因被调节。
没有任何时间信息的情况是最复杂的,比如在横断面研究中,所有数据都是在同一时间收集的。某个横断面研究调查了某个人群中的任意一个小群体,以此来判断癌症和某个特定病毒之间是否有联系。
如果不知道哪个事件发生在前,我们就无法知道它们之间是否存在因果关系。
笔者插入:
这个现象在网络安全攻防中也十分常见,出于计算成本上的考虑,工程师们常常会根据分钟或者更长的时间作为统计窗口,如果不同的攻击事件和异常事件刚好发生在同一个时间窗口内,那么我们只能观测到彼此的同步相关性,而永远无法了解到它们之间的时序因果关系。
0x3:因果关系的外推性
因果关系中有一个很重要的考量因素是”外推性“,它指的是一个发现能否被外推到研究人群以外的人群中去。
在欧洲进行的一个随机对照实验的结论能否告诉我们某种药物在美国是否会有效?
随着时间的变化,因果关系本身也可能会发生改变,新的规章制度会改变影响股票价格的因素;或者因果关系的强度也会发生改变,如果大多数人都在网上看新闻,那么印刷广告对人们的影响就会降低。
在使用因果关系时,人们会默认那些让因果关系成立的因素是保持不变的。但是这种假设是有风险的,在工程实践中一定要非常小心。
有一些策略可以用来处理这些不稳定的时间序列,比如在数据足够多的情况下,我们可以缩短研究周期(如果时间序列的某个子集是稳定的),或者把一个不稳定的时间序列变成一个稳定的时间序列。
换句话说就是,在大数据情况下,我们可以缩短训练得到的模型的生命中周期,例如每周根据当前最新数据训练得到一个模型,然后用于下一周的预测任务,不断交替顺延。
0x4:度量事物随时间协变程度的正确方法
海盗数量减少会导致全球气温上升吗?吃马苏里拉奶酪会导致人们去报考计算机专业吗?柠檬的进口数量会导致公路死亡人数减少吗?
下图反映的是柠檬的进口数量和公路死亡人数之间的关系,
该图显示,随着时间的变化,进口数量稳定减少,同时死亡人数则在不断增加。
出现正向的(或者负向的)随时间变化的趋势可能说明某些时间序列之间具有相关性,但这并不意味着它们之间就存在因果关系。
在下图所示的例子中,自闭症患者的确诊人数的增长速度似乎和星巴克咖啡店数量的增长速度相似,因为这两者的数量碰巧都是按指数级增长的。但是,这种序列中存在因果关系的可能性很小。
Elliot Sober曾经介绍过一个具有不稳定性的例子,它讲的是威尼斯海平面和英国面包价格之间的关系,它们都随着时间的变化而上涨了,所以二者似乎具有相关性。
从纯统计上来讲,这两个变量之间的皮尔逊相关系数是0.8203。
但是要注意!我们这章要讨论一个科学度量变量协变量的方法,叫差分度量方法。
我们注意到,尽管这两个时间序列都一直在增加,但这两个变量每年的具体增加量却是不断变化的,而我们真正想知道的是这些变化是如何相互关联的。最简单的方法就是观察者两个变量的具体增加量,而不是那些原始的数值。也就是说,与上一年测量的数值相比,本年度海平面或面包价格上涨了多少?
如果我们使用年度之间的变化值(差分值),那么相关系数会下降至0.4714,这是一个非显著统计相关性。
这种方法叫做差分法(即选取连续数据点之间的差量),它是实现时间序列稳定性的最简单方法。
即便两个时间时序呈现出的长期趋势是一样的,但如果每天或每年的变化量不同,那么二者各自的变化值可能也不再具有相关性。
我们在很多时间序列组中找到的疑似相关性,如果总体趋势相似并且具有统计显著性(例如上面的例子),那么这种趋势就会对相关系数产生极大的影响,从而掩盖了短周期中两个变量的变化量之间存在的差异。
5. 因果关系的应用
0x1:原因运用中的时间因素
一周中的哪一天最适合订机票?应该早上锻炼还是晚上锻炼?经济学家们经常谈论季节效应,这些季节效应是每年同一时间都会出现的规律,是一种不稳定性特征,但是在很多其他类型的时间序列中,比如看电影的人数受到季节和节假日的影响。
总体来说,基于因果关系进行推理预测的时候,需要考虑以下几个因素:
- 确定某个因果关系发生的前提条件,例如:
- 假如我们在冬季发现了一些能够让电影票销量上涨的因素,那么这些因素在夏季也许就不会起到预期的效果
- 有一些规律可能只在一周中的某一天才会出现(比如上下班的习惯导致的一些规律),或者是公共节假日的安排导致的
- 事件发生的顺序,比如:
- 如果我们观察到一个人先生病,然后体重才下降,那么我们就知道体重下降不可能是导致这个人生病的原因,并作出更好的预测。
- 原因和结果之间的时间间隔,例如:
- 在选举之前要确定什么时候投放某些广告
- 收到一条消息后要确定什么时候卖掉某个股票
- 出行前要确定什么时候开始服用抗疟疾药物
6. 相关性和因果性的区别与联系
0x1:为什么相关性不等于因果关系
哲学家休谟说过,“因果关系实际上就是相关性”,这个问题既是肯定的也是否定的。相关性对因果性来说是必要但不充分条件。
1、相关性系数是对称的、而因果关系是有方向的
第一个需要注意的问题是,相关性系数是对称的,身高和年龄之间的相关性与年龄与身高之间的相关性完全一样。但是,因果关系是不对称的。咖啡让人失眠并不意味着失眠一定会让人喝咖啡。同样,将反映原因显著性的任何数值(比如条件概率)正着算和反着算也是不一样的。
当发现一个相关性时,如果我们完全不知道组成这一相关性的因素的发生顺序,那么每一个因素都可能是导致另一个因素出现的原因。
2、相关性中的共同原因现象 -- 因果关系并不是相关性的唯一解释
尽管因果关系能够解释一些相关性问题,但是仍然要牢记这一点:因果关系并不是相关性的唯一解释,
比如我们发现按时上班和享用丰盛的早餐之间存在相关性,但也许这两者都是早起的结果,早起让我们有时间吃早饭,而不是立刻就冲向办公室。
当我们在两个变量之间发现一种相关性时,必须考察一下这种无法测定的隐性因素(一个共同的原因)能够解释变量之间的关系。
笔者插入:
做网络安全入侵检测的朋友,应该对一个概念都不会陌生,那就是IOC(信标),从威胁情报金字塔层级理论角度来说,IOC信标属于最底层的一种情报,它往往是从病毒、漏洞载荷、攻击方式TTP中提取出来的一种模式,网络安全工程师常常通过信标来实现入侵检测的目的。这里面基于的基本原理就是:信标IOC和入侵事件之间存在显著相关性。但是要特别注意的是,在这些相关性的背后是否还存在其他的隐性因素(共同的原因),我们需要特别关注这种情况,这关系到我们的归因判断是否准确。
3、中间变量的存在
与时间因素相似,相关变量之间不存在直接因果关系的另一个原因是中间变量。
比如说,住在城市里和较低的体重指数之间存在相关性,因为城市居民走路比开车多,所以活动频率更高一些。这里住在城市里就是一个中间变量,所以住在城市里就间接导致了较低的体重指数。
如果不了解这种中间变量的存在就贸然预测,很可能导致预测失效。比如搬到城市里却又开车上下班(比如笔者),那搬到城市里就是一个无效的减肥策略。
大部分情况下我们找到的都是间接原因(比如我们找到的是吸烟引起肺癌这一结果,而不是具体的生物学机理),但是了解原因具体起作用的机制(原因如何导致结果)能够让我们找到更好的干预措施。
4、因果关系存在时序先后性、而相关性则不一定
0x2:没有相关性的因果关系
我们必须承认,有些因果关系中确实没有相关性。这意味着仅靠相关性并不足以证明因果关系的存在,可能连必要但不充分条件都不成立了。
举一个没有相关性的因果管理的例子:长跑对体重的影响。虽然长跑能够消耗热量从而减轻体重,但是长跑也能导致食欲大增从而增加体重,跑步的积极作用可能恰好会被它的消极作用抵消。
结果人们就会发现,从最终观测上来看(和观测频率和周期有关),在跑步和减肥之间不存在任何相关性,这个例子的因果结果如下图所示,
Relevant Link:
https://www.cnblogs.com/LittleHann/p/11992311.html