“理解数据”是数据思维课的第三大部分,怎么知道数据告诉我们的信息?这部分的内容主要分析理解数据的4个方面,分别是:
1.表征:如何确定你到底是谁?
2.分类:谁是他?谁是我?
3.分解:究竟谁对你影响最大?
4.因果:如何缓解反事实难题?
==================================================================================
1.表征:如何确定你到底是谁?
理解数据最常见的问题就是:我们怎么从这些数据中得出判断,从而给事物定性呢?用数据的术语来说就是,我们怎么用数据去表征一个事物呢?
用数据来给事物定性,在生活中我们并不陌生。—叶落而知天下秋,—叶落就表征了秋天的开始。开车的时候,后视镜里的汽车越来越大,说明它的速度比你快。跟姥爷打麻将,他一旦用大拇指反复蹭桌子,你就知道他听牌了,因为你非常了解他的习惯,也就是他的行为模式。
但是现实中大量的事物都是不可见的,它的特征隐藏在数据中,我们只能从数据中获得信息来形成判断。这是我们理解数据的重要任务之一。
在使用数据之前,必须完成两件事:第一,识别真正的挑战是什么,明确我们到底想定性什么;第二,不断反思自己对这件事的认知。
根据信息调整表征方向:现实生活中的情况,我们事先不知道我们要表征的方向是什么,只能在寻找的过程中确定。在面对复杂问题时,我们需要随着信息的增加而不断调整表征方向。
在现实中已经有了现成的数据,但这些数据能解决你的问题吗?这个问题分为两层。第一层的问题:怎么确定一个数据到底表征的是什么呢?第二层问题:如果没有现成的变量能表征我们想要的概念,怎么办呢?自己构造。利用现有数据构造新指标来表征你的想法是有风险的事情,但是坚持尝试是很有必要的。只有坚持实践,才能磨练你的技能,提高你的数据思维。
2.分类:谁是他?谁是我?
工作和生活中,分类是我们每天都要做的。看到一朵花,我们需要分辨是玫瑰还是月季;看到沙发上趴着一个宠物,需要分辨它是猫还是狗;店里进来一个顾客,需要分辨他是来逛逛还是要买东西;接手—份重要工作,需要马上分辨它是重要不紧急,还是重要且紧急......
分类的任务很清楚,就是把总体分成几个小组,我们一直在凭直觉或者经验去做。但是,如果我们面对的问题特别复杂呢?比如,怎么按照职场优势给员工分类,然后把他们匹配到最适合的岗位呢?怎么给客户划分类型,然后有针对性的出方案呢?这时候,直觉和经验就都不靠谱了。怎么办?用数据的方法解决。
要保证分类是有效的,首先要做到的第一点就是——按照量的标准来分类。什么是量的标准呢?就是我们用来区别事物的那个变量和这个变量的一个特别数值。是不是只能把一个量作为标准呢?当然不是。紧急且重要,紧急不重要,不紧急重要,不紧急且不重要,这种分类就用了两个维度,每个维度都有一个区别的量的标准。(可能是某个标准,一维的或者是多维的)
最常见的解决办法就是寻找—组指标,建立一个判别模型。怎么建立判别模型呢?先把样本分成两部分,一部分用来做模型训练,这样我们就会得到一个模型,然后用另一部分样本评价这个模型的预测准确率。等这个模型通过考验之后,就可以执行任务了。
是不是只要按照量的标准划分,就一定保证我们的分类是正确的呢?不一定。按照量的标准做区分,要保证组内差异小,组间差异大。
既然分类的依据是量的标准,也是学习到的结果,那么分类的结果就一定是概率性的,而不是确定性的。也就是说,判别模型给出的结果,不管准确率有多高,都仍然有出错的可能。
一切理论最终都要回归现实。知道什么数据对应什么结果,这样就很好划分。如果我们压根不了解事情到底是怎么回事,不知道正确的分类标准,那该怎么分类呢?从数据中找规律。
只有在数据和现实生活中见建立可靠的连接,才能用数据解决现实问题。任何单—维度的数据都不能全面理解这个世界。如果数据不与现实结合,就很可能会犯错。
总结:
(1)分类就是按照量的标准把一个总体分成几组,必须保证组内差异小,组间差异大。
(2)分类的结果一定是概率性的,有出错的可能。
(3)当没有标准答案,仅仅能通过分析数据来分类时,最重要的就是建立数据与现实世界的连接。只有这样,才能确保我们的发现是合情合理的。
3.分解:究竟谁对你影响最大?
现实生活中,我们面对的问题都特别复杂,常常是各种因素交织在一起。这时候,怎么把各种因素分开,又怎么把理解的难度降低呢?解决这类问题,就要靠分解来完成。
一定要建立分解的意识,不要一见到差异,就想当然地认为都来源于一个单一因素。很多事情,有差异是正常的,平等不等于相等。
没有数据思维的人只看结论,有数据思维的人看产生结论的过程。
如果研究者非常明确地知道要分解成哪些因素,那就给研究者指明了方向,有方向是—件特别幸运的事。很多时候,我们并不知道一个总效应是由什么因素组成的,那是不是就没有办法了呢?当然不是。我们可以用数据挖掘的技术来帮忙。相关的方法很多,这里介绍一种常用的——因子分解方法。
因子分解有一个数学上的优点,就是提取的几个公共因子之间是相互独立的。也就是说,在数学上保证了它们代表的是不—样的东西。这就把相互纠缠的因素分开了,本质就更易于理解了。从信息的角度看,原来大量的复杂冗余的原始信息就被浓缩精简了。公共因子是依照统计标准提取出来的,如何解释是一个主观建构的过程。也就是说,因子解释是事后进行的,这个过程有数据的依据,有技能的应用,更是研究者认知水平的反映。
没有包打天下的技能神器,了解每一种数据技能的优点、缺点、适用条件是非常重要的。
总结:
(1)所谓的分解,就是把影响一个复杂事物的各种复杂纠缠的因素分开。通过分解,可以浓缩信息,探究本质。
(2)要建立分解的意识,不要一见到差异,就想当然地认为都源于一个单一因素。
(3)分解的办法有很多种,因子分解只是其中的一种。每种分解方法都有各自的优点、缺点和适用条件。如果不确定你要解决的问题应该用哪种方法,可以找数据专家咨询。
4.因果:如何缓解反事实难题?
找到事物之间的因果关系是讨论理解数据的另一个重要挑战。确认一件事是另一件事的原因,是我们最常用的思考方式之一。只有知道了原因,我们才能做预测,做解释,做干预。这三件事,对人来说都是大事。但是,因果关系是典型的那种你不问我我觉得我知道,但是你一问我我就不知道的问题。确认因果关系,这件事很难。
先讲一个故事:一位女司机给4S店打电话,说︰“我在超市,车发动不了了,你们来解决—下。”店里的工程师问︰“你做什么了?”女士说:“我去买玫瑰花了。但是我买百合花,就没有这个问题。”工程师当然认为这是鬼扯,但是没办法,只好去了现场。你猜怎么着,女士说的一点没错,买百合车子就能发动,买玫瑰就不能。问题来了,现在经过了事实验证,你同意玫瑰花是导致汽车不能发动的原因吗?(工程师在现场发现,这家超市很奇怪,卖百合花的地方和卖玫瑰花的不在一个地方。百合花离停车场近,玫瑰花离停车场远。这样,女士买百合,回来车还是热的,很容易发动﹔买玫瑰,回来车就凉了,导致车辆冷启动困难,于是就发动不了。这才是真正的因果关系,和你买的是百合还是玫瑰没有关系。)
这个案例很好的反映了通过数据去发现和确认因果关系的复杂和艰难之处。特别是当我们进入一个全新的领域,这个领域如何运行,没有人告诉我们。我们能做的,就是猜测、验证和迭代。如果对因果关系的追寻有一个总原则的话,那就是保持谦卑。
因果关系成立的必要条件:
我们先讨论最简单的情况:如果两个变量之间是因果关系,那它一定具备哪些特征呢?也就是说,因果关系成立的必要条件有哪些呢?
第一,如果两个变量之间是因果关系,那它们之间肯定有相关。发现事物之间的相关性也是理解数据的一个重要任务,并不附属于因果关系的追寻。
如果把问题反过来,两个变量之间看不到相关,就肯定没有因果关系吗?答案是,不一定。两件事没有相关,可能是真实的,也可能只是表象。确定因果关系,不能只看这两件事情之间,而必须看到世界运作的全景。要是你还没有能力看到全景,那么请再一次保持谦卑,慎重下结论。
第二,两个变量之间有先后。因果关系,必须原因在前,结果在后。(人类社会层面)
第三,两个变量之间的关系不被第三个变量解释。
现实世界是普遍联系的,各种事情交织在一起,这时候怎么寻找因果关系呢?整体思路是这样的:先建立所研究问题整体的运行图景,说明各个变量之间的联系。然后去收集数据,让数据逼近这个理论图景。再然后,用数据验证这个理论。如果验证通过,就对理论更相信一点。如果不通过,就改进理论或者收集新的数据,再次验证。如此循环下去。
为什么寻找因果关系难?因为缺少数据。----反事实难题
因为反事实难题的存在,在社会领域推断因果关系时,我们必须牢记以下三个重要的认知:
(1)我们只能对群体做因果推断,不能对个体做因果推断。
(2)我们只能对因果关系做概率表述,不能做确定性的表述。
(3)随机试验不能完全解决问题,推广到总体时要很小心。随机试验仅仅是对一部分人做试验,这部分人能不能代表人类整体,不能想当然。
总结:
(1)两个变量之间因果关系成立的必要条件有三个:一,两个变量有相关:二,两个变量有先后:三,两个变量的关系不能被第三个变量解释。
(2)因果关系的寻找是一项重大挑战,没有保证成功的一般法则。其中,最大的困难就在于反事实难题的存在。
(3)面对现实问题,我们能做的就是猜测、验证和迭代。如果对因果关系的追寻有一个总原则的话,那就是保持谦卑。