从因果关系到强相关关系——数据时代的思维变革

从因果关系到强相关关系——数据时代的思维变革_第1张图片

从大数据的提出到现在,已经过去将近10年的时间了,大数据的概念在全球范围内也越来越火爆,而2016年、2017年接踵而至的AlphaGo、各大巨头的无人驾驶,甚至各个国家都发布了的大数据战略等新闻,更是让人觉得大数据以及机器智能已经来到我们的生活中了。

吴军老师《智能时代》一书中提出,大数据对于整个社会来说不仅仅是一种技术革命,更是一种又技术而引发的思维革命。在社会影响力上,只有始于英国的工业革命、始于德国和美国的二次工业革命、以及“二战”后以摩尔定律为标准的信息革命能够与其相比。而对人类认识世界的方法上,只有引发工业革命的机械思维能够与之相匹配。

要认识有大数据而引发的数据思维革命,首先去看看将人类带入现在社会,并影响了人类几个世纪的机械思维是什么?

机械思维——人类现代文明的基础

现在我们在说起机械思维的时候,可能会与死板、僵化、落伍等贬义词联系在一起,甚至“机械”一词本身都算不上什么好词。但是在过去的三个多世纪里面,机械思维可以算得上是人类总结出的最重要的思维方式,如同大数据思维、互联网思维在当今的地位,在当时也是很时髦的概念,并且它的影响力也一直延续到今天。

机械思维是欧洲之所以能够在科学上领先于世界的重要原因,其核心方法论是有笛卡尔建立的“通过正确的证据、正确的推理、得到正确的结论”的科研方法,概括的说就是“大胆假设,小心求证”。这种思维方式造就了从欧几里得到托勒密再到牛顿等一位位科学巨匠,将人类带入科学时代,让人们相信世界万物的运动遵循着某种确定性的变化规律,而这些规律又是可以被认知的,给人类带来了前所未有的自信。

机械思维以及因机械思维而发明的各种各样的机械,直接导致了人类迄今为止最为伟大的事件——工业革命,极大的增加了社会的财富、延长了人类的寿命,它为人类文明的进步带来了前所未有的进步,其核心思想为:

1. 世界变化的规律是确定的;

2. 因为有确定性做保证,因此规律不仅是可以被认知的,而且可以用简单的公式或者语言描述清楚;

3. 这些规律应该是放之四海皆准的,可以应用到各种未知领域知道实践。

概括的来说,机械思维就是确定性(可预测性)和因果关系。牛顿可以把所有天体运动的规律用几个定律讲清楚,并且应用到任何场合都正确,这就是确定性。类似地,当我们给物体施加一个外力时,它就获得一个加速度,而加速度的大小取决于外力和物体本身的质量,这是一种因果关系。

机械思维为人类带来了前所未有的进步,但它的所有逻辑都是建立在确定性的基础之上,所以这个基础的正确性就决定了机械思维的适用性。那么这个世界到底是不是确定的呢?

世界是确定的还是不确定的

爱因斯坦有句名言——“上帝不掷筛子”,这是他在量子力学的发明人波尔等人争论时讲的话,其要表达的意思也和明显——世界是确定的。但是今天我们知道在这场争论中,波尔等人是正确的,爱因斯坦错了,上帝是掷筛子的,这个世界充满了不确定性。

对于不确定性最好的例子那就是股市预测了,如果统计一下各种专家对于股市的预测,就会发现它们基本上是对错各一半(巴菲特甚至用猴子来比喻这些投资专家)。这一方面是由于影响股市的因素太多,一个人或者一个机构很难将这些因素都研究透彻。光是美国政府和一些研究所公布的各种经济数据就多达两万,最好的经济学家一辈子能够研究透的经济指标还不到1%,有太多的不确定因素是他们考虑不到的,因此无法准确预测市场。再加上还有很多因素是目前我们尚未发现的,或者发现了但是忽略了的,这就使得预测的准确率进一步下降。事实上,美国大部分基金的投资回报率并没有市场的平均值高,这也在很大程度上证明了世界的不确定性。

另一方面,我们预测活动本身影响了被测量的结果,当有人按照某个理论买或卖股票时,其实给股市带来了一个相反的推动力,导致股市在微观上的走向和理论预测的方向相反,从而导致了股市的不可预测性。

其实这就是世界不确定性的两个主要来源。首先,当我们对这个世界的方方面面了解得越细致后,会发现影响世界的变量其实非常多,已经无法通过简单的方法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理,人为地把它归为不确定的一类。

另一个因素来自客观世界本身,它是宇宙的一个特性。在宏观层面,行星围绕恒星运动的速度和位置是可以计算得很准确的,从而可以画出它的运动轨迹。但是在围观世界里,电子在围绕原子核做高速运动时,我们不可能同事准确的测定出他在某一时刻的位置和运动速度,当然也就不能描绘它的运动轨迹了。

如果世界是不确定的,那么面对世界的不确定性,我们应该以何种方式去处理呢?或者说我们应该怎样去面对世界的不确定性呢?

解决不确定性问题的思维方式

要解决不确定性问题,这在过去可能很难解决,因为不确定性因素太多,如果一一将不确定性因素找出来,然后将其解决,这基本上是不可能的,成本太高了,而且收益并没有想象中的那么大。但是得益于由摩尔定律所带来的信息革命,从数据的产生、存储、传输和处理各个环节的成本都极大的降低,数据量呈现出爆炸性增长,使得收集各个维度的数据成为了可能,也就为解决不确定性问题奠定了基础。

概括的来讲即使利用信息来消除不确定性,即用不确定性的眼光看待世界,再用信息消除不确定性,将很多智能问题转化为信息处理问题。具体到操作方法上就是用寻找事物的强相关性关系代替原来的寻找因果关系来解决问题。为了说明这种方法的转变,吴军老师举了Google在搜索算法优化的一个例子。

在2005年之前,Google不断的使用数据来提高搜索质量,但是主要的工作方法还是遵循因果关系。比如发现有些搜索结果相关性不好,那么需要先分析原因,在寻找答案。这在网页搜索质量还有很大的提升空间的时候,这种方法还能降搜索质量每年提高3%~5%,但是随着搜索质量接近完美,再按这样的工作方式每年进步连1%都不到。

这个时候Google发现搜索质量和很多数据特征有很强的相关性,利用这些特性可以迅速提升搜索结果的质量。而与搜索质量相关性最高的是大量的点击数据,即对于不同的搜索关键字,用户们都点击了哪些搜索结果。例如对于“虚拟现实”这个查询,用户有31000次点击了网页A,15000次点击了网页B,11000点击了网页C......这种情况下网页A应该被排在第一位,但是如果搜索引擎排序算法不好,有可能出现它没有排在第一位的情况。这是搜索引擎的设计者就面临一个选择,是采用通过研究改进的排序算法,还是干脆相信用户的点击结果,或者是将它们结合在一起。如果单纯的改排序算法,这个周期特别长;如果相信用户点击的结果,其实就是用相关性取代因果关系。

今天来看,各个搜索引擎都有一个度量用户点击数据和搜索结果相关性的模型,而且在搜索排序中至少占70~80%的权重,也就是说在今天的搜索引擎中,因果关系已经没有数据相关性重要了。

大数据思维是从大量数据中找到直接答案(即使不知道原因)的思维方法。这个我们寻找解决问题的方法提供了捷径,也为我们解决不确定性问题提供的方法。但这种找不出原因的答案我们是否敢接受,也是大数据思维的一部分。

数据时代的思维方式

虽然数据时代已经到来,大数据思维在这个时代的重要性也越发突出,但是大数据思维和机械思维并非完全对立的,他更多的是后者的补充。

对于能够找到确定性和因果关系的事物,机械思维依然是最好的方法。但是面对不确定的世界(今天我们面临的复杂情况,已经不是机械时代用几个定律就能讲清楚的了)、无法确定因果关系时,大数据思维将为我们提供新的方法论。

而随着人类对世界认识得越来越清楚,人们发现世界本身存在着很大的不确定性;在加上原有的机械思维寻找因果关系,其难度非常大,除了靠物质条件、努力外,还需要靠灵感和运气,很多问题难以解决,或者解决的成本太高、时间周期太长。这就使得大数据思维在当今这个时代显得越发重要。

参考资料

1. 吴军.《智能时代》.中信出版社,2017

2. 吴军.《文明之光(第二册)》.人民邮电出版社,2015

你可能感兴趣的:(从因果关系到强相关关系——数据时代的思维变革)