强关系若因果,趋势胜过精准度,证伪而非证实的方法论,

最近这两天老看到这样的观点,在当代,人们更应该放更多的时间在事物的相关性,数据的相关性,而非去努力的寻找原因。事实上“因果”的关系非常的复杂,绝对意义上的因果,也是不存在的。



http://www.china-cloud.com/yunhudong/yunzhuanlan/guhongwen/2013/1201/21934.html

作为一本科技类的图书,《大数据时代》出版一年时间依旧火热,并且在机场书店畅销书架和地铁附近盗版书摊都能够看得到,不能不说是个传奇。“大数据释放出的极高价值不但会让它成为一笔不错的交易,而且也是不可避免的。但是在我们到达最终目的地之前,我们有必要了解我们怎样到达。”维克托·迈尔·舍恩伯格在《大数据时代》一书中这样说。事实真是这样吗?就是在一年的火爆之中,我们也时常能够听到一些对于《大数据时代》质疑的声音。其中最多的,就是作者过多偏重对于大数据案例实用角度的功利性解读,有时甚至是重复或过度解读,以及过分的强调相关性,而对于追求因果性绝对的放弃。比如,作者提出强调“强关系”,而不是弱关系。认为知道“是什么”就够了,没有必要知道“为什么”。

的确,舍恩伯格在《大数据时代》一书中这样写道:“我们没有必要非得知道现象背后的原因,而是要让数据自己发声。”以及“相关关系能够帮助我们更好地了解这个世界。”他认为,建立在相关关系分析法上面的预测是大数据的核心。通过找到“关联物”并监控它,我们就能够预测未来。另外书中也存在一些摇摆和含混的概念,例如和他提出的全量数据理论相悖的是,从实用角度,他也建议当收集、分析、存储数据成本比较高的时候,应当适时的丢弃一些数据。即便是关于什么是“全量数据”,作者也是处于摇摆之中,有时指“我们需要的所有数据”,有时指“我们能收集到的所有数据”。

有些读者也认为,就是作者在书中提出的“大数据三原则”:要全体不要抽样,要效率不要绝对精确,要相关不要因果。前两者很多时候也是相悖的,尤其是在我们今天很多的情况下,即历史数据占有的不够充分,通过大数据的收集方法和分析方法,要把所有能收集的数据都收集,再集中展开分析,这种研究方法是缺乏时效性的。

即便是该书的译者成都科技大学的周涛教授,也在序言中对于“大数据时代相关关系比因果关系更重要”这个观点表示不能苟同。他认为,这是一种机器学习以结果为导向的研究思路,让我们注重“计算机工程”,而忽略了“科学”,得到了“结果”,但失去了“过程”。更让周涛教授担心的是,放弃了对因果的追求,就是放弃了人凌驾计算机之上的智力优势,是人类自身的放纵和堕落。

事实上我和周涛的观点类似,“因果性和相关性”这样的问题在本质上可以认为是人类思维和机器思维的区别。我们不能说让机器数据分析更加关注因果性,而应该考虑怎么加入人类文化、心智以及经验这样的因素,也就是考虑结果的人工干预的方式和深度,以及在未来人类和机器智能共生的时代,人类怎么能够发挥独特的优势?通过两种思维、文化的融合、互补而达到和谐共处和相互提升。

截止到目前以及在可见的将来,计算机所能够提供给我们的结论都应该是相关性的。但是,我们人类常说“有因必有果”,是要说明一种必然的联系,它是哲学或者佛学使用较多的概念。当然,在它们的解释中因果也经常被描述为一种前后顺延的思维关系,指的很多还是经验的归纳或者习惯的联想。而其中最最关键的,因果必须是从“人”的立场才能理解的,是“自然的人化”。

即便我们认为理所当然的因果,也有时间或者条件的限制,比如“种瓜得瓜,种豆得豆”,或者说“从9层高楼坠落会死掉的”,在这些里面也需要很多限制条件,即“外部数据”或者“概率”。所以佛教里面还有个“缘”的概念,也是指的外部条件,或者是概率。比如“种瓜得瓜”,“缘”就是还需要季节、雨露以及种子不被破坏这些因素,“种了瓜”但是种子被小鸟叼走了再不小心丢下一颗豆子,种瓜的人“得到豆”也是可能的。在这样的条件下如果没有足够信息,当初种瓜的人回来只会看到得到一棵“豆”的果。更进一步,这样的因果性强调更多是人/甚至人类整体的记忆,或者经验,另外还有规律性等等条件。俗话“一因对应一果”,事实上“因果”的关系非常的复杂,绝对意义上的因果,也是不存在的。

叶·扎米亚京在《我们》一书中谈到一则“野蛮人”和“晴雨计”的故事。说“野蛮人”发现,每当晴雨计停在“雨”宇上的时候,确实就会下雨。野蛮人正想求雨,他就把晴雨计中的水银弄出来些,使晴雨计正好停在“雨”上。很多读者对于《大数据时代》的批评也是基于这样的简单例子。比如说“公鸡打鸣与太阳升起总是同时发生,这并不表示把全世界所有的公鸡都杀光了后太阳就升不起来了。”,以及“有数据表明打太极拳的人和不打太极拳的人平均寿命相同。事实上呢,太极拳确实可以强身健体、延长寿命,但打太极拳的人往往是体弱多病的人,这一事实也给统计数据带来了虚假的独立性。”

人类渴求确定性,但是整个科学研究和社会过程都充满了不确定性。尤其是在目前大数据研究的情况下,我们并不能据此就批评作者“过分地”强调“相关性”是不对的,这不仅是限于机器智能的内因,也是有大数据探索初期阶段的外因。

首先,科学研究鼓励试错,我们人类的发展就是在不断试错,寻找相关性的过程中前进的。其次,在一场变革或者技术的初期,我们总要找到最简单、甚至看起来很粗糙的方式发挥出它的效能。当然,这也还跟目前数据量、数据化和数据保存以及分析工具等错综复杂的因素有关,这也有待于大数据发展中的“缘”的积累。

在今天对大数据我们最为关键的,就是利用这样的相关性关系研究,把数据里面的金子挖出来,或者利用相关性,预防或促成某些结果的发生。我们需要一定的速度,应对信息社会“数据爆炸”和诸多涌现出来的“复杂性”很高的问题,然后才是对其过程和背后原因的探询。

正如有读者提出来的,“大数据的强大之处就在于通过数据挖掘,能够披露珍藏在海浪数据下的潜信息、隐信息,让我们获得第三只眼,越来越多拥有未卜先知的能力。大数据不提供关于世界的真相和原理,只通过知其然而不知其所以然的那些判断。”“有时候,影响因素成千上万,解释的理论更加是多如牛毛,强找因果关系很难。”很多读者也都会认同。“对要求快速反应的事件(如股票预测和流感趋势),我们更迫切的是想知道接下来要怎么做,而并非要找因果关系。”

著名的《蒸汽朋克》杂志的座右铭是“热爱机器,憎恨工厂”。我们都知道技术对于整个社会发展的作用,甚至是决定性的。而且,技术太快或者太慢都可能导致社会崩溃。我们不会是路德主义者,也不是纯技术主义者。不是实用主义者,也不是理想主义者。在今天,我们只是探索者和开拓者。事实上,互联网独立评论人谢文在《大数据时代》一书的序中也说:“最重要的,人们可以在很大程度上从对于因果关系的追求中解脱出来,转而将注意力防在相关关系的发现和使用上。”他认为,弄清而者为什么相关,可以留待学者们慢慢研究。只要发现了两个现象之间存在的显著相关性,就可以创造出巨大的经济或者社会效益。

在自己的书中,舍恩伯格也提到了人类有急于寻找因果性的冲动,而有时候找到的所谓“因果”也并非真正的因果。表面理性的人常常被非理性所迷惑,满足于想当然的解释。在这种情况下,片面甚至错误的因果性还真的没有相关性靠谱。因此,尽管他也认为因果关系是有用的,但不能作为理论基础。最终,舍恩伯格也提出:“在大多数情况下,一旦我们完成了对大数据的相关性分析,而又不再仅仅满足于‘是什么’时,我们就会继续向更深层次研究因果关系,找出背后的为什么。”


你可能感兴趣的:(强关系若因果,趋势胜过精准度,证伪而非证实的方法论,)