大数据时代的新科学范式:数据密集型科学
已有 4331 次阅读 2016-9-21 11:58 |系统分类:教学心得
1、什么是科学范式?
“范式”(paradigm)这一概念最初由美国著名科学哲学家Thomas Samuel Kuhn于1962年在《科学革命的结构》中提出来,指的是常规科学所赖以运作的理论基础和实践规范,是从事某一科学的科学家群体所共同遵从的世界观和行为方式。“范式”的基本理论和方法随着科学的发展发生变化。
新范式的产生,一方面是由于科学研究范式本身的发展,另一方面则是由于外部环境的推动。人类进入到21世纪以来,随着是信息技术的飞速发展,促使新的问题不断产生,使得原有的科学研究范式受到各个方面的挑战。
图灵奖得主,关系型数据库的鼻祖Jim Gray在2007年加州山景城召开的NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)大会上,发表了留给世人的最后一次演讲“The Fourth Paradigm: Data-Intensive Scientific Discovery”,提出将科学研究的第四类范式。其中的“数据密集型”就是现在我们所称之为的“大数据”。Jim是一位航海运动爱好者,在会议结束后不久的2007年1月28日,他驾驶的帆船在茫茫大海中失去联系。
JimGray (right) toasts Gordon Bell at Gordon's 70th birthday, August 2004
Jim总结出科学研究的范式共有四个:
几千年前,是经验科学,主要用来描述自然现象;
几百年前,是理论科学,使用模型或归纳法进行科学研究;
几十年前,是计算科学,主要模拟复杂的现象;
今天,是数据探索,统一于理论、实验和模拟。它的主要特征是:数据依靠信息设备收集或模拟产生,依靠软件处理,用计算机进行存储,使用专用的数据管理和统计软件进行分析。
2、经验科学
人类最早的科学研究,主要以记录和描述自然现象为特征,又称为“实验科学”(第一范式),从原始的钻木取火,发展到后来以伽利略为代表的文艺复兴时期的科学发展初级阶段,开启了现代科学之门。
经验科学是“理论科学”的对称,指偏重于经验事实的描述和明确具体的实用性的科学,一般较少抽象的理论概括性。在研究方法上,以归纳为主,带有较多盲目性的观测和实验。一般科学的早期阶段属经验科学,生物、化学尤其如此。
这种方法自从17世纪的科学家Francisc Bacon阐明之后,科学界一直沿用着。他指出科学必须是实验的、归纳的,一切真理都必须以大量确凿的事实材料为依据,并提出一套实验科学的“三表法”,即寻找因果联系的科学归纳法。其方法是先观察,进而假设,再根据假设进行实验。如果实验的结果与假设不符合,则修正假设再实验。
经验科学的主要研究模型是:科学实验。
典型范例包括:伽利略的物理学、动力学。伽利略是第一个把实验引进力学的科学家,他利用实验和数学相结合的方法确定了一些重要的力学定律。在1598~1591年间,伽利略通过对落体运动做细致的观察之后,在比萨斜塔上做了“两个铁球同时落地”的著名实验,从此推翻了亚里士多德“物体下落速度和重量成比例”的学说,纠正了这个持续了1900年之久的错误结论。牛顿的经典力学、哈维的血液循环学说以及后来的热力学、电学、化学、生物学、地质学等都是实验科学的典范。
3、理论科学
经验科学的研究,显然受到当时实验条件的限制,难于完成对自然现象更精确的理解。科学家们开始尝试尽量简化实验模型,去掉一些复杂的干扰,只留下关键因素(例如:“足够光滑”、“足够长的时间”、“空气足够稀薄”),然后通过演算进行归纳总结,这就是第二范式:理论科学。
理论指人类对自然、社会现象按照已有的实证知识、经验、事实、法则、认知以及经过验证的假说,经由一般化与演绎推理等方法,进行合乎逻辑的推论性总结。人类借由观察实际存在的现象或逻辑推论,而得到某种学说,如果未经社会实践或科学试验证明,只能属于假说。如果假说能借由大量可重现的观察与实验而验证,并为众多科学家认定,这项假说可被称为理论。理论科学偏重理论总结和理性概括,强调较高普遍的理论认识而非直接实用意义的科学。在研究方法上,以演绎法为主,不局限于描述经验事实。
这种研究范式一直持续到19世纪末,都堪称完美,牛顿三大定律成功解释了经典力学,麦克斯韦理论成功解释了电磁学,经典物理学大厦美轮美奂。但之后量子力学和相对论的出现,则以理论研究为主,以超凡的头脑思考和复杂的计算超越了实验设计,而随着验证理论的难度和经济投入越来越高,科学研究开始显得力不从心。
理论科学的主要研究模型是:数学模型。
典型范例包括:数学中的集合论、图论、数论和概率论;物理学中的相对论、弦理论、圈量子引力理论;地理学中的大陆漂移学说、板块构造学说;气象学中的全球暖化理论;经济学中的微观经济学、宏观经济学以及博弈论;计算机科学中的算法信息论、计算机理论。
4、计算科学
20世纪中叶,John von Neumann提出了现代电子计算机架构,利用电子计算机对科学实验进行模拟仿真的模式得到迅速普及,人们可以对复杂现象通过模拟仿真,推演出越来越多复杂的现象,典型案例如模拟核试验、天气预报等。随着计算机仿真越来越多地取代实验,逐渐成为科研的常规方法,即第三范式:计算科学。
邮票中的John von Neumann
计算科学,又称科学计算,是一个与数据模型构建、定量分析方法以及利用计算机来分析和解决科学问题相关的研究领域。在实际应用中,计算科学主要用于对各个科学学科中的问题进行计算机模拟和其他形式的计算。典型的问题域包括:数值模拟,重建和理解已知事件(如地震、海啸和其他自然灾害),或预测未来或未被观测到的情况(如天气、亚原子粒子的行为);模型拟合与数据分析,调整模型或利用观察来解方程(如石油勘探地球物理学、计算语言学,基于图的网络模型,复杂网络等);计算和数学优化,最优化已知方案(如工艺和制造过程、运筹学等)。
计算科学的主要研究模型是:计算机仿真和模拟。
典型范例包括:热力学和分子问题、信号系统,以及传统的人工智能等。
5、数据密集型科学
随着数据的爆炸性增长,计算机将不仅仅能做模拟仿真,还能进行分析总结,得到理论。数据密集范式理应从第三范式中分离出来,成为一个独特的科学研究范式。也就是说,过去由牛顿、爱因斯坦等科学家从事的工作,未来完全可以由计算机来做。这种科学研究的方式,被称为第四范式:数据密集型科学。数据密集型科学由传统的假设驱动向基于科学数据进行探索的科学方法的转变。
The fourth paradigm
我们可以看到,第四范式与第三范式,都是利用计算机来进行计算,区别是什么呢?现在大多科研人员,应该都比较理解第三范式,在研究中总是被专家评委不断追问“科学问题是什么?”、“有什么科学假设?”,这就是先提出可能的理论,再搜集数据,然后通过计算来验证。而基于大数据的第四范式,则是先有了大量的已知数据,然后通过计算得出之前未知的理论。
我们已经知道,大数据时代最大的转变,就是放弃对因果关系的渴求,取而代之关注相关关系。也就是说,只要知道“是什么”,而不需要知道“为什么”。
关联关系是大数据的本质特征之一。
这就颠覆了千百年来人类的思维惯例,据称是对人类的认知和与世界交流的方式提出了全新的挑战。因为人类总是会思考事物之间的因果联系,而对基于数据的相关性并不是那么敏感;相反,电脑则几乎无法自己理解因果,而对相关性分析极为擅长。这样我们就能理解了,第三范式是“人脑 + 电脑”,人脑是主角;而第四范式是“电脑 + 人脑”,电脑是主角。进而由此引发的新一代人工智能技术。
我们知道要发现事物之间的因果联系,在大多数情况下总是困难重重的。我们人类推导的因果联系,总是基于过去的认识,获得“确定性”的机理分解,然后建立新的模型来进行推导。但是,这种过去的经验和常识,也许是不完备的,甚至可能有意无意中忽略了重要的变量。
举个例子。现在我们人人都在关注雾霾天气。我们想知道:雾霾天气是如何发生的,如何预防?首先需要在一些“代表性”位点建立气象站,来收集一些与雾霾形成有关的气象参数。根据已有的机理认识,雾霾天气的形成不仅与源头和大气化学成分有关,还与地形、风向、温度、湿度气象因素有关。仅仅这些有限的参数,就已经超过了常规监测的能力,只能进行简化人为去除一些看起来不怎么重要的,只保留一些简单的参数。那些看起来不重要的参数会不会在某些特定条件下,起到至关重要的作用?如果再考虑不同参数的空间异质性,这些气象站的空间分布合理吗,足够吗?从这一点来看,如果能够获取更全面的数据,也许才能真正做出更科学的预测,这就是第四范式的出发点,也许是最迅速和实用的解决问题的途径。
现在,我们的手机就可以监测温度、湿度,可以定位空间位置,监测大气环境化学和PM2.5功能的传感设备也在逐渐走向市场,这些移动的监测终端更增加了测定的空间覆盖度,同时产生了海量的数据,利用这些数据,分析得出雾霾的成因,最终进行预测指日可待。
计算科学的主要研究模型是:数据挖掘和机器学习,特别是机器学习。
典型范例包括几乎所有的大数据实践场景,以及基于大数据的人工智能。特别是当前火热的新一代人工智能研究。我们在过去认为非常难以解决的智能问题,会因为大数据的使用而迎刃而解,比如围棋。同时,大数据还会彻底改变未来的商业模式,很多传统的行业都将采用数据驱动的智能技术实现升级换代,同时改变原有的商业模式。大数据和机器智能对于未来社会的影响是全方位的,对整个社会带来巨大的冲击,尤其是在智能革命的初期。
6、总结
从大数据中探索“不知道自己不知道”的现象和规律,成为科学研究中必不可少的部分。科学从经验科学到理论科学再到计算机科学,现在发展到数据密集型科学,科学范式也相应地从经验范式发展到理论范式再到计算机模拟范式到第四范式。每一个范式都有各自相应的特征和范例,清楚认识各个范式的特点和所包含的范例,对于科学研究第四范式的发展有着重要的意义,对数据科学和数据工程也有着重要的推动意义,同时大数据发展也将引爆智能革命,深刻地影响着我们今天的每一个人。
注:本文参考了如下资料
Tony Hey, et al., The Fourth Paradigm: Data-Intensive Scientific Discovery, 2009.
邓仲华, 李志芳, 科学研究范式的演化, 情报资料工作, 2013.
赵斌, 第四范式:基于大数据的科学研究, 科学网, 2015.
http://blog.sciencenet.cn/blog-242272-1004180.html