人类在认识自然规律发展的过程中,经历了以下几个过程:一是实验科学范式,即观测、实验、试验发现现象,总结规律,数据量小;二是理论科学范式,形成假说、通过观测、实验、试验数据,验证理论,数据量小;三是计算科学范式,依据理论模型,进行计算模拟,利用实验数据验证计算,数据量大;四是数据密集型范式,也就是人们经常谈论的大数据。
数据科学发展历程
进入到大数据时代之后,地学研究要采取什么样的模式呢?我们不妨先回顾一下数据科学的体制,数据科学包含了什么,以及数学科学家应该做什么。
1947年,Turkey提出了“bit”这个术语。1962年他又提出数据是一门学科,数据分析是计算机的一次飞跃。
1968年,图灵奖获得者彼得·诺尔首次对数据科学进行定义,他认为数据科学是处理数据的科学。1977年他又提出,将传统统计方法学、现代计算机技术和领域内专家知识联系起来以完成将数据转换为信息和知识。
1989年,数据分析与挖掘专家GregoryPiatetsky-Shapiro提出了知识发现和数据挖掘,他组织并领导了第一个Knowledge Discovery in Databases(KDD)研讨会。
1994年9月,BusinessWeek刊登了关于“Database Marketing”的封面故事:很多公司正在收集关于你的海量信息,将这些信息处理后来预测你对一个产品的购买需求,并用那些知识来制定精确适合你的营销策略。这也孕育着大数据的出现。1996年,International Federation of Classification Societies(IFCS)成员在他们两年一次的会议中于日本神户会面,“数据科学(data science)”首次被用于会议题目中。Usama Fayyad强调知识发现过程也是有步骤和程序的,比如数据的准备、筛选、清理、整合等过程。
1997年,C.F.Jeff Wu教授呼吁将统计学更名为数据科学,将统计学家更名为数据科学家。同时他把之前提到的知识发现和数据挖掘,转化为数据挖掘和知识发现。
2001年,William S. Cleveland发表了“Data Science:An Action Plan forExpanding the Technical Areas of the Field ofStatistics”,其中提到了数据科学包含多个学科,或者数据科学家包含多个学科的人,它主要解决两个问题:一统计界里面的随机数据模型和计算模型,后来统计协会采取了数据模型的概念。
2002年数据科学期刊发行,包括收集、分析、建模、应用等有关数据科学方面的研究。
2005年,企业进入到数据的分析中,企业通过数据分析增加自身竞争力。同年9月,The National Science Board刊登了“Long-lived Digital Data Collections:Enabling Research and Education in the 21stCentury”,该报告的众多推荐信之一写道:“NSF与大多数数据管理者和协会保持合作。它应当发展并完善数据科学家的职业生涯以保证包含足量高水平数据科学家的研究机构正常运行。”
2007年,Research Center for Dataologyand Data Science在复旦大学建立。
2009年,Yangyong Zhu和Yun Xiong发表了“Introduction to Dataology andData Science”,其中提出“与自然科学和社会科学不同,数据学和数据科学使用互联网上的数据作为研究对象。它是一门新兴科学。”
2009年还肯定了数据科学家的重要性,指出数据科学是未来10年的重要技能,而且这个技能也是保证一个研究机构能够正常发展的人力资源。强调了对数据理解人才培养的重要性,专家必须学会并适应新的数据科学研究技术,非专家需要提高信息技能素养。
2010年,进一步讨论数据包含的一些内涵,比如数据科学应包含计算科学、数学、统计学、数据挖掘、图形设计、可视化等。
2012,出现一种新的提法--数据科学家是21世纪最性感的职业。这也说明尽管数据科学没有成体系,但是数据科学可以说已经建立起来。涉及的学科、应用领域以及数据相关领域包括:数学、算法、统计、编程、分析、挖掘、建模专业,以及社会、健康、大众等众多专业。
主要来源与特征
美国国家科学研究委员会(NRC)2012年的报告指出,数据是科学发现的基础。拥有高精度和高稳定度的观测数据是理解气候系统行为和发展、评价地球系统模式、探寻极端天气事件成因以及理解气候长期变化趋势原因的必要条件。
在全球大科学计划和国内大科学计划的推动下,我们的地学观测的数据已经形成,多处观测、多维度观测、多过程观测、多学科观测,这些观测形成了多尺度观测研究以及整合研究,对理论的验证和跨学科的融合,提供研究数据资源。通过这些数据资源的支撑形成对地学科学问题的一些新认识、新的发现以及建立地学研究的新方法。例如,气侯科学的研究推动了全球变化研究的发展。美国科学研究分会指出了数据科学发现的基础,预计到2020年,基于地球系统数值模式的全球变化预测资料的数据量将达到50PB,遥感卫星数据将达到50PB,其他类型数据将达到2PB。这些数据到2030年将分别上升为185PB、150PB和5PB。
新一代数字地球不是一个单一的系统,而是多个基础设施连接的基于开放共享的平台,通过传感器网络和环境感知系统主动收集地球表面的各种信息。数字地球以数字化的数据为基础,集成了海量的多分辨率、多维度、动态变化的时空数据,以及社会、经济、超级计算、模型、虚拟地球等。涉及的数据包括图像、视频、文档、地理位置、空间对地观测数据、地表观测数据、科学研究模型、社会、经济。
关于遥感对地观测数据来源,一般而言卫星观测需要满足三维、定量、全球、全天时、全天候的要求。感仪器探测性能向高空间分辨率、高时间分辨、高光谱分辨率、高辐射精度发展。成像方式从被动探测到主动探测,探测谱段从红外、可见光、紫外到微波探测。传感器要求可以获取多源(多个卫星平台)、多谱段(不同波段)的卫星资料。
例如,针对一条冰川的观察,有关冰川物质平衡在线观测、冰川表面气候要素在线观测、遥感观测、无线传感网络、视频观测、测地雷达观测、3D 激光扫描、冰川物性分析、冰川化学分析、冰芯分析、各类同位素分析等(如图1所示)。从中可以看出其特点:观测要速度快、观测实时数据传输、观测多模态、观测数据量大。
我们可以看到,在信息技术的支持下,实现实时观测、实时传输、加密观测下,地学科学数据体现出以下特征:一是数据体量非常大,二是数据类型非常多,三是变化速度非常快,四是对数据认识和管理要准确。地学科学数据符合大数据的基本特征,可以说地学科学研究已经进入了大数据科学研究时代。
面临的科学和技术问题
围绕上述这些问题,在大数据自身当中会存在什么样的问题,应该从哪些方面进行科学大数据的研究。不妨从以下几个方面来看:一是从数据价值链的各个环节进行研究,即地学大数据获取、传输、保存工具、处理、分析、产品、共享、服务、应用;二是从数据中心基本结构及数据流来研究,例如数据的交汇、质量控制,数据的存储,存储环境、存储技术以及数据档案的归档等。
从大数据的理论和方法研究上,我们认为需要从组织结构、质量控制理论问题、计算理论与方法、计算环境以及获取和访问的理论以及计算技术理论、建模支持环境等方面的进行研究。从地学大数据支撑的技术体系上来看,需要从分析技术方面、预处理技术、地学大数据的同化技术以及多资源的协同技术等方面进行研究。
简单地说,一是从地学大数据结构内在规律研究;二是从地学大数据计算理论、方法研究;三是从地学大数据质量控制理论与方法研究;四是从地学大数据管理、分析、求解原理与方法研究;五是从地学大数据计算的计算环境研究;六是从地学大数据管理、访问、存取方法与技术;七是从地学大数据获取方法与技术;八是从大数据的科学计算技术研究。
如何获取一些大数据的技术,比如互联网的大数据怎么获取,物联网的大数据怎么获取,对地观察的数据怎么获取,长时间观测性的大数据怎么获取,以及数值仿真大数据怎么获取等。其中的关键一个是高质量的获取,另一个是价值最大。该数据量最小,有价的数据量最大,无价的价值量最小,并且样本和应用之间的偏差最小。同时,也要进行有关支撑和保障地球科学大数据的应用计算技术方面的标准,如可靠性、大规模、高性能、应用性、集群虚拟化、大规模分布式等。
背景下研究模式的思考
大数据背景下的研究模式已经发生了一些变化,科学研究由假设驱动已经转变为大数据驱动。假设驱动的研究模式是设定假设,然后寻找数据来证明假设;大数据驱动研究模式是先从数据中找现象,然后再解释规律,这两个已经发生了逆转。
同时,学术组织结构也发生了变化。现在都在提“互联网+”,实际上在大数据时代也提到了“大数据+”,因为在大数据的环境下,随着数据共享机制的建立,以及提供了完善的信息化支撑环境之后,只要有大数据,就可以开始科学研究。
大数据将改变地学科学研究,也将改变学术界研究模式。例如,依赖数据流的地表过程研究新模式出现与应用。在这里面我们需要构建一个实验平台、观测实验平台、数据共享平台和模型模拟平台(如图2所示)。
括地讲,需要建立一个云基础设施环境。比如数据收集,我们通常叫做虚拟联合观测,通过这样的一个数据管理共享以及计算和分析的云计算环境,以及模型研究和数据模拟的一些应用,来支撑研究工作。
同时,还建立了具有特色模型集成和构建社区,在此环境下为大家提供图形化的建模环境,通过模块化的资源构建所需要的模型,这是模块化构建的一个过程。基于这些,通过数据模型计算,再加上可视化分析,我们已经得到了一些案例。
大数据及其研究,代表了一个时代,代表了一种思维,这是一个技术潮流。科学大数据作为科学研究和工程实践,相关大数据已经成为科学发现和知识创新的新源泉,改变着人类的生活和对世界深层的认识。大数据应该发展成为国家的战略,并且它正在改变传统的模式,是我们认识自然的钥匙,也是发现知识的新引擎。
---------------------------------------------------------------------------------------------------------------------------------
了解更多商业智能行业资讯,BI解决方案以及商业智能软件下载请访问FineBI商业智能官网www.finebi.com
或扫一扫,关注“FineBI专业商业智能解决方案”(微信号:fine_bi)