数据科学、数据技术与数据工程

谈到大数据,大家总会听到几个词:数据科学、数据技术和数据工程,它们之间到底有些什么区别和联系呢?

 

实际上,科学、技术与工程是现代“科学技术”中的三个不同领域或不同层次。


科学是对客观世界本质规律的探索与认识。其发展的主要形态是发现(Discovery),主要手段是研究(Research),其成果主要是学术论文与专著。技术是科学与工程之间的桥梁。其发展的主要形态是发明(Innovation),主要手段是研发(Research & Development),其成果主要是专利,也包括论文和专著。工程则是科学与技术的应用和归宿,是以创新思想(New idea)对现实世界发展的新问题进行求解(Solution)。其主要的发展形态是综合集成(Integration),主要手段是设计(Design)、制造(Manufacture)、应用(Application)与服务(Service),其成果是产品、作品、工程实现与产业。科学家的工作是发现,工程师的工作是创造。

 

有了这些概念后,回过头再来看看大数据的情况。我们先来生搬硬套一下。

 

数据科学是对大数据世界的本质规律进行探索与认识,是基于计算机科学、统计学、信息系统等学科的理论,甚至发展出新的理论,研究数据从产生与感知到分析与利用整个生命周期的本质规律,是一门新兴的学科。

 

数据技术是数据科学与数据工程之间的桥梁。包括数据的采集与感知技术、数据的存储技术、数据的计算与分析技术、数据的可视化技术等。

 

数据工程则是数据科学与数据技术的应用和归宿,是以创新思想对现实世界的数据问题进行求解,是利用工程的观点进行数据管理和分析以及开展系统的研发和应用。包括数据系统的设计、数据的应用、数据的服务等。


嗯,还是有一定道理的。


数据科学和工程可以作为支撑大数据研究与应用的交叉学科,其理论基础来自多个不同的学科领域,包括计算机科学、统计学、人工智能、信息系统、情报科学等。数据科学与工程学科的目的在于系统深入地探索大数据应用中遇到的各类科学问题、技术问题和工程实现问题,包括数据全生命周期管理、数据管理和分析技术和算法、数据系统基础设施建设以及大数据应用实施和推广。因此,多学科交叉融合是数据科学与工程学科的一个特点。

 

与传统计算机和软件工程等学科相比,数据科学与工程学科具备独特的学科基础和内涵。数据科学与工程学科的理论基础涉及统计分析、商务智能以及数据处理基础,具体包括以下几个方面:


  • 大数据表达理论方面:包括大数据的生命周期、演化与传播规律,数据科学与社会学、经济学等之间的互动机制以及大数据的结构与效能的规律性。

  • 在大数据计算理论方面:研究大数据的表示以及大数据的计算模型及其复杂性。

  • 在大数据应用基础理论方面:研究大数据与知识发现,大数据环境下的实验与验证方法以及大数据的安全与隐私。

 

相比较而言,计算机科学学科是研究算法的科学,而数据科学不局限于此,其研究对象是数据,随着计算机应用从以计算为中心逐渐向以数据为中心的迁移,数据科学与工程学科的内涵和外延更加宽泛。软件工程学科中的相关技术提供了数据分析处理的工具以及具体开发时的范式。数据处理技术是数据研究领域的一种重要的研究方法,用于研究和发现数据本身的现象和规律。

 

数据科学与工程也不同于传统的商业智能和统计学,商业智能主要从商业模式、经济管理的角度对数据应用进行研究,而统计学提供具体的数据分析处理的方法论,但是面对PB级以上的海量数据,大数据的分析不能停留在获得概率分布结果,也不能满足于对细节问题的数据挖掘,而是需要更简单、有效的问题求解方法,争取从大数据中获得新的知识,构建新的应用范式。


大数据不仅仅是信息技术领域的事情,它的典型特点就是与应用密切结合。在当前阶段,大数据概念的提出和被广泛接受才不过三四年,属于发展初期。大数据的概念已经被社会各个层面广泛认可,开始从线上走到线下,越来越多的人从企业管理、社会治理、科学研究等领域探讨大数据的应用。这种来源于应用的关于大数据技术的爆发式需求,为一门新型的独立学科的形成和发展带来了挑战和机遇。


以上说的都还是比较理想的情况。任何领域的研究,若要成为一门科学,一定是研究共性的问题。针对非常狭窄领域的某个具体问题,主要依靠该问题涉及的特殊条件和专门知识做数据挖掘,不大可能使大数据成为一门科学。数据科学的研究需要在一个领域发现的数据相互关系和规律具有可推广到其他领域的普适性。抽象出一个领域的共性科学问题往往需要较长的时间,提炼“数据界”的共性科学问题还需要一段时间的实践积累。至少未来5至10 年内计算机界的学者还需多花精力协助其他领域的学者解决大数据带来的技术挑战问题。通过分层次的不断抽象,大数据的共性科学问题才会逐步清晰明朗。

 

在国家大数据人才的需求中,国家既需要优秀的数据科学家,也需要数据工程师这样的工程系型人才,更需要大量高素质的能够创造性解决国民经济与社会发展实际问题的卓越应用型人才。


注:本文参考了如下资料

  • 李国杰, 程学旗, 大数据研究:未来科技及经济社会发展的重大战略领域, 中国科学院院刊, 2012.

  • 周傲英, 钱卫宁等, 数据科学与工程:大数据时代的新兴交叉学科, 大数据, 2015.

你可能感兴趣的:(数据科学、数据技术与数据工程)