最近,在信息科技领域,继云计算之后,“大数据”一词成为媒体争相追逐的焦点。对此,中国工程院院士、中科院计算技术研究所首席科学家李国杰接受《中国科学报》记者采访时说:“科技界应高度关注大数据研究这一新的发展方向,从大数据应用中发现挑战性的科学问题,推动以大数据为基础的第四科学范式,促进形成新型交叉学科:网络数据科学。”
信息社会的变化
“60年前数字计算机使得信息可读,20年前因特网使得信息可获得,10年前搜索引擎爬虫将互联网变成一个数据库,现在Google及类似公司处理海量语料库如同一个人类社会实验室。”在近日召开的香山科学会议第424次学术讨论会上,李国杰引用美国《连线》杂志主编安德森的一段话作为他演讲的开场白。
维基百科定义:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”“大数据”具有数据量大、种类多和速度快等特点,涉及互联网、经济、生物、医学、天文、气象、物理等众多领域。
国际数据公司(IDC)的数字宇宙研究报告称,2011年全球被创建和被复制的数据总量为1.8ZB,并预测到2020年,全球将拥有35ZB的数据量。
“数据成本下降促使数据量急剧增长,而新的数据源和数据采集技术的出现使数据类型增多,” 李国杰告诉记者,“各种非结构化的数据又增加了大数据的复杂性。”
2012年3月29日,美国政府拨款2亿美元启动“大数据研究和发展倡议”计划。李国杰认为,这是一个标志性事件,说明继集成电路和互联网之后,大数据已成为信息科技关注的重点。
重视大数据提出的技术挑战
针对美国有关大数据研究的计划,李国杰对记者说,这项大数据计划最为重视的是数据工程而非数据科学,主要考虑大数据分析算法和系统的效率。对我国而言,大数据工程的技术挑战也应当得到重视。
几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”。李国杰认为,现在要做的则是“从厚到薄”,要把“大数据”变成“小数据”。“许多数据是重复的或者没有价值的,未来,我们的任务不是获取越来越多的数据,而是数据的去冗分类、去粗取精。”他说。
他进一步指出,现有数据中心技术难以满足大数据的应用需求,整个IT架构的革命性重构势在必行。首先,存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键。其次,数据的移动已成为信息系统最大的开销,信息系统需要从数据围着处理器转改变为处理能力围着数据转。此外,高扩展高可用的数据分析技术、新的数据表示方法、高通量计算机等都是亟待解决的技术问题。
基本科学问题仍未达成共识
尽管学术界已注意到大数据带来的科学挑战,但对一些基本的科学问题仍未形成共识。
许多学者认为,计算机科学是关于算法的科学,数据科学是关于数据的科学。有些学者试图将“数据”当成一个“自然体”来研究,即“数据界”。
然而,在李国杰看来,脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”的共性问题还不清楚。
他认为,不同于数据挖掘和统计学,从事大数据研究的学者应当更重视统计分布背后的知识和规律。
“大数据”的复杂性主要来自个体之间的联系。“数据背后是网络,网络背后是人,研究网络数据实际上是研究人组成的社会网络。”李国杰指出,“‘网络数据科学’应是从整体上研究社会的一门科学,其重点是研究数据背后的社会网络。”
因此,大数据已成为联系人类社会、物理世界和信息空间的纽带,需要构建融合人、机、物三元世界的统一的信息系统。
李国杰呼吁,大数据研究正在形成热潮,学术界需保持清醒。“首先要明确大数据研究最有价值的应用领域,理清楚数据科学的边界和研究对象。只有明确了要研究的科学问题,网络数据科学才会走上良性发展的轨道。”他说。