1.数据科学是神马?
从事数据科学研究的学者试图把数据当成一-个“自然体 (data nature) ”来研究,提出所谓“数据界 (data universe) ”的概念(复旦大学)。但脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”究竟有什么共性问题还不清楚。
有学者认为数据科学是介于哲学与自然科学之间的超自然科学 (澳门大学赵伟)。
提炼“数据界”的共性科学问题还需要一段时间的实践积累。至少未来5- 10年内需要多花精力解决大数据带来的技术挑战问题。通过分层次的不断抽象,大数据的共性科学问题才会逐步清晰明朗。先做白盒研究再做黑盒研究。
数据科学是数学(统计、代数、拓扑等)、计算机科学、基础科学和各种应用科学融合的科学,类似钱学森先生提出的“大成智慧学”。“必集大成,才能得智慧”。
2.大数据对计算机科学的挑战
计算机科学是关于算法的科学
图灵计算是把计算看成输入变成输出的“函数”G= F(x)-计算机科学主要研究“函数"F, 即算法。算法研究不关心输入X ,假设输入是随意的。实际上输入的数据本身是值得研究的对象,不是随意的。
大数据兴起导致计算机科学的重点向数据科学转移
Computer Science = Science of algorithm + Science of data
小数据条件下好的算法在大数据条件下不再是好算法
1PB的数据线性扫描一次需要1.9天(硬盘速度6Gbps) (百度每天需要处理的数据达几个P)
也有些很困难的问题,数据多了就变得更容易解决了,如机器翻译,自然语言问答(IBM的Watson 问答系统)
3.大数据对传统计算机视觉(CV)和机器学习(ML) 的冲击
计算机视觉和机器学习是人工智能最活跃的研究领域,但多年来学习的样本和测试的样本度不够大。
Princeton大学 的李凯教授采用在线外包的办法,一年之内完成了2.1万种分类、包含约2000万幅图像 ( 每类700-1000幅) 的ontology图像库 (ImageNet) , (基于Wordnet分类,目前只有名词)。
采用 lmageNet 测试现有的各种图像识别分类算法,绝大多数算法都失灵,说明在小的ontology下开发的图像识别算法没有实际意义!
但Deeplearning 算法的正确识别率明显高于其他算法,所以深度学习成为目前机器学习的主要研究方向。
4.大数据对传统统计学的挑战
大数据往往是非独立同分布(悉尼科技大学操云龙)
统计学的基本假设是变量服从独立同分布(IID假设)
超高维问题引起经典统计推断失效。( 徐宗本院士)
-经典统计: n>>p, 高维: p>>n,大数据高维度p=o (exp (n))
-热点研究:稀疏建模(尽管变量很多,但是很多都是0)
-大数据处理和智能处理的核心都是降维,从n维降到1维。样本数量将随着维数的增加而指数增长就出现维数灾难。
分析与事物相关的所有数据,而不是分析少量的样本数据
- 2009年谷歌利用相关词全部搜索统计准确预报了HINI流感爆发
- 2013年由于政府发通告、谷歌加推荐等原因,使得谷歌的流感预测失灵,明显高估。-大数据与小数据结合(All data,全数据),原始数据的可信度?
5.网络科学与数据科学
大数据往往以复杂关联的数据网络形式存在,因此要理解大数据就要对大数据后面的网络进行深入分析。
大数据面临的科学问题本质.上可能就是网络科学问题,复杂网络分析应该是数据科学的重要基石。
而到了21世纪,网络理论正在成为量子力学的可尊敬的后继, 正在构建- -个新的理论和算法的框架。
中科院计算所的大数据团主要从事网络大数据的研究,研究方向包括分布式海量数据处理的核心引擎、计算模型和国家级测试床,网络舆情系统、社会化搜索引擎、数据密集型网络服务等,我的学生的研究方向包括社会网络的影响力研究、推荐系统等。
6.需要发现新的门捷列夫周期
门捷列夫周期表为化学成为一门科学奠定了基础。现在生物领域有基因组学,材料、化学、制药、生理、病理、干细胞领域都在研究“基因组”,也有人在讨论人类语言的“基因组”。这些基因组都是构成整体的基本元素。
发现这些“基因组”都需要采用计算机对海量的数据进行分析,导致各个领域都出现XX信息学。
从上世纪70年代开始,围绕计算复杂性形成了以算法研究为中心的的计算机科学。随着计算机科学与其他学科的交叉融合,计算机科学的研究重点将逐步转移到以研究各种基因组学为重点的数据科学。现在到了发现新的门捷列夫周期表的时候了。
7. 计算理论的新研究方向
传统的计算复杂性理论是研究当问题规模变大时,计算量如何变化,以小问题预测大问题。而大数据问题一开始就给你全部数据,需要反过来思考如何找到缩小规模的数据,而问题的基本属性没有大的变化。
如果说传统的计算复杂性是度量外向组合爆炸( scale up) 的复杂程度,那么大数据问题的计算理论应该是度量内问“压缩”的困难程度。
如果当数据规模扩大时,反映数据间相互关系的网络结构保持很好的相似性,则是一个容易解决的大数据问题;反之,如果网络结构变得面目全非,则是一个难以解决的大数据问题。
8.需要研究“数据量复杂性”
对于科学计算,主要考虑时间复杂性和空间复杂性。对于大数据处理,除了时间和空间复杂性外,可能还需要考虑解决一个问题需要多大的数据量,可称为“数据量复杂性”。
从数据量和结果的关系来看,大数据问题也许可以分成三类:
(a) 增量式进步(数据多一点,结果就好一些)。不同问题对增加数据量的要求不同,可能也有线性、多项式之分
(b)无底洞式的计算一无论多少 数据都不可能彻底解决问题(基本的物理本质还不清楚)。有点类似NP问题。
(c)数据规模有一个阈值,超过阈值,再增加数据量不会改善结果。
我们需要建立一种新的计算理论,对求解一个问题达到某种满意程度需要多大规模的数据量给出理论上的判断。通过科学理论避免盲目增加数据量。