大数据--趋势和特点

大数据--趋势和特点_第1张图片
图片发自App

欧几里得的《几何原本》是基于逻辑推理的公理论推论,为后来的几何学、数学和自然科学奠定了基础;托勒密的地心说将欧几里得的这套方法运用到天文学中,建立起了一套完整并且严格的天体运动规律的理论体系;牛顿的力学三定律和万有引力定律破解了宇宙万物运动之谜,同时宣告了科学时代的来临。

这些伟人的思想如果上升到哲学高度,其方法论其实是一脉相承的,可大体概括成如下几句话:世界变化的规律是确定的,且这些规律是可以被认识的,而且可以用简单的公式或者语言描述清楚,最后这些规律应该是放之四海而皆准的。

正是在机械思维的引导下,才有了工业革命。在工业革命时期,人类创造了巨大的财富。马克思曾经说过:“资产阶级在其不到100年的阶级统治中所创造的生产力,比过去一切时代创造的生产力还要多,还要大”。同时由于机械思维的影响,人类的寿命也得到了大大的延长,在1800年之后,世界各国的人均寿命都先后翻了一番。

从工业时代到信息时代,再到互联网时代,机械思维的局限性已越来越明显。像过去那样找到因果关系已经变得非常困难,因为简单的因果关系规律性都被发现了。人们越来越发现世界本身存在很大的不确定性。

我们可能已经察觉,现在如果仍然采用机械思维去思考世界,很多问题已经变得很难预测了。比如我们最常见的交通阻塞,近些年来一直是最严重的城市病之一,也是各国政府最头疼的问题之一。现在的处理手段无外乎新建公路、扩宽马路、增设人行天桥等,通过改善基础设施的方式来缓解,很明显这些手段的效果均不太理想;股票市场,投资人可能要考虑行业的发展、政策的导向、公司的业绩,甚至是大盘的情绪,而情绪是很难用公理论来进行推论的;现代医疗,治愈癌症是人类半个多世纪以来的梦想,人类在抗癌研究方面投入的资金比阿波罗登月或者语音识别要多得多。癌细胞是细胞在复制过程中基因出了错而产生的,并且癌细胞在扩散时自我复制也有可能出错,所以面对这种具有极强的不确定性疾病时,机械思维变得跟不上了。

如果用道家的“阴阳”理念来解释人类思维的发展,是否可以这么理解。当人类第一次面对极端不确定的世界时,机械思维得到了飞速的发展;而在人类对世界有了比较清楚的认识,很多不确定性都被认知后,当机械思维发展到极致时,所谓极阳之后必然转阴,又面临了更多新的不确定性问题。并且这次人类所面临的问题跟以前是不一样的,以前的问题是无法解决,而现在的问题是解决起来过于复杂,问题解决的速度赶不上新问题产生的速度。而在这些历史背景下,才产生了大数据思维。

那么,大数据到底是具有了什么特征,居然能够弥补甚至取代机械思维呢?以下从三个方面进行说明。

一、大数据的体量够大,能穷尽所有相关数据。

大数据最明显的特点就是体量大,这一点无论是内行还是外行都认可,没什么异议。我们国家仅仅北京的国家超级大数据中心,占地面积就8万平方米,包含9栋数据中心机房和1栋感知体验中心。试想:如果托勒密掌握了足够多的有关天体运动的数据,可能会提出更严谨的天体运行规律,其发表的《实用天体表》也不会在经历1500年后对太阳运动的累积误差多出10天。但是,如果仅仅是体量大,比如仅记录全世界70亿人的出生日期这个数据其体量就已经不小。但仅仅只有这一项数据,也只能反映出全世界的人口分布而已,对解决如今复杂的社会问题,似乎提供不了太多有用的帮助。这就涉及到大数据的另外一个特征--多维度。

二、大数据的多维度够多,能穷尽所有相关可能性。

搜索引擎出身的Google公司实际上是全球最大的大数据公司,扎克伯格只不过想了个更好的办法,也可以说是高明地绕了个大圈子,利用搜索功能来更高效的收集数据。众所周知,Google的人工智能已经走在了前沿,也是目前全球估值最高的公司。但是,无论是AlpahaGo、无人驾驶还是IT医疗公司Calico,都是建立在多维度的大数据基础之上的。例如关于“食物”这个问题,Google会利用用户输入的信息,收集所有相关的信息。不仅涉及到食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等维度,而且还藏着很多外人不注意的隐含信息,比如提问者或者回答者使用的计算机(或手机)以及浏览器。这些“相当杂乱”的多维度信息(时间、地域、食品、做法和成分)联系了起来。经过对这些数据的挖掘、加工和整理,就得到了有意义的统计规律,比如得出的关于不同地域的饮食习惯。如果再加入提问者和回答者的收入情况,便可以得知各个收入阶层的饮食习惯。京东也是利用多维度的大数据,来建立高效的物流系统。例如通过记录某种型号的冰箱的网上浏览、订购、退货、售后等信息,来决定其在这个区域的仓储策略。现在有了多维护的大数据,在过去看来很复杂很难处理的问题似乎可以迎刃而解了,显然这些都是机械思维所不能高效解决的。

三、大数据的完备性

机械思维时代的抽样调查方式都是采用抽取有限的样本进行统计,从而得出整体的趋势。抽样的核心原则是随机性,不随机就不能真实地反应整体的趋势。但是要做到随机性是很难的。例如电视收视率调查,要从不同阶层随机找被调查的人,但高学历高收入的大忙人们普遍拒绝被调查,他们根本就不会因为几个蝇头小利而浪费时间,电视调查的结果就可想而知。然而,Google的机器翻译系统就能很好的要利用大数据的完备性。通过数据学到了不同语言之间很长句子成分的对应,让后直接把一种语言翻译成另一类,前提条件就是使用的数据必须是比较全面地覆盖中文、英文,以及其他各种语言的所有句子,也就是说具备两种语言之间翻译的完备性。

上述是关于大数据趋势和特点的理解,也是关于吴军老师《智能时代》的部分读书笔记,下周继续分享:大数据--面临的技术挑战。

你可能感兴趣的:(大数据--趋势和特点)