总结:怎么存,存在哪,如何用?

IDC今年所发布的《数字宇宙研究报告》称:2011年全球被创建和复制的数据总量将达到1.8ZB,与去年同期相比,这一数据上涨超过1ZB。如果按照全球人口总数70亿换算,这相当于人手一块容量为100GB的硬盘。这份报告预计: 到2015年,全球数据量将达到8ZB。这意味着人类自结绳记事以来数千年所产生的数据总量,在未来仅仅需要两年到三年时间就可以达到。这一组组震撼的数字昭示着大数据时代已经到来。我们可以把快速膨胀的数据量比喻成无数辆飞速通过的高速火车,如果没有很好预先规划并及时的应变,就会发生非常严重的交通事故。

 

巨大的市场需要自然会引发激烈的商战,无论在国内还是国外,大数据处理都是热点,得到了同等的关注。而中国由于领涨世界经济,高速发展的经济让大数据的形势更加严峻,数据量至少要多1~2个数量级,这也就意味着大数据处理的市场会更加机会丛生,竞争也更加激烈。

 

每一个时代的转变和危机的产生都会消亡一些企业,诞生很多企业新贵,当然也不乏挺过严峻冬天的幸存者。只有抓住机会,对大数据时代有一个及时清晰的认知,了解自己,充分发挥企业资源,寻找可持续的发展战略才有获胜的可能。

 

挑战与机遇并存

大数据本身是一项技术的突破,无论是对企业还是个人,都可谓是挑战与机遇并存。如何处理这些数据?如何从中找出真正需要的东西?所有这些都急需业务上的突破,把大数据变成一个可以获得实际利益的工具,而不是虚无缥渺的理论认证。

 

对于整个IT业界来说,大数据时代面临的挑战就是如何利用更好的技术。在过去,企业往往只看重结果,也就是只需要看到一张报表,但殊不知,由于原始数据分散在各地,相互独立,这张报表是经过对大量的历史数据进行运算、汇总、分析而来的,缺乏实时性。近十年来互联网的迅速普及和发展,数据存储和处理的主战场转移到了互联网,数据的实时处理得以实现,加上硬件存储成本的降低,使得这些数据的存储变为可能。这样一来,决策者除结果外还能看到各个阶段的细节,IT业界也因此获得很多大数据方面的发展机会,对双方来说都是不可多得的机遇。但随着互联网的不断创新强大,海量数据蜂拥而至,更多新的数据形式也不断涌现,现在的数据早已不是结构化的了,还掺杂了包括办公文档、文本、图片、网页、报表、音频、视频信息等很多非结构化数据,这为传统的数据处理又带来了新的挑战。

 

大数据时代的技术创新迎合大数据处理的发展趋势,市场上涌现出了众多新鲜技术和新系统。

缓存方面,memcached是danga.com是一套分布式内存对象缓存系统,可以用于在动态系统中减少数据库负载,提升性能。

分布式文件系统方面,目前最为流行的技术便是Hadoop,它具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点,同时能支持海量数据存储和计算任务。

数据仓库方面,通过基于Hadoop的数据仓库平台Hive,开发人员可以方便地进行ETL开发;EMC的Greenplum数据引擎软件专为新一代数据仓库所需的大规模数据和复杂查询功能所设计,它基于海量并行处理和完全无共享架构,依托开源软件和x86商用硬件进行设计,从而保持了更高的性价比。

分布式存储方面,Facebook的HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC服务器上搭建大规模结构化存储集群。

 

当存储系统不再构成障碍,许多企业又开始面临“如何部署足够的基础设施来应对大数据”这一硬件问题。当然,首先要解决的就是数据的存储——怎么存,存在哪里?大型企业有能力建立自己的私有云,把所有的信息存在自己独享的远端的大型服务器上或者采用混合云的方式(即一半私有云一半公有云),而中小企业更多的就要采取公有云的方式来进行海量数据的存储

 

当然,之前的两步只是实现了数据本身的存储,但众所周知,数据本身并没有价值,存储只是数据处理的第一步,更为重要的是如何将存储信息转化为具有商业价值的竞争优势。就好比沃尔玛从啤酒和尿片销量在周末同时增长的数据背后,发现了大多数男士在给孩子买尿片的同时会顺带为自己周末的球赛买啤酒的做法。存储的数据好比原材料,只有要通过收集、组织、挖掘、分析等步骤,才能把它们转变为更有价值的信息,最终为企业决策提供参考。

 

所以,在这整个对数据的存储和处理的过程中,企业要解决好硬件和软件两方面的问题:在硬件方面,要实现云计算,无论是私有云、公有云还是混合云,都需要很好的硬件解决方案;而在软件方面,企业需要有一套完整的系统,将云端海量的数据提炼成对企业有价值的信息。大数据时代的到来从一定程度上来说是对原有体系的颠覆。因此,对于IT从业者来说,需要做的就是掌握最新的技术。首先,在大数据时代要想充分发挥多个处理器的能力,研发人员就需要对原有的编程设计和技巧做出巨大的改变。其次,随着硬件成本的降低,更多的优化算法将变为可能。再次,从原始数据到信息的提炼过程,不仅是对IT技术人员的挑战,也是对业内专家的挑战,因为数据间的关联性已不完全都是技术问题,有些关联只有专业人员才能知道,必须在销售、财务、物流等方面专业人员的帮助和解析下,才能建立起合理的数据结构。也就是说,未来的信息提炼需要IT技术人员和行业专家的共同合作。

 

大数据之未来

大数据时代与移动互联网时代是如影随行的,移动终端的种类不断增多,使得数据来源的形式更加多样。将来要想成功地将大数据的功能扩散到移动终端上,必然采用“云+端”模式。在这种模式中,端就是各种移动终端;中间会省略掉所有步骤,直接将端连接到云上,而大数据将存储在云环境中集成到云环境的大数据将进行各种处理,提供各种数据方面的服务。移动终端只要能连接到云上,就会变成类似于输入输出的前端设备,而应用上的所有逻辑,以及运算中所牵涉到的大量的运算资源的调用,都会集中在云上。

 

可以预见的是,未来的数据量必然会越来越膨胀,也会带来更多的变革。如果谁能抢先一步站稳脚跟的话,就能赢得这场史无前例的数据之争。