BigData - 什么是大数据

大数据现在是产业旗帜了。不管哪都听到大数据的声音。跟云计算一样,它们并不是凭空而来的是,是技术的发展带动了产业发展,逐渐形成的浪潮。如果过度吹嘘这个概念,哪就是炒作了。

Google Trends可以查看某个领域被关注情况。可以看到曾经云计算一上来,网格计算就逐渐销声敛迹了。大数据这个理念提出来以后,云计算开始下滑。可视化技术在最近几年比较平稳,2011年后有所下降,在于概念上与大数据和云计算有一些重叠。长远来看,大数据将会超越云计算。这应该是合理,云计算描述的是技术问题,二用户真正看到的问题是大数据锁带来的挑战,证明云计算技术正在行业渗透。

图中蓝色代表grid computing,红色代表Cloud Computing,棕色代表Big Data,绿色代表Virtualization。在写这篇文章的时候,我注意到所有这个4个词被印度关注的热度最高,是否反映出印度的软件从业人员更加关注技术演化,也可能是外包项目太多了。

clip_image002

另一个佐证是Gartner的技术周期路线图。可以看到云计算(Cloud/Web Platfoem)正处在觉悟期(Disillusionment),而大数据("Big Data" and Extreme Information)还在加速膨胀。

云计算和大数据两个概念真正被行业接受的比率还是很低,还有很长的一段时间来验证磨合。

clip_image004

大数据概念背后隐含着行业的变化:

1. 企业信息化水平越来越高,互联网的快速发展,数据量的快速增长。

2. 企业将数据不仅仅用于验证、分析,也逐渐应用到预测上。

3. 分布式并行技术的成熟。软硬件成本下降。

第一点提供了可供使用的数据集合,第二点是数据分析的商业价值,第三点技术的可实现性。如果少了其中一项,大数据就是空谈。

大数据的发源地应该是以Google为首的搜索引擎公司,它们需要分析索引数以亿计的网页。它们的开创性工作导致了Hadoop的出现,进而形成了良好Hadoop生态圈,已经衍生出来的NoSQL运动。

大数据之大在于三个方面:

1. 数据量大,Data Size,现在我们在P级别,相信不久就会到达Exabyte,Zettabyte,Yottabyte的级别。

2. 数据来源的多样化。我们得处理结构化数据,半结构化数据,基于无结构数据。传统基于数据库的处理技术不能很好处理后面两者。

3. 数据的加速变化。蝴蝶效应都知道,成功的关键在于能否从容地拥抱变化。要从容就要快、要准。

clip_image006

数据来源的多样性和数据的快速变化是大数据的复杂所在。数据量应该并行处理问题已经不大。

大数据=事务+交互+观测。数据最开始是被一些大企业拿来做记录的,从简单的OA到ERP CRM,都是数据的CRUD。到互联网普及以后,越来越多的人加入了数据生产消费的队伍,这个时候数据主要用来交流、分享、协同。现在,我们面对更多的数据来源,物联网,UGC,GPS地图信息。更重要的是我们现在试图从已有的数据中去挖掘隐式的知识,试图去预测未来,试图解释我们认知范围之外的世界。我们需要的越来越多,技术发展是解决需求增长的唯一办法。

clip_image008

现在对大数据有了一些认识,我们能做些什么呢?我想到的有下面四点。面对分散多样的数据,首先需要做集成,只有有效地管理好数据才能继续发掘(这个过程有点像ETL,Extraction-Transformation-Loading)。有了数据之后,我们可以做分析,做可视化,更进一步的层次是实现智能化。

1. Data Integration&Management

2. Data Analytics

3. Data Visualiztion

4. Data Intelligence

大数据必然带来带来变化,不论从商业角度,发展的角度,内容的角度,还是分析处理的角度,我们都需要一些变化。下图可能会给大家一些启示。

clip_image010

一个数据服务商http://www.datameer.com/product/data-management.html

你可能感兴趣的:(BigData - 什么是大数据)