大数据是什么?

摘要:本文主要介绍了大数据的概念,业界对于大数据的定义,以及大数据技术的起源,国外的一些比较出众的大数据技术公司。

关键词:大数据,Hadoop,hortonworks,mapReduce,Yahoo

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。业界将其归纳为 4 个“V”――Volume, Variety,Value, Velocity, 即具有 4 个典型特征:第一,数据体量巨大,从 TB 级别跃升到 PB 级别;第二,数据类型繁多,涵盖工程数据、网络日志、视频、图片、位置信息等等;第三,数据蕴含的价值巨大,目前已经远远不局限于商业创新,实现精准营销价值;第四,速度快,俗称“秒级定律”,即速度要求很高,一般要在秒级时间给出分析结果,时间太长就失去价值。

关于大数据的产生来源,美国数据统计机构指出,互联网数据毎年都以百分之五十的速度增长,甚至最近两年增长速度更快。据统计,全球近几年来产生的数据占人类产生总数据的90%以上。除此之外,全巧的传感器设各实时度量和传送着关于目标是否运动(是否在移动)、目标周围是否发生震动、温度系数是多少(设备内温度)、周围存在的温度系数乃至空气中的化学物质发生了哪些变化、目标所在的位置(定位),也在时时刻刻的发生着海量的数据集信息。数据来源不计其数:物联网和车联网、移动互联网和云计算、个人计算机和手机、平板电脑终端以及各式各样的传感器。

目前,大数据的研究和应用已成为各行业数据研究的重点。因为大数据的作用日益凸显,越来越多的商业用户倾向于将大数据分析结果作为其商业决策的重要依据。面向复杂系统研制过程,必须找到一种集成的、全面的大数据解决方案,不仅要解决图形、模型等非结构化数据的处理问题,还要将功能扩展到海量研制数据(试验数据、仿真数据、故障诊断数据等)的存储、多专业大数据的分布式采集和交换、海量研制数据的实时快速访问、统计分析与挖掘和商务智能分析等,这就需要有新的架构,新的技术途径来给予支撑。而构建一个能够有效支撑大数据应用的平台,需要着重考虑大数据平台体系架构、大数据建模与存储管理、大数据分析处理以及大数据应用等几项关键技术。

大数据应用的源起可以追溯到Google在2004年前后发布的三篇论文——MapReduce、Bigtable、GFS。在此基础上搭建的开源平台Hadoop,堪称全球大数据生态圈中最为核心的技术之一。

hadoop只是事实上的标准,实际上有不少开源和商业项目都实现了自己的大数据计算,比较有影响力的如亚马逊AWS、微软、谷歌GFS和阿里云的飞天。他们三者的系统和hadoop在设计和实现上面是互相借鉴和互相影响的,三者除了阿里巴巴通过私有云进行技术输出以外,其他两家更多的是私有云和SaaS输出,对hadoop生态圈来说是云计算的另外一种选择,这必然导致其潜在客户的流失。

作为开源软件,实际上任何人都是可以参与hadoop的开发和实现的,也正是这样的平等性和开放性,才促使了hadoop发展迅速的媲美谷歌GFS这样的顶级公司的顶级项目。Hadoop的三驾马车是Cloudera、MapR、Hortonworks等。这些公司的商业模式就是开发商业化的Hadoop分发版,并对外销售,提供咨询培训和运维工具。

在上述“三驾马车”中,Hadoop项目本身和雅虎有千丝万缕的联系,而Hortonworks本身剥离于雅虎,可谓是根正苗红。

从提交代码行数来看,Hortonworks遥遥领先,远超过mapR和cloudera:


大数据是什么?_第1张图片
P1. Lines of code contributed since 2006, cloudera method


除此之外,Hortonworks 所开发的YARN,目前已经被Apache 采纳作为hadoop2.0。YARN对hadoop生态圈的影响可谓是颠覆性的,在此之前,mapreduce和hadoop绑定的一种运算模型,像spark、strom、hama甚至HBASE都不得不实践出了自己的调度模型,yarn+tez提供了一种阻止hadoop生态圈四分五裂各自发展的可能。

你可能感兴趣的:(大数据是什么?)