Hadoop大数据生态系统及常用组件简介

经过多年信息化建设,我们已经进入一个神奇的“大数据”时代,无论是在通讯社交过程中使用的微信、QQ、电话、短信,还是吃喝玩乐时的用到的团购、电商、移动支付,都不断产生海量信息数据,数据和我们的工作生活密不可分、须臾难离。

什么是大数据

什么是大数据,多大算大,100G算大么?如果是用来存储1080P的高清电影,也就是几部影片的容量。但是如果100G都是文本数据,比如我们的后端kafka里的数据,抽取一条mobileTopic的数据如下:【107,5505323054626937,局域网,局域网,unknown,0,0,09f26f4fd5c9d757b9a3095607f8e1a27fe421c9,1468900733003】,这种数据100G能有多少条,我们可想而知。

 

 

数据之所以为大,不但是因为数据量的巨大,同时各种渠道产生的数据既有IT系统生成的标准数据,还有大量多媒体类的非标准数据,数据类型多种多样,而且大量无用数据充斥其间,给数据的真实性带来很大影响,此外很多数据必须实时处理才最有价值。

一般数据量大(多)或者业务复杂的时候,常规技术无法及时、高效处理如此大量的数据,这时候可以使用Hadoop,它是由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,编写和运行分布式应用充分利用集群处理大规模数据。Hadoop可以构建在廉价的机器上,比如我们淘汰的PC Server或者租用的云主机都可以拿来用。

今天,就为大家介绍一下Hadoop生态圈一些常用的组件。

Gartner的一项研究表明,2015年,65%的分析应用程序和先进分析工具都将基于Hadoop平台,作为主流大数据处理技术,Hadoop具有以下特性:

方便:Hadoop运行在由一般商用机器构成的大型集群上,或者云计算服务上障。

可扩展:Hadoop通过增加集群节点,可以线性地扩展以处理更大的数据集。

目前应用Hadoop最多的领域有:

1) 搜索引擎,Doug Cutting设计Hadoop的初衷,就是为了针对大规模的网页快速建立索引。

2) 大数据存储,利用Hadoop的分布式存储能力,例如数据备份、数据仓库等。

3) 大数据处理,利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等。

Hadoop生态系统与基础组

Hadoop2.0的时候引入了HA(高可用)与YARN(资源调度),这

你可能感兴趣的:(大数据,编程语言,人工智能,大数据,程序员,编程语言,hadoop)