hadoop大数据生态集群

大数据

又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。大数据也可以定义为来自各种来源的大量非结构化或结构化数据。
大数据无处不在,例如我们在淘宝搜索输入一个手机后,下次进入时,会被推送各种产品的手机,而且别的应用都会有推荐。大家都知道是淘宝知道了我们的浏览记录,然后推送相关的东西。但是有一点是,全国这么多人使用淘宝,这么多的浏览数据该如何存储和计算,来给对应的人推送信息?这个时候就需要通过大数据的一些技术,对大量数据进行存储和计算,今天说的就是大数据的一项开源分布式的计算平台hadoop。

hadoop

hadoop集群是一种分布式的计算平台,用来处理海量数据。我的理解为,可以将很多配置比较低的机器上去搭建集群,然后有专门设置一台机器进行对所有机器进行管理,下发任务等,把大量的数据分块在集群的机器上存储和进行大量的计算,就相当于一个非常艰巨的工作,由一个人带领,分别交给好几个人记着和计算,最后得出结果。能够有效存储和计算大量数据。
hadoop大数据生态集群_第1张图片

这是hadoop2.x的hadoop集群的一个生态集群架构图。hadoop2.x在1.x的基础上,增加了HA的高可用(类似负载均衡热备,一个namenode挂了,另一个会立马接替)、yarn的资源调度和spark数据计算等。。
hadoop的核心组件是HDFS文件存储系统和分布式计算处理框架mapreduce,另外还支持spark、storm计算框架。

HDFS

hdfs是hadoop上的一个文件分布式存储系统,分布在不同的机器上进行块存储,提供了高吞吐量的数据访问和数据集应用。
HDFS上有datanode和namenode,namenode进行管理,datanode进行存储数据,datanode上有一定的block,每个默认是64M。有数据存储进来时,namenode将数据写入,交由datanode放在block上进行存储。读取也是同样原理。
hadoop大数据生态集群_第2张图片
hdfs的HA模式,就是有2台name,互为主备,一个Active(活跃)和Standby(就绪),平时是active namenode进行管理数据存放文件目录日志等,会同时将这些信息备份给standby namenode,假如active机器承受不了压力,挂了,standby会立即接替工作,保证集群的运行。

YARN

yarn是在hadoop2.x增加的功能,yarn是对集群上的资源进行管理,调度等,会根据下发的任务,去分配资源,有效对集群资源进行管理和分发。
一个全局的资源管理器 ResourceManager 相当namenode,进行管理
ResourceManager的每个节点代理 NodeManager 相当于datanode 存放资源
在hadoop上可以设置yarn的队列,对资源进行管理和调度

hive

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析(官方标准介绍)。
就是通过数据库的方式对hdfs的资源进行查看,和通过hive的sql语句去创建任务进行运行,语法与mysql类似,在hive中可以支持对表的增删改查,相当于在hive中创建任务,下发的namenode,对数据进行管理,写入更改删除等,就是具体的对集群的数据进行操作。

HBASE

类似hive,也是hadoop上的一个数据仓库,不过不同于hive的是,他是直接在hdfs上进行对数据的操作,不需要再去创建任务去下发,自己对数据进行操作。

mapreduce

hadoop的核心之一,是一个分布式的计算框架,对数据进行计算,处理。(还没有研究出来原理和作用。。。。)

spark

类似mapreduce,可以通过sparksql或pyspark进行操作,现在比较火的一种大数据处理技术,另外还有fink流计算与其功能相似。(也没有研究出来。。。。)

Zookeeper

简称zk,是一个在hadoop生态圈中的一个服务,在服务启动时,会自动在zk上注册,不同的服务地址和方法版本等,存在与后端,当有人请求服务时,直接到达zk,zk上存储了该服务对应的版本和方法等,再去不同的机器上去请求对应的服务。
hadoop大数据生态集群_第3张图片

总结

hadoop生态圈对于学习大数据来说至关重要,作为一个测试人员,不必了解其中的底层原理,但是基础的搭建,使用和处理数据的原理要搞通,我现在学习的也是其中的一丢丢皮毛,后续会加强这块的学习。

你可能感兴趣的:(hadoop大数据生态集群)