Hadoop简单的学习总结

1.什么是Hadoop?
Hadoop是一款进行数据处理和分析的软件,包含HDFS(分布式文件存储系统),MapReduce(分布式计算框架),Yarn(分布式资源调度任务分配框架)。
Hadoop来源于谷歌2003-2004年发布的三篇论文,基于这三篇论文doug cutting( 来自 lucene ),用了两年业余时间,开发出来了 hdfs 和 mr 的代码雏形,2005年Hadoop项目进入apache项目基金会。
Hadoop特性:
①高容错性:Hadoop每个数据都有副本,也就是数据备份。
②高可靠性:Hadoop有故障恢复机制,如果有一个节点挂了,它所存储的数据会在另一个节点重生。
③高效性:Hadoop的mapreduce是并行运行的
④高扩展性:Hadoop集群几乎是可以扩展成千上万个

2.什么是HDFS?
HDFS是分布式文件存储系统(解决了海量数据存储问题)
hdfs文件系统架构为主从架构:
① NameNode:主节点,存储数据信息(元数据信息管理)
② DataNode:从节点,存储真实数据

hdfs分块存储:1.x版本默认分块大小为64M
2.x版本默认为128M
hdfs副本机制:为了容错每个block都会有副本,每个文件的block大小副本系数都是可配置的,应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定,也可以在之后改变。
hdfs适合作甚:
一次写入,多次读出。(适合海量数据存储)
不支持修改,不适合做网盘。
hdfs读写数据流程:
写流程:①client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否存在,父目录是否存在,返回是否可以上传。
②client向NameNode请求第一个block该传输到哪一个DataNode服务器上。
③NamaNode根据配置文件中指定的备份数量及副本放置策略进行分配,返回可用的DataNode地址如:A,B,C;
注:Hadoop在设计时考虑到数据的安全与高效,数据文件默认在hdfs上存放三份,存储策略为本地一份,同机架其它某一节点一份,不同机架某一节点上一份。
④client请求3台DataNode中一台A上传数据(本质是一个RPC调用,建立pipeline),A收到请求后会继续调用B,然后B调用C,将整个pipeline建立完成,后逐级返回client
⑤client开始往A上传第一个block(先从磁盘读取数据放到一个本地内存缓存),以packet为单位(默认64k),A收到一个packet就会传给B,B传给C;A每传一个packet会放入一个应答队列等待应答。
⑥数据被分割成一个个packet数据包在pipeline上依次传输,在pipeline反方向上,逐个发送ack(命令正确应答),最终pipeline中第一个DataNode节点A将pipeline发送给client。
⑦当一个block传输完成之后,client再次请求NameNode上传第二个block到服务器。

读流程:
①client向NameNode发送RPC请求,来确定block所在的位置。
②NameNode会视情况返回文件的部分或全部block列表,对于每个block,NameNode都会返回block副本的DataNode地址;这些返回的DN地址,会按照集群拓扑结构得出DataNode与客户端(client)的距离,然后进行排序,排序两个规则:网络拓扑结构中距离client近的靠前;心跳机制中超时汇报的DN状态为stale,这样的靠后;
③client选取排序靠前的DN来读取block,如果客户端本身就是DataNode,那么将从本地直接获取数据(短路读取特性)
④底层上本质是建立 SocketStream(FSFataputStream),重复调用父类DataInputStream的read方法,直到这个块上的数据读取完毕;
⑤当读完列表的block后,若文件还没有结束,客户端会继续想NameNode获取下一批的block列表;
⑥读取完一个block都会进行checksum验证,如果读取DataNode时出现错误,客户端会通知NameNode,然后再从下一个拥有该block副本的DataNode继续读;
⑦read方法是并行的读取block信息,不是一块一块读取;NameNode只是返回client请求包含块的地址,并不是请求快的数据;
⑧最终读取来所有block会合并成一个完整的最终文件。

3.什么是MapReduce?
MapReduce是一个分布式计算编程框架(解决了海量数据计算问题)
MapReduce的核心思想就是“分而治之”
MapReduce编程开发主要分成八个步骤:
Map阶段
①读取文件,解析成key,value键值对(k1,v1)
②自定义map类,接收读取的key,value键值对(k1,v1),通过我们自定义的逻辑进行转换,转换成新的key,value键值对进行输出(k2,v2)
Shuffle阶段(此阶段全部由框架完成,shuffle是Map产出输出到Reduce取得数据作为输出之前的过程)
③分区(相同k2的v2发送到同一个reduce里面去,形成一个集合)
④排序(根据字典序进行排序)
⑤规约(在 map 阶段的 reduce 操作:每一个分几期能算的先算一下,然后再发送给 reduce 统一计算,这样会减少 reduce 的任务量。)
⑥分组
Reduce阶段
⑦自定义reduce逻辑,接收我们的k2,v2(是一个集合),写上我们自己的业务逻辑,转换成新的k3,v3,准备输出
⑧输出文件,将我们reduce处理完成的数据进行输出
一个完整的MapReduce程序在分析运行时有三类实例进程:
①MRAppMaster:负责整个程序的过程调度及状态协调
②MapTask:负责map阶段整个数据的处理流程
③ReduceTask:负责reduce阶段整个数据处理流程

4.什么是Yarn?
Yarn是一个分布式资源调度框架,主要包含三大模块:
①ResourceManager:负责所有资源的监控,分配和管理
②ApplicationMaster:负责每一个具体应用程序的调度和协调
③NodeManager:负责每一个节点的维护,对于所有的Applications,RM有着绝对的控制权和对资源的分配权,而NM则会和RM协商资源,同时和NM通信来执行和监控task
Yarn的工作流程:
①client向RM提交应用程序,其中包括启动该应用的ApplicationMaster的必要信息,例如ApplicationMaster程序,启动ApplicationMaster的命令,用户程序等
②ResourceManager启动一个container用于运行ApplicationMaster。启动中的ApplicationMaster想ResourceManager注册自己,启动成功后与RM保持心跳
③ApplicationMaster向ResourceManager发送请求,申请相应数目的container
④ResourceManager返回ApplicationMaster的申请的container信息。申请成功的container,由ApplicationMaster进行初始化。container的启动信息初始化后,AM与对应的NM进行通信,要求NM启动container。AM与NM保持心跳,从而对NM上运行的任务进行监控和管理。
⑤container运行期间,AM对container进行监控,container通过RPC协议向对应的AM汇报自己的进度和状态等信息。
⑥应用运行期间,client直接与AM通信获取应用的状态,进度更新等信息
⑦应用运行结束后,AM向RM注销自己,并允许属于它的container被收回

yarn的调度器Scheduler

第一种调度器:FIFO Scheduler(队列调度器)
一个任务结束后,下一个任务在开始
第二种调度器:capacity scheduler(容量调度器,Apache版本默认使用的调度器)
将集群的资源分成几部分,每个组可以获取一部分资源,组的内部也可以分组。
第三种调度器:Fair Scheduler(公平调度器,CDH版本的hadoop默认使用调度器)
Fair调度器的书记目标是为所有的应用分配公平的资源(对于公平的定义可以通过参数来设置)。公平调度也可以在多个队列间工作。举个例子,假设有两个用户A和B他们分别拥有一个队列。当A启动一个job而B没有任务时,A会获得全部集群资源;当B 启动一个job后,A的job会继续运行,不过一会之后两个任务会各自获得一半的集群资源。如果B在启动一个job并且其他job还在运行,则它将会和B的第一个job共享B这个队列的资源,也就是B的两个job回用于1/4的集群资源,而A的job依然用集群一般的资源,结果就是资源最终在两个用户之间平等共享。

Yarn常用参数配置:
第一个参数:container分配最小内存
yarn.scheduler.minimum-allocation-mb 1024 给应用程序container分配的最小内存
第二个参数:container分配最大内存
yarn.scheduler.maximum-allocation-mb 8192 给应用程序container分配的最大内存
第三个参数:每个container的最小虚拟内核个数
yarn.scheduler.minimum-allocation-vcores 1 每个container默认给分配的最小的虚拟内核个数
第四个参数:每个container的最大虚拟内核个数
yarn.scheduler.maximum-allocation-vcores 32 每个container可以分配的最大的虚拟内核的个数
第五个参数:nodeManager可以分配的内存大小
yarn.nodemanager.resource.memory-mb 8192 nodemanager可以分配的最大内存大小,默认8192Mb
我们可以在yarn-site.xml当中修改以下两个参数来改变默认值
定义每台机器的内存使用大小
yarn.nodemanager.resource.memory-mb 8192
定义每台机器的虚拟内核使用大小
yarn.nodemanager.resource.cpu-vcores 8
定义交换区空间可以使用的大小(交换区空间就是讲一块硬盘拿出来做内存使用)
这里指定的是nodemanager的2.1倍
yarn.nodemanager.vmem-pmem-ratio 2.1

你可能感兴趣的:(Hadoop)