Hadoop - HDFS分布式存储、HA架构原理、YARN调度原理

Hadoop 的组成

HDFS是一个文件存存储系统,他的meta信息以及目录结构是存储在NameNode中的,文件是以block的形式存储在DataNode中,通过与NameNode交互,可以实现读写的操作

客户端会先带着读取路径向NameNode发送读取请求
NameNode接收到请求后,会先判断是否有权限,读取文件是否存在等等,如果都无误则将文件所在的DataNode的节点位置,发送给客户端部分或者全部的DataNode的节点位置
客户端得到文件块存储的位置后,会调用read()方法,去读取数据
在读取之前会先进行一个checksum的操作,去判断一下校验和是否正确,正确则读,不正确则去下一个存放该block块的DataNode节点上读取
读取完NameNode这次发送过来的所有的block块后,会再去询问是否还有block块,如果有则接着读取,如果没有则调用close方法,将读取到的文件合并成一个大文件

在两个节点上都安装一个NameNode
每个NameNode所在的节点中都有一个监控器
监控器会监控NameNode的状态,并在zk中注册节点
两个NameNode谁先在zk中注册成功则谁就是active状态,剩下的那个则是standby
如果active节点挂掉了,监控器则将zk中注册的节点注销掉
standby中的监控器一旦检测到zk中的节点消失,则立即注册并通知standby状态的NameNode开始工作,standby会先去远程执行kill -9 activeNameNode节点的端口杀死他后开始切换到active状态开始工作
activeNameNode和standbyNameNode是使用JN进行做主从复制的