HDFS-尚硅谷

第 1 章 HDFS 概述

HDFS-尚硅谷_第1张图片

1.2 HDFS 优缺点

HDFS-尚硅谷_第2张图片
HDFS-尚硅谷_第3张图片
HDFS-尚硅谷_第4张图片
HDFS-尚硅谷_第5张图片

1.3 HDFS 组成架构

HDFS-尚硅谷_第6张图片
HDFS-尚硅谷_第7张图片

DataNode存储数据的副本没有主从区别,读数据时客户端根据获取的元数据就近原则读取数据

HDFS-尚硅谷_第8张图片
HDFS-尚硅谷_第9张图片

HDFS-尚硅谷_第10张图片
HDFS-尚硅谷_第11张图片
HDFS-尚硅谷_第12张图片

HDFS-尚硅谷_第13张图片
HDFS-尚硅谷_第14张图片

1.4 HDFS 文件块大小(面试重点)

HDFS-尚硅谷_第15张图片
HDFS-尚硅谷_第16张图片

第 4 章 HDFS 的数据流(面试重点)

4.1 HDFS 写数据流程

4.1.1 剖析文件写入

HDFS-尚硅谷_第17张图片
HDFS-尚硅谷_第18张图片
HDFS-尚硅谷_第19张图片

4.1.2 网络拓扑-节点距离计算

HDFS-尚硅谷_第20张图片
HDFS-尚硅谷_第21张图片
HDFS-尚硅谷_第22张图片

4.1.3 机架感知(副本存储节点选择)

  1. 官方 ip 地址
    机架感知说明
    http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoophdfs/HdfsDesign.html#Data_Replication
For the common case, when the replication factor is three, HDFS’s placement policy is to put one replica on one node in the local 
rack, another on a different node in the local rack, and the last on a different node in a different rack.

HDFS-尚硅谷_第23张图片

4.2 HDFS 读数据流程

HDFS 的读数据流程,如图 3-13 所示。
HDFS-尚硅谷_第24张图片
HDFS-尚硅谷_第25张图片

第 5 章 NameNode 和 SecondaryNameNode(面试开发重点)

5.1 NN 和 2NN 工作机制

HDFS-尚硅谷_第26张图片
HDFS-尚硅谷_第27张图片

HDFS-尚硅谷_第28张图片
HDFS-尚硅谷_第29张图片
HDFS-尚硅谷_第30张图片
HDFS-尚硅谷_第31张图片
HDFS-尚硅谷_第32张图片

5.2 Fsimage 和 Edits 解析

在这里插入图片描述

5.3 CheckPoint 时间设置

HDFS-尚硅谷_第33张图片

5.4 NameNode 故障处理

NameNode 故障后,可以采用如下两种方法恢复数据。
在这里插入图片描述

在这里插入图片描述

5.6 NameNode 多目录配置

HDFS-尚硅谷_第34张图片

第 6 章 DataNode(面试开发重点)

6.1 DataNode 工作机制

HDFS-尚硅谷_第35张图片
HDFS-尚硅谷_第36张图片

6.2 数据完整性

HDFS-尚硅谷_第37张图片
HDFS-尚硅谷_第38张图片

6.3 掉线时限参数设置

HDFS-尚硅谷_第39张图片
(2)在hadoop105上上传文件

[atguigu@hadoop105 hadoop-2.7.2]$ hadoop fs -put /opt/module/hadoop-2.7.2/LICENSE.txt /

(3)如果数据不均衡,可以用命令实现集群的再平衡

[atguigu@hadoop102 sbin]$ ./start-balancer.sh 
starting balancer, logging to
/opt/module/hadoop-2.7.2/logs/hadoop-atguigu-balancer-hadoop102.out  
Time Stamp               Iteration#  Bytes Already Moved  Bytes Left To Move  Bytes Being Moved

6.4 服役新数据节点

HDFS-尚硅谷_第40张图片

6.6 Datanode 多目录配置

HDFS-尚硅谷_第41张图片

第7章 HDFS 2.X新特性

7.1 集群间数据拷贝

1.scp实现两个远程主机之间的文件复制

scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt		// 推 push
scp -r root@hadoop103:/user/atguigu/hello.txt  hello.txt		// 拉 pull
scp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/atguigu   //是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。

2.采用distcp命令实现两个Hadoop集群之间的递归数据复制

[atguigu@hadoop102 hadoop-2.7.2]$  bin/hadoop distcp
hdfs://haoop102:9000/user/atguigu/hello.txt hdfs://hadoop103:9000/user/atguigu/hello.txt

7.2 小文件存档

HDFS-尚硅谷_第42张图片

第8章 HDFS HA高可用

HDFS-尚硅谷_第43张图片
HDFS-尚硅谷_第44张图片
HDFS-尚硅谷_第45张图片
HDFS-尚硅谷_第46张图片
HDFS-尚硅谷_第47张图片

你可能感兴趣的:(#,hodoop)