3.3.1版本官方文档:https://hadoop.apache.org/docs/r3.3.1/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
其它版本官方文档:https://hadoop.apache.org/docs/
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。
HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。
数据自动保存多个副本。它通过增加副本的形式,提高容错性。
某一个副本丢失以后,它可以自动恢复。
NameNode
大量的内存来存储文件目录和块信息(150B)。这样是不可取的,因为 NameNode
的内存总是有限的;1、NameNode
(nn):就是 Master ,它是一个主管、管理者。
2、DataNode
:就是Slave。NameNode 下达命令, DataNode 执行实际的操作。
3、 Client
:就是客户端。
4、 Secondary NameNode
:并非 NameNode
的热备。当 NameNode
挂掉的时候 ,它并不能马上替换 NameNode
并提供服务。
HDFS中的文件在物理上是分块存储(Block
),块的大小可以通过配置参数( dfs.blocksize
)来规定,默认大小在 Hadoop2.x/3.x 版本中是128M
, 1.x 版本中是 64M
。
集群中的 block,寻址时间为传输时间的 1%
时,则为最佳状态。
简单的计算:如果寻址时间约为 10ms,即查找到目标 block 的时间为 10ms 时,
传输时间=10ms/0.01=1000ms=1s
。而目前磁盘的传输速率普遍为100MB/s
。所以block大小=1s*10MB/s=100MB
,1024 的倍数即128M
为什么块的大小不能设置太小,也不能设置太大?
总结: HDFS块的大小设置主要取决于磁盘传输速率。
两种语法格式是完全相同的
hadoop fs 具体命令
hdfs dfs 具体命令
-help:输出这个命令的具体参数
$ hadoop fs -help rm
hadoop fs 上传命令 本地文件或文件夹 hadoop目录
命令 | 说明 | 示例 |
---|---|---|
-moveFromLocal | 从本地剪切粘贴到HDFS | hadoop fs -moveFromLocal ./shuguo.txt /sanguo |
-copyFromLocal | 从本地文件系统中拷贝文件到HDFS路径去 | hadoop fs -copyFromLocal weiguo.txt /sanguo |
-put |
等同于copyFromLocal,生产环境更习惯用put | hadoop fs -put ./wuguo.txt /sanguo |
-appendToFile | 追加一个文件到已经存在的文件末尾 | hadoop fs -appendToFile liubei.txt /sanguo/shuguo.txt |
命令 | 说明 | 示例 |
---|---|---|
-copyToLocal | 从HDFS拷贝到本地 | hadoop fs -copyToLocal /sanguo/shuguo.txt ./ |
-get | 等同于copyToLocal,生产环境更习惯用get | hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt |
命令 | 说明 | 示例 |
---|---|---|
-help | 输出某个命令的参数 | hadoop fs -help rm |
-ls | 显示目录信息 | hadoop fs -ls /sanguo |
-cat | 显示文件内容 | hadoop fs -cat /sanguo/shuguo.txt |
-chgrp、-chmod、-chown | Linux文件系统中的用法一样,修改文件所属权限 | hadoop fs -chmod 666 /sanguo/shuguo.txt hadoop fs -chown atguigu:atguigu /sanguo/shuguo.txt |
-mkdir | 创建路径 | hadoop fs -mkdir /jinguo |
-cp | 从HDFS的一个路径拷贝到HDFS的另一个路径 | hadoop fs -cp /sanguo/shuguo.txt /jinguo |
-mv | 在HDFS目录中移动文件 | hadoop fs -mv /sanguo/wuguo.txt /jinguo hadoop fs -mv /sanguo/weiguo.txt /jinguo |
-tail | 显示一个文件的末尾 1kb 的数据 | hadoop fs -tail /jinguo/shuguo.txt |
-rm | 删除文件或文件夹 | hadoop fs -rm /sanguo/shuguo.txt |
-rm -r | 递归删除目录及目录里面内容 | hadoop fs -rm -r /sanguo |
-du | 统计文件夹的大小信息 | hadoop fs -du -s -h /jinguo hadoop fs -du -h /jinguo |
-setrep | 设置HDFS中文件的副本数量 (设置的副本数只是记录在NameNode的元数据中, 是否真的会有这么多副本,还得看DataNode的数量。 假如只有3台设备,最多也就3个副本, 只有节点数的增加到10台时,副本数才能达到10。) |
hadoop fs -setrep 10 /jinguo/shuguo.txt |
$ hadoop fs -du -s /sanguo
20 60 /sanguo
# 说明:20表示文件大小;60表示20*3个副本的总大小;/jinguo表示查看的目录
$ hadoop fs -du -h /sanguo
7 21 /sanguo/shuguo.txt
7 21 /sanguo/weiguo.txt
6 18 /sanguo/wuguo.txt
hadoop-3.3.1
到非中文路径(比如d:\),然后配置 HADOOP_HOME=D:\hadoop-3.3.1
环境变量%HADOOP_HOME%\bin
winutils.exe
文件,运行。下载地址:https://github.com/steveloughran/winutils<dependency>
<groupId>org.apache.hadoopgroupId>
<artifactId>hadoop-clientartifactId>
<version>3.3.1version>
dependency>
<dependency>
<groupId>junitgroupId>
<artifactId>junitartifactId>
<version>4.12version>
dependency>
public class HdfsClient {
@Test
public void testMkdirs() throws IOException, URISyntaxException, InterruptedException {
// 1 获取文件系统,并配置参数
Configuration configuration = new Configuration();
configuration.set("dfs.replication", "2");
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "root");
// 2 操作HDFS
fs.mkdirs(new Path("/xiyou/huaguoshan/"));
// 3 关闭资源
fs.close();
}
}
参数优先级排序,优先级从高到低依次是:
客户端代码中设置的值
Configuration configuration = new Configuration();
//设置文件副本数
configuration.set("dfs.replication", "2");
然后是服务器的自定义配置(xxx-site.xml)
服务器的默认配置(xxx-default.xml)
import lombok.SneakyThrows;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.fs.permission.FsAction;
import org.apache.hadoop.fs.permission.FsPermission;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;
import java.io.IOException;
import java.net.URI;
import java.util.Arrays;
public class HDFSClient {
private FileSystem fs;
@Before
public void init() throws Exception {
// 1 获取文件系统
Configuration configuration = new Configuration();
configuration.set("dfs.replication", "2");
fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "root");
}
@After
public void close() throws IOException {
// 3 关闭资源
fs.close();
}
@Test
@SneakyThrows
public void testMkdir() {
/**
* 创建目录
* f: 目录路径
* permission: 权限
*/
fs.mkdirs(new Path("/test"), new FsPermission(FsAction.ALL, FsAction.READ, FsAction.READ));
/**
* 上传文件
* delSrc: 是否删除原文件
* overwrite: 是否覆盖hadoop上的同名文件
* src: 源文件路径
* dst: hadoop上路径
*/
fs.copyFromLocalFile(false, false, new Path("/aaa.txt"), new Path("/test/"));
/**
* 下载文件
* delSrc: 是否删除原文件
* src: 源文件路径
* dst: hadoop上路径
* useRawLocalFileSystem: 是否进行文件检验
*/
fs.copyToLocalFile(false, new Path("/test"), new Path("/"), false);
/**
* 移动/重命名
* src: 源文件路径
* dst: 目标路径
*/
fs.rename(new Path("/test/aaa.txt"), new Path("/test/bbb.txt"));
/**
* 删除
* f: 路径
* recursive: 是否递归
*/
fs.delete(new Path("/test/aaa.txt"), true);
/**
* 获取文件迭代器
* f: 路径
* recursive: 是否递归
*/
RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
while (listFiles.hasNext()) {
LocatedFileStatus fileStatus = listFiles.next();
System.out.println("========" + fileStatus.getPath() + "=========");//路径
System.out.println(fileStatus.getPermission());//权限
System.out.println(fileStatus.getOwner());//所有者
System.out.println(fileStatus.getGroup());//组
System.out.println(fileStatus.getLen());//文件大小
System.out.println(fileStatus.getModificationTime());//修改时间
System.out.println(fileStatus.getReplication());//副本数
System.out.println(fileStatus.getBlockSize());//Block 大小
System.out.println(fileStatus.getPath().getName());//文件名
BlockLocation[] blockLocations = fileStatus.getBlockLocations();// 获取块信息
System.out.println(Arrays.toString(blockLocations));
fileStatus.isDirectory();//判断是否是目录
fileStatus.isFile();//判断是否是文件
}
}
}
在HDFS写数据的过程中,NameNode 会选择距离待上传数据最近距离的 DataNode 接收数据。那么这个最近距离怎么计算呢?
节点距离:两个节点到达最近的共同祖先的距离总和。
例如,假设有数据中心d1机架r1中的节点n1。该节点可以表示为 /d1/r1/n1
。利用这种标记,这里给出四种距离描述。
源码说明:Hadoop 源码中
BlockPlacementPolicyDefault.chooseTargetInOrder()
方法
DistributedFileSystem
向 NameNode
请求下载文件,NameNode
通过查询元数据,找到文件块所在的 DataNode
地址。思考:NameNode中的元数据是存储在哪里的?
首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。
这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。因此,引入Edits文件(只进行追加操作,效率很高)。每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到Edits中。这样,一旦 NameNode 节点断电,可以通过FsImage和Edits的合并,合成元数据。
但是,如果长时间添加数据到Edits中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。因此,需要定期进行 FsImage 和 Edits 的合并,如果这个操作由 NameNode 节点完成,又会效率过低。因此,引入一个新的节点SecondaryNamenode,专门用于 FsImage 和 Edits 的合并。
1)第一阶段:NameNode
启动
2)第二阶段:Secondary NameNode
工作
NameNode 被格式化之后,将在 $HADOOP_HOME/data/dfs/name/current/
(data 目录为配置文件 $HADOOP_HOME/etc/hadoop/core-side.xml
文件中参数 hadoop.tmp.dir
配置的目录)目录中产生如下文件
-rw-r--r--. 1 root root 42 10月 26 19:55 edits_0000000000000000399-0000000000000000400
-rw-r--r--. 1 root root 42 10月 26 20:55 edits_0000000000000000401-0000000000000000402
-rw-r--r--. 1 root root 1048576 10月 26 20:55 edits_inprogress_0000000000000000403
-rw-r--r--. 1 root root 3627 10月 26 19:55 fsimage_0000000000000000400
-rw-r--r--. 1 root root 62 10月 26 19:55 fsimage_0000000000000000400.md5
-rw-r--r--. 1 root root 3627 10月 26 20:55 fsimage_0000000000000000402
-rw-r--r--. 1 root root 62 10月 26 20:55 fsimage_0000000000000000402.md5
-rw-r--r--. 1 root root 4 10月 26 20:55 seen_txid
-rw-r--r--. 1 root root 216 10月 24 15:25 VERSION
Fsimage
文件:HDFS 文件系统元数据的一个永久性的检查点,其中包含 HDFS 文件系统的所有目录和文件 inode 的序列化信息。Edits
文件:存放 HDFS 文件系统的所有更新操作的路径,文件系统客户端执行的所有写操作首先会被记录到 Edits 文件中。seen_txid
文件:保存的是一个数字,就是最后一个edits_
的数字,上面的例子中保存的是 403
VERSION
文件:保存了集群的信息,nn
和 2nn
中保存的数据相同基本语法:
hdfs oiv -p 文件类型 -i 镜像文件 -o 转换后文件输出路径
举例:
$ pwd
/usr/local/hadoop-3.3.1/data/dfs/name/current
$ hdfs oiv -p XML -i fsimage_0000000000000000404 -o fsimage.xml
$ fsimage.xml
基本语法:
hdfs oev -p 文件类型 -i 编辑日志 -o 转换后文件输出路径
案例:
$ hdfs oev -p XML -i edits_0000000000000000403-0000000000000000404 -o edits.xml
$ cat edits.xml
通常情况下,SecondaryNameNode 每隔一小时执行一次同步。
<property>
<name>dfs.namenode.checkpoint.periodname>
<value>3600svalue>
property>
一分钟检查一次操作次数,当操作次数达到1百万时,SecondaryNameNode 执行一次同步。
<property>
<name>dfs.namenode.checkpoint.txnsname>
<value>1000000value>
<description>操作动作次数description>
property>
<property>
<name>dfs.namenode.checkpoint.check.periodname>
<value>60svalue>
<description> 1分钟检查一次操作次数description>
property>
一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度、块数据的校验和以及时间戳。
DataNode 启动后向 NameNode 注册,通过后,周期性(6小时)的向 NameNode 上报所有的块信息。
DN 向 NN 汇报当前解读信息的时间间隔,默认6小时;
<property>
<name>dfs.blockreport.intervalMsecname>
<value>21600000value>
<description>Determines block reporting interval in milliseconds.description>
property>
DN 扫描自己节点块信息列表的时间,默认6小时
<property>
<name>dfs.datanode.directoryscan.intervalname>
<value>21600svalue>
<description>Interval in seconds for Datanode to scan data directories and reconcile the difference between blocks in memory and on the disk.
Support multiple time unit suffix(case insensitive), as described
in dfs.heartbeat.interval.
description>
property>
心跳是每3秒一次,心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个 DataNode 的心跳,则认为该节点不可用。(详见6.3)
集群运行中可以安全加入和退出一些机器。
crc 循环冗余校验在线网址:http://www.ip33.com/crc.html
DataNode 进程死亡或者网络故障造成 DataNode 无法与 NameNode 通信
NameNode 不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。
HDFS 默认的超时时长为 10分钟 + 30秒
如果定义超时时间为 TimeOut,则超时时长的计算公式为:
TimeOut = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval
默认的 dfs.namenode.heartbeat.recheck-interval
大小为5分钟,dfs.heartbeat.interval
默认为3秒。需要注意的是 hdfs-site.xml 配置文件中的 heartbeat.recheck.interval
的单位为毫秒,dfs.heartbeat.interval
的单位为秒。
<property>
<name>dfs.namenode.heartbeat.recheck-intervalname>
<value>300000value>
property>
<property>
<name>dfs.heartbeat.intervalname>
<value>3value>
property>
NameNode 内存计算
每个文件块大概占用 150byte
,一台服务器 128G 内存为例,能存储多少文件块呢?
128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1亿
Hadoop2.x 系列,配置 NameNode 内存
NameNode 内存默认 2000m
,如果服务器内存 4G,NameNode 内存可以配置 3g。在 hadoop-env.sh
文件中配置如下。
HADOOP_NAMENODE_OPTS=-Xmx3072m
Hadoop3.x 系列,配置 NameNode 内存
(1)hadoop-env.sh
中描述 Hadoop 的内存是动态分配的
# The maximum amount of heap to use (Java -Xmx). If no unit
# is provided, it will be converted to MB. Daemons will
# prefer any Xmx setting in their respective _OPT variable.
# There is no default; the JVM will autoscale based upon machine
# memory size.
# export HADOOP_HEAPSIZE_MAX=
# The minimum amount of heap to use (Java -Xms). If no unit
# is provided, it will be converted to MB. Daemons will
# prefer any Xms setting in their respective _OPT variable.
# There is no default; the JVM will autoscale based upon machine
# memory size.
# export HADOOP_HEAPSIZE_MIN=
HADOOP_NAMENODE_OPTS=-Xmx102400m
(2)查看 NameNode 与 DataNode 占用内存
$ jps
1670 NameNode
2454 Jps
2346 JobHistoryServer
2156 NodeManager
1853 DataNode
# 查看NameNode
$ jmap -heap 1670
Heap Configuration:
MaxHeapSize = 482344960 (460.0MB)
# 查看DataNode
$ jmap -heap 1853
Heap Configuration:
MaxHeapSize = 482344960 (460.0MB)
查看发现 hadoop102 上的 NameNode 和 DataNode 占用内存都是自动分配的,且相等。不是很合理。经验参考:
https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_hardware_requirements.html#concept_fzz_dq4_gbb
组件 | 内存 |
---|---|
NameNode | 最低:1 GB(用于概念验证部署) 每增加1000000个数据块,再增加1 GB,快照和加密可以增加所需的堆内存。 |
DataNode | 最低:4 GB 增加内存以获得更高的副本计数或每个数据节点的更高块数。在增加内存时,Cloudera 建议 DataNodes 上每100万个副本(超过400万个)增加 1 GB 内存。例如,500万个副本需要5 GB的内存。 |
具体修改:hadoop-env.sh
:
export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"
export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx4096m"
hdfs-site.xml
The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address
is not configured then Namenode RPC server threads listen to requests from all nodes.
NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。
对于大集群或者有大量客户端的集群来说,通常需要增大该参数。默认值是10。
<property>
<name>dfs.namenode.handler.countname>
<value>21value>
property>
企业经验:
d f s . n a m e n o d e . h a n d l e r . c o u n t = 20 × l o g e ( C l u s t e r S i z e ) dfs.namenode.handler.count = 20×log_e^{(Cluster Size)} dfs.namenode.handler.count=20×loge(ClusterSize)
例如:集群规模(DataNode台数)为 3 台时,此参数设置为21。可通过简单的 python 代码计算该值,代码如下。
$ sudo yum install -y python
$ python
Python 2.7.5 (default, Apr 2 2020, 13:16:51)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-39)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import math
>>> print int(20*math.log(3))
21
>>> quit()
开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。
开启回收站功能参数说明
(1)默认值 fs.trash.interval = 0
,0 表示禁用回收站;其他值表示设置文件的存活时间。
(2)默认值 fs.trash.checkpoint.interval = 0
,检查回收站的间隔时间。如果该值为0,则该值设置和 fs.trash.interval
的参数值相等。
(3)要求 fs.trash.checkpoint.interval <= fs.trash.interval
。
启用回收站
修改 core-site.xml
,配置垃圾回收时间为1分钟。
<property>
<name>fs.trash.intervalname>
<value>1value>
property>
查看回收站:回收站目录在 HDFS 集群中的路径:/user/atguigu/.Trash/...
注意:通过网页上直接删除的文件也不会走回收站。
通过程序删除的文件不会经过回收站,需要调用 moveToTrash()
才进入回收站
Trash trash = New Trash(conf);
trash.moveToTrash(path);
只有在命令行利用 hadoop fs -rm
命令删除的文件才会走回收站。
$ hadoop fs -rm -r /output
2021-11-15 17:22:34,599 INFO fs.TrashPolicyDefault: Moved: 'hdfs://hadoop102:8020/output' to trash at: hdfs://hadoop102:8020/user/root/.Trash/Current/output
恢复回收站数据:使用 hadoop fs -mv 命令将文件移动到原路径
虚拟机配置:2 核 2 G ,网速 100 mbps (100 / 8 = 12.5 MB/s)
# nrFiles n为生成 mapTask 的数量,生产环境一般可通过 ResourceManger:8088 查看CPU核数,设置为(CPU核数-1)
$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.3.1-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB
2021-11-15 17:47:14,463 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write
2021-11-15 17:47:14,463 INFO fs.TestDFSIO: Date & time: Mon Nov 15 17:47:14 CST 2021
2021-11-15 17:47:14,463 INFO fs.TestDFSIO: Number of files: 10
2021-11-15 17:47:14,463 INFO fs.TestDFSIO: Total MBytes processed: 1280
2021-11-15 17:47:14,463 INFO fs.TestDFSIO: Throughput mb/sec: 1.32
2021-11-15 17:47:14,463 INFO fs.TestDFSIO: Average IO rate mb/sec: 1.34
2021-11-15 17:47:14,463 INFO fs.TestDFSIO: IO rate std deviation: 0.16
2021-11-15 17:47:14,463 INFO fs.TestDFSIO: Test exec time sec: 128.24
Number of files
:生成 mapTask 数量,一般是集群中(CPU核数-1)Total MBytes processed
:单个 map 处理的文件大小Throughput mb/sec
:单个 mapTask 的吞吐量Average IO rate mb/sec
:平均 mapTask 的吞吐量IO rate std deviation
:方差、反映各个 mapTask 处理的差值,越小越均衡注意:如果测试过程中,出现异常,可以在
yarn-site.xml
中设置虚拟内存检测为false
<property> <name>yarn.nodemanager.vmem-check-enabledname> <value>falsevalue> property>
一共参与测试的文件:10个文件 * 2个副本 = 20个
压测后的速度:1.32
实测速度:1.32M/s * 20个文件 = 26.4M/s
三台服务器的带宽:12.5 + 12.5 + 12.5 = 37.5M/s
如果实测速度远远小于网络,并且实测速度不能满足工作需求,可以考虑采用固态硬盘或者增加磁盘个数。
如果客户端不在集群节点,那就三个副本都参与计算
测试内容:读取HDFS集群10个128M的文件
$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.3.1-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB
2021-11-18 10:24:06,576 INFO fs.TestDFSIO: ----- TestDFSIO ----- : read
2021-11-18 10:24:06,576 INFO fs.TestDFSIO: Date & time: Thu Nov 18 10:24:06 CST 2021
2021-11-18 10:24:06,576 INFO fs.TestDFSIO: Number of files: 10
2021-11-18 10:24:06,576 INFO fs.TestDFSIO: Total MBytes processed: 1280
2021-11-18 10:24:06,576 INFO fs.TestDFSIO: Throughput mb/sec: 101.04
2021-11-18 10:24:06,576 INFO fs.TestDFSIO: Average IO rate mb/sec: 109.51
2021-11-18 10:24:06,576 INFO fs.TestDFSIO: IO rate std deviation: 29.81
2021-11-18 10:24:06,576 INFO fs.TestDFSIO: Test exec time sec: 35.72
为什么读取文件速度大于网络带宽?
由于目前只有三台服务器,且有三个副本,数据读取就近原则,相当于都是读取的本地磁盘数据,没有走网络。
经过前面的读写测试,HDFS 中会产生一些临时文件,临时文件所在目录会在日志中打印出来,默认:
2021-11-18 10:23:29,447 INFO fs.TestDFSIO: baseDir = /benchmarks/TestDFSIO
除测试生成数据:
$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.3.1-tests.jar TestDFSIO -clean
NameNode 的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性
具体配置如下:
在 hdfs-site.xml
文件中添加如下内容
<property>
<name>dfs.namenode.name.dirname>
<value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2value>
property>
注意:根据每台服务器节点的磁盘情况不同,对每台集群进行配置
停止集群,删除集群节点的 data 和 logs 中所有数据。
格式化集群并启动。
$ bin/hdfs namenode -format
$ sbin/start-dfs.sh
查看结果:可以看到 name1 和 name2 ,并且两者中的内容一模一样。
DataNode 可以配置成多个目录,每个目录存储的数据不一样(数据不是副本)
具体配置如下:
在 hdfs-site.xml
文件中添加如下内容
<property>
<name>dfs.datanode.data.dirname>
<value>file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2value>
property>
生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性)
生成均衡计划(我们只有一块磁盘,不会生成计划)
hdfs diskbalancer -plan hadoop103
执行均衡计划
hdfs diskbalancer -execute hadoop103.plan.json
查看当前均衡任务的执行情况
hdfs diskbalancer -query hadoop103
取消均衡任务
hdfs diskbalancer -cancel hadoop103.plan.json
白名单:表示在白名单的主机IP地址可以用来存储数据。配置白名单,可以尽量防止黑客恶意访问攻击。
配置白名单步骤如下:
在 NameNode 节点的 $HADOOP_HOME/etc/hadoop
目录下分别创建 whitelist
和 blacklist
文件
$ vim whitelist
hadoop102
hadoop103
在 hdfs-site.xml
配置文件中增加 dfs.hosts
配置参数
<property>
<name>dfs.hostsname>
<value>/usr/local/hadoop-3.3.1/etc/hadoop/whitelistvalue>
property>
分发配置文件 whitelist
,hdfs-site.xml
到集群中所有机器,第一次配置完 hdfs-site.xml
文件后要重启集群,之后只修改 whitelist
文件的话,只需要刷新 NameNode 节点即可:
# 刷新节点命令
hdfs dfsadmin -refreshNode
随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。
添加新节点步骤:
将集群的 Hadoop,jdk,配置文件等分发到新的机器上
直接在新机器上启动 DataNode,即可关联到集群
$ hdfs --daemon start datanode
$ yarn --daemon start nodemanager
开启数据均衡命令:
$ sbin/start-balancer.sh -threshold 10
10%
,可根据实际情况进行调整。停止数据均衡命令:
$ sbin/stop-balancer.sh
注意:由于 HDFS 需要启动单独的 Rebalance Server 来执行 Rebalance 操作,所以尽量不要在 NameNode 上执行 start-balancer.sh,而是找一台比较空闲的机器。
黑名单:表示在黑名单的主机IP地址不可以用来存储数据。配置黑名单,用来退役服务器。
黑名单配置步骤如下:
在 NameNode 节点的 $HADOOP_HOME/etc/hadoop
目录下分别创建 blacklist
文件,并添加要退役的节点的地址
$ vim blacklist
hadoop105
在 hdfs-site.xml
配置文件中增加 dfs.hosts.exclude
配置参数
<property>
<name>dfs.hosts.excludename>
<value>/usr/local/hadoop-3.3.1/etc/hadoop/blacklistvalue>
property>
分发配置文件 blacklist
,hdfs-site.xml
到集群中所有机器,第一次配置完 hdfs-site.xml
文件后要重启集群,之后只修改 blacklist
文件的话,只需要刷新 NameNode 节点即可:
# 刷新节点命令
hdfs dfsadmin -refreshNode
检查Web浏览器,退役节点的状态为 decommission in progress(退役中),说明该数据节点正在复制块到其他节点
等待退役节点状态为 decommissioned(所有块已经复制完成),停止该节点及节点资源管理器。注意:如果副本数是3,服役的节点小于等于3,是不能退役成功的,需要修改副本数后才能退役
$ hdfs --daemon stop datanode
$ yarn --daemon stop nodemanager
如果数据不均衡,可以用命令实现集群的再平衡
$ sbin/start-balancer.sh -threshold 10
HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。
如图,将一个 300M 的文件拆分成 3 个 100M 的数据单元和 2 个 100M 的校验单元,5个单元任意两个单元损坏,都可以通过其它 3 个单元计算出来,且总的存储空间由原来的 900M 缩小到了 500M。但是计算过程必然会使 cpu 性能下降,因此纠删码就是拿性能换存储空间
# 查看可用的纠删码策略,State 为 ENABLED 表示已经开启
$ hdfs ec -listPolicies
Erasure Coding Policies:
ErasureCodingPolicy=[Name=RS-10-4-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=10, numParityUnits=4]], CellSize=1048576, Id=5], State=DISABLED
ErasureCodingPolicy=[Name=RS-3-2-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=3, numParityUnits=2]], CellSize=1048576, Id=2], State=DISABLED
ErasureCodingPolicy=[Name=RS-6-3-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=6, numParityUnits=3]], CellSize=1048576, Id=1], State=ENABLED
ErasureCodingPolicy=[Name=RS-LEGACY-6-3-1024k, Schema=[ECSchema=[Codec=rs-legacy, numDataUnits=6, numParityUnits=3]], CellSize=1048576, Id=3], State=DISABLED
ErasureCodingPolicy=[Name=XOR-2-1-1024k, Schema=[ECSchema=[Codec=xor, numDataUnits=2, numParityUnits=1]], CellSize=1048576, Id=4], State=DISABLED
RS-10-4-1024k
:使用 RS 编码,每 10 个数据单元(cell),生成4个校验单元,共14个单元,也就是说:这14个单元中,只要有任意的10个单元存在(不管是数据单元还是校验单元,只要总数=10),就可以得到原始数据。每个单元的大小是 1024k=1024*1024=1048576。RS-3-2-1024k
:使用RS编码,每3个数据单元,生成2个校验单元,共5个单元,也就是说:这5个单元中,只要有任意的3个单元存在(不管是数据单元还是校验单元,只要总数=3),就可以得到原始数据。每个单元的大小是 1024k=1024*1024=1048576。RS-6-3-1024k
(默认):使用RS编码,每6个数据单元,生成3个校验单元,共9个单元,也就是说:这9个单元中,只要有任意的6个单元存在(不管是数据单元还是校验单元,只要总数=6),就可以得到原始数据。每个单元的大小是1024k=1024*1024=1048576。XOR-2-1-1024k
:使用XOR编码(速度比RS编码快),每2个数据单元,生成1个校验单元,共3个单元,也就是说:这3个单元中,只要有任意的2个单元存在(不管是数据单元还是校验单元,只要总数= 2),就可以得到原始数据。每个单元的大小是1024k=1024*1024=1048576。RS-LEGACY-6-3-1024k
:策略和上面的RS-6-3-1024k一样,只是编码的算法用的是 rs-legacy。纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。默认只开启对 RS-6-3-1024k
策略的支持,如要使用别的策略需要提前启用。
开启对RS-3-2-1024k策略的支持
$ hdfs ec -enablePolicy -policy RS-3-2-1024k
在HDFS创建目录,并设置RS-3-2-1024k策略
$ hdfs dfs -mkdir /input
$ hdfs ec -setPolicy -path /input -policy RS-3-2-1024k
上传文件,并查看文件编码后的存储情况
$ hdfs dfs -put web.log /input
注意:你所上传的文件需要大于 2M 才能看出效果(低于2M,只有一个数据单元和两个校验单元)
异构存储主要解决,不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。
存储类型由快到慢如下:
RAM_ DISK
: (内存镜像文件系统)SSD
: (SSD固态硬盘)DISK
:(普通磁盘,在HDFS中,如果没有主动声明数据目录存储类型默认都是 DISK)ARCHIVE
:(没有特指哪种存储介质,主要的指的是计算能力比较弱而存储密度比较高的存储介质,用来解决数据量的存储策略,设备的访问速度从快到慢如下:
策略ID | 策略名称 | 副本分布 | 说明 |
---|---|---|---|
15 | Lazy_Persist | RAM_DISK:1,DISK:n-1 | 一个副本保存在内存RAM_DISK中,其余副本保存在磁盘中。 |
12 | All_SSD | SSD:n | 所有副本都保存在SSD中。 |
10 | One_SSD | SSD:1 , DISK:n-1 | 一个副本保存在SSD中,其余副本保存在磁盘中。 |
7 | Hot(default) | DISK:n | Hot:所有副本保存在磁盘中,这也是默认的存储策略。 |
5 | Warm | DSIK:1 , ARCHIVE:n-1 | 一个副本保存在磁盘上,其余副本保存在归档存储上。 |
2 | Cold | ARCHIVE:n | 所有副本都保存在归档存储上。 |
查看当前有哪些存储策略可以用
hdfs storagepolicies -listPolicies
为指定路径(数据存储目录)设置指定的存储策略
hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx
获取指定路径(数据存储目录或文件)的存储策略
hdfs storagepolicies -getStoragePolicy -path xxx
取消存储策略;执行改命令之后该目录或者文件,以其上级的目录为准,如果是根目录,那么就是HOT
hdfs storagepolicies -unsetStoragePolicy -path xxx
查看文件块的分布
hdfs fsck xxx -files -blocks -locations
查看集群节点
hadoop dfsadmin -report
配置虚拟机节点:hdfs-site.xml
添加如下信息,其中配置了两个目录的存储类型(其它存储类型配置相同,每个节点可以不相同)
<property>
<name>dfs.replicationname>
<value>2value>
property>
<property>
<name>dfs.storage.policy.enabledname>
<value>truevalue>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>[SSD]file:///usr/local/hadoop-3.3.1/hdfsdata/ssd,[DISK]file:///usr/local/hadoop-3.3.1/hdfsdata/diskvalue>
property>
创建目录,上传文件,并将该目录的存储策略指定为 ALL_SSD
$ hadoop fs -mkdir /hdfsdata
$ hadoop fs -put /tmp/NOTICE.txt /hdfsdata
$ hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy All_SSD
让 HDFS 按照存储策略自行移动文件块
$ hdfs mover /hdfsdata
查看文件块分布,我们可以看到,所有的文件块都存储在SSD,符合All_SSD存储策略。
$ bin/hdfs fsck /hdfsdata -files -blocks -locations
[DatanodeInfoWithStorage[192.168.10.102:9866,DS-c997cfb4-16dc-4e69-a0c4-9411a1b0c1eb,SSD], DatanodeInfoWithStorage[192.168.10.103:9866,DS-2481a204-59dd-46c0-9f87-ec4647ad429a,SSD]]
当我们将目录设置为 COLD 并且我们未配置 ARCHIVE 存储目录的情况下,不可以向该目录直接上传文件,会报出异常。
存储策略为 LAZY_PERSIST 时,可能会出现所有的文件块都是存储在 DISK。按照理论一个副本存储在 RAM_DISK,其他副本存储在 DISK 中,可能有以下两个原因:
当客户端所在的 DataNode 节点没有 RAM_DISK 时,则会写入客户端所在的 DataNode 节点的 DISK 磁盘,其余副本会写入其他节点的DISK磁盘。
当客户端所在的 DataNode 有 RAM_DISK,但 dfs.datanode.max.locked.memory
参数值未设置(默认0)或者设置过小(小于 dfs.block.size
参数值)时,则会写入客户端所在的DataNode节点的DISK磁盘,其余副本会写入其他节点的DISK磁盘。
但是由于虚拟机的 max locked memory
为 64KB,所以,如果参数配置过大,还会报出错误:
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in secureMain
java.lang.RuntimeException: Cannot start datanode because the configured max locked memory size (dfs.datanode.max.locked.memory) of 209715200 bytes is more than the datanode's available RLIMIT_MEMLOCK ulimit of 65536 bytes.
我们可以通过该命令查询此参数的内存
$ ulimit -a
max locked memory (kbytes, -l) 64
NameNode 进程挂了并且存储的数据也丢失了,如何恢复 NameNode
拷贝 SecondaryNameNode 中数据到原 NameNode 存储数据目录
$ scp -r atguigu@hadoop104:$HADOOP_HOME/data/dfs/namesecondary/* $HADOOP_HOME/data/dfs/name/
重新启动NameNode
$ hdfs --daemon start namenode
安全模式:文件系统只接受读数据请求,而不接受删除、修改等变更请求
dfs.namenode.safemode.min.datanodes
:最小可用 datanode 数量,默认 0;大于 0,即必须有一个可用dfs.namenode.safemode.threshold-pct
:副本数达到最小要求的 block 占系统总 block 数的百分比,默认0.999f。(只允许丢一个块)dfs.namenode.safemode.extension
:稳定时间,默认值 30000 毫秒,即30秒集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。
hdfs dfsadmin -safemode get (功能描述:查看安全模式状态)
hdfs dfsadmin -safemode enter (功能描述:进入安全模式状态)
hdfs dfsadmin -safemode leave (功能描述:离开安全模式状态)
hdfs dfsadmin -safemode wait (功能描述:等待安全模式状态)
集群重启后,可以看到集群处于安全模式,此时的安全模式会在 30s 后自动退出
离开安全模式
$ hdfs dfsadmin -safemode get
Safe mode is ON
$ hdfs dfsadmin -safemode leave
Safe mode is OFF
将对应的元数据删除,集群便可恢复正常
编写一个脚本:
$ vim safemode.sh
#!/bin/bash
# 当集群处于安全模式时,执行这条命令时会阻塞,直到集群退出安全模式
hdfs dfsadmin -safemode wait
hdfs dfs -put /opt/module/hadoop-3.1.3/README.txt /
“慢磁盘”指的时写入数据非常慢的一类磁盘。其实慢性磁盘并不少见,当机器运行时间长了,上面跑的任务多了,磁盘的读写性能自然会退化,严重时就会出现写入数据延时的问题。
如何发现慢磁盘?
正常在HDFS上创建一个目录,只需要不到1s的时间。如果你发现创建目录超过1分钟及以上,而且这个现象并不是每次都有。只是偶尔慢了一下,就很有可能存在慢磁盘。
可以采用如下方法找出是哪块磁盘慢:
一般出现慢磁盘现象,会影响到 DataNode 与 NameNode 之间的心跳。正常情况心跳时间间隔是 3s。超过3s说明有异常。
顺序读测试
$ sudo yum install -y fio
$ sudo fio -filename=/tmp/test.log -direct=1 -iodepth 1 -thread -rw=read -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r
Run status group 0 (all jobs):
READ: bw=803MiB/s (842MB/s), 803MiB/s-803MiB/s (842MB/s-842MB/s), io=20.0GiB (21.5GB), run=25518-25518msec
结果显示,磁盘的总体顺序读速度为803MiB/s。
顺序写测试
$ sudo fio -filename=/tmp/test.log -direct=1 -iodepth 1 -thread -rw=write -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_w
Run status group 0 (all jobs):
WRITE: bw=1321MiB/s (1385MB/s), 1321MiB/s-1321MiB/s (1385MB/s-1385MB/s), io=20.0GiB (21.5GB), run=15502-15502msec
结果显示,磁盘的总体顺序写速度为1321MiB/s。
随机写测试
$ sudo fio -filename=/tmp/test.log -direct=1 -iodepth 1 -thread -rw=randwrite -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_randw
Run status group 0 (all jobs):
WRITE: bw=1339MiB/s (1404MB/s), 1339MiB/s-1339MiB/s (1404MB/s-1404MB/s), io=20.0GiB (21.5GB), run=15297-15297msec
结果显示,磁盘的总体随机写速度为1339MiB/s。
混合随机读写:
$ sudo fio -filename=/tmp/test.log -direct=1 -iodepth 1 -thread -rw=randrw -rwmixread=70 -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r_w -ioscheduler=noop
Run status group 0 (all jobs):
READ: bw=965MiB/s (1012MB/s), 965MiB/s-965MiB/s (1012MB/s-1012MB/s), io=13.0GiB (15.0GB), run=14851-14851msec
WRITE: bw=414MiB/s (434MB/s), 414MiB/s-414MiB/s (434MB/s-434MB/s), io=6149MiB (6447MB), run=14851-14851msec
结果显示,磁盘的总体混合随机读写,读速度为965MiB/s,写速度414MiB/s。
每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB。
HDFS 存档文件或 HAR 文件,是一个更高效的文件存档工具,它将文件存入 HDFS 块,在减少 NameNode 内存使用的同时,允许对文件进行透明的访问。具体说来,HDFS 存档文件对内还是一个一个独立文件,对 NameNode 而言却是一个整体,减少了 NameNode 的内存。
归档文件:把 /input
目录里面的所有文件归档成一个叫 input.har
的归档文件,并把归档后文件存储到 /output
路径下。
$ hadoop archive -archiveName input.har -p /input /output
查看归档
$ hadoop fs -ls /output/input.har
$ hadoop fs -ls har:///output/input.har
解归档文件,将归档文件中的某个文件复制出来
$ hadoop fs -cp har:///output/input.har/* /
scp实现两个远程主机之间的文件复制
scp -r hello.txt root@hadoop103:/tmp/hello.txt # 推 push
scp -r root@hadoop103:/tmp/hello.txt hello.txt # 拉 pull
scp -r root@hadoop103:/tmp/hello.txt root@hadoop104:/tmp #是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。
采用 distcp
命令实现两个 Hadoop 集群之间的递归数据复制
$ hadoop distcp hdfs://hadoop102:8020/tmp/hello.txt hdfs://hadoop105:8020/tmp/hello.txt
暂时没有亲自实践过,留个文档:
https://gitee.com/xinboss/bigdata/blob/master/Hadoop/%E6%96%87%E6%A1%A3/%E5%B0%9A%E7%A1%85%E8%B0%B7%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%8A%80%E6%9C%AF%E4%B9%8B%E9%9B%86%E7%BE%A4%E8%BF%81%E7%A7%BB%EF%BC%88Apache%E5%92%8CCDH%EF%BC%89.doc