在大数据场景中，大量数据是以文件形式保存的，典型代表是行为日志数据（用户搜索日志、购买日志、点击日志，以及机器操作日志等）。
这些文件形式的数据具有价值高、数据大、流式产生等特点，需要一个分布式文件系统存储它们，该文件系统应具有良好的容错性、扩展性和易用的API，而HDFS（Hadoop Distributed File System）便是一个较为理想的解决方案。

HDFS

HDFS是一种块级别的分布式文件系统。
块级别的分布式文件系统系统核心思想是将文件分成等大的数据块，并以数据块为单位存储到不同节点上，进而解决文件级别的分布式系统存在的负载均衡和并行处理问题。
HDFS采用了主从架构，如下图所示：
主节点被称为NameNode，只有一个，管理元信息和所有从节点；
从节点称为DataNode，通常存在多个，存储实际的数据块。
HDFS是一种块级别的分布式文件系统。
块级别的分布式文件系统系统核心思想是将文件分成等大的数据块，并以数据块为单位存储到不同节点上，进而解决文件级别的分布式系统存在的负载均衡和并行处理问题。

HDFS采用了主从架构，如下图所示：
主节点被称为NameNode，只有一个，管理元信息和所有从节点；
从节点称为DataNode，通常存在多个，存储实际的数据块。

HDFS基本架构.png

1. NameNode

NameNode是HDFS集群管理者，负责管理文件系统元信息和所有DataNode。
1.管理元信息：NameNode维护着整个文件系统的目录树，各个文件的数据块信息等。
2.管理DataNode：DataNode周期性向NameNode汇报心跳以表明自己活着，一旦NameNode发现某个DataNode出现故障，会在其他存活DataNode上重构丢失的数据块。

一个HDFS集群中只存在一个对外服务的NameNode，称为Active NameNode，
为了防止单个NameNode出现故障后导致整个集群不可用，用户可启动一个备用NameNode，称为Standby NameNode，为了实现NameNode HA（High Availability，高可用），需解决好两者的切换和状态同步问题。
1.主/备切换：HDFS提供了手动方式和自动方式完成主备NameNode切换。
1）手动方式是通过命令显式修改NameNode角色完成的，通常用于NameNode滚动升级（滚动发布：一般是取出一个或者多个服务器停止服务，执行更新，并重新将其投入使用。周而复始，直到集群中所有的实例都更新成新版本）；
2）自动模式是通过ZooKeeper实现的，可在主NameNode不可用时，自动将备用NameNode提升为主NameNode，以保证HDFS不间断对外提供服务。
2.状态同步：主/备NameNode并不是通过强一致协议保证状态一致的，而是通过第三方的共享存储系统。
1）主NameNode将EditLog（修改日志，比如创建和修改文件）写入共享存储系统，备用NameNode则从共享存储系统中读取这些修改日志，并重新执行这些操作，以保证与主NameNode的内存信息一致。
2）目前HDFS支持两种共享存储系统：NFS（Network File System）和QJM（Quorum Journal Manager）QJM能够构建在普通商用机器之上，比NFS更加廉价，因此受众更广。

2. DataNode

DataNode存储实际的数据块，并周期性通过心跳向NameNode汇报自己的状态信息。

3. Client

用户通过客户端与NameNode和DataNode交互，完成HDFS管理（比如服务启动与停止）和数据读写等操作。
此外，文件的分块操作也是在客户端完成的。当向HDFS写入文件时，客户端首先将文件切分成等大的数据块（默认一个数据块大小为128MB），之后从NameNode上领取三个DataNode地址，并在它们之间建立数据流水线，进而将数据块流式写入这些节点。

随着数据块和访问量的增加，单个NameNode会成为制约HDFS扩展性的瓶颈，为了解决该问题，HDFS提供了NameNode Federation机制，允许一个集群中存在多个对外服务的NameNode，它们各自管理目录树的一部分（对目录水平分片），如图6-4所示。需要注意的是，在NameNode Federation中，每个主NameNode均存在单点故障问题，需为之分配一个备用NameNode。

启用NameNode Federation的HDFS架构.png

HDFS关键技术

1.容错性设计

❑ NameNode故障：NameNode内存中记录了文件系统的元信息，这些元信息一旦丢失，将导致整个文件系统数据不可用。HDFS允许为每个Active NameNode分配一个Standby NameNode，以防止单个NameNode宕机后导致元信息丢失和整个集群不可访问。
❑ DataNode故障：每个DataNode保存了实际的数据块，这些数据块在其他DataNode上存在相同的副本。DataNode能通过心跳机制向NameNode汇报状态信息，当某个DataNode宕机后，NameNode可在其他节点上重构该DataNode上的数据块，以保证每个文件的副本数在正常水平线上。
❑ 数据块损坏：DataNode保存数据块时，会同时生成一个校验码。当存取数据块时，如果发现校验码不一致，则认为该数据块已经损坏，NameNode会通过其他节点上的正常副本重构受损的数据块。

2.副本放置策略

❑ 客户端与DataNode同节点。这是一种常见的场景：上层计算框架处理HDFS数据时，每个任务实际上就是一个客户端，它们运行在与DataNode相同的计算节点上（HDFS和YARN同节点部署）。在这种情况下，三副本放置策略如下：第一个副本写到同节点的DataNode上，另外两个副本写到另一个相同机架的不同DataNode上；
❑ 客户端与DataNode不同节点。当HDFS之外的应用程序向HDFS写数据时，通常会出现这种情况，典型的场景有Flume Sink，用户通过独立客户端shell命令行将文件上传到HDFS等。在这种情况下，HDFS会随机选择一个DataNode作为第一个副本放置节点，其他两个副本写到另一个相同机架的不同DataNode上。

HDFS副本放置策略.png

3.异构存储介质

HDFS支持多种常用存储类型。异构存储介质的引入，使得HDFS变成了一个提供混合存储方式的文件系统，用户可以根据数据特点，选择合适的存储介质满足你应用需求。
❑ ARCHIVE：高存储密度但耗电较少的存储介质，通常用来存储冷数据。
❑ DISK：磁盘介质，这是HDFS默认的存储介质。
❑ SSD：固态硬盘，是一种新型存储介质，目前被不少互联网公司使用。
❑ RAM_DISK：数据被写入内存中，同时会往该存储介质中再（异步）写一份。

HDFS异构存储介质示意图.png

4. 集中式缓存管理

HDFS允许用户将一部分目录或文件缓存在off-heap内存中，以加速对这些数据的访问效率，该机制被称为集中式缓存管理。
HDFS提供了API和命令行两种方式，让用户管理集中式缓存系统中的文件和目录，用户可以根据需要将一个文件增加到缓存中，或从缓存中移除。

数据收集组件

1. Flume

Flume提供了HDFS Sink，能够将收集到的数据直接写入HDFS中，且自带了灵活的配置参数、支持压缩、按时或按大小切分文件等。

2. Sqoop

Sqoop允许用户指定数据写入HDFS的目录、文件格式（支持Text和SequenceFile两种格式）、压缩方式（支持LZO, Snappy等主流压缩编码）等。

SequenceFile：Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件（Flat file）。

小结

HDFS是一个分布式文件系统，具有良好的扩展性、容错性以及易用的API。

它的核心思想是将文件切分成等大的数据块，以多副本的形式存储到多个节点上。

HDFS采用了经典的主从软件架构，其中主服务被称为NameNode，管理文件系统的元信息，而从服务被称为DataNode，存储实际的数据块，

DataNode与NameNode维护了周期性的心跳，为了防止NameNode出现单点故障，HDFS允许一个集群中存在主备NameNode，并通过ZooKeeper完成Active NameNode的选举工作。

HDFS提供了丰富的访问方式，用户可以通过HDFS shell, HDFS API，数据收集组件以及计算框架等存取HDFS上的文件。

【读书笔记】《大数据技术体系详解：原理、架构与实践》03.分布式文件系统