HDFS-为什么我们需要HDFS

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。对外部客户机而言，HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。很多时候，我们就叫它DFS（Distributed File System）。

Hadoop 是一个以一种可靠、高效、可伸缩的方式进行处理的，能够对大量数据进行分布式处理的系统框架。所以可以理解为hadoop是一个框架，HDFS是hadoop中的一个部件。

Paste_Image.png

文件系统是对文件存储器空间进行组织和分配，负责文件存储并对存入的文件进行保护和检索的系统。

为什么我们需要HDFS：

1.数据量巨大，磁盘开始很纠结的处理我们需要的海量信息。所以需要文件系统有大规模数据分布存储能力。

2.读取一块磁盘的所有数据需要很长时间，写入更是需要更长时间（写入时间一般是读取时间的3倍）即使有文件为1ZB，或者小点10EB时，这样的磁盘也无法做到随读随取。所以需要文件系统有高并发访问能力。

Paste_Image.png

Paste_Image.png

从概念图上看，分布化的文件系统会因为分布后的结构不完整，导致系统复杂度加大，并且引入的网络编程，同样导致分布式文件系统更加复杂。所以需要强大的容错能力。

Paste_Image.png

Paste_Image.png

Paste_Image.png

数据冗余式存储，直接将多份的分片文件交给分片后的存储服务器去校验。

Paste_Image.png

冗余后的分片文件还有个额外功能，只要冗余的分片文件中有一份是完整的，经过多次协同调整后，其他分片文件也将完整。
经过协调校验，无论是传输错误，I/O错误，还是个别服务器宕机，整个系统里的文件是完整的。

Paste_Image.png

分布后的文件系统有个无法回避的问题，因为文件不在一个磁盘导致读取访问操作的延时，这个是HDFS现在遇到的主要问题。
现阶段，HDFS的配置是按照高数据吞吐量优化的，可能会以高时间延时为代价。但万幸的是，HDFS是具有很高弹性，可以针对具体应用再优化。