【Hadoop生态】-HDFS的理解

本博客用于本人自学记录
如果有错误欢迎指出

什么是HDFS?

灵魂之问,先把我的理解摆上来,HDFS是一种分布式文件系统,HDFS可以让用户的读写操作作用在分布式的存储设备,例如多台计算机、集群式服务器。在互联网,每天都产生N多的数据,甚至用于描述这些数据的单位我都不会念,可见数据量非常之大,单台计算机至少在目前是没有办法同时解决这么大体量数据的写入和读出可能性。而HDFS主要功能就是解决大数据的存储、访问、备份,属于Hadoop生态中的底层的应用。

HDFS的框架【Hadoop生态】-HDFS的理解_第1张图片

  • HDFS CLIENT
    就是客户端,客户端发起各种请求。

  • NameNode
    是存储文件属性信息的节点,该节点存储有datanode的信息,像window系统里的文件夹,确保客户端能够读到正确的datanode.

  • DataNode
    存储数据,HDFS把数据分布存储在不同的DataNode,同时DataNode会有冗余备份和接受NameNode发来的Heartbeat进行通讯。

  • Secondary NameNode
    用于提高可靠性,通常不与Name Node放在一起。

HDFS读写流程

【Hadoop生态】-HDFS的理解_第2张图片

  • 读的流程有6 步

【Hadoop生态】-HDFS的理解_第3张图片

  • 写的过程是7步

HDFS的特点

根据HDFS 框架结构和工作原理,我们不难发现 HDFS可靠性很高,即使有数台服务器中断服务也不会影响到数据本身的存储与读写,对于数据就是能源的信息时代,安全可靠这点很重要。其次HDFS能够完成大规模数据的存储管理,这本身就是一个优点,但是却因此牺牲了读取的速度。

你可能感兴趣的:(hadoop,hdfs,big,data)