HDFS 之 数据管理(namespace 和 slaves)

1、namespace

Namespace在HDFS中是一个非常重要的概念,也是有效管理数据的方法。Namespace有很多优点:可伸缩性。使HDFS集群存储能力可以轻松进行水平拓展;系统性能。单点性能受限,影响系统吞吐;隔离性。不同业务类型访问集群有时容易互相干扰,使用多Namespace可以有效管理访问分类。

1.1 Namespace概况

HDFS具有良好的拓展性,单集群可以很轻松地部署数百至数千服务节点。相应的集群所存储的数据也会增加,那么如何有效地管理和使用这些数据?答案就是Namespace,以分层次结构管理数据。集群与Namespace的关系有点类似“大集群”与“小集群”的关系,彼此独立又相互依存。

特点如下:

  • 每个Namespace彼此独立。Namespace工作时只负责维护本区域的数据,各Namespace之间互不干扰。此外也有各自的资源属性,如元数据、Quota、Permission和用户等。
  • 数据节点共用。所有的Namespace维护的文件都可以共用DataNode节点,为了区分数据属于哪些Namespace, DataNode会以BlockPool的形式进行管理。

namespace和集群的关系:

1.1.1 cluster ID

每个Namespace都有一个属于自己唯一标识符ClusterID,用以标识集群中的所有节点。当对Namenode进行格式化

你可能感兴趣的:(中间件,hdfs,hadoop,大数据)