HBase基本架构

HBase架构图

HBase基本架构_第1张图片

 

1. Hbase有2大核心组件Master和RegionServer。Hbase又依赖于Zookeeper和HDFS,其中Zookeeper一方面用来管理Master的高可用,另一方面用来监控RegionServer。而HDFS用来存储最终的数据。

2.这里的Master管理所有RegionServer,负责DDL操作;而RegionServer管理所有Region,负责DML操作。

3.RegionServer中有一个HLog(WAL)文件,叫预写入日志,用于记录数据操作,防止内存中数据丢失。

3.每个RegionServer上有多个Region,Region跟表有对应关系,对表进行横向切分可以形成多个Region。每个Region中有多个store,每个store对应一个文件夹,每个Store中有多个StoreFile文件,数据就存储在StoreFile中。StoreFile(文件名)以HFile(一种文件格式,类似于txt,orc格式)的形式进行存储。

4.不过数据一般是先存储在内存的MemStore中,排好序后,等到一定时机才会Flush到磁盘上形成StoreFile文件,每次Flush都会形成一个新的StoreFile,所以会形成多个StoreFile文件,对于多个小的StoreFile文件会进行合并,合并到一定大小后又会进行切分。

5.最后RegionServer将HLog和StoreFile均写入到HDFS中。

你可能感兴趣的:(大数据)