HBase的一些问题和答案

1.我们常说HBase是“数据即日志”的数据库,它是怎样修改和删除数据的?和Oracle这类传统的RDBMS有什么区别?
由于HBase的数据文件在HDFS系统中,因此本质上很难修改和删除数据。在HBase中,修改和删除数据都是增加1个新版本的数据(时间戳为最新),旧版本的数据并没有发生变化。
Oracle没有数据的版本概念,在修改和删除数据时不会增加新的数据记录,直接对老数据进行修改或删除。一旦完成修改或删除,则原始数据发生变化。

2 HBase合并storefile的原因是什么?在合并的过程中会做什么操作?如果在合并过程中恰好有涉及到有关storefile的查询发生,会发生什么情况(这个问题需要自行研究)?
HBbase的新数据首先是放在MemoryStore中的,数据量超过阈值后才会被写入物理文件StoreFile。因此,这些物理文件StoreFile初次的容量都不大(内存的映射)。
HBase会定时合并这些较小的StoreFile,形成较大的StoreFile更有利于HDFS物理文件的读操作。而且,合并时会删除其中过期的旧版本数据和被删除的数据。
如果在合并过程中恰好有涉及到有关storefile的查询发生的话,HBase先是把小storefile加载到内存中,用户可以在内存中检索相关数据,
其实内存中做存在一个独立镜像备份专门提供查询,当合并完成后内存空间中的镜像备份才会被撤销。

3 HBase具有怎样的一致性水平?
CAP理论是由EricBrewer教授提出的,在设计和部署分布式应用的时候,存在三个核心的系统需求,这个三个需求之间存在一定的特殊关系。三个需求如下:
C: Consistency 一致性
A: Availability 可用性
P:Partition Tolerance分区容错性
CAP理论的核心是:一个分布式系统不可能同时很好的满足一致性,可用性和分区容错性这三个需求,最多只能同时较好的满足两个。
C: Consistency 一致性

一致性又称为原子性或者事务性。表示一个事务的操作是不可分割的,要不然这个事务完成,要不然这个事务不完成,不会出现这个事务完成了一半这样的情况。这种事务的原子性使得数据具有一致性。
我们通常情况下在数据库中存在的脏数据就属于数据没有具有一致性的表现。而在分布式系统中,经常出现的一个数据不具有一致性的情况是读写数据时缺乏一致性。比如两个节点数据冗余,第一个节点有一个写操作,数据更新以后没有有效的使得第二个节点更新数据,在读取第二个节点的时候就会出现不一致的问题出现。
传统的ACID数据库是很少存在一致性问题的,因为数据的单点原因,数据的存取又具有良好的事务性,不会出现读写的不一致。

HBase架构在HDFS系统之上,是分布式的NoSQL列式数据库,它是一个CP型数据库(相反Cassandra是一个AP型数据库)。每一行数据仅在一个Region中,
没有多余副本可读,保证了数据的一致性。


你可能感兴趣的:(Hadoop)