HBase 数据模型

在HBase中,数据存储在表中,表有行和列,这看起来跟关系型数据库类似,但其实又不同。下面具体介绍一下HBase中的结构,

表(TABLE)
一个HBase表包含多行。

行(Row)
行由行键(row key)及一或多个相关的列组成。行是按照行键存储的,因此合理的设计行键十分重要。由此可以看出,HBase表类似于一个索引的结构。

列(Column)
一个列由列族和列标识符组成,列族和列标识符以:分隔。

列族(Column Family)
从物理存储的角度,一个列族包含一组列及其中的值。每个列族都有一些存储相关的属性,如数据是否缓存、数据是否压缩、行键是否编码等等。HBase中的每行都具有相同的列族,即便一个固定的行可能什么数据都没有。

列标识(Column Qualifier)
列标识在列族中用来指向某一块特定的数据。比如,列族如为content,一个列标识为content:html,另一个列标识为content:pdf。列族一般在创建表的时候就固定下来,而列标识则是可以在任意时间随时添加到一个列族中。

单元格(Cell)
单元格由行键、列族、列标识组成,并包含具体的数据及一个时间戳,时间戳代表了数据的版本。

时间戳(Timestamp)
HBase中表都中的数据都有时间戳,代表数据的版本。默认情况下为数据被写入的时间,也可以自己指定。

下面是一个HBase的样例表,

HBase 数据模型_第1张图片

实质上,HBase是一个Key-Value的存储形式,这可以通过下图很好的理解,

HBase 数据模型_第2张图片

你可能感兴趣的:(HBase,大数据)