Google在200-2006发表了GFS、MapReduce、BigTable三篇
论文
,号称“三驾马车”,开启了大数据的时代。
GFS是Google File System,开源实现是HDFS(Hadoop File System)。
MapReduce计算框架的开源实现是Hadoop MapReduce。
BigTable的开源实现的实现是HBase(Hadoop DataBase)。
Hadoop解决了海量数据的存储问题,HBase底层存储基于Hadoop,除了可以存储海量数据外,还解决了海量数据的随机查询问题。
1)HBase优点
2)HBase缺点
1)HBase表逻辑结构
2)HBase表物理存储结构
3)HBase数据模型
命名空间,类似于关系型数据库的database概念,每个命名空间下有多个表。HBase两个自带的命名空间,分别是hbase和default,hbase中存放的是HBase内置的表,default表是用户默认使用的命名空间。
类似于关系型数据库的表概念。不同的是,HBase定义表时只需要声明列族即可,不需要声明具体的列。这意味着,往HBase写入数据时,字段可以动态、按需指定。因此和关系型数据库相比,HBase能够轻松应对字段变更的场景。
HBase表中的每行数据都由一个RowKey和多个Column(列)组成,数据是按照RowKey的字典顺序存储的,并且查询数据时只能根据RowKey进行检索,所以RowKey的设计十分重要。
HBase中的每个列都由Column Family(列族)和Column Qualifier(列限定符)进行限定,例如info:name,info:age。建表时,只需指明列族,而列限定符无需预先定义。
用于标识数据的不同版本(version),每条数据写入时,系统会自动为其加上该字段,其值为写入HBase的时间。
由{rowkey, column Family:column Qualifier, time Stamp} 唯一确定的单元
1)、Table在行的方向上分割为多个Region,每个Region分散在不同的RegionServer中。
2)、每个Region由多个Store构成,每个Store由一个memStore和0或多个StoreFile组成,每个Store保存一个列族。
HBase表和region关系总结
1)、先读取zk的/hbase/meta-region-server节点信息,获取meta表所在的RegionServer
meta表其实就是HBase表,但未分片(只有一个region)
meta表rowkey主要是table,startKey,列信息主要是Regionserver所在的在服务器及端口
2)、根据rowkey在meta表中查询所在的Regionserver服务器及端口
3)、客户端向该RegionServer发送真正的数据读写请求
1)、根据rowkey在meta表中查询所在的Regionserver服务器及端口,向该RegionServer发送写请求
2)、先把数据写入到 HLog,以防止数据丢失。
3)、 然后将数据写入到 Memstore。
4)、如果memstore达到阈值,会把memstore中的数据flush到StoreFile 中
memstore刷新时机
a、单个memstroe大小达到阀值hbase.hregion.memstore.flush.size(默认值128M)
b、memstore总大小达到总内存的40%。hbase.regionserver.global.memstore.upperLimit(默认值0.4)
c、到达自动刷新时间hbase.regionserver.optionalcacheflushinterval(默认1小时)
5)、当Storefile越来越多,会触发合并操作
合并分两种:小合并和大合并
小合并:选取一些小的、相邻的Storefile将他们合并成一个更大的Storefile,这个过程还会清理部分TTL过期数据
大合并:合并Store中所有的Storefile为一个Storefile,这个过程还会清理所有TTL过期数据
6)、当Region 也会越来越大,达到阈值后,会触发 Split 操作,将 Region 一分为二。
region切分时机:min(256M*region数量^3 ,10G) 。具体的切分策略为:
第一次split:1^3 * 256 = 256MB
第二次split:2^3 * 256 = 2048MB
第三次split:3^3 * 256 = 6912MB
第四次split:4^3 * 256 = 16384MB > 10GB,因此取较小的值10GB
后面每次split的size都是10GB了。
create 'user_info', {NAME=>'base_info'}, {NAME=>'credit_info',TTL=>'86400'}
drop 'user_info'
alter 'user_info', {NAME=>'education_info'}
put 'user_info', 'u001', 'base_info:name', 'zhang san'
deleteall 'user_info', 'u001'
get 'user_info','u001'
get 'user_info','u001','base_info'
get 'user_info','u001','base_info'
scan 'user_info', {FILTER=>"PageFilter(10)", STARTROW=>''u0010}
HBase中的行是按照rowkey的字典顺序排序的,这种设计优化了 scan操作,可以将相关的行以及会被一起读取的行存取在临近位置,便于 scan读取。但也容易引发热点问题,比如说rowkey如果是递增的话,新增的数据会集中到一个region里面。所以rowkey设计要遵循以下原则
高位散列如何做?
预分片可以解决以下问题
预分片如何做?
create 'user_info', {NAME=>'base_info'}, {NAME=>'credit_info',TTL=>'86400'} ,SPLITS => ['100000000','200000000','300000000','400000000']
HBase没有database概念,创建的表可以不指定namespace,默认会放在default的namespace,在HBase不共用的时候没有问题。但如果共用的话,授权就会比较麻烦。所以创建表的时候,需要指定自定义的namespace