前面我们已经学习了Hadoop的HDFS、YARN、MapReduce,而且也学习了Zookeeper,现在我们来学习HBase,在学习HBase之前,我们先来粗略看一篇文章:Hadoop 十年解读与发展预测(插图+排版),这篇文章详细讲解了Hadoop过去最开始的十年发展历史,非常值得我们学习。从中我们可以了解到,我们的Google当年发表了三篇很关键的论文,分别是叙述了GFS(Google File System)、MapReduce、Bigtable,从字面上来看,我们可以大概理解到,是讲解了Google的文件系统,MapReduce,还有一个是大表。其实,也正是这三篇论文,才有了之后Hadoop的发展,对Hadoop的起源起到非常关键的作用。HDFS的灵感正是来源于GFS,MapReduce也是由于谷歌的MapReduce论文。而这篇文章需要讲解的HBase的灵感,也是三篇论文里面的Bigtable。
简单地了解了HBase的起源,我们再来看一下HBase的相关概念。
HBase(Hadoop Database):Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.
从官网的概念来看,我们的HBase主要有几个特点:
1、the Hadoop database:HBase是基于Hadoop的数据库,所以跟Hadoop是有强依赖关系的,而实际上,我们的HBase底层是要依赖于HDFS的,我们HBase上的数据,其实就是存放在HDFS上,这个我们在后面会学习到。
2、distributed:分布式的,我们的HBase结构也是主从结构,类似于HDFS的主从结构,主从结构有利于我们对表、对数据进行处理。
3、scalable:可扩展的,自然而然,我们的HBase的数据存储在HDFS上,HDFS可以部署在廉价的机器上,而且理论上可以无限扩展。所以,HBase其实是具有这个特点的。
4、big data store:大数据量的存储,说明我们HBase可以存储很大的数据量,一张表可以达到数百万列,数十亿行,而传统数据库,在达到上百万行的时候,就要考虑进行读写分离、分库分表等操作了。
在简单地了解了HBase的概念后,我们来看一下HBase产生的背景。
首先我们来想一个这样的情景,比如说我们现在要开发一个网站,开发好后要将网站程序打包到服务器上执行,而在运行你的网站前,应该先在你的服务器(如:Centos)装好数据库(如:MySQL、Redis、Oracle等等)。
我们应该都很清楚,我们的网站程序里面,我们的数据是以表的形式来存储和读取的,而这些表,就是我们数据类型里面的结构化数据。如果没有数据库,其实我们网站程序相关的数据也是可以存放在你的服务器系统上的,只是,你会发现特别麻烦,如果直接存到Linux,你可以通过简单的Select语句检索出你想要的数据吗?你能简单地用一句Update就修改里面相关条件的内容吗?你能够通过简单的聚合函数就做一些简单的分析吗?明显是不太容易操作的,当然也还有很多原因,我们只是简单地列举一下。
OK,我们现在回到我们的大数据相关知识。到目前为止,我们已经学过了HDFS,是一个分布式文件系统,我们的数据可以存放到我们的HDFS上。但是,如果我们要对数据进行一些快速查询、聚合分析等操作的时候,也一样是非常困难的,这点跟我们上面分析的场景相类似。
下面总结一下HDFS与HBase的相关特点以及场景分析,以便有一个更清晰的认识。
1、HDFS不适合大量小文件的存储。因为存储的文件的元数据是存放到Namenode所在机器的内存中的,HDFS中每个文件、目录、数据块占用150个字节左右。如果存放1百万的文件则至少需要消耗300MB内存,但是如果存放数10亿甚至更大的数据的时候,我们的内存就非常局限了,当然这也是相对的,如果是几万个小文件,那当然是没有问题的。
2、适合用于高吞吐量的访问,而不适合低延迟访问,做不到低延迟访问,操作时不是简单地在本地就可以实现,需要联系多台服务器,索引等等也是一个限制。所以,为了提高HDFS的性能,这里边就有了一个原则:尽可能地去移动计算而不是移动数据。在吞吐量很大的时候,我们的计算就相对更小,此时我们当然是移动我们的计算程序去其他节点会更节省资源。
3、适合流式数据访问,一个文件只能被一个用户写,不支持随机写入,只能在文件末尾append进去,或者直接覆盖掉。此外,我们的用户最好就是在访问的时候,尽量减少断开连接、建立连接的操作,因为此操作也是需要消耗性能的,最好就是做到一次建立了连接,一直访问、操作就好。流式数据访问,可以理解为就是一直都在访问,即一直都连接。
4、适合用于一次写入,多次读取,而且不适应用于低时间的访问。我们在进行写文件的时候需要涉及到多台服务器,那就存放RPC、数据传输等操作,非常消耗性能,所以最好就是存好在HDFS了就最好不要乱动了。而且有一点,HDFS的读取是按顺序读取的,不利于检索。
理解完HDFS,我们来看一下HBase:
1、有利于处理各种类型的数据,如结构化数据、半结构化或者非半结构数据。
2、HBase是以稀疏的结构存储数据的,我们的数据是按列进行存储的,如果某一行的这一列没有数据,则不占用空间。
3、HBase支持多版本存储,默认是只存储一个版本,但是可以设置存多个版本,这个版本的索引是时间戳。
4、HBase支持随机读写,而HDFS只支持追加或者覆盖。
到目前为止,我们可以简单总结一下HBase的产生背景,我们都知道HDFS与HBase都是用来存储数据的,而HBase的出现,主要也是为了做一些HDFS做不到的。
接下来,我们来看一下HBase的存储结构。
在开始讲结构之前,我们先来看一下百度百科里面的一句话:
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
——来自百度百科
高可靠性、高性能、可伸缩我们此处不做叙述,主要开一下面向列这一特性。
我们都知道,传统的数据库,比如说MySQL、Oracle,这些数据库都是按行存储的,而我们这里的HBase,是按列进行存储的。
行存储于列存储的比较:
行存储,数据按行存储在底层文件系统中。通常,每一行会被分配固定的空间。这就有个问题了,如果数据库里面没有存放你这个人的Phone或者Address,但是因为有你的ID、Name,那么你的Phone和Address其实也是占用空间的。
优点:有利于增加、修改整行记录等操作,也有利于整行数据的读取操作。
缺点:单列查询时,会读取一些不必要的数据。比如你需要查找出数据库里面所有人的名字,则需要将所有数据都读取出来,然后将名字这一列检索出来。
列存储,数据以列为单位,存储在底层文件系统中,列是按照类似于文件夹这样的方式存储的。所以如果你要读取Name这一列,则直接把这个文件夹读取出来就行了,而不需要读取其他没关的数据。如果某个人的少了Address,那几不存就行了。
优点:有利于面向单列数据的读取、统计等操作。
缺点:整行读取时,可能需要多次I/O操作。
了解了列存储,我们来看一下HBase的存储结构。其实,我们的HBase是采用一种
首先我们先将HBase表的一些名字概念了解一下:
表名(Table):表名,跟传统数据库一样。
行键(Row Key):用来检索记录的主键,一行数据的主键。
列簇/列族(CF1、CF2):列的一个集合,而下面的列,其实可以当做是列簇的子列。
列(q1、q2):列,跟传统的列一样,但是,这里的列其实可有可无,只是列簇的子列而已,但是列簇一定不能少。
时间戳(TimeStamp):确定数据版本的索引。
上面五个名词是比较关键的名词,还有下面的Cell也是非常关键的。
Cell:由{Row Key, Column(= + ), Version}唯一确定的单元。由上面的图我们可以知道,一个行键,可以有很多数据,可以有很多列的数据。试想一下,如果我们知道了行键和列名,能确定一个真实的值了吗?其实还是不行的,那么还应该加上版本号,其实就是时间戳,这个时候才能真正确定一个数据,也就是说Cell相当于一个小小的单元。
了解完我们的一些名词概念后,我们来看一下HBase是怎样的Map结构,其实就是三个Map结构,就可以构成我们的HBase表。
首先第一个Map,我们将这个Map称之为Table,而表里面的key其实就是Row Key,一个又一个的key对应一个又一个的Row Key,而value,就对应Row Key所索引出来的数据,我们来看一下下面这张图:
比如说我们有一张snytable表,也就是这个Map对象是snytable。snytable里面有行健,对应下面的内容:
Map 等价于
Map
而我们上面的value,其实也是一个Map
Map 等价于
Map>
如果是传统数据库,如果知道了表名,还知道了id,还知道了列,其实我们就可以对数据进行增删改查了。而我们这里也知道了类似的信息,我们知道了表名,行键,列名,按道理已经是可以对数据进行增删改查了。但是,我们HBase还有一个重要的概念,那就是时间戳,它作为数据的版本存在,我们自然也不能少,不然,怎么知道你要修改哪个版本呢?!所以,我们继续演变,将我们的时间戳加进去:
Map> 等价于
Map>>
整理一下:
Map
>
>
这样,我们就可以很清晰地知道HBase的结构了。在这里,我们的结构没有加上列,是因为,我们在建表的时候,其实不需要列也是可以的,只需要有列簇即可,如果需要加上列,可以在Column Family后加上即可,如=> Column Family:name
为了让大家更好地理解,我这里边再解释一下,请看下面的图:
如上图,如果我们需要获取t1:Beijing
的值,我们可以通过由key3确定某一行,然后根据PersonalInfo确定列,然后确定Address,再确定时间戳t1,就可以得到里面相对应的值了。简而言之,就是根据 {row key,column family,column name,timestamp}可以得到相应的value值。即:{key3,PersonalInfo,Address,t1}->Beijing。所有相应的值,都是以这样的KeyValue键值对形式确定的。
此时此刻,请认真地回想一下我们前面所讲的内容,我们首先是建一张表,表是一个Map,Map是由key-value组成的,而行键是这个Map的key,也就是这行数据的索引,所以,我们的数据是一行一行的,我们可以称这个Map里面的每一对key-value为row;而第二个Map里面,Column Family作为这个Map的key,可以有很多个key,这里的Map是一列一列的,我们可以称这个Map里面的每一对key-value为clumn。
教程:HBase集群的安装与配置
此教程主要有两个步骤:
一、解压、配置HBase
首先我们像之前的Zookeeper等一样,下载好安装包后解压安装包,然后进行配置文件设置,我们这里有三个配置文件需要配置:hbase-env.sh
、regionservers
1、hbase-env.sh
与HDFS类似,我们的HBase也是由Java写的,所以我们要在此文件中配置好JAVA_HOME
路径,然后,要在此文件中将HBase所依赖的Zookeeper设置成我们自己独立安装的Zookeeper,上一教程我们已经安装好了Zookeeper,我们设置成内置Zookeeper管理为false:
export HBASE_MANAGES_ZK=false
此外,我们还可以设置一下HBase的配置文件,将Hadoop的也配置上(如果不配置,也可以将Hadoop里面的配置文件拷贝到$HBASE/conf
路径下,如拷贝hdfs-site.xml
):
export HBASE_CLASSPATH=/usr/local/hadoop-2.7.5/etc/hadoop
2、regionservers
然后我们需要给HBase分配角色,与HDFS类似。
3、hbase-site.xml
修改好之后,加上Master的环境变量,然后同步到slave1、slave2。
二、启动
启动HBase之前,要先启动三台服务器的Zookeeper,HDFS也要先启动,YARN可以不启动。最后再启动HBase,教程里面出现了几个问题,其实在我们平时的操作中是不会出现的,因为教程里面是在Docker里安装的,资源较少,容易出现问题。
PS:教程还没有空整理,目前只有一个安装的教程,后期会添加更加教程!
1、未同步配置文件到slaves节点,修改好后忘记重启HBase
2、忘记先启动Zookeeper
一、HBase的起源
二、HBase的概念
三、HBase产生的背景
四、HDFS与HBase的相关特点以及场景分析
HDFS的适用场景分析
HBase的适用场景分析
五、HBase的存储结构
行存储的优缺点
列存储的优缺点
HBase的底层存储结构
存储结构总结
六、配套教程详解
配套教程六之HBase集群的安装与配置
七、常见错误总结
文章总览
后期更精彩
HBase的Shell、Java API操作?
HBase关键理论之RowKey的设计原则?
通过实操理解HBase各服务进程的作用?
通过实操理解HBase表的结构组成?
通过实操理解Zookeeper在HBase集群里面的作用?
实际生产上的HBase性能调优(设计JVM)?
HBase HA的实现?
因为此文章仅根据个人了解,用白话形式记录,所以难免有些地方使用描述地不够恰当,甚至也会理解错误,恳请读者们指正,谢谢!我们努力提供更加友好的资料,不误导人。如果您想要加入我们,请与我们联系,谢谢。
作者简介:邵奈一
全栈工程师、市场洞察者、专栏编辑
| 公众号 | 微信 | 微博 | CSDN | 简书 |
福利:
邵奈一的技术博客导航
邵奈一 原创不易,如转载请标明出处。