HBase基础

记录HBase的学习历程,趟过的坑和总结。内容较多,请先查看目录。

介绍

那HBase是什么呢?我们能用它来做什么?带着这两个疑问,我们一起学习

  • HBase是一个NOSQL数据库,能够完成大数据的秒级查询
  • HBase的数据真正存储的地方还是在HDFS
  • HBase的核心思想 / Bigtable(大表)原理:将所有数据存入一张表中,以存储空间换性能

HBase的几个概念

  • 表:存储和管理数据,Bigtable大表,而不是二维表
  • 行键:不唯一且不为空,相同行键作为一条记录
  • 列族:列的集合(创建大表时预先定义好列族,列是插入数据时HBase自动创建的)
  • 时间戳:列的一个属性
  • 单元格:一个单元格存储多个数据

HBase表的特点(五大)

  • 大:一张表有上亿行、上百万的列
  • 面向列:列式数据库,按照列来存储数据的
  • 稀疏:因为空列不占据存储空间
  • 无模式:不同行可以有截然不同的列
  • 数据类型非常单一:只有字符串类型,没有其他数据类型

安装

  • 下载 https://hbase.apache.org/downloads.html
  • 解压 tar -zxvf hbase-1.3.3-bin.tar.gz
  • 添加环境变量HBASE_HOME
    • vi /ect/profile
      export HBASE_HOME=/root/training/hbase-1.3.3
      export PATH=$HBASE_HOME/bin:$PATH
      
    • source /etc/profile

HBase的四种模式

本地模式

  • 特点:1.不需要HDFS,将数据直接保存在本地磁盘上;2.测试HBase数据库的增删改查功能
  • 修改hbase-env.sh,添加JAVA_HOME的路径
    在这里插入图片描述
  • 修改hbase-site.xml
    
    
    hbase.rootdir
    file:///root/training/hbase-1.3.3/data
    
    
  • 启动 start-hbase.sh,控制台输出以下日志即启动成功
    starting master, logging to /root/training/hbase-1.3.3/logs/hbase-root-master-bigdata11.out
    输入jps也能看到进程HMaster

伪分布式模式

  • 特点:单机虚拟出多个节点(HMaster、Regionserver),具备HBase的所有功能,HBase数据保存在HDFS上
  • 修改hbase-env.sh,添加JAVA_HOME的路径,设置HBASE_MANAGES_ZK=true(缺省值也是true)
    配置HBase管理Zookeeper的方式有两种,这里使用HBase自带的zookeeper(默认使用自带)
    在这里插入图片描述
  • 修改hbase-site.xml
    
    
    hbase.rootdir
    hdfs://bigdata11:9000/hbase
    
    
    
    dfs.replication
    1
    
    
    
    hbase.cluster.distributed
    true
    
    
    
    hbase.zookeeper.quorum
    bigdata11
    
    
    
    hbase.zookeeper.property.dataDir
    /data/myzk
    
    
  • 先start-all.sh启动Hadoop集群,再start-hbase.sh启动HBase集群,输入后能够看到控制台输出
    在这里插入图片描述
    查看java进程jps
    HBase基础_第1张图片

全分布式模式

基于Hadoop集群搭建,注意各节点时间要同步,
否则Hadoop执行MapReduce就会报错,HBase的Regionserver会自动停止

  • 集群规划
    bigdata12 HMaster、zookeeper
    bigdata13 Regionserver
    bigdata14 Regionserver
  • 给上面三个节点添加环境变量HBASE_HOME,然后source ~/.bash_profile
  • 修改hbase-env.sh,添加JAVA_HOME的路径,配置HBase管理Zookeeper的方式(默认使用自带)
  • 修改hbase-site.xml
    
    
    hbase.rootdir
    hdfs://bigdata12:9000/hbase
    
    
    
    dfs.replication
    2
    
    
    
    hbase.cluster.distributed
    true
    
    
    
    hbase.zookeeper.quorum
    bigdata12
    
    
    
    hbase.zookeeper.property.dataDir
    /data/myzk
    
    
    
    hbase.master.maxclockskew
    180000
    
    
  • 修改regionservers
    bigdata13
    bigdata14
  • bigdata12配置好后,把本地整个文件夹拷贝到其他两个节点
    scp -r hbase-1.3.3 root@bigdata13:/root/training
    scp -r hbase-1.3.3 root@bigdata14:/root/training
  • 先start-all.sh启动Hadoop集群,再start-hbase.sh启动HBase集群,然后查看各个节点的进程
    HBase基础_第2张图片
    HBase基础_第3张图片
    HBase基础_第4张图片

HA模式

部署HA前,访问http://bigdata12:16010
HBase基础_第5张图片
Hadoop的HA模式需要单独搭建,而HBase的HA模式不需要单独搭建
在从节点bigdata13或bigdata14手动启动:hbase-daemon.sh start master
原理:多几个HMaster
HBase基础_第6张图片

小技巧

如果你用的终端模拟工具是Xshell的话,在使用hbase shell的脚本时,肯定也发现了不能使用delted和back建回退删除,解决方法如下
HBase基础_第7张图片

操作HBase

参考资料:https://www.cnblogs.com/shadowalker/p/7350484.html

HBase数据保存的过程(Region的分裂)

HDFS:数据的倾斜 功能:数据平衡—>数据的拷贝(移动)
hdfs balancer run a cluster balancing utility

HBase:数据倾斜的问题 数据平衡----->数据的移动
问题:网络造成巨大的压力
解决方案:多增加从节点的个数

Java API 操作HBase

需要的依赖


    org.apache.hbase
    hbase-common
    1.3.1


    org.apache.hbase
    hbase-client
    1.3.1

HBase的过滤器

  • 列值过滤器:select * from emp where sal=3000;
    SingleColumnValueFilter
  • 列名前缀过滤器:查询员工的姓名 select ename from emp;
    ColumnPrefixFilter
  • 多个列名前缀过滤器:查询员工的姓名和薪水: select ename,sal from emp;
    MultipleColumnPrefixFilter
  • 行键过滤器:通过rowkey查询,类似通过Get查询数据
    RowFilter
  • 组合多个过滤器查询数据:where 条件1 and(or) 条件2
    如查询sal=3000的员工姓名,需要用到列值过滤器+列名前缀过滤器
    FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL); //and
    filterList.addFilter(singleColumnValueFilter);
    filterList.addFilter(columnPrefixFilter);

你可能感兴趣的:(大数据)