HBase的是Hadoop的数据库,它提供了随机,实时读/写访问非常大的数据。
哪些节点应该运行HBase的主人服务,以及哪些节点计划应运行HBase的RegionServer。至少一个节点(通常是三个节点)应该运行HBase的主,例如,在动物园管理员节点上安装HBase的主人。只有少数剩余节点或所有剩余的节点可以运行HBase的RegionServer。当你在也运行TaskTracker必须的节点上安装HBase的RegionServer,减少地图的数量,降低槽,以免超额预订机。以下过程使用的操作系统软件包管理器,从MAPR存储库下载安装。要手动安装软件包,请参阅 准备包和存储库。
下表显示了HBase的版本和MAPR分布的Hadoop版本之间的兼容性。
HBase的版本
|
MAPR版本
|
---|---|
0.90.x | 1.2.9 |
0.92.x | 1.2.x版本,2.x中,3.0.0 |
0.94.x | 1.2.x版本,2.x中,3.0.0,3.0.1 |
0.94.12 | 1.2.x版本,2.x中,3.x的 |
根
或使用 sudo的
。更新可用软件包列表:
在每个计划HBase的主节点,安装 MAPR-HBase的主站
:
在每个计划的HBase RegionServer节点,安装 MAPR-HBase的,regionserver
:
configure.sh
与CLDB节点和动物园管理员节点集群中的列表。监狱长拿起新的配置,并自动启动新的服务。如果方便的话,请重新启动监狱长:
根
或使用 sudo的
。在每个计划HBase的主节点,安装 MAPR-HBase的主站
:
在每个计划的HBase RegionServer节点,安装 MAPR-HBase的,regionserver
:
configure.sh
与CLDB节点和节点的ZooKeeper集群中的列表脚本。监狱长拿起新的配置,并自动启动新的服务。如果方便的话,请重新启动监狱长:
若要从一台机器的集群外使用HBase的shell,你可以在运行MAPR客户端的计算机上安装HBase的。对于MAPR客户端安装说明,请参阅 设置客户。
前提条件:
根
或使用 sudo的
。MAPR-HBase的内部
:
yum的安装MAPR-HBase的内部
apt-get的安装MAPR-HBase的内部
configure.sh
与CLDB节点和动物园管理员节点集群中的列表。编辑 的HBase-site.xml中
,设置 hbase.zookeeper.quorum
属性包含一个逗号分隔的你将与工作在集群上的动物园管理员节点的IP地址或主机名列表。例如:
在本教程中,我们将在群集上创建的HBase表,输入一些数据,查询该表,然后清理数据并退出。
HBase的表是由列组织的,而不是按行。此外,该列被安排在称为组列族。当创建一个HBase的表,则必须插入任何数据之前定义的列族。列族不应该经常改变,也不应该有太多了,所以要仔细想想列族将是有用的为您的特定数据是非常重要的。每一列的家庭,但是,可以包含一个非常大的列数。列所使用的格式命名预选赛:家庭
。
不同于列在关系数据库中,其中保留为没有值的列空,HBase的列根本就不是他们有没有值的行存在。这不仅节省了空间,而且意味着不同的行不必有相同的列,你可以使用任何列你需要在每一行的基础数据。
启动HBase的外壳通过键入以下命令:
创建一个名为表博客
有一列家族命名的统计
:
检查表的创建,列出一切:
测试值添加到日常
在列统计
列家族的第1行:
测试值添加到每周
在列统计
列家族的第1行:
测试值添加到每周
在列统计
列家族的第2行:
输入扫描“博客”
,以显示表的内容。示例输出:
类型得到'博客','ROW1'
显示第1行的内容。示例输出:
禁用'博客'
禁用表。降'博客'
来删除该表并删除所有数据。退出
,退出HBase的外壳。
使用压缩与HBase的减少通过网络传输并存储在磁盘上的字节数。这些好处往往大于压缩在每次写入数据,并在每一个读解压缩它的性能开销。
Gzip压缩包含在大多数Linux发行版,并与HBase的作品本身。使用gzip压缩,在每列族压缩标志指定它同时创造在HBase的壳表。例如:
基于Lempel-谢夫-Oberhumer(LZO)是一种无损数据压缩算法,包括在大多数的Linux发行版,这是专为解压速度。
apt-get的安装liblzo2-dev的liblzo2
yum的安装LZO-发育LZO
对于0.20.2检查出branches/branch-0.1
设置编译器标志,并建立本地连接库:
创建的本地库(使用TAB键完成,填补了
构建结果复制到HBase的每个节点上适当的HBase的目录。例如:
/ opt/mapr/hbase/hbase- / lib/native/Linux-amd64-64 /
指向
在Ubuntu:
在Red Hat或CentOS:
重启RegionServer:
一旦LZO设置,你可以在每列族压缩标志指定它同时创造在HBase的壳表。例如:
这个短小精悍的压缩算法进行了速度优化了压缩。活泼的,不包含在核心MAPR分布,而你将要兴建的清脆库使用这个压缩算法。
在集群中的一个节点,下载,编译和安装从清脆 的项目页面:
在/ usr / local / lib目录/ libsnappy *
到 / lib/native/Linux-amd64-64 /
在集群中的所有节点目录。maprcli 节点服务 nodes>的,TaskTracker必须重启节点 命令。
要运行MapReduce作业存储在HBase的数据,设置环境变量 HADOOP_CLASSPATH
到的输出 HBase的类路径
命令(使用TAB键完成,填补了
占位符):
注意反引号(`
)。
注:在上一个MAPR群集中的节点,输出目录/ hbase/export_t1将设在MAPR Hadoop的文件系统,所以要列出使用下面例子中的输出文件的从节点的命令行下的hadoop fs的命令:
#hadoop的FS-LS / hbase/export_t1
要查看输出:
#hadoop的FS-CAT / hbase/export_t1/part-m-00000
HBase的预写日志(WAL)写道许多微小的记录,并压缩它会导致大量的CPU负载。使用HBase的之前,请关闭MAPR压缩目录中的HBase的体积(通常安装在 / HBase的
例子:
您可以检查压缩是否被关闭在一个目录或安装的卷使用 Hadoop的MFS
列出该文件的内容。例如:
信 Ž
在输出表示压缩被接通;信 ü
表示压缩是关 闭的。看到 hadoop的MFS
获取更多信息。
/选择/ MAPR / conf /中warden.conf
文件。见 调整您的MAPR安装 的更多信息。您可以启动和停止HBase的一样的MAPR其他服务。例如,使用下面的命令来关闭HBase的跨集群: