hbase安装

hbase依赖于hadoop环境,先得安装好hadoop集群,当然也可以跑单机版的hbase,不过那样就没意义了

安装hadoop,参考 hadoop安装  http://sunqi.iteye.com/blog/1432015


 

参考网上的资料,自己动手实践一下

 

下载hbase

wget http://mirror.bjtu.edu.cn/apache/hbase/hbase-0.90.4/hbase-0.90.4.tar.gz



 

1.配置conf/hbase-env.sh

exportJAVA_HOME=/usr/soft/java/


# Tell HBase whether it should manage it'sown instance of Zookeeper or not.

export HBASE_MANAGES_ZK=true


修改 conf/hbase-env.sh里面java的安装路径.在这个文件里你还可以设置Hbase的运行环境,诸如 heapsize和其他 JVM有关的选项, 

还有Log文件地址等. 



一个分布式运行的Hbase依赖一个zookeeper集群。所有的节点和客户端都必须能够访问zookeeper。默认的情况下Hbase会管理一个zookeep集群。这个集群会随着Hbase的启动而启动。当然,你也可以自己管理一个zookeeper集群,但需要配置Hbase。你需要修改conf/hbase-env.sh里面的HBASE_MANAGES_ZK 来切换。这个值默认是true的,作用是让Hbase启动的时候同时也启动zookeeper.


让Hbase使用一个现有的不被Hbase托管的Zookeep集群,需要设置 conf/hbase-env.sh文件中的HBASE_MANAGES_ZK 属性为 false


# Tell HBase whether it should manage it's own instanceof Zookeeper or not.


export HBASE_MANAGES_ZK=true

为偷懒点,就设置为true,当然你也可以自己部署Zookeeper集群,这样也需要自己部署,自己启动,线上环境肯定需要自己部署




2. 配置conf/hbase-site.xml


<configuration>


    <property>


    <name>hbase.rootdir</name>


    <value>hdfs://node1:49000/hbase</value>


    <description>The directory shared byRegionServers.


    </description>


  </property>


  <property>


    <name>hbase.cluster.distributed</name>


    <value>true</value>


    <description>The mode the clusterwill be in. Possible values are


      false: standalone and pseudo-distributedsetups with managed Zookeeper


      true: fully-distributed with unmanagedZookeeper Quorum (see hbase-env.sh)


    </description>


  </property>




    <property>


      <name>hbase.zookeeper.property.clientPort</name>


      <value>2181</value>


      <description>Property fromZooKeeper's config zoo.cfg.


      The port at which the clients willconnect.


      </description>


    </property>


    <property>


      <name>hbase.zookeeper.quorum</name>


      <value>node1,node2,node4</value>


      <description>Comma separated listof servers in the ZooKeeper Quorum.


      For example,"host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".


      By default this is set to localhost forlocal and pseudo-distributed modes


      of operation. For a fully-distributedsetup, this should be set to a full


      list of ZooKeeper quorum servers. IfHBASE_MANAGES_ZK is set in hbase-env.sh


      this is the list of servers which we willstart/stop ZooKeeper on.


      </description>


    </property>


    <property>


      <name>hbase.zookeeper.property.dataDir</name>


      <value>/home/hadoop/zookeeper</value>


      <description>Property fromZooKeeper's config zoo.cfg.


      The directory where the snapshot isstored.


      </description>


    </property>


</configuration>




要想运行完全分布式模式,加一个属性 hbase.cluster.distributed 设置为 true 然后把 hbase.rootdir 设置为HDFS的NameNode的位置。 例如,你的namenode运行在node1,端口是49002 你期望的目录是 /hbase,使用如下的配置:hdfs://node1:49002/hbase


hbase.rootdir:这个目录是region server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的'/hbase'目录,namenode 运行在node1的9090端口。则需要设置为hdfs://node1:49002/hbase。默认情况下Hbase是写到/tmp的。不改这个配置,数据会在重启的时候丢失。默认: file:///tmp/hbase-${user.name}/hbase


hbase.cluster.distributed :Hbase的运行模式。false是单机模式,true是分布式模式。若为false,Hbase和Zookeeper会运行在同一个JVM里面。


默认: false


在hbase-site.xml配置zookeeper:


当Hbase管理zookeeper的时候,你可以通过修改zoo.cfg来配置zookeeper,


一个更加简单的方法是在 conf/hbase-site.xml里面修改zookeeper的配置。Zookeeer的配置是作为property写在 hbase-site.xml里面的。


对于zookeepr的配置,你至少要在 hbase-site.xml中列出zookeepr的ensemble servers,具体的字段是 hbase.zookeeper.quorum. 该这个字段的默认值是 localhost,这个值对于分布式应用显然是不可以的. (远程连接无法使用)。


 


hbase.zookeeper.property.clientPort:ZooKeeper的zoo.conf中的配置。 客户端连接的端口。


hbase.zookeeper.quorum:Zookeeper集群的地址列表,用逗号分割。例如:"host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".默认是localhost,是给伪分布式用的。要修改才能在完全分布式的情况下使用。如果在hbase-env.sh设置了HBASE_MANAGES_ZK,这些ZooKeeper节点就会和Hbase一起启动。


默认: localhost


运行一个zookeeper也是可以的,但是在生产环境中,你最好部署3,5个节点。部署的越多,可靠性就越高,当然只能部署奇数个,偶数个是不可以的。你需要给每个zookeeper 1G左右的内存,如果可能的话,最好有独立的磁盘。 (独立磁盘可以确保zookeeper是高性能的。).如果你的集群负载很重,不要把Zookeeper和RegionServer运行在同一台机器上面。就像DataNodes 和 TaskTrackers一样


hbase.zookeeper.property.dataDir:ZooKeeper的zoo.conf中的配置。 快照的存储位置


把ZooKeeper保存数据的目录地址改掉。默认值是 /tmp ,这里在重启的时候会被操作系统删掉,可以把它修改到 /home/hadoop/zookeeper (这个路径hadoop用户拥有操作权限)


对于独立的Zookeeper,要指明Zookeeper的host和端口。可以在 hbase-site.xml中设置, 也可以在Hbase的CLASSPATH下面加一个zoo.cfg配置文件。 HBase 会优先加载 zoo.cfg 里面的配置,把hbase-site.xml里面的覆盖掉.


参见 http://www.yankay.com/wp-content/hbase/book.html#hbase_default_configurations可以查找hbase.zookeeper.property 前缀,找到关于zookeeper的配置。



3. 配置conf/regionservers

Node3

Node4


完全分布式模式的还需要修改conf/regionservers. 在这里列出了你希望运行的全部 HRegionServer,一行写一个host (就像Hadoop里面的 slaves 一样). 列在这里的server会随着集群的启动而启动,集群的停止而停止.




4.当Hbase托管ZooKeeper的时候

当Hbase托管ZooKeeper的时候Zookeeper集群的启动是Hbase启动脚本的一部分


首先确认你的HDFS是运行着的。你可以运行HADOOP_HOME中的 bin/start-hdfs.sh 来启动HDFS.你可以通过put命令来测试放一个文件,然后有get命令来读这个文件。通常情况下Hbase是不会运行mapreduce的。所以比不需要检查这些。


用如下命令启动Hbase:


bin/start-hbase.sh


这个脚本在HBASE_HOME目录里面。


你现在已经启动Hbase了。Hbase把log记在 logs 子目录里面. 当Hbase启动出问题的时候,可以看看Log.


Hbase也有一个界面,上面会列出重要的属性。默认是在Master的60010端口上H (HBase RegionServers 会默认绑定 60020端口,在端口60030上有一个展示信息的界面 ).如果Master运行在 node1,端口是默认的话,


你可以用浏览器看 http://node1:60010/master.jsp

hbase安装_第1张图片

hbase安装_第2张图片

一旦Hbase启动,可以看到如何建表,插入数据,scan你的表,还有disable这个表,最后把它删掉。


可以在Hbase Shell停止Hbase


$./bin/stop-hbase.sh


stoppinghbase...............


停止操作需要一些时间,你的集群越大,停的时间可能会越长。如果你正在运行一个分布式的操作,要确认在Hbase彻底停止之前,Hadoop不能停.



5.独立的zookeeper启动,

如果hbase-env.sh里面设置了HBASE_MANAGES_ZK=false,那除了启动habse,


执行:bin/start-hbase.sh启动habse


你需要自己去运行zookeeper:


${HBASE_HOME}/bin/hbase-daemons.sh {start,stop} zookeeper


你可以用这条命令启动ZooKeeper而不启动Hbase. HBASE_MANAGES_ZK 的值是 false, 如果你想在Hbase重启的时候不重启ZooKeeper,你可以这样。




6.可以使用jps查看进程:

在master上:

18307 JobTracker

18052 NameNode

18224 SecondaryNameNode

19072 Main

18881 HMaster

23586 Jps

18816 HQuorumPeer


在node4,node3(slave节点)上

12276 DataNode

12621 HRegionServer

12408 TaskTracker

12529 HQuorumPeer

14623 Jps

 

 

可以sh hbase-0.90.4/bin/hbase shell

进行查看,插入数据等操作,

同时,可以看到HDFS里面的一些数据

 

 

hbase安装_第3张图片

 

其实在启动的时候,会发现HMaster进程没有,这时候就需要查看日志,你会发现

FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.

java.io.IOException: Call to node1/10.64.56.76:49002 failed on local exception: java.io.EOFException


解决:

从hadoop_home/下面cp一个hadoop/hadoop-core-0.20.203.0.jar到hbase_home/lib下。


因为Hbase建立在Hadoop之上,所以他用到了hadoop.jar,这个Jar在 lib 里面。这个jar是hbase自己打了branch-0.20-append 补丁的hadoop.jar. Hadoop使用的hadoop.jar和Hbase使用的 必须 一致。所以你需要将 Hbaselib 目录下的hadoop.jar替换成Hadoop里面的那个,防止版本冲突。比方说CDH的版本没有HDFS-724而branch-0.20-append里面有,这个HDFS-724补丁修改了RPC协议。如果不替换,就会有版本冲突,继而造成严重的出错,Hadoop会看起来挂了。


再用./start-hbase.sh启动HBase后,jps下,发现主节点上HMaster还是没有启动,在HBase log里有下面异常:

FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.

java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration

解决:

在NoClassDefFoundError,缺少 org/apache/commons/configuration/Configuration 

果断给他加一个commons-configuration包,

从hadoop_home/lib下面cp一个hadoop/lib/commons-configuration-1.6.jar到hbase_home/lib下。


(集群上所有机子的hbase配置都需要一样)


注意事项:

 1)、先启动hadoop后,再开启hbase

 2)、去掉hadoop的安全模式:hadoop dfsadmin -safemode leave

 3)  、确认hbase的hbase-site.xml中

                  <name>hbase.rootdir</name>

                 <value>hdfs://node1:49000/hbase</value>

         与hadoop的core-site.xml中

                   <name>fs.default.name</name>

                  <value>hdfs://node:49000/hbase</value>

       value部分保持一致    


 4)、重新执行./start-hbase.sh之前,先kill掉当前的hbase和zookeeper进程


你可能感兴趣的:(hbase)