HBase的一点纪要

1.        数据rowkey散列方便入库速度提升

2.        一般内存至少配置32G、8核CPU、硬盘不做Raid,系统盘和存储盘分开

3.        10台节点入库一个列族的表request数量应该在20W左右

4.        Bulk Load增量效果不一定好,适合第一次数据导入

5.        一个表的列族数量最好控制在4个以内

6.        SecondaryIndex一般来说还是采用多表的模式实现

7.        URL做rowkey一般来说是用域名或者(IP+时间+域名)

8.        SATA硬盘的I/O Wait一般是在15ms以内,如果太高就有可能是内存不够

9.    http://hbaseblog.com/2010/11/30/hbase-coprocessors/官方BLOG(值得看)

10.    Hbase Coprocessors,Hbase的工具,可以看

11.    Hbase的参数调整有利于集群稳定

12.    集群节点的SWAP需要关闭

13.    Zookeeper数量一般来说是3个(需要是奇数,选举机制)。1000台的规模配置7个

14.    Compact一般来说采用默认值,如果压缩、分表或是Block时间过长,可以调整

15.    数据压缩一般建议采用LZO的方式

16.    MR调度工具,Oozie(工作流串线)

17.    Lucene的index存放在Hbase中,实现Hbase数据条内的模糊查询

18.    Hbase单条数据size最好不要超过2MB

你可能感兴趣的:(工作,集群,Blog,hbase,存储,工具)