文中可能涉及到的API:
Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/
HBase: http://hbase.apache.org/apidocs/index.html?overview-summary.html
Begin!
最近做的项目用到了HBase处理海量的数据记录,并在前端UI提供了查询浏览功能。
起初,这部分功能是使用Postgresql实现的,顺理成章的实现了分页浏览与按指定字段排序功能。
但是,由于产品处理数据量级的改变(预估上亿,离真正的海量还很远~,但已经超出的PG可以快速响应的量级),产品设计尸从产品可扩展性与数据可靠性的角度考虑,要我将PG中的一些数据切到HBase中。但是前端UI又不能有明显改变。
于是……就有了这篇文档。
本篇文档的目的在于为向我一样初步使用HBase的攻城尸提供一些思路和Keyword。
————————————————————————————————————————————————
1、PG数据库(包括其他一些关系型数据库)据说在单表记录数超过100w时就会变得很慢。解决方法是分表,或者迁移到专注于处理海量数据的NoSQL。——我们选择了后者。
2、拿到HBase我做的第一件工作是性能测试,主要验证了两件事:
a)HBase对数据操作的响应速度与当前表中的数据量无关,但是与数据的split以及本地缓存等配置项有很大关系。 比如rowKey的合理设计,使相关数据相邻存放;比如使用scan时setCatch(num)方法中num的取值。
b)HBase对数据操作的响应在毫秒级,满足我们前端显示的需要。
3、分页查询时,前端需要请求记录总数,用于计算总页数。然后再请求每页的内容,请求 每页内容时两个主要参数(start,limit)。比如0,20;肯定是第一页数据,从第0条开始,请求20条数据。比如20,20;这就是第二页,从 第20条开始请求20条数据,以此类推。
4、HBase获得记录总数很困难,浏览所有数据倒好说,我可以在数据库中存一下当前 数据库中记录的总数。但如果是搜索功能怎么办?如果满足条件的记录有1亿条,我总不能先遍历一边记个数啊……听说在MapReduce层可以有办法完成总 数的统计,以后有机会接触到我会研究一下写出来的。
5、既然HBase无法获得记录总数,那就采用那种不需要总页数的分页方式呗。比如微博、某些论坛那样,前端根本不去获取总记录数,只要知道后面还有没有数据就可以了,提供给用户“下一页”,或“下n页”的功能。我纠结与记录总数主要是因为之前UI控件的限制……
6、上述的分页展现形式类似于:用户浏览数据首页时,选页栏显示 1 2 3 4 5 6.....,当用户点到第5页时,选页栏显示 ... 3 4 5 6 7 8 ....。不提供用户随意输页号,也不提供最后一页的按钮。
7、HBase端处理时,肯定要用到scan,然后调用setFilter方法,使用pageFilter限制一下返回的记录条数。
8、我还设计了一种缓存机制,绑定每个登陆的用户,在用户浏览记录时,每个一定记录数 (比如100条),记录一下这条记录的rowKey。这样在用户请求第100条到120条记录这一页时我的scan可以设置startRowKey为我刚 才缓存的那个。这样可以避免把前面所有的数据scan出来后再逐条遍历去数数。
9、我使用了Spring最新提供的Spring Hadoop框架,这个框架为我管理了几乎所有的HBase Client资源,非常好用!我不用在scan完后手动调用close方法,我不用自己维护一个TablePool每次去选表,我不用自己创建 Configuration实例,我不用自己去写将一条记录映射回实例的接口(实现当然还要自己写……,只要实现了RowMapper接口就可以了)。
这只是我目前在项目中自己摸索并使用的一种可行方案。
接下来打算补充一些关于搜素功能的实现思路,比如同时按时间范围、文件名、分类名、权限几个条件的搜索~
以及二级索引的实现方式,数据记录id自增的实现,数据定期定量删除等。
Author:Pirate Leo
myBlog: http://blog.csdn.net/pirateleo/
myEmail: [email protected]
转载请注明出处,谢谢。
Author:Pirate Leo
myBlog: http://blog.csdn.net/pirateleo/
myEmail: [email protected]
转载请注明出处,谢谢。