HBase协处理器实战

1.协处理器介绍

 定义:hbase可以让用户的部分逻辑在数据存放端,即hbase服务端进行计算的机制(框架)。也就是说,协处理器允许用户在hbase服务器上允许自己的代码


因为hbase有一些不好的特性,比如无法轻易建立“二级索引”,以及难以执行求和,计数,排序等操作。引入协处理器后,可以轻易建立二级索引,以及访问控制等。


2.协处理器分类

系统协处理器可以全局导入Region Server上的所有数据表,表协处理器是用户可以指定一张表使用的协处理器。

从实现的角度,可分为:1.观察者(observer),类似关系数据库中的触发器;2.终端(endpoint),动态的终端有点像存储过程。


其中observer可分为四类:

  • Region Observer:允许处理Region上的事件
  • RegionServerObserver
  • MasterObserver
  • WalObserver
  Endpoint是动态RPC插件的接口,它的实现代码被安装在服务器端,从而能够通过HBase RPC唤醒。


3.演示endpoint 对表中某个列进行计数

因为允许用户在hbase服务器上允许自己的代码,所以在服务器端完成计算后将结果发送给客户端,可以减少数据传输的消耗。

首先在hbase的服务器端生成一个RPC服务,即在服务端对指定表的指定列值进行求和计算,并将计算结果返回给客户端。客户端调用该RPC服务,获取响应结果后输出。

我们要用到Protocol Buffer,先通过Protocol Buffer 生成RPC接口文件导入项目,再在新建类中编写服务端代码。

你可能感兴趣的:(大数据)