hbase shell及 java api的过滤器操作

一. hbase shell的filter操作

1. 不设置过滤器,全表扫描
    scan '表名' //查询出某个表格内全部的数据记录
    举例 :  scan 'upos_city_qh_yushu:tb_detail_userloc_outdoor_22180822'
    查询结果如下(截取了其中一个行键的内容) :

hbase shell及 java api的过滤器操作_第1张图片

 因为hbase的shell脚本操作十分不方便,并且不支持查看上下文,对我们使用者来说十分不友好,所以对于查询操作,我们使用诸如下面的操作进行"

举例 : echo "scan 'upos_city_qh_yushu:tb_detail_userloc_outdoor_20180822'" | hbase shell
// 输出表格的查询结果到控制台,效果等同于在hbase shell脚本里进行查询
// 需要注意的是脚本里面包含""的话,前面需要加\进行转义
// 接下来的示例将使用两种方式进行举例,并且每条命令均经过验证
2. 按照value的值过滤 ValueFilter
    scan '表名', FILTER=>"ValueFilter(=,'substring:value值')" //查询出某个表格内列值包含指定字符串的记录
    举例: upos_city_qh_yushu:tb_detail_userloc_outdoor_22180822, FILTER=>"ValueFilter(=,'substring:6327')"
    //该命令表示查询表名 upos_city_qh_yushu:tb_detail_userloc_outdoor_22180822
    里面值包含6327的记录

hbase shell及 java api的过滤器操作_第2张图片

3. 按照列簇进行过滤 FamilyFilter
    scan '表名', FILTER=>"FamilyFilter(=,'substring:字符串的值')" //查询出某个表名列簇包含某个字符串的记录
    举例 :  scan 'upos_city_qh_yushu:tb_detail_userloc_outdoor_20180822', FILTER=>"FamilyFilter(=,'substring:l')"
    
    echo "scan 'upos_city_qh_yushu:tb_detail_userloc_outdoor_20180822',FILTER=>\"FamilyFilter(=,'substring:l')\"" | hbase shell
4. 按照行键进行过滤 RowFilter
    
    a. 过滤出行键包含某个字符串的数据记录(模糊查询)
    命令 : scan '表名',FILTER=>"RowFilter(=,'substring:字符串的值')"
    举例 : scan 'upos_city_qh_yushu:tb_detail_userloc_outdoor_20180822',FILTER=>"RowFilter(=,'substring:3040')"
    
    echo "scan 'upos_city_qh_yushu:tb_detail_userloc_outdoor_20180822',FILTER=>\"RowFilter(=,'substring:3040')\"" | hbase shell
    
    b. 按照某个确定的行键进行过滤 (<,<=,=,>,>=)
    命令 : scan '表名',FILTER=>"RowFilter(=,'binary:行键值')"
    举例 : scan 'upos_city_qh_yushu:tb_detail_userloc_outdoor_20180822',FILTER=>"RowFilter(=,'binary:00_460075097670490_1534925332480')"
    
    echo "scan 'upos_city_qh_yushu:tb_detail_userloc_outdoor_20180822',FILTER=>\"RowFilter(=,'binary:00_460075097670490_1534925332480')\"" | hbase shell

查询结果如下所示 : 行键为00_460075097670490_1534925332480的全部记录
hbase shell及 java api的过滤器操作_第3张图片
<, <=, >, >= 同理

    c. 按照行键前缀进行过滤 PrefixFilter
    scan '表名',FILTER=>"PrefixFilter('行键前缀')" //查询出行键以某个字符串开始的记录
    scan 'upos_city_qh_yushu:tb_detail_userloc_outdoor_20180822',FILTER=>"PrefixFilter('00_46007509767')"
    echo "scan 'upos_city_qh_yushu:tb_detail_userloc_outdoor_20180822',FILTER=>\"PrefixFilter('00_46007509767')\"" | hbase shell

二. java api的filter操作

1. 首先介绍一下 hbase过滤操作的一些参数

(1)比较运算符 CompareFilter.CompareOp
比较运算符用于定义比较关系,可以有以下几类值供选择:

EQUAL                                相等
GREATER                              大于
GREATER_OR_EQUAL                     大于等于
LESS                                 小于
LESS_OR_EQUAL                        小于等于
NOT_EQUAL                            不等于


(2)比较器  ByteArrayComparable
通过比较器可以实现多样化目标匹配效果,比较器有以下子类可以使用:

BinaryComparator               匹配完整字节数组 
BinaryPrefixComparator         匹配字节数组前缀 
BitComparator
NullComparator
RegexStringComparator          正则表达式匹配
SubstringComparator            子串匹配

2. 设置hbase连接相关配置,获取hbase连接

   /**
    * 获取hbase连接的配置
    * @param quorum  举例 : 127.0.0.1:2181
    * @return
    */
   private Configuration getConfiguration(String quorum)
   {
   	Configuration conf = HBaseConfiguration.create();
   	conf.set("hbase.zookeeper.quorum", quorum);
   	conf.set("hbase.rootdir", "/data/hadoop/data");
   	conf.set("zookeeper.znode.parent", "/hbase");
   	return conf;
   }


   /**
    * 获取hbase连接
    * @param conf
    * @return
    */
   private Connection getConnection(Configuration conf)
   {
   	Connection conn = null;
   		try 
   		{
   			conn = ConnectionFactory.createConnection(conf);
   			System.out.println("获取hbase连接成功!   " + conf.get("hbase.zookeeper.quorum") );
   		} catch (IOException e) {
   			System.out.println("获取hbase连接失败 " + e.getMessage());
   		}
   	
   	return conn;
   }

3. 获取scan对象,设置过滤条件

    Table table = connection.getTable(TableName.valueOf(tableName));
    // 通过上一步操作获取到的连接, 和想要查询的表名来获取table对象
    Scan scan = new Scan(); // 获取scan对象, 通过该对象来进行查询
    
    接下来就要设置过滤器来进行过滤查询:
    
    如果过滤条件只有一种,直接使用各种Filter对象即可
    过滤条件有多种,使用 :
    FilterList filters = new FilterList(); // 过滤器集合
    然后使用 scan.setFilter(filters); //将过滤器添加到进去
    最后使用  ResultScanner rs = table.getScanner(scan); //即可获取结果集

java api的过滤器操作 :

a. 基于列簇的过滤器FamilyFilter
构造函数:
    FamilyFilter(CompareFilter.CompareOp familyCompareOp, ByteArrayComparable familyComparator)

    FamilyFilter familyFilter = new FamilyFilter(CompareOp.EQUAL , new BinaryComparator(Bytes.toBytes("info")));   
    //返回有列簇info的数据
b. 基于列的过滤器QualifierFilter
b1. 基于列名过滤
    构造函数:
    QualifierFilter(CompareFilter.CompareOp op, ByteArrayComparable qualifierComparator)
    举例 : 
	QualifierFilter qualifierFilter = new QualifierFilter(
        CompareOp.EQUAL , new BinaryComparator(Bytes.toBytes("eci")));
        // 返回包含eci列的数据
b2. 基于列名前缀过滤
    构造函数:
    ColumnPrefixFilter(byte[] prefix) 
     ColumnPrefixFilter columnPrefixFilter = new ColumnPrefixFilter(Bytes.toBytes("i"));
     //返回列名以i开头的全部数据
b3. 基于多个列名前缀过滤 MultipleColumnPrefixFilter
    byte[][] bytes = new byte[][] {Bytes.toBytes("i"), Bytes.toBytes("eci")};
          
    MultipleColumnPrefixFilter multipleColumnPrefixFilter = new MultipleColumnPrefixFilter(bytes);
  //返回所有行中以i或者eci打头的列的数据

c.基于行键的过滤器RowkeyFilter(主要)
c1. 行键比较过滤器
    Filter filter = null;
    String filterStr = "00_460075097670490_1534925332480";
    
    行键相等过滤器 :
    filter = new PrefixFilter(Bytes.toBytes(filterStr.trim())); //返回行键内容为该指定行键的全部内容
    
    行键不等过滤器 : 
    filter = new RowFilter(CompareOp.NOT_EQUAL, new BinaryComparator(filterStr.trim().getBytes()));
    //返回行键不等于该指定行键的全部内容
    
    行键小于过滤器 :
    filter = new RowFilter(CompareOp.LESS, new BinaryPrefixComparator(filterStr.trim().getBytes()));
    //返回行键前缀小于等于指定行键的全部内容
    
    行键小于等于过滤器 : 
    filter = new RowFilter(CompareOp.LESS_OR_EQUAL, new BinaryPrefixComparator(filterStr.trim().getBytes()));
    // 返回行键前缀小于等于该指定行键的全部内容
    
    行键大于过滤器 : 
    filter = new RowFilter(CompareOp.GREATER, new BinaryPrefixComparator(filterStr.trim().getBytes()));
    // 返回行键前缀大于等于指定行键的全部内容
    
    行键大于等于过滤器 : 
    filter = new RowFilter(CompareOp.GREATER_OR_EQUAL, new BinaryPrefixComparator(filterStr.trim().getBytes()));
    // 返回行键大于等于指定行键的全部内容 
c2. 行键包含过滤器
    行键包含过滤器 : 
    filter = new RowFilter(CompareFilter.CompareOp.EQUAL, new SubstringComparator(filterStr.trim())); 
    // 过滤出行键包含指定字符串的全部数据
c3. 通过startkey和 endkey来进行过滤
    
    相比以上的过滤器,在结果集的数据条数大致相同的情况下,这种过滤方式的效率明显更高
    在我们的业务场景里应用的最为广泛
    
    这种方式就不是使用Filter对象了 : 
    
    代码如下 :
    String startkey = "00_460075097670490_1534925332480";
    String endkey = "00_460075097670490_1534925432480"
    Scan scan = new Scan();
    scan.setStartRow(startkey.trim().getBytes());
    scan.setStopRow(endkey.trim().getBytes());
    // 查询从起始行键到结束行键的全部记录数
    // 注意 : 包括起始行键和结尾行键!!
4. 根据之前获取到的ResultScanner对象, 遍历结果集并输出结果:
    ResultScanner rs = table.getScanner(scan);
        for (Result result : rs) {
			 List<Cell> cells= result.listCells();	
			 for (Cell cell : cells) {
				 String row = Bytes.toString(result.getRow());
				 String family1 = Bytes.toString(CellUtil.cloneFamily(cell));
				 String qualifier = Bytes.toString(CellUtil.cloneQualifier(cell));
				 String value = Bytes.toString(CellUtil.cloneValue(cell));
				 System.out.println("[row:"+row+"],[family:"+family1+"],[qualifier:"+qualifier+"]"
				 		+ ",[value:"+value+"],[time:"+cell.getTimestamp()+"]");
			}
		}

参考的博客链接:

你可能感兴趣的:(大数据开发)