hbase RowCounter 使用

 

hbase org.apache.hadoop.hbase.mapreduce.RowCounter   tablename cf:cq

有同学说这个运行出来的结果不对,结果只有几十,而实际上应该有几百万。差别这么大,原因在哪里?

查看代码发现 RowCounter的代码片段

    scan.setFilter(new FirstKeyOnlyFilter());
    if (sb.length() > 0) {
      for (String columnName : sb.toString().trim().split(" ")) {
        String [] fields = columnName.split(":");
        if(fields.length == 1) {
          scan.addFamily(Bytes.toBytes(fields[0]));
        } else {
          scan.addColumn(Bytes.toBytes(fields[0]), Bytes.toBytes(fields[1]));
        }
      }
    }

 这里的scan使用了FirstKeyOnlyFilter,又加上了column的限制。而FirstKeyOnlyFilter的原理是只返回整个row里面的第一个key/value,如果column不是row里面排在第一个的column,那么先会被FirstKeyOnlyFilter给屏蔽掉,然后在查看column,这样导致很多属于这个column的数据都被过滤掉,导致实际结果少很多。

 

 

 

 

 

你可能感兴趣的:(hbase)