1、hbase的过滤器实现原则
客户端创建包含过滤器Filter的scan
Scan通过rpc发送给regionServer,在服务器端执行过滤操作
Scan的作用域是region,一个ResionServer有多个region的话,scan被发送给多个region。
2、hbase的fileter工作流程
在hbase中一行数据对应一个或多个keyvalue。流程:
(1)boolean filterRowKey(byte[] buffer,int offset,int length)检查rowkey,返回true代表被过滤掉,false进入下个方法。
(2)ReturnCode filterKeyValueKeyValue(KeyValue v):检查rowkey下特定的某一个可与啊略,它有5种返回值,常见的ReturnCode.Include代表结果中包含这个keyvalue,skip代表不包含,继续处理下一个keyvalue。
(3)void filterRow(List ignored):ignored是里边被过滤掉的keyvalue集合
(4)boolean filterRow():返回true代表过滤掉当前行。
(5)void reset():迭代每一个新的RowKey(步骤1)之前嗲用此方法
(6)boolean filterAllRemaining():返回true时候代表中止整个扫描操作,如果用户找到了需要的所有数据,就可以反回true。
3、hbase宕机
Hfile大小改为100G,禁止系统自己做major
compaction;给datanode多一些内存,调整rpc线程数量
4、hbase优化
(1)预分区
(2)随即散列key
(3)批量写:数据在客户端累积到一定量再发写请求
table.setWriterBufferSize(1*1024*1024);table.setAutoFlush(false)
(4)批量读:使用scan顺序读取的时候,默认是一个Rpc请求返回一条数据,可以设置一次返回多条缓存在客户端的数据sn。setCaching(1000)
(5)使用filter:使用过滤器减少网络流量
5、查询数据
(1)get查询列
get 'tablename','rowkey' 查询指定rowkey的行
get 'tablename','rowkey',{COLUMN=>'column family:column name''}读取指定列
使用JAVA API读取数据:
Configuration conf=HBaseConfiguration.create();
Connection connection=ConnectionFactory.createConnection(conf); //设置表名
Table htable=connection.getTable(TableName.valueOf("TableName"));
Get get=new Get(Bytes.toBytes("rowkey"); //设置rowkey
Result result=table.get(get); //查询
byte[] value1=result.getValue(Bytes.toBytes("famliyName"),Bytes.toBytes("columnName1")); //获取对应列的指定值
byte[] value2=result.getValue(Bytes.toBytes("famliyName"),Bytes.toBytes("columnName2"));
String name1=Bytes.toString(value1); //将数据转化为string
String name2=Bytes.toString(value2);
Table htable=connection.getTable(TableName.valueOf("tableName"));
(2)san扫描
scan 'tableName' 扫描该表所有数据
使用JAVA API读取数据:
Configuration conf=HBaseConfiguration.create();
Connection connection=ConnectionFactory.createConnection(conf);
Table htable=connection.getTable(TableName.valueOf("TableName"));
Scan scan=new Scan();
scan.adddColumn(Bytes.toBytes("familiName"),Bytes.toBytes("columnName"));
ResultScanner scanner=table.getScanner(scan);;
for(Result reault=scanner.next();result!=null;result=Scanner.next()){
System.out.println("result:"+result);
}
scanner.closer();
Table htable=connection.getTable(TableName.valueOf("tableName"));
6、Shell操作命令
(1)数据定义语言
create:创建一个表;list:列出hbase所有表;disable:禁用表;is_disabled:验证表是否被禁用;enable:启用一个表;is_enabled:验证表是否已启用;describle:提供了一个表的描述;alter:改变一个表;exists:验证表是否存在;drop:删除表;drop_all:删除在命令中给出匹配“regex”的表;
(2)数据操作语言
put:给指定单元赋值;get:获取行或单元格内容;delete:删除表中单元格值;deleteall:删除给定行的所有单元格;scan:扫描并返回表数据;count:技术并返回表中的行的数目;truncate:禁用,删除和重新创建一个指定的表;
(3)HBase Admin API
HBase提供JavaAPI与Hbase的通信。HBaseAdmin是一个类表示管理,属于org.apache.hadoop.hbase.client包,使用这个类可以执行管理员任务,使用Connection.getAdmin()获取管理员实例。
void createTable(HTableDescriptor desc)创建一个新的表
void createTable(HTableDescriptor desc,byte[][] splitKeys)创建一个新表使用一组初始指定的分割键限定空区域
void deleteColumn(byte[] tableName,String columnName)从表中删除列
void deleteColumn(String tableName,String columnName) 删除表中的列
void deleteTable(String tableName)删除表
(4)Descriptor类:包含一个HBase表,有所有列蔟的描述、存储的最大尺寸、当区域分割发生、与之相关联的协同处理器等。
构造函数:HTableDescriptor(TableName name)构造一个表描述指定TableName,狗仔一个表描述指定的tableName对象;
方法:HTableDescriptor addFamily(HColumnDescriptor family)将列蔟给定的描述符。
7、java Admin API相关操作
Configuration config=HBaseConfiguration.create();
Connection connection=ConnectionFactory.createConnection(conf);
Admin admin=connection.getAdmin();
//新建表
HTableDescriptor tableDescriptor=new TableDescriptor(TableName.valueOf("tableName");
tableDescriptor.addFamily(new HColumnDescriptor("family");//添加列蔟
admin.createTable(tableDescriptor);//创建表
//查看表(list)
HTableDescriptor[] tableDescriptor=admin.listTables();
for(int i=0;i
System.out.println(tableDescriptor[i].getNameAsString();)}
//禁用表
(disable '表名';disable_all 'r.*禁用所有正则表达式的表;enable '表名'启用表)
Boolean flag=admin.isTableDisabled("tableName");//验证表是否被禁用
if(!flag){
admin.disableTable("tableName")};//禁用表
admin.enableTable("tableName")};//启用表
//表描述的修改与查看
(describe '表名'查看表信息;alter '表名',NAME=>'family',VERSIONT=>5设置每个数据最大版本数;alter '表名',READONLY(option)设置表为只读;alter '表名','delete'=>'family'删除列蔟;)
HColumnDescriptor columDescriptor=new HColumnDescriptor("列蔟名");//添加一个列蔟
admin.addColumn("表名",columDescriptor);//添加列蔟
admin.deleteColumn("表名“,"列蔟名”);//删除列蔟
//查看表是否存在(exists '表名')
Boolean flag=admin.tableExists("表名“);//查看表是否存在
//删除表(disable '表名';drop '表名';删除表之前必须将其禁用)
admin.disableTable("表名");admin.deleteTable("表名");
//停用Hbase(./bin/stop-hbase.sh)
admin.shutdown();
8、Java API客户端操作(操作数据)
Configuration conf=HbaseConfigurationn.create();
Connection connection=ConnectionFactory.createConnection(conf);
Table htable=connection.getTable(TableName.valueOf("tableName"));
(1)插入数据(如果该rowkey存在,那么更新数据)
(put '表名','rowkey','列蔟:列名','数值')
Put put=new Put(Bytes.toBytes("rowkey"));
p.add(Bytes.toBytes("列蔟"),Bytes.toBytes(”列名"),时间戳(long类型,可选),Bytes.toBytes("值"));
htable.put(put);或者可以使用htable.put(List
);进行批量插入 (2)删除数据
(delete '表名','rowkey‘,’列蔟:列名',时间戳;
delete '表名','rowkey'删除一行中所有单元格)
Delete delete=new Delete(Bytes.toBytes("rowkey"));
delete.deleteFamily(Bytes.toBytes("family"));//删除该key的整个列蔟的数据
delete.deleteColumn(Bytes.toBytes("family"),Bytes.toBytes("column"));//删除某一列的数据
table.delete(delete);
(3)两种查询数据方式查看第五点;
table.close();
9、计数+截断
count '表名' 计算表的行数
truncate '表名' 会禁止该表并删除,创建一个一样的表,新表的数据为空