个人总结-Hbase

1、hbase的过滤器实现原则

客户端创建包含过滤器Filter的scan

Scan通过rpc发送给regionServer,在服务器端执行过滤操作

Scan的作用域是region,一个ResionServer有多个region的话,scan被发送给多个region。

2、hbase的fileter工作流程

在hbase中一行数据对应一个或多个keyvalue。流程:

(1)boolean filterRowKey(byte[] buffer,int offset,int length)检查rowkey,返回true代表被过滤掉,false进入下个方法。

(2)ReturnCode filterKeyValueKeyValue(KeyValue v):检查rowkey下特定的某一个可与啊略,它有5种返回值,常见的ReturnCode.Include代表结果中包含这个keyvalue,skip代表不包含,继续处理下一个keyvalue。

(3)void filterRow(List ignored):ignored是里边被过滤掉的keyvalue集合

(4)boolean filterRow():返回true代表过滤掉当前行。

(5)void reset():迭代每一个新的RowKey(步骤1)之前嗲用此方法

(6)boolean filterAllRemaining():返回true时候代表中止整个扫描操作,如果用户找到了需要的所有数据,就可以反回true。

3、hbase宕机

Hfile大小改为100G,禁止系统自己做major

compaction;给datanode多一些内存,调整rpc线程数量

4、hbase优化

(1)预分区

(2)随即散列key

(3)批量写:数据在客户端累积到一定量再发写请求

table.setWriterBufferSize(1*1024*1024);table.setAutoFlush(false)

(4)批量读:使用scan顺序读取的时候,默认是一个Rpc请求返回一条数据,可以设置一次返回多条缓存在客户端的数据sn。setCaching(1000)

(5)使用filter:使用过滤器减少网络流量

5、查询数据

(1)get查询列

get 'tablename','rowkey' 查询指定rowkey的行

get 'tablename','rowkey',{COLUMN=>'column family:column name''}读取指定列

使用JAVA API读取数据:

Configuration conf=HBaseConfiguration.create();

Connection connection=ConnectionFactory.createConnection(conf);  //设置表名

Table htable=connection.getTable(TableName.valueOf("TableName"));

Get get=new Get(Bytes.toBytes("rowkey");   //设置rowkey

Result result=table.get(get);  //查询

byte[] value1=result.getValue(Bytes.toBytes("famliyName"),Bytes.toBytes("columnName1"));  //获取对应列的指定值

byte[] value2=result.getValue(Bytes.toBytes("famliyName"),Bytes.toBytes("columnName2"));

String name1=Bytes.toString(value1);  //将数据转化为string

String name2=Bytes.toString(value2);

Table htable=connection.getTable(TableName.valueOf("tableName"));

(2)san扫描

scan 'tableName' 扫描该表所有数据

使用JAVA API读取数据:

Configuration conf=HBaseConfiguration.create();

Connection connection=ConnectionFactory.createConnection(conf);

Table htable=connection.getTable(TableName.valueOf("TableName"));

Scan scan=new Scan();

scan.adddColumn(Bytes.toBytes("familiName"),Bytes.toBytes("columnName"));

ResultScanner scanner=table.getScanner(scan);;

for(Result reault=scanner.next();result!=null;result=Scanner.next()){

System.out.println("result:"+result);

}

scanner.closer();

Table htable=connection.getTable(TableName.valueOf("tableName"));

6、Shell操作命令

(1)数据定义语言

create:创建一个表;list:列出hbase所有表;disable:禁用表;is_disabled:验证表是否被禁用;enable:启用一个表;is_enabled:验证表是否已启用;describle:提供了一个表的描述;alter:改变一个表;exists:验证表是否存在;drop:删除表;drop_all:删除在命令中给出匹配“regex”的表;

(2)数据操作语言

put:给指定单元赋值;get:获取行或单元格内容;delete:删除表中单元格值;deleteall:删除给定行的所有单元格;scan:扫描并返回表数据;count:技术并返回表中的行的数目;truncate:禁用,删除和重新创建一个指定的表;

(3)HBase Admin API

HBase提供JavaAPI与Hbase的通信。HBaseAdmin是一个类表示管理,属于org.apache.hadoop.hbase.client包,使用这个类可以执行管理员任务,使用Connection.getAdmin()获取管理员实例。

void createTable(HTableDescriptor desc)创建一个新的表

void createTable(HTableDescriptor desc,byte[][] splitKeys)创建一个新表使用一组初始指定的分割键限定空区域

void deleteColumn(byte[] tableName,String columnName)从表中删除列

void deleteColumn(String tableName,String columnName) 删除表中的列

void deleteTable(String tableName)删除表

(4)Descriptor类:包含一个HBase表,有所有列蔟的描述、存储的最大尺寸、当区域分割发生、与之相关联的协同处理器等。

构造函数:HTableDescriptor(TableName name)构造一个表描述指定TableName,狗仔一个表描述指定的tableName对象;

方法:HTableDescriptor addFamily(HColumnDescriptor family)将列蔟给定的描述符。

7、java Admin  API相关操作

Configuration config=HBaseConfiguration.create();

Connection connection=ConnectionFactory.createConnection(conf);

Admin admin=connection.getAdmin();

//新建表

HTableDescriptor tableDescriptor=new TableDescriptor(TableName.valueOf("tableName");

tableDescriptor.addFamily(new HColumnDescriptor("family");//添加列蔟

admin.createTable(tableDescriptor);//创建表

//查看表(list)

HTableDescriptor[] tableDescriptor=admin.listTables();

for(int i=0;i

System.out.println(tableDescriptor[i].getNameAsString();)}

//禁用表

(disable '表名';disable_all 'r.*禁用所有正则表达式的表;enable '表名'启用表)

Boolean flag=admin.isTableDisabled("tableName");//验证表是否被禁用

if(!flag){

admin.disableTable("tableName")};//禁用表

admin.enableTable("tableName")};//启用表

//表描述的修改与查看

(describe '表名'查看表信息;alter '表名',NAME=>'family',VERSIONT=>5设置每个数据最大版本数;alter '表名',READONLY(option)设置表为只读;alter '表名','delete'=>'family'删除列蔟;)

HColumnDescriptor columDescriptor=new HColumnDescriptor("列蔟名");//添加一个列蔟

admin.addColumn("表名",columDescriptor);//添加列蔟

admin.deleteColumn("表名“,"列蔟名”);//删除列蔟

//查看表是否存在(exists '表名')

Boolean flag=admin.tableExists("表名“);//查看表是否存在

//删除表(disable '表名';drop '表名';删除表之前必须将其禁用)

admin.disableTable("表名");admin.deleteTable("表名");

//停用Hbase(./bin/stop-hbase.sh)

admin.shutdown();

8、Java API客户端操作(操作数据)

Configuration conf=HbaseConfigurationn.create();

Connection connection=ConnectionFactory.createConnection(conf);

Table htable=connection.getTable(TableName.valueOf("tableName"));

(1)插入数据(如果该rowkey存在,那么更新数据)

(put '表名','rowkey','列蔟:列名','数值')

Put put=new Put(Bytes.toBytes("rowkey"));

p.add(Bytes.toBytes("列蔟"),Bytes.toBytes(”列名"),时间戳(long类型,可选),Bytes.toBytes("值"));

htable.put(put);或者可以使用htable.put(List);进行批量插入

(2)删除数据

(delete '表名','rowkey‘,’列蔟:列名',时间戳;

delete '表名','rowkey'删除一行中所有单元格)

Delete delete=new Delete(Bytes.toBytes("rowkey"));

delete.deleteFamily(Bytes.toBytes("family"));//删除该key的整个列蔟的数据

delete.deleteColumn(Bytes.toBytes("family"),Bytes.toBytes("column"));//删除某一列的数据

table.delete(delete);

(3)两种查询数据方式查看第五点;

table.close();

9、计数+截断

count '表名' 计算表的行数

truncate '表名' 会禁止该表并删除,创建一个一样的表,新表的数据为空

你可能感兴趣的:(个人总结-Hbase)