个人总结-Hbase

1、hbase的过滤器实现原则

客户端创建包含过滤器Filter的scan

Scan通过rpc发送给regionServer，在服务器端执行过滤操作

Scan的作用域是region，一个ResionServer有多个region的话，scan被发送给多个region。

2、hbase的fileter工作流程

在hbase中一行数据对应一个或多个keyvalue。流程：

（1）boolean filterRowKey(byte[] buffer,int offset,int length)检查rowkey，返回true代表被过滤掉，false进入下个方法。

（2）ReturnCode filterKeyValueKeyValue（KeyValue v）：检查rowkey下特定的某一个可与啊略，它有5种返回值，常见的ReturnCode.Include代表结果中包含这个keyvalue，skip代表不包含，继续处理下一个keyvalue。

（3）void filterRow（List ignored）:ignored是里边被过滤掉的keyvalue集合

（4）boolean filterRow（）：返回true代表过滤掉当前行。

（5）void reset（）：迭代每一个新的RowKey（步骤1）之前嗲用此方法

（6）boolean filterAllRemaining()：返回true时候代表中止整个扫描操作，如果用户找到了需要的所有数据，就可以反回true。

3、hbase宕机

Hfile大小改为100G，禁止系统自己做major

compaction；给datanode多一些内存，调整rpc线程数量

4、hbase优化

（1）预分区

（2）随即散列key

（3）批量写：数据在客户端累积到一定量再发写请求

table.setWriterBufferSize(1*1024*1024);table.setAutoFlush(false)

（4）批量读：使用scan顺序读取的时候，默认是一个Rpc请求返回一条数据，可以设置一次返回多条缓存在客户端的数据sn。setCaching(1000)

（5）使用filter：使用过滤器减少网络流量

5、查询数据

（1）get查询列

get 'tablename','rowkey' 查询指定rowkey的行

get 'tablename','rowkey',{COLUMN=>'column family:column name''}读取指定列

使用JAVA API读取数据：

Configuration conf=HBaseConfiguration.create();

Connection connection=ConnectionFactory.createConnection(conf); //设置表名

Table htable=connection.getTable(TableName.valueOf("TableName"));

Get get=new Get(Bytes.toBytes("rowkey"); //设置rowkey

Result result=table.get(get); //查询

byte[] value1=result.getValue(Bytes.toBytes("famliyName"),Bytes.toBytes("columnName1")); //获取对应列的指定值

byte[] value2=result.getValue(Bytes.toBytes("famliyName"),Bytes.toBytes("columnName2"));

String name1=Bytes.toString(value1); //将数据转化为string

String name2=Bytes.toString(value2);

Table htable=connection.getTable(TableName.valueOf("tableName"));

（2）san扫描

scan 'tableName' 扫描该表所有数据

使用JAVA API读取数据：

Configuration conf=HBaseConfiguration.create();

Connection connection=ConnectionFactory.createConnection(conf);

Table htable=connection.getTable(TableName.valueOf("TableName"));

Scan scan=new Scan();

scan.adddColumn(Bytes.toBytes("familiName"),Bytes.toBytes("columnName"));

ResultScanner scanner=table.getScanner(scan);;

for(Result reault=scanner.next();result!=null;result=Scanner.next()){

System.out.println("result:"+result);

}

scanner.closer();

Table htable=connection.getTable(TableName.valueOf("tableName"));

6、Shell操作命令

（1）数据定义语言

create:创建一个表；list：列出hbase所有表；disable：禁用表；is_disabled:验证表是否被禁用；enable：启用一个表；is_enabled:验证表是否已启用；describle：提供了一个表的描述；alter：改变一个表；exists：验证表是否存在；drop：删除表；drop_all:删除在命令中给出匹配“regex”的表；

（2）数据操作语言

put:给指定单元赋值；get：获取行或单元格内容；delete：删除表中单元格值；deleteall：删除给定行的所有单元格；scan：扫描并返回表数据；count：技术并返回表中的行的数目；truncate：禁用，删除和重新创建一个指定的表；

（3）HBase Admin API

HBase提供JavaAPI与Hbase的通信。HBaseAdmin是一个类表示管理，属于org.apache.hadoop.hbase.client包，使用这个类可以执行管理员任务，使用Connection.getAdmin()获取管理员实例。

void createTable(HTableDescriptor desc)创建一个新的表

void createTable(HTableDescriptor desc,byte[][] splitKeys)创建一个新表使用一组初始指定的分割键限定空区域

void deleteColumn(byte[] tableName,String columnName)从表中删除列

void deleteColumn(String tableName,String columnName) 删除表中的列

void deleteTable(String tableName)删除表

（4）Descriptor类：包含一个HBase表，有所有列蔟的描述、存储的最大尺寸、当区域分割发生、与之相关联的协同处理器等。

构造函数：HTableDescriptor（TableName name)构造一个表描述指定TableName，狗仔一个表描述指定的tableName对象；

方法：HTableDescriptor addFamily(HColumnDescriptor family)将列蔟给定的描述符。

7、java Admin API相关操作

Configuration config=HBaseConfiguration.create();

Connection connection=ConnectionFactory.createConnection(conf);

Admin admin=connection.getAdmin();

//新建表

HTableDescriptor tableDescriptor=new TableDescriptor(TableName.valueOf("tableName");

tableDescriptor.addFamily(new HColumnDescriptor("family");//添加列蔟

admin.createTable(tableDescriptor);//创建表

//查看表（list）

HTableDescriptor[] tableDescriptor=admin.listTables();

for(int i=0;i
System.out.println(tableDescriptor[i].getNameAsString();)}

//禁用表

（disable '表名'；disable_all 'r.*禁用所有正则表达式的表;enable '表名'启用表）

Boolean flag=admin.isTableDisabled("tableName");//验证表是否被禁用

if(!flag){

admin.disableTable("tableName")};//禁用表

admin.enableTable("tableName")};//启用表

//表描述的修改与查看

（describe '表名'查看表信息；alter '表名',NAME=>'family'，VERSIONT=>5设置每个数据最大版本数；alter '表名',READONLY(option)设置表为只读；alter '表名','delete'=>'family'删除列蔟；）

HColumnDescriptor columDescriptor=new HColumnDescriptor("列蔟名")；//添加一个列蔟

admin.addColumn("表名",columDescriptor);//添加列蔟

admin.deleteColumn("表名“,"列蔟名”);//删除列蔟

//查看表是否存在(exists '表名')

Boolean flag=admin.tableExists("表名“);//查看表是否存在

//删除表（disable '表名';drop '表名';删除表之前必须将其禁用)

admin.disableTable("表名");admin.deleteTable("表名");

//停用Hbase(./bin/stop-hbase.sh)

admin.shutdown();

8、Java API客户端操作（操作数据）

Configuration conf=HbaseConfigurationn.create();

Connection connection=ConnectionFactory.createConnection(conf);

Table htable=connection.getTable(TableName.valueOf("tableName"));

(1)插入数据（如果该rowkey存在，那么更新数据）

（put '表名','rowkey','列蔟：列名','数值'）

Put put=new Put(Bytes.toBytes("rowkey"));

p.add(Bytes.toBytes("列蔟"),Bytes.toBytes(”列名"),时间戳（long类型，可选）,Bytes.toBytes("值"));

htable.put(put);或者可以使用htable.put(List)；进行批量插入

（2）删除数据

(delete '表名','rowkey‘，’列蔟：列名',时间戳；

delete '表名','rowkey'删除一行中所有单元格)

Delete delete=new Delete(Bytes.toBytes("rowkey"));

delete.deleteFamily(Bytes.toBytes("family"));//删除该key的整个列蔟的数据

delete.deleteColumn(Bytes.toBytes("family"),Bytes.toBytes("column"));//删除某一列的数据

table.delete(delete);

（3）两种查询数据方式查看第五点；

table.close();

9、计数+截断

count '表名' 计算表的行数

truncate '表名' 会禁止该表并删除，创建一个一样的表，新表的数据为空