wulantian

HBase基本数据操作详解

HBase基本数据操作详解【完整版，绝对精品】

存储，学习，共享

原文： http://blog.csdn.net/u010967382/article/details/37878701

引言

之前详细写了一篇HBase过滤器的文章，今天把基础的表和数据相关操作补上。

本文档参考最新（截止2014年7月16日）的官方 Ref Guide、 Developer API编写。

所有代码均基于“hbase 0.96.2-hadoop2 ”版本编写，均实测通过。

欢迎转载，请注明来源：

http://blog.csdn.net/u010967382/article/details/37878701

概述

对于建表，和RDBMS类似，HBase也有namespace的概念，可以指定表空间创建表，也可以直接创建表，进入default表空间。

对于数据操作，HBase支持四类主要的数据操作，分别是：

Put ：增加一行，修改一行；
Delete ：删除一行，删除指定列族，删除指定column的多个版本，删除指定column的制定版本等；
Get ：获取指定行的所有信息，获取指定行和指定列族的所有colunm，获取指定column，获取指定column的几个版本，获取指定column的指定版本等；
Scan ：获取所有行，获取指定行键范围的行，获取从某行开始的几行，获取满足过滤条件的行等。

这四个类都是 org.apache.hadoop.hbase.client的子类，可以到官网API去查看详细信息，本文仅总结常用方法，力争让读者用20%的时间掌握80%的常用功能。

1.命名空间Namespace

2.创建表

3.删除表

4.修改表

5.新增、更新数据Put

6.删除数据Delete

7.获取单行Get

8.获取多行Scan

1. 命名空间Namespace

在关系数据库系统中，命名空间

namespace指的是一个表的逻辑分组，同一组中的表有类似的用途。命名空间的概念为即将到来的多租户特性打下基础：

配额管理（ Quota Management (HBASE-8410)）：限制一个namespace可以使用的资源，资源包括region和table等；
命名空间安全管理（ Namespace Security Administration (HBASE-9206)）：提供了另一个层面的多租户安全管理；
Region服务器组（Region server groups (HBASE-6721)）：一个命名空间或一张表，可以被固定到一组 regionservers上，从而保证了数据隔离性。

1.1.命名空间管理

命名空间可以被创建、移除、修改。

表和命名空间的隶属关系在在创建表时决定，通过以下格式指定：

Example：hbase shell中创建命名空间、创建命名空间中的表、移除命名空间、修改命名空间

#Create a namespace
create_namespace 'my_ns'

#create my_table in my_ns namespace
create 'my_ns:my_table', 'fam'

#drop namespace
drop_namespace 'my_ns'

#alter namespace
alter_namespace 'my_ns', {METHOD => 'set', 'PROPERTY_NAME' => 'PROPERTY_VALUE'}

1.2. 预定义的命名空间

有两个系统内置的预定义命名空间：

hbase ：系统命名空间，用于包含hbase的内部表
default ：所有未指定命名空间的表都自动进入该命名空间

Example：指定命名空间和默认命名空间

#namespace=foo and table qualifier=bar
create 'foo:bar', 'fam'

#namespace=default and table qualifier=bar
create 'bar', 'fam'

2.创建表

废话不多说，直接上样板代码，代码后再说明注意事项和知识点：

Configuration conf = HBaseConfiguration. create ();

HBaseAdmin admin = new HBaseAdmin(conf);

//create namespace named "my_ns"

admin.createNamespace(NamespaceDescriptor. create ( "my_ns" ).build());

//create tableDesc, with namespace name "my_ns" and table name "mytable "

HTableDescriptor tableDesc = new HTableDescriptor(TableName. valueOf ("my_ns:mytable" ));

tableDesc.setDurability(Durability. SYNC_WAL );

//add a column family " mycf "

HColumnDescriptor hcd = new HColumnDescriptor( "mycf" );

tableDesc.addFamily(hcd);

admin.createTable(tableDesc);

admin.close();

关键知识点：

必须将HBase集群的hbase-site.xml文件添加进工程的classpath中，否则Configuration conf = HBaseConfiguration. create () 代码获取不到需要的集群相关信息，也就无法找到集群，运行程序时会报错；
HTableDescriptor tableDesc = new HTableDescriptor(TableName. valueOf ("my_ns:mytable" )) 代码是描述表mytable，并将mytable放到了my_ns命名空间中，前提是该命名空间已存在，如果指定的是不存在命名空间，则会报错org.apache.hadoop.hbase.NamespaceNotFoundException；
命名空间一般在建模阶段通过命令行创建，在java代码中通过admin.createNamespace(NamespaceDescriptor. create ( "my_ns" ).build()) 创建的机会不多；
创建 HBaseAdmin 对象时就已经建立了客户端程序与HBase集群的connection ，所以在程序执行完成后，务必通过 admin.close() 关闭connection；
可以通过 HTableDescriptor 对象设置表的特性，比如：通过tableDesc.setMaxFileSize(512) 设置一个region中的store文件的最大size，当一个region中的最大store文件达到这个size时，region就开始分裂；通过tableDesc.setMemStoreFlushSize(512) 设置region内存中的memstore的最大值，当memstore达到这个值时，开始往磁盘中刷数据。更多特性请自行查阅官网API；
可以通过 HColumnDescriptor 对象设置列族的特性，比如：通过hcd.setTimeToLive(5184000) 设置数据保存的最长时间；通过 hcd.setInMemory(true ) 设置数据保存在内存中以提高响应速度；通过 hcd .setMaxVersions(10) 设置数据保存的最大版本数；通过 hcd.setMinVersions(5) 设置数据保存的最小版本数（配合TimeToLive使用）。更多特性请自行查阅官网API；
数据的版本数只能通过 HColumnDescriptor 对象设置，不能通过HTableDescriptor 对象设置；
由于HBase的数据是先写入内存，数据累计达到内存阀值时才往磁盘中flush数据，所以，如果在数据还没有flush进硬盘时，regionserver down掉了，内存中的数据将丢失。要想解决这个场景的问题就需要用到WAL（Write-Ahead-Log），tableDesc.setDurability(Durability. SYNC_WAL ) 就是设置写WAL日志的级别，示例中设置的是同步写WAL，该方式安全性较高，但无疑会一定程度影响性能，请根据具体场景选择使用；
setDurability (Durability d)方法可以在相关的三个对象中使用，分别是：HTableDescriptor， Delete， Put（其中Delete和Put的该方法都是继承自父类org.apache.hadoop.hbase.client.Mutation） 。分别针对表、插入操作、删除操作设定WAL日志写入级别。需要注意的是， Delete和Put并不会继承Table的Durability级别（已实测验证） 。Durability是一个枚举变量，可选值参见4.2节。如果不通过该方法指定WAL日志级别，则为 默认 USE_DEFAULT 级别。

3.删除表

删除表没创建表那么多学问，直接上代码：

Configuration conf = HBaseConfiguration. create ();

HBaseAdmin admin = new HBaseAdmin(conf);

String tablename = "my_ns:mytable" ;

if (admin.tableExists(tablename)) {

try {

admin.disableTable(tablename);

admin.deleteTable(tablename);

} catch (Exception e) {

// TODO : handle exception

e.printStackTrace();

}

admin.close();

说明：删除表前必须先disable表。

4.修改表

4.1.实例代码

（1）删除列族、新增列族

修改之前，四个列族：

hbase(main):014:0> describe 'rd_ns:itable'

DESCRIPTION ENABLED

'rd_ns:itable', {NAME => ' info ', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', V true

ERSIONS => '10', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false',

BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME => ' newcf ', DATA_BLOCK_ENCODING => 'NONE

', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', COMPRESSION => 'NONE', VERSIONS => '10', TTL => '2147483647',

MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'tr

ue'}, {NAME => ' note ', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS =>

'10', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BLOCKSIZE

=> '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME => ' sysinfo', DATA_BLOCK_ENCODING => 'NONE', BLOOM

FILTER => 'ROW', REPLICATION_SCOPE => '0', COMPRESSION => 'NONE', VERSIONS => '10', TTL => '2147483647', MIN_VERS

IONS => '0', KEEP_DELETED_CELLS => 'true', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}

1 row(s) in 0.0450 seconds

修改表，删除三个列族，新增一个列族，代码如下：

Configuration conf = HBaseConfiguration. create ();

HBaseAdmin admin = new HBaseAdmin(conf);

String tablename = "rd_ns:itable" ;

if (admin.tableExists(tablename)) {

try {

admin.disableTable(tablename);

//get the TableDescriptor of target table

HTableDescriptor newtd = admin.getTableDescriptor (Bytes. toBytes ("rd_ns:itable" ));

//remove 3 useless column families

newtd.removeFamily(Bytes. toBytes ( "note" ));

newtd.removeFamily(Bytes. toBytes ( "newcf" ));

newtd.removeFamily(Bytes. toBytes ( "sysinfo" ));

//create HColumnDescriptor for new column family

HColumnDescriptor newhcd = new HColumnDescriptor( "action_log" );

newhcd.setMaxVersions(10);

newhcd.setKeepDeletedCells( true );

//add the new column family(HColumnDescriptor) to HTableDescriptor

newtd.addFamily(newhcd);

//modify target table struture

admin. modifyTable (Bytes. toBytes ( "rd_ns:itable" ),newtd);

admin.enableTable(tablename);

} catch (Exception e) {

// TODO : handle exception

e.printStackTrace();

}

admin.close();

修改之后：

hbase(main):015:0> describe 'rd_ns:itable'

DESCRIPTION ENABLED

'rd_ns:itable', {NAME => ' action_log ', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => true

'0', COMPRESSION => 'NONE', VERSIONS => '10', TTL => '2147483647', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'tr

ue', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME => ' info ', DATA_BLOCK_ENCODING => '

NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS => '10', COMPRESSION => 'NONE', MIN_VERSIONS => '

0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE =>

'true'}

1 row(s) in 0.0400 seconds

逻辑很简单：

通过 admin.getTableDescriptor (Bytes. toBytes ( "rd_ns:itable" )) 取得目标表的描述对象，应该就是取得指向该对象的指针了；
修改目标表描述对象；
通过 admin. modifyTable (Bytes. toBytes ( "rd_ns:itable" ),newtd) 将修改后的描述对象应用到目标表。

（2）修改现有列族的属性（setMaxVersions）

Configuration conf = HBaseConfiguration. create ();

HBaseAdmin admin = new HBaseAdmin(conf);

String tablename = "rd_ns:itable" ;

if (admin.tableExists(tablename)) {

try {

admin.disableTable(tablename);

//get the TableDescriptor of target table

HTableDescriptor htd = admin.getTableDescriptor(Bytes. toBytes ("rd_ns:itable" ));

HColumnDescriptor infocf = htd.getFamily(Bytes. toBytes ( "info" ));

infocf.setMaxVersions(100);

//modify target table struture

admin.modifyTable(Bytes. toBytes ( "rd_ns:itable" ),htd);

admin.enableTable(tablename);

} catch (Exception e) {

// TODO : handle exception

e.printStackTrace();

}

admin.close();

5.新增、更新数据Put

5.1.常用构造函数：

（1）指定行键

public Put(byte[] row)

参数： row 行键

（2）指定行键和时间戳

public Put(byte[] row, long ts)

参数： row 行键， ts 时间戳

（3）从目标字符串中提取子串，作为行键

Put(byte[] rowArray, int rowOffset, int rowLength)

（4）从目标字符串中提取子串，作为行键，并加上时间戳

Put(byte[] rowArray, int rowOffset, int rowLength, long ts)

5.2.常用方法：

（1）指定列族、限定符，添加值

add(byte[] family, byte[] qualifier, byte[] value)

（2）指定列族、限定符、时间戳，添加值

add(byte[] family, byte[] qualifier, long ts, byte[] value)

（3）设置写WAL （Write-Ahead-Log）的级别

public void setDurability(Durability d)

参数是一个枚举值，可以有以下几种选择：

ASYNC_WAL ：当数据变动时，异步写WAL日志
SYNC_WAL ：当数据变动时，同步写WAL日志
FSYNC_WAL ：当数据变动时，同步写WAL日志，并且，强制将数据写入磁盘
SKIP_WAL ：不写WAL日志
USE_DEFAULT ：使用HBase全局默认的WAL写入级别，即 SYNC_WAL

5.3.实例代码

（1）插入行

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:leetable" );

Put put = new Put(Bytes. toBytes ( "100001" ));

put.add(Bytes. toBytes ( "info" ), Bytes. toBytes ( "name" ), Bytes. toBytes ("lion" ));

put.add(Bytes. toBytes ( "info" ), Bytes. toBytes ( "address" ), Bytes. toBytes ("shangdi" ));

put.add(Bytes. toBytes ( "info" ), Bytes. toBytes ( "age" ), Bytes. toBytes ("30" ));

put.setDurability(Durability. SYNC_WAL );

table.put(put);

table.close();

（2）更新行

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:leetable" );

Put put = new Put(Bytes. toBytes ( "100001" ));

put.add(Bytes. toBytes ( "info" ), Bytes. toBytes ( "name" ), Bytes. toBytes ("lee" ));

put.add(Bytes. toBytes ( "info" ), Bytes. toBytes ( "address" ), Bytes. toBytes ("longze" ));

put.add(Bytes. toBytes ( "info" ), Bytes. toBytes ( "age" ), Bytes. toBytes ("31" ));

put.setDurability(Durability. SYNC_WAL );

table.put(put);

table.close();

注意：

Put的构造函数都需要指定行键，如果是全新的行键，则新增一行；如果是已有的行键，则更新现有行。
创建Put对象及put.add过程都是在构建一行的数据，创建Put对象时相当于创建了行对象，add的过程就是往目标行里添加cell，直到table.put才将数据插入表格；
以上代码创建Put对象用的是构造函数1，也可用构造函数2，第二个参数是时间戳；
Put还有别的构造函数，请查阅官网API。

（3）从目标字符串中提取子串，作为行键，构建Put

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:leetable" );

Put put = new Put(Bytes. toBytes ( "100001_100002" ),7,6);

put.add(Bytes. toBytes ( "info" ), Bytes. toBytes ( "name" ), Bytes. toBytes ("show" ));

put.add(Bytes. toBytes ( "info" ), Bytes. toBytes ( "address" ), Bytes. toBytes ("caofang" ));

put.add(Bytes. toBytes ( "info" ), Bytes. toBytes ( "age" ), Bytes. toBytes ("30" ));

table.put(put);

table.close();

注意，关于： Put put = new Put(Bytes. toBytes ( "100001_100002" ),7,6)

第二个参数是偏移量，也就是行键从第一个参数的第几个字符开始截取；
第三个参数是截取长度；
这个代码实际是从 100001_100002 中截取了100002子串作为目标行的行键。

6.删除数据Delete

Delete类用于删除表中的一行数据，通过HTable.delete来执行该动作。

在执行Delete操作时，HBase并不会立即删除数据，而是对需要删除的数据打上一个“墓碑”标记，直到当Storefile合并时，再清除这些被标记上“墓碑”的数据。

如果希望删除整行，用行键来初始化一个Delete对象即可。如果希望进一步定义删除的具体内容，可以使用以下这些Delete对象的方法：

为了删除指定的列族，可以使用 deleteFamily
为了删除指定列的多个版本，可以使用 deleteColumns
为了删除指定列的 指定版本 ，可以使用 deleteColumn，这样的话就只会删除版本号（时间戳）与指定版本相同的列。如果不指定时间戳，默认只删除最新的版本

下面详细说明构造函数和常用方法：

6.1.构造函数

（1）指定要删除的行键

Delete(byte[] row)

删除行键指定行的数据。

如果没有进一步的操作，使用该构造函数将删除行键指定的行中所有列族中所有列的所有版本！

（2）指定要删除的行键和时间戳

Delete(byte[] row, long timestamp)

删除行键和时间戳共同确定行的数据。

如果没有进一步的操作，使用该构造函数将删除行键指定的行中，所有列族中所有列的时间戳小于等于指定时间戳的数据版本。

注意：该时间戳仅仅和删除行有关，如果需要进一步指定列族或者列，你必须分别为它们指定时间戳。

（3）给定一个字符串，目标行键的偏移，截取的长度

Delete(byte[] rowArray, int rowOffset, int rowLength)

（4）给定一个字符串，目标行键的偏移，截取的长度，时间戳

Delete(byte[] rowArray, int rowOffset, int rowLength, long ts)

6.2.常用方法

Delete deleteColumn (byte[] family, byte[] qualifier) 删除指定列的最新版本的数据。

Delete deleteColumn s (byte[] family, byte[] qualifier) 删除指定列的所有版本的数据。

Delete deleteColumn (byte[] family, byte[] qualifier, long timestamp ) 删除指定列的指定版本的数据。

Delete deleteColumn s (byte[] family, byte[] qualifier, long timestamp ) 删除指定列的，时间戳小于等于给定时间戳的所有版本的数据。

Delete deleteFamily (byte[] family) 删除指定列族的所有列的所有版本数据。

Delete deleteFamily (byte[] family, long timestamp) 删除指定列族的所有列中时间戳小于等于指定时间戳的所有数据。

Delete deleteFamilyVersion (byte[] family, long timestamp) 删除指定列族中所有 列的时间戳等于指定时间戳 的版本数据。

void setTimestamp (long timestamp) 为Delete对象设置时间戳。

6.3.实例代码

（1）删除整行的所有列族、所有行、所有版本

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:leetable" );

Delete delete = new Delete(Bytes. toBytes ( "000" ));

table.delete(delete);

table.close();

（2）删除指定列的最新版本

以下是删除之前的数据，注意看100003行的info:address，这是该列最新版本的数据，值是caofang1，在这之前的版本值是caofang：

hbase(main):007:0> scan 'rd_ns:leetable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405304843114, value=longze

100001 column=info:age, timestamp=1405304843114, value=31

100001 column=info:name, timestamp=1405304843114, value=leon

100002 column=info:address, timestamp=1405305471343, value=caofang

100002 column=info:age, timestamp=1405305471343, value=30

100002 column=info:name, timestamp=1405305471343, value=show

100003 column=info:address, timestamp=1405390959464, value=caofang1

100003 column=info:age, timestamp=1405390959464, value=301

100003 column=info:name, timestamp=1405390959464, value=show1

3 row(s) in 0.0270 seconds

执行以下代码：

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:leetable" );

Delete delete = new Delete(Bytes. toBytes ( "100003" ));

delete.deleteColumn(Bytes. toBytes ( "info" ), Bytes. toBytes ( "address" ));

table.delete(delete);

table.close();

然后查看数据，发现100003列的info:address列的值显示为前一个版本的caofang了！其余值均不变：

hbase(main):008:0> scan 'rd_ns:leetable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405304843114, value=longze

100001 column=info:age, timestamp=1405304843114, value=31

100001 column=info:name, timestamp=1405304843114, value=leon

100002 column=info:address, timestamp=1405305471343, value=caofang

100002 column=info:age, timestamp=1405305471343, value=30

100002 column=info:name, timestamp=1405305471343, value=show

100003 column=info:address, timestamp=1405390728175, value=caofang

100003 column=info:age, timestamp=1405390959464, value=301

100003 column=info:name, timestamp=1405390959464, value=show1

3 row(s) in 0.0560 seconds

（3）删除指定列的所有版本

接以上场景，执行以下代码：

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:leetable" );

Delete delete = new Delete(Bytes. toBytes ( "100003" ));

delete. deleteColumns (Bytes. toBytes ( "info" ), Bytes. toBytes ( "address"));

table.delete(delete);

table.close();

然后我们会发现，100003行的整个info:address列都没了：

hbase(main):009:0> scan 'rd_ns:leetable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405304843114, value=longze

100001 column=info:age, timestamp=1405304843114, value=31

100001 column=info:name, timestamp=1405304843114, value=leon

100002 column=info:address, timestamp=1405305471343, value=caofang

100002 column=info:age, timestamp=1405305471343, value=30

100002 column=info:name, timestamp=1405305471343, value=show

100003 column=info:age, timestamp=1405390959464, value=301

100003 column=info:name, timestamp=1405390959464, value=show1

3 row(s) in 0.0240 seconds

（4）删除指定列族中所有列的时间戳等于指定时间戳的版本数据

为了演示效果，我已经向100003行的info:address列新插入一条数据

hbase(main):010:0> scan 'rd_ns:leetable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405304843114, value=longze

100001 column=info:age, timestamp=1405304843114, value=31

100001 column=info:name, timestamp=1405304843114, value=leon

100002 column=info:address, timestamp=1405305471343, value=caofang

100002 column=info:age, timestamp=1405305471343, value=30

100002 column=info:name, timestamp=1405305471343, value=show

100003 column=info:address, timestamp= 1405391883886 , value=shangdi

100003 column=info:age, timestamp= 1405390959464 , value=301

100003 column=info:name, timestamp= 1405390959464 , value=show1

3 row(s) in 0.0250 seconds

现在，我们的目的是删除info列族中，时间戳为1405390959464的所有列数据：

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:leetable" );

Delete delete = new Delete(Bytes. toBytes ( "100003" ));

delete. deleteFamilyVersion (Bytes. toBytes ( "info" ), 1405390959464L);

table.delete(delete);

table.close();

hbase(main):011:0> scan 'rd_ns:leetable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405304843114, value=longze

100001 column=info:age, timestamp=1405304843114, value=31

100001 column=info:name, timestamp=1405304843114, value=leon

100002 column=info:address, timestamp=1405305471343, value=caofang

100002 column=info:age, timestamp=1405305471343, value=30

100002 column=info:name, timestamp=1405305471343, value=show

100003 column=info:address, timestamp= 1405391883886 , value=shangdi

100003 column=info:age, timestamp= 1405390728175 , value=30

100003 column=info:name, timestamp= 1405390728175 , value=show

3 row(s) in 0.0250 seconds

可以看到，100003行的info列族，已经不存在时间戳为 1405390959464的数据，比它更早版本的数据被查询出来，而info列族中时间戳不等于 1405390959464的address列，不受该delete的影响。

7.获取单行Get

如果希望获取整行数据，用行键初始化一个Get对象就可以，如果希望进一步缩小获取的数据范围，可以使用Get对象的以下方法：

如果希望取得指定列族的所有列数据，使用 addFamily 添加所有的目标列族即可；
如果希望取得指定列的数据，使用 addColumn 添加所有的目标列即可；
如果希望取得目标列的指定时间戳范围的数据版本，使用 setTimeRange ；
如果仅希望获取目标列的指定时间戳版本，则使用 setTimestamp ；
如果希望限制每个列返回的版本数，使用 setMaxVersions ；
如果希望添加过滤器，使用 setFilter

下面详细描述构造函数及常用方法：

7.1.构造函数

Get的构造函数很简单，只有一个构造函数： Get(byte[] row) 参数是行键。

7.2.常用方法

Get addFamily(byte[] family) 指定希望获取的列族
Get addColumn(byte[] family, byte[] qualifier) 指定希望获取的列
Get setTimeRange(long minStamp, long maxStamp) 设置获取数据的时间戳范围
Get setTimeStamp(long timestamp) 设置获取数据的时间戳
Get setMaxVersions(int maxVersions) 设定获取数据的版本数
Get setMaxVersions() 设定获取数据的所有版本
Get setFilter(Filter filter) 为Get对象添加过滤器，过滤器详解请参见：http://blog.csdn.net/u010967382/article/details/37653177
void setCacheBlocks(boolean cacheBlocks) 设置该Get获取的数据是否缓存在内存中

7.3.实测代码

测试表的所有数据：

hbase(main):016:0> scan 'rd_ns:leetable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405304843114, value=longze

100001 column=info:age, timestamp=1405304843114, value=31

100001 column=info:name, timestamp=1405304843114, value=leon

100002 column=info:address, timestamp=1405305471343, value=caofang

100002 column=info:age, timestamp=1405305471343, value=30

100002 column=info:name, timestamp=1405305471343, value=show

100003 column=info:address, timestamp=1405407883218, value=qinghe

100003 column=info:age, timestamp=1405407883218, value=28

100003 column=info:name, timestamp=1405407883218, value=shichao

3 row(s) in 0.0250 seconds

（1）获取行键指定行的所有列族、所有列的最新版本数据

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:leetable" );

Get get = new Get(Bytes. toBytes ( "100003" ));

Result r = table.get(get);

for (Cell cell : r.rawCells()) {

System. out .println(

"Rowkey : " +Bytes. toString (r.getRow())+

" Familiy:Quilifier : " +Bytes. toString (CellUtil. cloneQualifier (cell))+

" Value : " +Bytes. toString (CellUtil. cloneValue (cell))

);

}

table.close();

代码输出：

Rowkey : 100003 Familiy:Quilifier : address Value : qinghe

Rowkey : 100003 Familiy:Quilifier : age Value : 28

Rowkey : 100003 Familiy:Quilifier : name Value : shichao

（2）获取行键指定行中，指定列的最新版本数据

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:leetable" );

Get get = new Get(Bytes. toBytes ( "100003" ));

get.addColumn(Bytes. toBytes ( "info" ), Bytes. toBytes ( "name" ));

Result r = table.get(get);

for (Cell cell : r.rawCells()) {

System. out .println(

"Rowkey : " +Bytes. toString (r.getRow())+

" Familiy:Quilifier : " +Bytes. toString (CellUtil. cloneQualifier (cell))+

" Value : " +Bytes. toString (CellUtil. cloneValue (cell))

);

}

table.close();

代码输出：

Rowkey : 100003 Familiy:Quilifier : name Value : shichao

（3）获取行键指定的行中，指定时间戳的数据

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:leetable" );

Get get = new Get(Bytes. toBytes ( "100003" ));

get.setTimeStamp(1405407854374L);

Result r = table.get(get);

for (Cell cell : r.rawCells()) {

System. out .println(

"Rowkey : " +Bytes. toString (r.getRow())+

" Familiy:Quilifier : " +Bytes. toString (CellUtil. cloneQualifier (cell))+

" Value : " +Bytes. toString (CellUtil. cloneValue (cell))

);

}

table.close();

代码输出了上面scan命令输出中没有展示的历史数据：

Rowkey : 100003 Familiy:Quilifier : address Value : huangzhuang

Rowkey : 100003 Familiy:Quilifier : age Value : 32

Rowkey : 100003 Familiy:Quilifier : name Value : lily

（4）获取行键指定的行中，所有版本的数据

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:itable" );

Get get = new Get(Bytes. toBytes ( "100003" ));

get.setMaxVersions();

Result r = table.get(get);

for (Cell cell : r.rawCells()) {

System. out .println(

"Rowkey : " +Bytes. toString (r.getRow())+

" Familiy:Quilifier : " +Bytes. toString (CellUtil. cloneQualifier (cell))+

" Value : " +Bytes. toString (CellUtil. cloneValue (cell))+

" Time : " +cell.getTimestamp()

);

}

table.close();

代码输出：

Rowkey : 100003 Familiy:Quilifier : address Value : xierqi Time : 1405417500485

Rowkey : 100003 Familiy:Quilifier : address Value : shangdi Time : 1405417477465

Rowkey : 100003 Familiy:Quilifier : address Value : longze Time : 1405417448414

Rowkey : 100003 Familiy:Quilifier : age Value : 29 Time : 1405417500485

Rowkey : 100003 Familiy:Quilifier : age Value : 30 Time : 1405417477465

Rowkey : 100003 Familiy:Quilifier : age Value : 31 Time : 1405417448414

Rowkey : 100003 Familiy:Quilifier : name Value : leon Time : 1405417500485

Rowkey : 100003 Familiy:Quilifier : name Value : lee Time : 1405417477465

Rowkey : 100003 Familiy:Quilifier : name Value : lion Time : 1405417448414

注意：

能输出多版本数据的前提是当前列族能保存多版本数据，列族可以保存的数据版本数通过HColumnDescriptor的setMaxVersions(Int)方法设置。

8.获取多行Scan

Scan对象可以返回满足给定条件的多行数据。如果希望获取所有的行，直接初始化一个Scan对象即可。如果希望限制扫描的行范围，可以使用以下方法：

如果希望获取指定列族的所有列，可使用 addFamily 方法来添加所有希望获取的列族
如果希望获取指定列，使用 addColumn 方法来添加所有列
通过 setTimeRange 方法设定获取列的时间范围
通过 setTimestamp 方法指定具体的时间戳，只返回该时间戳的数据
通过 setMaxVersions 方法设定最大返回的版本数
通过 setBatch 方法设定返回数据的最大行数
通过 setFilter 方法为Scan对象添加过滤器，过滤器详解请参见：http://blog.csdn.net/u010967382/article/details/37653177
Scan的结果数据是可以缓存在内存中的，可以通过 getCaching ()方法来查看当前设定的缓存条数，也可以通过 setCaching (int caching)来设定缓存在内存中的行数，缓存得越多，以后查询结果越快，同时也消耗更多内存。此外，通过setCacheBlocks 方法设置是否缓存Scan的结果数据块，默认为true
我们可以通过 setMaxResultSize(long)方法来设定Scan返回的结果行数。

下面是官网文档中的一个入门示例：假设表有几行键值为 "row1", "row2", "row3"，还有一些行有键值 "abc1", "abc2", 和 "abc3"，目标是返回"row"打头的行：

HTable htable = ... // instantiate HTable

Scan scan = new Scan();

scan.addColumn(Bytes.toBytes("cf"),Bytes.toBytes("attr"));

scan.setStartRow( Bytes.toBytes("row")); // start key is inclusive

scan.setStopRow( Bytes.toBytes("row" + (char)0)); // stop key is exclusive

ResultScanner rs = htable.getScanner(scan);

try {

for (Result r = rs.next(); r != null; r = rs.next()) {

// process result...

} finally {

rs.close(); // always close the ResultScanner!

}

8.1.常用构造函数

（1）创建扫描所有行的Scan

Scan()

（2）创建Scan，从指定行开始扫描，

Scan(byte[] startRow)

参数： startRow 行键

注意：如果指定行不存在，从下一个最近的行开始

（3）创建Scan，指定起止行

Scan(byte[] startRow, byte[] stopRow)

参数： startRow起始行， stopRow终止行

注意： startRow <= 结果集 < stopRow

（4）创建Scan，指定起始行和过滤器

Scan(byte[] startRow, Filter filter)

参数： startRow 起始行， filter 过滤器

注意：过滤器的功能和构造参见http://blog.csdn.net/u010967382/article/details/37653177

8.2.常用方法

Scan setStartRow (byte[] startRow) 设置Scan的开始行，默认结果集包含该行。如果希望结果集不包含该行，可以在行键末尾加上0。
Scan setStopRow (byte[] stopRow) 设置Scan的结束行，默认结果集不包含该行。如果希望结果集包含该行，可以在行键末尾加上0。

Scan setTimeRange (long minStamp, long maxStamp) 扫描指定时间范围的数据
Scan setTimeStamp (long timestamp) 扫描指定时间的数据

Scan addColumn (byte[] family, byte[] qualifier) 指定扫描的列
Scan addFamily (byte[] family) 指定扫描的列族

Scan setFilter (Filter filter) 为Scan设置过滤器

Scan setReversed (boolean reversed) 设置Scan的扫描顺序，默认是正向扫描（false），可以设置为逆向扫描（true）。注意：该方法0.98版本以后才可用！！

Scan setMaxVersions () 获取所有版本的数据
Scan setMaxVersions (int maxVersions) 设置获取的最大版本数

void setCaching (int caching) 设定缓存在内存中的行数，缓存得越多，以后查询结果越快，同时也消耗更多内存

void setRaw (boolean raw) 激活或者禁用raw模式。如果raw模式被激活，Scan将返回所有已经被打上删除标记但尚未被真正删除的数据。该功能仅用于激活了KEEP_DELETED_ROWS的列族，即列族开启了 hcd.setKeepDeletedCells(true)

。Scan激活raw模式后，就不能指定任意的列，否则会报错

Enable/disable "raw" mode for this scan. If "raw" is enabled the scan will return all delete marker and deleted rows that have not been collected, yet. This is mostly useful for Scan on column families that have KEEP_DELETED_ROWS enabled. It is an error to specify any column when "raw" is set.

hcd.setKeepDeletedCells(true);

8.3.实测代码

（1）扫描表中的所有行的最新版本数据

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:itable" );

Scan s = new Scan();

ResultScanner rs = table.getScanner(s);

for (Result r : rs) {

for (Cell cell : r.rawCells()) {

System. out .println(

"Rowkey : " +Bytes. toString (r.getRow())+

" Familiy:Quilifier : " +Bytes. toString (CellUtil. cloneQualifier(cell))+

" Value : " +Bytes. toString (CellUtil. cloneValue (cell))+

" Time : " +cell.getTimestamp()

);

}

table.close();

代码输出：

Rowkey : 100001 Familiy:Quilifier : address Value : anywhere Time : 1405417403438

Rowkey : 100001 Familiy:Quilifier : age Value : 24 Time : 1405417403438

Rowkey : 100001 Familiy:Quilifier : name Value : zhangtao Time : 1405417403438

Rowkey : 100002 Familiy:Quilifier : address Value : shangdi Time : 1405417426693

Rowkey : 100002 Familiy:Quilifier : age Value : 28 Time : 1405417426693

Rowkey : 100002 Familiy:Quilifier : name Value : shichao Time : 1405417426693

Rowkey : 100003 Familiy:Quilifier : address Value : xierqi Time : 1405417500485

Rowkey : 100003 Familiy:Quilifier : age Value : 29 Time : 1405417500485

Rowkey : 100003 Familiy:Quilifier : name Value : leon Time : 1405417500485

（2）扫描指定行键范围，通过末尾加0，使得结果集包含StopRow

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:itable" );

Scan s = new Scan();

s. setStartRow (Bytes. toBytes ( "100001" ));

s. setStopRow (Bytes. toBytes ( " 1000020 " ));

ResultScanner rs = table.getScanner(s);

for (Result r : rs) {

for (Cell cell : r.rawCells()) {

System. out .println(

"Rowkey : " +Bytes. toString (r.getRow())+

" Familiy:Quilifier : " +Bytes. toString (CellUtil. cloneQualifier(cell))+

" Value : " +Bytes. toString (CellUtil. cloneValue (cell))+

" Time : " +cell.getTimestamp()

);

}

table.close();

代码输出：

Rowkey : 100001 Familiy:Quilifier : address Value : anywhere Time : 1405417403438

Rowkey : 100001 Familiy:Quilifier : age Value : 24 Time : 1405417403438

Rowkey : 100001 Familiy:Quilifier : name Value : zhangtao Time : 1405417403438

Rowkey : 100002 Familiy:Quilifier : address Value : shangdi Time : 1405417426693

Rowkey : 100002 Familiy:Quilifier : age Value : 28 Time : 1405417426693

Rowkey : 100002 Familiy:Quilifier : name Value : shichao Time : 1405417426693

（3）返回所有已经被打上删除标记但尚未被真正删除的数据

本测试针对rd_ns:itable表的100003行。

如果使用get结合 setMaxVersions() 方法能返回所有未删除的数据，输出如下：

Rowkey : 100003 Familiy:Quilifier : address Value : huilongguan Time : 1405494141522

Rowkey : 100003 Familiy:Quilifier : address Value : shangdi Time : 1405417477465

Rowkey : 100003 Familiy:Quilifier : age Value : new29 Time : 1405494141522

Rowkey : 100003 Familiy:Quilifier : name Value : liyang Time : 1405494141522

然而，使用Scan强大的 s.setRaw( true ) 方法，可以获得所有已经被打上删除标记但尚未被真正删除的数据。

代码如下：

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:itable" );

Scan s = new Scan();

s.setStartRow(Bytes. toBytes ( "100003" ));

s.setRaw( true );

s.setMaxVersions();

ResultScanner rs = table.getScanner(s);

for (Result r : rs) {

for (Cell cell : r.rawCells()) {

System. out .println(

"Rowkey : " +Bytes. toString (r.getRow())+

" Familiy:Quilifier : " +Bytes. toString (CellUtil. cloneQualifier(cell))+

" Value : " +Bytes. toString (CellUtil. cloneValue (cell))+

" Time : " +cell.getTimestamp()

);

}

table.close();

输出结果如下：

Rowkey : 100003 Familiy:Quilifier : address Value : huilongguan Time : 1405494141522

Rowkey : 100003 Familiy:Quilifier : address Value : Time : 1405417500485

Rowkey : 100003 Familiy:Quilifier : address Value : xierqi Time : 1405417500485

Rowkey : 100003 Familiy:Quilifier : address Value : shangdi Time : 1405417477465

Rowkey : 100003 Familiy:Quilifier : address Value : Time : 1405417448414

Rowkey : 100003 Familiy:Quilifier : address Value : longze Time : 1405417448414

Rowkey : 100003 Familiy:Quilifier : age Value : new29 Time : 1405494141522

Rowkey : 100003 Familiy:Quilifier : age Value : Time : 1405417500485

Rowkey : 100003 Familiy:Quilifier : age Value : 29 Time : 1405417500485

Rowkey : 100003 Familiy:Quilifier : age Value : 30 Time : 1405417477465

Rowkey : 100003 Familiy:Quilifier : age Value : 31 Time : 1405417448414

Rowkey : 100003 Familiy:Quilifier : name Value : liyang Time : 1405494141522

Rowkey : 100003 Familiy:Quilifier : name Value : Time : 1405493879419

Rowkey : 100003 Familiy:Quilifier : name Value : leon Time : 1405417500485

Rowkey : 100003 Familiy:Quilifier : name Value : lee Time : 1405417477465

Rowkey : 100003 Familiy:Quilifier : name Value : lion Time : 1405417448414

（4）结合过滤器，获取所有age在25到30之间的行

目前的数据：

hbase(main):049:0> scan 'rd_ns:itable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405417403438, value=anywhere

100001 column=info:age, timestamp=1405417403438, value=24

100001 column=info:name, timestamp=1405417403438, value=zhangtao

100002 column=info:address, timestamp=1405417426693, value=shangdi

100002 column=info:age, timestamp=1405417426693, value=28

100002 column=info:name, timestamp=1405417426693, value=shichao

100003 column=info:address, timestamp=1405494141522, value=huilongguan

100003 column=info:age, timestamp=1405494999631, value=29

100003 column=info:name, timestamp=1405494141522, value=liyang

3 row(s) in 0.0240 seconds

代码：

Configuration conf = HBaseConfiguration. create ();

HTable table = new HTable(conf, "rd_ns:itable" );

FilterList filterList = new FilterList(FilterList.Operator. MUST_PASS_ALL );

SingleColumnValueFilter filter1 = new SingleColumnValueFilter(

Bytes. toBytes ( "info" ),

Bytes. toBytes ( "age" ),

CompareOp. GREATER_OR_EQUAL ,

Bytes. toBytes ( "25" )

);

SingleColumnValueFilter filter2 = new SingleColumnValueFilter(

Bytes. toBytes ( "info" ),

Bytes. toBytes ( "age" ),

CompareOp. LESS_OR_EQUAL ,

Bytes. toBytes ( "30" )

);

filterList.addFilter(filter1);

filterList.addFilter(filter2);

Scan scan = new Scan();

scan.setFilter(filterList);

ResultScanner rs = table.getScanner(scan);

for (Result r : rs) {

for (Cell cell : r.rawCells()) {

System. out .println(

"Rowkey : " +Bytes. toString (r.getRow())+

" Familiy:Quilifier : " +Bytes. toString (CellUtil. cloneQualifier(cell))+

" Value : " +Bytes. toString (CellUtil. cloneValue (cell))+

" Time : " +cell.getTimestamp()

);

}

table.close();

代码输出：

Rowkey : 100002 Familiy:Quilifier : address Value : shangdi Time : 1405417426693

Rowkey : 100002 Familiy:Quilifier : age Value : 28 Time : 1405417426693

Rowkey : 100002 Familiy:Quilifier : name Value : shichao Time : 1405417426693

Rowkey : 100003 Familiy:Quilifier : address Value : huilongguan Time : 1405494141522

Rowkey : 100003 Familiy:Quilifier : age Value : 29 Time : 1405494999631

Rowkey : 100003 Familiy:Quilifier : name Value : liyang Time : 1405494141522

注意：

HBase对列族、列名大小写敏感
关于过滤器请参见我的另外一篇博客：http://blog.csdn.net/u010967382/article/details/37653177

你可能感兴趣的:(hbase)

ftp文件服务器有连接数限制,查看ftp服务器连接数命令赵承铭 ftp文件服务器有连接数限制
查看ftp服务器连接数命令内容精选换一换本章节适用于MRS3.x之前版本。Loader支持以下多种连接，每种连接的配置介绍可根据本章节内容了解。obs-connectorgeneric-jdbc-connectorftp-connector或sftp-connectorhbase-connector、hdfs-connector或hive-connectorOBS连接是Loa“数据导入”章节适用于
HBase总结
HBase1.HBase核心概念HBase的作用HBase主要用于存储和管理超大规模的结构化或半结构化数据（如PB级），特点包括：高扩展性：通过分布式架构横向扩展，支持数千台服务器高吞吐量：适合实时随机读写（如用户行为日志、实时分析）强一致性：保证同一行数据的原子性操作灵活的数据模型：支持动态列和稀疏存储典型应用场景：互联网公司的用户行为日志存储（如点击流数据）社交媒体的实时消息存储物联网设备时序
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
HBase 开发：使用Java操作HBase 睡觉的时候我不困 hbase java python
第1关：创建表任务描述相关知识如何使用Java连接HBase数据库HBaseConfigurationConnectionFactory创建表HBase2.X创建表编程要求测试说明任务描述本关任务：使用Java代码在HBase中创建表。相关知识为了完成本关任务，你需要掌握：1.如何使用Java连接HBase数据库，2.如何使用Java代码在HBase中创建表。如何使用Java连接HBase数据库J
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
PostgreSql、Hbase的安装月光一族吖 postgresql hbase 数据库
在CentOS8中安装PostgreSQL和HBase，以下是详细步骤，包括使用sudo权限的命令：安装PostgreSQL更新系统包在两台CentOS8上运行以下命令，确保系统是最新的：sudodnfupdate-y安装PostgreSQLCentOS8默认仓库提供PostgreSQL。你可以直接安装所需版本的PostgreSQL：sudodnfinstall-ypostgresql-serve
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
Hbase和关系型数据库、HDFS、Hive的区别别这么骄傲 hive hbase 数据库
目录1.Hbase和关系型数据库的区别2.Hbase和HDFS的区别3.Hbase和Hive的区别1.Hbase和关系型数据库的区别关系型数据库Hbase存储适合结构化数据，单机存储适合结构化和半结构数据的松散数据，分布式存储功能（1）支持ACID（2）支持join（3）使用主键PK（4）数据类型：int、varchar等（1）仅支持单行事务（2）不支持join，把数据糅合到一张大表（3）行键ro
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop、HDFS、Hive、Hbase区别及联系静心观复大数据 hadoop hdfs hive
Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。HadoopHadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统，包括HadoopCommon（共享库和工具）、HadoopDistributedFileSystem(
大数据(1)-hdfs&hbase viperrrrrrr 大数据 hdfs hbase
hbase&hdfs一、体系结构HDFS是一个标准的主从(Master/Slave)体系结构的分布式系统；HDFS集群包含一个或多个NameNode(NameNodeHA会有多个NameNode)和多个DataNode(根据节点情况规划),用户可以通过HDFS客户端同NameNode和DataNode进行交互以访问文件系统。HDFS公开文件系统名称空间，并允许将用户数据存储在文件中。在内部，一个文
HBase 开发：使用Java操作HBase 第1关：创建表是草莓熊吖 hbase 大数据 Educoder hbase hadoop 大数据
为了完成本关任务，你需要掌握：1.如何使用Java连接HBase数据库，2.如何使用Java代码在HBase中创建表。如何使用Java连接HBase数据库Java连接HBase需要两个类：HBaseConfigurationConnectionFactoryHBaseConfiguration要连接HBase我们首先需要创建Configuration对象，这个对象我们需要通过HBaseConfig
Hbase-表操作红笺Code Hbase hbase 大数据数据分析非关系型数据库 zookeeper
目录一、创建表:1.创建表时指定列族的属性2.创建表时不指定列族的属性多学一招：克隆表二、查看表信息三、查看表四、停用和启用表1.停用表2.启用表多学一招：停用或启用多个表五、判断表1.exists命令2.is_enabled命令3.is_disabled命令六、修改表1.修改表属性（1）添加属性（2）删除属性2.修改列族（1）修改列族属性（2）添加列族（3）删除列族七、删除表drop命令多学一招
头歌当HBase遇上MapReduce 敲代码的苦13 头歌 hbase mapreduce 数据库
头歌当HBase遇上MapReduce第1关：HBase的MapReduce快速入门代码行：packagecom.processdata;importjava.io.IOException;importjava.util.List;importjava.util.Scanner;importorg.apache.hadoop.conf.Configuration;importorg.apache.
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
JT808教程：设置/查询终端参数
REDISANT提供互联网与物联网开发测试套件#互联网与中间件：RedisAssistantZooKeeperAssistantKafkaAssistantRocketMQAssistantRabbitMQAssistantPulsarAssistantHBaseAssistantNoSqlAssistantEtcdAssistantGarnetAssistant工业与物联网：MQTTAssist
Squirrel：通用SQL、NoSQL客户端 antui1957
安装配置数据库配置驱动配置连接如果你的工作中，需要使用到多个数据库，又不想在多种客户端之间切换来切换去。那么就需要找一款支持多数据库的客户端工具了。如果你要连接多个关系型数据库，你就可以使用NavicatPremium。但是如果你有使用到NOSQL（譬如HBase、MongoDB等），还是建议使用SquirrelSQLClient。1、安装下载地址：http://squirrel-sql.sour
使用datax进行mysql的表恢复是桃萌萌鸭~ mysql 数据库
DataXDataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、SQLServer、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。FeaturesDataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上Dat
hbase:meta 表解析有数的编程笔记 HBase
hbase:meta表中存储了Hbase集群中全部表的所有的region信息，在Hbase2.x之后新增了表的状态信息。hbase:meta表的结构非常简单，在Hbase2.x之前整个表只有一个名为info的ColumnFamily。在Hbase2.x新增表状态信息后，增加了名为table的ColumnFamily。HBase保证hbase:meta表始终只有一个Region，这是为了确保meta
Hadoop等大数据处理框架的Java API 扬子鳄008 Java hadoop java 大数据
Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。此外，还有许多其他组件，如YARN（YetAnotherResourceNegotiator）、HBase、Hive等。下面详细介绍Hadoop及其相关组件的JavaAPI及其使用方法。HadoopHad
手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」 AAA建材批发王师傅数据库 sqoop 大数据 hive hdfs
一、Sqoop是什么？——数据界的「超级搬运工」兄弟们，今天咱们聊个大数据圈的「搬运小能手」——Sqoop！可能有人会问：这玩意儿跟Flume啥区别？简单来说：Flume是专门搬日志数据的「快递员」而Sqoop是搬数据库数据的「搬家公司」它的名字咋来的？SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核
【请关注】hBase要用的顺畅的思路 DoWeixin6 数据相关数据库
玩楞一下HBase，要让这玩意儿在大数据量下跑得顺，索引和优化可都是实打实的硬活。先说索引这块。HBase就认RowKey这个主索引，所有数据都按它排得明明白白。平时查数据，只要RowKey设计得好，直接就能定位到对应的Region，速度快得很。但RowKey要是拍脑袋瞎写，比如全按时间戳排序，那准得出大问题——数据全往一个Region挤，妥妥的热点，集群直接卡住。所以设计RowKey时，我一般会
【赵渝强老师】HBase的体系架构赵渝强老师 NoSQL数据库 hbase 架构数据库大数据 hadoop hdfs nosql
HBase是大表（BigTable）思想的一个具体实现。它是一个列式存储的NoSQL数据库，适合执行数据的分析和处理。简单来说，就是适合执行查询操作。从体系架构的角度看，HBase是一种主从架构，包含：HBaseHMaster、RegionServer和ZooKeeper，下图展示了这一架构。其中：HBaseHMaster负责Region的分配及数据库的创建和删除等操作。Regionserver负
大数据学习（141）-分布式数据库 viperrrrrrr 大数据学习分布式 clickhouse hdfs hbase
在分布式数据库中主要有hdfs、hbase、clickhouse三种。HDFS（HadoopDistributedFileSystem）、HBase和ClickHouse都是处理大数据的分布式系统，但它们的设计目标、架构和适用场景有所不同。一、HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生态系统的一部分，是一个高度容错的系统，适合存储大量数据。它被设计为
TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能 TiDB 社区干货传送门 tidb hbase 架构数据库大数据
作者：数据源的TiDB学习之路原文来源：https://tidb.net/blog/c687d474第一章：HBase的历史使命与技术瓶颈1.1HBase的核心价值与经典场景作为Hadoop生态的核心组件，HBase凭借LSM-Tree存储引擎和Region分片机制，在2010年代成为海量数据存储的标杆。其典型场景包括：日志流处理：支持Kafka每日TB级数据持久化，写入吞吐达百万级QPS（如某头
【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8 TTBIGDATA ambari bigtop hdp hidataplus edp 大数据 el8
如果有其他系统部署需求可以参考原文https://doc.janettr.com/install/manual/Step3—安装JDK17与JDK1.8Ambari3.0及部分Bigtop/Hadoop新组件强制要求JDK17，而HBase/Hive/Spark生态仍有组件长期依赖JDK1.8。因此推荐双版本共存方案，让集群灵活兼容各种大数据组件，满足未来升级和遗留需求。JDK17与JDK1.8可
时序数据管理的新维度：解析IoTDB与HBase的技术边界时序数据说 iotdb hbase 数据库时序数据库分布式开源
在物联网与工业大数据场景中，数据的时序特性对存储与计算提出了独特挑战。面对海量设备生成的高频时序数据，如何在有限的资源内实现高效写入、灵活查询与实时分析，成为企业技术选型的核心考量。本文将从架构设计、数据建模、性能表现及场景适配等角度，对比分析IoTDB与HBase的技术差异，探索时序数据库的演进方向。一、设计哲学的分野：专用时序与通用存储HBase作为经典的NoSQL数据库，以宽表模型和LSM-
大数据领域HBase的数据压缩技术应用 AI天才研究院 AI大模型企业级应用开发实战 AI Agent 应用开发大数据 hbase 数据库 ai
大数据领域HBase的数据压缩技术应用关键词：大数据、HBase、数据压缩技术、压缩算法、性能优化摘要：本文深入探讨了大数据领域中HBase的数据压缩技术应用。首先介绍了HBase的背景以及数据压缩技术在其中的重要性，详细阐述了常见的压缩算法原理，包括LZO、Snappy、Gzip等。通过数学模型和公式分析了不同压缩算法的性能指标，如压缩比和压缩速度。给出了在HBase中应用数据压缩技术的项目实战
大数据、数据挖掘技术收集（Vivo互联网技术） XiaoQiong.Zhang 数据挖掘大数据
Hudi在vivo湖仓一体的落地实践用户行为分析模型实践（四）——留存分析模型用户行为分析模型实践（三）——H5通用分析模型用户行为分析模型实践（二）——漏斗分析模型用户行为分析模型实践（一）——路径分析模型AB实验遇到用户不均匀怎么办？——vivo游戏中心业务实践经验分享HBaseCompaction原理与线上调优实践vivo游戏黑产反作弊实践Kafka实时数据即席查询应用与实践Hive和Spa
Python 100个常用函数全面解析东皇太星 python 开发语言
Python100个常用函数全面解析1.类型转换函数1.1int()将字符串或数字转换为整数。#基本用法int('123')#123int(3.14)#3#指定进制转换int('1010',2)#10(二进制转十进制)int('FF',16)#255(十六进制转十进制)#临界值处理int('')#ValueError:invalidliteralforint()withbase10:''int(N
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他