LaoLiulaoliu

【甘道夫】HBase基本数据操作详解【完整版，绝对精品】

引言

之前详细写了一篇HBase过滤器的文章，今天把基础的表和数据相关操作补上。

本文档参考最新（截止2014年7月16日）的官方 Ref Guide、 Developer API编写。

所有代码均基于“hbase 0.96.2-hadoop2 ”版本编写，均实测通过。

欢迎转载，请注明来源：

http://blog.csdn.net/u010967382/article/details/37878701

概述

对于建表，和RDBMS类似，HBase也有namespace的概念，可以指定表空间创建表，也可以直接创建表，进入default表空间。

对于数据操作，HBase支持四类主要的数据操作，分别是：

Put：增加一行，修改一行；
Delete：删除一行，删除指定列族，删除指定column的多个版本，删除指定column的制定版本等；
Get：获取指定行的所有信息，获取指定行和指定列族的所有colunm，获取指定column，获取指定column的几个版本，获取指定column的指定版本等；
Scan：获取所有行，获取指定行键范围的行，获取从某行开始的几行，获取满足过滤条件的行等。

这四个类都是org.apache.hadoop.hbase.client的子类，可以到官网API去查看详细信息，本文仅总结常用方法，力争让读者用20%的时间掌握80%的常用功能。

1.命名空间Namespace

2.创建表

3.删除表

4.修改表

5.新增、更新数据Put

6.删除数据Delete

7.获取单行Get

8.获取多行Scan

1. 命名空间Namespace

在关系数据库系统中，命名空间 namespace指的是一个表的逻辑分组，同一组中的表有类似的用途。命名空间的概念为即将到来的多租户特性打下基础：

配额管理（Quota Management (HBASE-8410)）：限制一个namespace可以使用的资源，资源包括region和table等；
命名空间安全管理（Namespace Security Administration (HBASE-9206)）：提供了另一个层面的多租户安全管理；
Region服务器组（Region server groups (HBASE-6721)）：一个命名空间或一张表，可以被固定到一组regionservers上，从而保证了数据隔离性。

1.1.命名空间管理

命名空间可以被创建、移除、修改。

表和命名空间的隶属关系在在创建表时决定，通过以下格式指定：

:

Example：hbase shell中创建命名空间、创建命名空间中的表、移除命名空间、修改命名空间

#Create a namespace create_namespace 'my_ns'

#create my_table in my_ns namespace create 'my_ns:my_table', 'fam'

#drop namespace drop_namespace 'my_ns'

#alter namespace alter_namespace 'my_ns', {METHOD => 'set', 'PROPERTY_NAME' => 'PROPERTY_VALUE'}

1.2. 预定义的命名空间

有两个系统内置的预定义命名空间：

hbase：系统命名空间，用于包含hbase的内部表

default：所有未指定命名空间的表都自动进入该命名空间

Example：指定命名空间和默认命名空间

#namespace=foo and table qualifier=bar create 'foo:bar', 'fam'

#namespace=default and table qualifier=bar
create ‘bar’, ‘fam’

2.创建表
废话不多说，直接上样板代码，代码后再说明注意事项和知识点：

Configuration conf = HBaseConfiguration.create();

        HBaseAdmin admin = new HBaseAdmin(conf);

        //create namespace named "my_ns"

        admin.createNamespace(NamespaceDescriptor.create("my_ns").build());



        //create tableDesc, with namespace name "my_ns" and table name "mytable"

        HTableDescriptor tableDesc = new HTableDescriptor(TableName.valueOf("my_ns:mytable"));

   tableDesc.setDurability(Durability. SYNC_WAL );

        //add a column family "mycf"

        HColumnDescriptor hcd = new HColumnDescriptor("mycf");

        tableDesc.addFamily(hcd);

        admin.createTable(tableDesc);
        admin.close();

关键知识点：

必须将HBase集群的hbase-site.xml文件添加进工程的classpath中，或者通过Configuration对象设置相关属性，否则程序获取不到集群相关信息，也就无法找到集群，运行程序时会报错；

HTableDescriptor tableDesc = new HTableDescriptor(TableName.valueOf("my_ns:mytable"))代码是描述表mytable，并将mytable放到了my_ns命名空间中，前提是该命名空间已存在，如果指定的是不存在命名空间，则会报错org.apache.hadoop.hbase.NamespaceNotFoundException；

命名空间一般在建模阶段通过命令行创建，在java代码中通过admin.createNamespace(NamespaceDescriptor.create("my_ns").build())创建的机会不多；

创建HBaseAdmin对象时就已经建立了客户端程序与HBase集群的connection，所以在程序执行完成后，务必通过admin.close()关闭connection；

可以通过HTableDescriptor对象设置表的特性，比如：通过tableDesc.setMaxFileSize(512)设置一个region中的store文件的最大size，当一个region中的最大store文件达到这个size时，region就开始分裂；通过tableDesc.setMemStoreFlushSize(512)设置region内存中的memstore的最大值，当memstore达到这个值时，开始往磁盘中刷数据。更多特性请自行查阅官网API；

可以通过HColumnDescriptor对象设置列族的特性，比如：通过hcd.setTimeToLive(5184000)设置数据保存的最长时间；通过hcd.setInMemory(true)设置数据保存在内存中以提高响应速度；通过 hcd.setMaxVersions(10)设置数据保存的最大版本数；通过hcd.setMinVersions(5)设置数据保存的最小版本数（配合TimeToLive使用）。更多特性请自行查阅官网API；

数据的版本数只能通过HColumnDescriptor对象设置，不能通过HTableDescriptor对象设置；

由于HBase的数据是先写入内存，数据累计达到内存阀值时才往磁盘中flush数据，所以，如果在数据还没有flush进硬盘时，regionserver down掉了，内存中的数据将丢失。要想解决这个场景的问题就需要用到WAL（Write-Ahead-Log），tableDesc.setDurability(Durability.SYNC_WAL)就是设置写WAL日志的级别，示例中设置的是同步写WAL，该方式安全性较高，但无疑会一定程度影响性能，请根据具体场景选择使用；

setDurability(Durability d)方法可以在相关的三个对象中使用，分别是：HTableDescriptor，Delete，Put（其中Delete和Put的该方法都是继承自父类org.apache.hadoop.hbase.client.Mutation）。分别针对表、插入操作、删除操作设定WAL日志写入级别。需要注意的是，Delete和Put并不会继承Table的Durability级别（已实测验证）。Durability是一个枚举变量，可选值参见4.2节。如果不通过该方法指定WAL日志级别，则为默认USE_DEFAULT级别。

3.删除表

删除表没创建表那么多学问，直接上代码：

Configuration conf = HBaseConfiguration.create();

        HBaseAdmin admin = new HBaseAdmin(conf);

        String tablename = "my_ns:mytable";

        if(admin.tableExists(tablename)) {

            try {

                admin.disableTable(tablename);

                admin.deleteTable(tablename);

            } catch (Exception e) {

                // TODO: handle exception

                e.printStackTrace();

            }

        }
        admin.close();

说明：删除表前必须先disable表。

4.修改表

4.1.实例代码

（1）删除列族、新增列族

修改之前，四个列族：

hbase(main):014:0> describe 'rd_ns:itable'

DESCRIPTION ENABLED

'rd_ns:itable', {NAME => ' info', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', V true

ERSIONS => '10', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false',

BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME => ' newcf', DATA_BLOCK_ENCODING => 'NONE

', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', COMPRESSION => 'NONE', VERSIONS => '10', TTL => '2147483647',

MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'tr

ue'}, {NAME => ' note', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS =>

'10', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BLOCKSIZE

=> '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME => ' sysinfo', DATA_BLOCK_ENCODING => 'NONE', BLOOM

FILTER => 'ROW', REPLICATION_SCOPE => '0', COMPRESSION => 'NONE', VERSIONS => '10', TTL => '2147483647', MIN_VERS

IONS => '0', KEEP_DELETED_CELLS => 'true', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}

1 row(s) in 0.0450 seconds

修改表，删除三个列族，新增一个列族，代码如下：

Configuration conf = HBaseConfiguration.create();

        HBaseAdmin admin = new HBaseAdmin(conf);

        String tablename = "rd_ns:itable";

        if(admin.tableExists(tablename)) {

            try {

                admin.disableTable(tablename);

                //get the TableDescriptor of target table

                HTableDescriptor newtd = admin.getTableDescriptor (Bytes.toBytes("rd_ns:itable"));



                //remove 3 useless column families

                newtd.removeFamily(Bytes.toBytes("note"));

                newtd.removeFamily(Bytes.toBytes("newcf"));

                newtd.removeFamily(Bytes.toBytes("sysinfo"));



                //create HColumnDescriptor for new column family

                HColumnDescriptor newhcd = new HColumnDescriptor("action_log");

                newhcd.setMaxVersions(10);

                newhcd.setKeepDeletedCells(true);



                //add the new column family(HColumnDescriptor) to HTableDescriptor

                newtd.addFamily(newhcd);



                //modify target table struture

                admin. modifyTable (Bytes.toBytes("rd_ns:itable"),newtd);



                admin.enableTable(tablename);

            } catch (Exception e) {

                // TODO: handle exception

                e.printStackTrace();

            }

        }
        admin.close();

修改之后：

hbase(main):015:0> describe 'rd_ns:itable'

DESCRIPTION ENABLED

'rd_ns:itable', {NAME => ' action_log', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => true

'0', COMPRESSION => 'NONE', VERSIONS => '10', TTL => '2147483647', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'tr

ue', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME => ' info', DATA_BLOCK_ENCODING => '

NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS => '10', COMPRESSION => 'NONE', MIN_VERSIONS => '

0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE =>

'true'}

1 row(s) in 0.0400 seconds

逻辑很简单：

通过admin.getTableDescriptor(Bytes.toBytes("rd_ns:itable"))取得目标表的描述对象，应该就是取得指向该对象的指针了；

修改目标表描述对象；

通过admin.modifyTable(Bytes.toBytes("rd_ns:itable"),newtd)将修改后的描述对象应用到目标表。

（2）修改现有列族的属性（setMaxVersions）

Configuration conf = HBaseConfiguration.create();

        HBaseAdmin admin = new HBaseAdmin(conf);

        String tablename = "rd_ns:itable";

        if(admin.tableExists(tablename)) {

            try {

                admin.disableTable(tablename);

                //get the TableDescriptor of target table

                HTableDescriptor htd = admin.getTableDescriptor(Bytes.toBytes("rd_ns:itable"));

                HColumnDescriptor infocf = htd.getFamily(Bytes.toBytes("info"));

                infocf.setMaxVersions(100);

                //modify target table struture

                admin.modifyTable(Bytes.toBytes("rd_ns:itable"),htd);

                admin.enableTable(tablename);

            } catch (Exception e) {

                // TODO: handle exception

                e.printStackTrace();

            }

        }
        admin.close();

5.新增、更新数据Put

5.1.常用构造函数：

（1）指定行键

public Put(byte[] row)

参数： row 行键

（2）指定行键和时间戳

public Put(byte[] row, long ts)

参数： row 行键， ts 时间戳

（3）从目标字符串中提取子串，作为行键

Put(byte[] rowArray, int rowOffset, int rowLength)

（4）从目标字符串中提取子串，作为行键，并加上时间戳

Put(byte[] rowArray, int rowOffset, int rowLength, long ts)

5.2.常用方法：

（1）指定列族、限定符，添加值

add(byte[] family, byte[] qualifier, byte[] value)

（2）指定列族、限定符、时间戳，添加值

add(byte[] family, byte[] qualifier, long ts, byte[] value)

（3）设置写WAL （Write-Ahead-Log）的级别

public void setDurability(Durability d)

参数是一个枚举值，可以有以下几种选择：

ASYNC_WAL ：当数据变动时，异步写WAL日志

SYNC_WAL ：当数据变动时，同步写WAL日志

FSYNC_WAL ：当数据变动时，同步写WAL日志，并且，强制将数据写入磁盘

SKIP_WAL ：不写WAL日志

USE_DEFAULT ：使用HBase全局默认的WAL写入级别，即SYNC_WAL

5.3.实例代码

（1）插入行

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:leetable");

        Put put = new Put(Bytes.toBytes("100001"));

        put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("lion"));

        put.add(Bytes.toBytes("info"), Bytes.toBytes("address"), Bytes.toBytes("shangdi"));

        put.add(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes("30"));

put.setDurability(Durability.SYNC_WAL);

        table.put(put);
        table.close();

（2）更新行

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:leetable");



        Put put = new Put(Bytes.toBytes("100001"));

        put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("lee"));

        put.add(Bytes.toBytes("info"), Bytes.toBytes("address"), Bytes.toBytes("longze"));

        put.add(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes("31"));

put.setDurability(Durability.SYNC_WAL);

        table.put(put);
        table.close();

注意：

Put的构造函数都需要指定行键，如果是全新的行键，则新增一行；如果是已有的行键，则更新现有行。

创建Put对象及put.add过程都是在构建一行的数据，创建Put对象时相当于创建了行对象，add的过程就是往目标行里添加cell，直到table.put才将数据插入表格；

以上代码创建Put对象用的是构造函数1，也可用构造函数2，第二个参数是时间戳；

Put还有别的构造函数，请查阅官网API。

（3）从目标字符串中提取子串，作为行键，构建Put

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:leetable");



        Put put = new Put(Bytes.toBytes("100001_100002"),7,6);

        put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("show"));

        put.add(Bytes.toBytes("info"), Bytes.toBytes("address"), Bytes.toBytes("caofang"));

        put.add(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes("30"));



        table.put(put);
        table.close();

注意，关于：Put put = new Put(Bytes.toBytes("100001_100002"),7,6)

第二个参数是偏移量，也就是行键从第一个参数的第几个字符开始截取；

第三个参数是截取长度；

这个代码实际是从 100001_100002 中截取了100002子串作为目标行的行键。

6.删除数据Delete

Delete类用于删除表中的一行数据，通过HTable.delete来执行该动作。

在执行Delete操作时，HBase并不会立即删除数据，而是对需要删除的数据打上一个“墓碑”标记，直到当Storefile合并时，再清除这些被标记上“墓碑”的数据。

如果希望删除整行，用行键来初始化一个Delete对象即可。如果希望进一步定义删除的具体内容，可以使用以下这些Delete对象的方法：

为了删除指定的列族，可以使用deleteFamily

为了删除指定列的多个版本，可以使用deleteColumns

为了删除指定列的指定版本，可以使用deleteColumn，这样的话就只会删除版本号（时间戳）与指定版本相同的列。如果不指定时间戳，默认只删除最新的版本

下面详细说明构造函数和常用方法：

6.1.构造函数

（1）指定要删除的行键

Delete(byte[] row)

删除行键指定行的数据。

如果没有进一步的操作，使用该构造函数将删除行键指定的行中 所有列族中所有列的所有版本 ！

（2）指定要删除的行键和时间戳

Delete(byte[] row, long timestamp)

删除行键和时间戳共同确定行的数据。

如果没有进一步的操作，使用该构造函数将删除行键指定的行中，所有列族中所有列的 时间戳小于等于指定时间戳的数据版本。

注意：该时间戳仅仅和删除行有关，如果需要进一步指定列族或者列，你必须分别为它们指定时间戳。

（3）给定一个字符串，目标行键的偏移，截取的长度

Delete(byte[] rowArray, int rowOffset, int rowLength)

（4）给定一个字符串，目标行键的偏移，截取的长度，时间戳

Delete(byte[] rowArray, int rowOffset, int rowLength, long ts)

6.2.常用方法

Delete deleteColumn(byte[] family, byte[] qualifier) 删除指定列的最新版本的数据。

Delete deleteColumns(byte[] family, byte[] qualifier) 删除指定列的所有版本的数据。

Delete deleteColumn(byte[] family, byte[] qualifier, long timestamp) 删除指定列的指定版本的数据。

Delete deleteColumns(byte[] family, byte[] qualifier, long timestamp) 删除指定列的，时间戳小于等于给定时间戳的所有版本的数据。

Delete deleteFamily(byte[] family) 删除指定列族的所有列的所有版本数据。

Delete deleteFamily(byte[] family, long timestamp) 删除指定列族的所有列中时间戳小于等于指定时间戳的所有数据。

Delete deleteFamilyVersion(byte[] family, long timestamp) 删除指定列族中所有列的时间戳等于指定时间戳的版本数据。

voidsetTimestamp(long timestamp) 为Delete对象设置时间戳。

6.3.实例代码

（1）删除整行的所有列族、所有行、所有版本

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:leetable");



        Delete delete = new Delete(Bytes.toBytes("000"));

        table.delete(delete);
        table.close();

（2）删除指定列的最新版本

以下是删除之前的数据，注意看100003行的info:address，这是该列最新版本的数据，值是caofang1，在这之前的版本值是caofang：

hbase(main):007:0> scan 'rd_ns:leetable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405304843114, value=longze

100001 column=info:age, timestamp=1405304843114, value=31

100001 column=info:name, timestamp=1405304843114, value=leon

100002 column=info:address, timestamp=1405305471343, value=caofang

100002 column=info:age, timestamp=1405305471343, value=30

100002 column=info:name, timestamp=1405305471343, value=show

100003 column=info:address, timestamp=1405390959464, value=caofang1

100003 column=info:age, timestamp=1405390959464, value=301

100003 column=info:name, timestamp=1405390959464, value=show1

3 row(s) in 0.0270 seconds

执行以下代码：

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:leetable");

        Delete delete = new Delete(Bytes.toBytes("100003"));

        delete.deleteColumn(Bytes.toBytes("info"), Bytes.toBytes("address"));



        table.delete(delete);
        table.close();

然后查看数据，发现100003列的info:address列的值显示为前一个版本的caofang了！其余值均不变：

hbase(main):008:0> scan 'rd_ns:leetable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405304843114, value=longze

100001 column=info:age, timestamp=1405304843114, value=31

100001 column=info:name, timestamp=1405304843114, value=leon

100002 column=info:address, timestamp=1405305471343, value=caofang

100002 column=info:age, timestamp=1405305471343, value=30

100002 column=info:name, timestamp=1405305471343, value=show

100003 column=info:address, timestamp=1405390728175, value=caofang

100003 column=info:age, timestamp=1405390959464, value=301

100003 column=info:name, timestamp=1405390959464, value=show1

3 row(s) in 0.0560 seconds

（3）删除指定列的所有版本

接以上场景，执行以下代码：

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:leetable");

        Delete delete = new Delete(Bytes.toBytes("100003"));

        delete.deleteColumns(Bytes.toBytes("info"), Bytes.toBytes("address"));



        table.delete(delete);
        table.close();

然后我们会发现，100003行的整个info:address列都没了：

hbase(main):009:0> scan 'rd_ns:leetable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405304843114, value=longze

100001 column=info:age, timestamp=1405304843114, value=31

100001 column=info:name, timestamp=1405304843114, value=leon

100002 column=info:address, timestamp=1405305471343, value=caofang

100002 column=info:age, timestamp=1405305471343, value=30

100002 column=info:name, timestamp=1405305471343, value=show

100003 column=info:age, timestamp=1405390959464, value=301

100003 column=info:name, timestamp=1405390959464, value=show1

3 row(s) in 0.0240 seconds

（4）删除指定列族中所有列的时间戳等于指定时间戳的版本数据

为了演示效果，我已经向100003行的info:address列新插入一条数据

hbase(main):010:0> scan 'rd_ns:leetable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405304843114, value=longze

100001 column=info:age, timestamp=1405304843114, value=31

100001 column=info:name, timestamp=1405304843114, value=leon

100002 column=info:address, timestamp=1405305471343, value=caofang

100002 column=info:age, timestamp=1405305471343, value=30

100002 column=info:name, timestamp=1405305471343, value=show

100003 column=info:address, timestamp= 1405391883886, value=shangdi

100003 column=info:age, timestamp= 1405390959464, value=301

100003 column=info:name, timestamp= 1405390959464, value=show1

3 row(s) in 0.0250 seconds

现在，我们的目的是删除info列族中，时间戳为1405390959464的所有列数据：

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:leetable");



        Delete delete = new Delete(Bytes.toBytes("100003"));

        delete.deleteFamilyVersion(Bytes.toBytes("info"), 1405390959464L);



        table.delete(delete);
        table.close();

hbase(main):011:0> scan 'rd_ns:leetable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405304843114, value=longze

100001 column=info:age, timestamp=1405304843114, value=31

100001 column=info:name, timestamp=1405304843114, value=leon

100002 column=info:address, timestamp=1405305471343, value=caofang

100002 column=info:age, timestamp=1405305471343, value=30

100002 column=info:name, timestamp=1405305471343, value=show

100003 column=info:address, timestamp= 1405391883886, value=shangdi

100003 column=info:age, timestamp= 1405390728175, value=30

100003 column=info:name, timestamp= 1405390728175, value=show

3 row(s) in 0.0250 seconds

可以看到，100003行的info列族，已经不存在时间戳为 1405390959464的数据，比它更早版本的数据被查询出来，而info列族中时间戳不等于 1405390959464的address列，不受该delete的影响。

7.获取单行Get

如果希望获取整行数据，用行键初始化一个Get对象就可以，如果希望进一步缩小获取的数据范围，可以使用Get对象的以下方法：

如果希望取得指定列族的所有列数据，使用addFamily添加所有的目标列族即可；

如果希望取得指定列的数据，使用addColumn添加所有的目标列即可；

如果希望取得目标列的指定时间戳范围的数据版本，使用setTimeRange；

如果仅希望获取目标列的指定时间戳版本，则使用setTimestamp；

如果希望限制每个列返回的版本数，使用setMaxVersions；

如果希望添加过滤器，使用setFilter

下面详细描述构造函数及常用方法：

7.1.构造函数

Get的构造函数很简单，只有一个构造函数： Get(byte[] row) 参数是行键。

7.2.常用方法

GetaddFamily(byte[] family) 指定希望获取的列族

GetaddColumn(byte[] family, byte[] qualifier) 指定希望获取的列

GetsetTimeRange(long minStamp, long maxStamp) 设置获取数据的时间戳范围

GetsetTimeStamp(long timestamp) 设置获取数据的时间戳

GetsetMaxVersions(int maxVersions) 设定获取数据的版本数

GetsetMaxVersions() 设定获取数据的所有版本

GetsetFilter(Filter filter) 为Get对象添加过滤器，过滤器详解请参见：http://blog.csdn.net/u010967382/article/details/37653177

voidsetCacheBlocks(boolean cacheBlocks) 设置该Get获取的数据是否缓存在内存中

7.3.实测代码

测试表的所有数据：

hbase(main):016:0> scan 'rd_ns:leetable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405304843114, value=longze

100001 column=info:age, timestamp=1405304843114, value=31

100001 column=info:name, timestamp=1405304843114, value=leon

100002 column=info:address, timestamp=1405305471343, value=caofang

100002 column=info:age, timestamp=1405305471343, value=30

100002 column=info:name, timestamp=1405305471343, value=show

100003 column=info:address, timestamp=1405407883218, value=qinghe

100003 column=info:age, timestamp=1405407883218, value=28

100003 column=info:name, timestamp=1405407883218, value=shichao

3 row(s) in 0.0250 seconds

（1）获取行键指定行的所有列族、所有列的最新版本数据

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:leetable");

        Get get = new Get(Bytes.toBytes("100003"));

        Result r = table.get(get);

        for (Cell cell : r.rawCells()) {

            System.out.println(

                    "Rowkey : "+Bytes.toString(r.getRow())+

                    "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+

                    "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))

                    );

        }
        table.close();

代码输出：

Rowkey : 100003   Familiy:Quilifier : address   Value : qinghe

Rowkey : 100003   Familiy:Quilifier : age   Value : 28
Rowkey : 100003   Familiy:Quilifier : name   Value : shichao

（2）获取行键指定行中，指定列的最新版本数据

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:leetable");

        Get get = new Get(Bytes.toBytes("100003"));

        get.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"));

        Result r = table.get(get);

        for (Cell cell : r.rawCells()) {

            System.out.println(

                    "Rowkey : "+Bytes.toString(r.getRow())+

                    "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+

                    "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))

                    );

        }
        table.close();

代码输出：

Rowkey : 100003   Familiy:Quilifier : name   Value : shichao

（3）获取行键指定的行中，指定时间戳的数据

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:leetable");

        Get get = new Get(Bytes.toBytes("100003"));

        get.setTimeStamp(1405407854374L);

        Result r = table.get(get);

        for (Cell cell : r.rawCells()) {

            System.out.println(

                    "Rowkey : "+Bytes.toString(r.getRow())+

                    "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+

                    "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))

                    );

        }
        table.close();

代码输出了上面scan命令输出中没有展示的历史数据：

Rowkey : 100003   Familiy:Quilifier : address   Value : huangzhuang

Rowkey : 100003   Familiy:Quilifier : age   Value : 32
Rowkey : 100003   Familiy:Quilifier : name   Value : lily

（4）获取行键指定的行中，所有版本的数据

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:itable");

        Get get = new Get(Bytes.toBytes("100003"));

        get.setMaxVersions();

        Result r = table.get(get);

        for (Cell cell : r.rawCells()) {

            System.out.println(

                    "Rowkey : "+Bytes.toString(r.getRow())+

                    "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+

                    "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))+

                    "   Time : "+cell.getTimestamp()

                    );

        }

table.close();

代码输出：

Rowkey : 100003   Familiy:Quilifier : address   Value : xierqi   Time : 1405417500485

Rowkey : 100003   Familiy:Quilifier : address   Value : shangdi   Time : 1405417477465

Rowkey : 100003   Familiy:Quilifier : address   Value : longze   Time : 1405417448414

Rowkey : 100003   Familiy:Quilifier : age   Value : 29   Time : 1405417500485

Rowkey : 100003   Familiy:Quilifier : age   Value : 30   Time : 1405417477465

Rowkey : 100003   Familiy:Quilifier : age   Value : 31   Time : 1405417448414

Rowkey : 100003   Familiy:Quilifier : name   Value : leon   Time : 1405417500485

Rowkey : 100003   Familiy:Quilifier : name   Value : lee   Time : 1405417477465
Rowkey : 100003   Familiy:Quilifier : name   Value : lion   Time : 1405417448414

注意：

能输出多版本数据的前提是当前列族能保存多版本数据，列族可以保存的数据版本数通过HColumnDescriptor的setMaxVersions(Int)方法设置。

8.获取多行Scan

Scan对象可以返回满足给定条件的多行数据。如果希望获取所有的行，直接初始化一个Scan对象即可。如果希望限制扫描的行范围，可以使用以下方法：

如果希望获取指定列族的所有列，可使用addFamily方法来添加所有希望获取的列族

如果希望获取指定列，使用addColumn方法来添加所有列

通过setTimeRange方法设定获取列的时间范围

通过setTimestamp方法指定具体的时间戳，只返回该时间戳的数据

通过setMaxVersions方法设定最大返回的版本数

通过setBatch方法设定返回数据的最大行数

通过setFilter方法为Scan对象添加过滤器，过滤器详解请参见：http://blog.csdn.net/u010967382/article/details/37653177

Scan的结果数据是可以缓存在内存中的，可以通过getCaching()方法来查看当前设定的缓存条数，也可以通过setCaching(int caching)来设定缓存在内存中的行数，缓存得越多，以后查询结果越快，同时也消耗更多内存。此外，通过setCacheBlocks方法设置是否缓存Scan的结果数据块，默认为true

我们可以通过setMaxResultSize(long)方法来设定Scan返回的结果行数。

下面是官网文档中的一个入门示例：假设表有几行键值为 "row1", "row2", "row3"，还有一些行有键值 "abc1", "abc2", 和 "abc3"，目标是返回"row"打头的行：

HTable htable = ... // instantiate HTable

Scan scan = new Scan();

scan.addColumn(Bytes.toBytes("cf"),Bytes.toBytes("attr"));

scan.setStartRow( Bytes.toBytes("row")); // start key is inclusive

scan.setStopRow( Bytes.toBytes("row" + (char)0)); // stop key is exclusive

ResultScanner rs = htable.getScanner(scan);

try {

for (Result r = rs.next(); r != null; r = rs.next()) {

// process result...

} finally {

rs.close(); // always close the ResultScanner!

}

8.1.常用构造函数

（1）创建扫描所有行的Scan

Scan()

（2）创建Scan，从指定行开始扫描，

Scan(byte[] startRow)

参数： startRow 行键

注意：如果指定行不存在，从下一个最近的行开始

（3）创建Scan，指定起止行

Scan(byte[] startRow, byte[] stopRow)

参数： startRow起始行， stopRow终止行

注意： startRow <= 结果集 < stopRow

（4）创建Scan，指定起始行和过滤器

Scan(byte[] startRow, Filter filter)

参数： startRow 起始行， filter 过滤器

注意：过滤器的功能和构造参见 http://blog.csdn.net/u010967382/article/details/37653177

8.2.常用方法

Scan setStartRow(byte[] startRow) 设置Scan的开始行，默认结果集包含该行。如果希望结果集不包含该行，可以在行键末尾加上0。

Scan setStopRow(byte[] stopRow)  设置Scan的结束行，默认结果集不包含该行。如果希望结果集包含该行，可以在行键末尾加上0。

Scan setTimeRange(long minStamp, long maxStamp)  扫描指定时间范围的数据

Scan setTimeStamp(long timestamp) 扫描指定时间的数据

Scan addColumn(byte[] family, byte[] qualifier) 指定扫描的列

Scan addFamily(byte[] family) 指定扫描的列族

Scan setFilter(Filter filter) 为Scan设置过滤器

Scan setReversed(boolean reversed) 设置Scan的扫描顺序，默认是正向扫描（false），可以设置为逆向扫描（true）。注意：该方法0.98版本以后才可用！！

Scan setMaxVersions() 获取所有版本的数据

Scan setMaxVersions(int maxVersions) 设置获取的最大版本数

void setCaching(int caching) 设定缓存在内存中的行数，缓存得越多，以后查询结果越快，同时也消耗更多内存

voidsetRaw(boolean raw) 激活或者禁用raw模式。如果raw模式被激活，Scan将返回所有已经被打上删除标记但尚未被真正删除的数据。该功能仅用于激活了KEEP_DELETED_ROWS的列族，即列族开启了hcd.setKeepDeletedCells(true)。Scan激活raw模式后，就不能指定任意的列，否则会报错

Enable/disable "raw" mode for this scan. If "raw" is enabled the scan will return all delete marker and deleted rows that have not been collected, yet. This is mostly useful for Scan on column families that have KEEP_DELETED_ROWS enabled. It is an error to specify any column when "raw" is set.

hcd.setKeepDeletedCells(true);

8.3.实测代码

（1）扫描表中的所有行的最新版本数据

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:itable");



        Scan s = new Scan();

        ResultScanner rs = table.getScanner(s);

        for (Result r : rs) {

            for (Cell cell : r.rawCells()) {

                System.out.println(

                        "Rowkey : "+Bytes.toString(r.getRow())+

                        "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+

                        "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))+

                        "   Time : "+cell.getTimestamp()

                        );

            }

        }
        table.close();

代码输出：

Rowkey : 100001   Familiy:Quilifier : address   Value : anywhere   Time : 1405417403438

Rowkey : 100001   Familiy:Quilifier : age   Value : 24   Time : 1405417403438

Rowkey : 100001   Familiy:Quilifier : name   Value : zhangtao   Time : 1405417403438

Rowkey : 100002   Familiy:Quilifier : address   Value : shangdi   Time : 1405417426693

Rowkey : 100002   Familiy:Quilifier : age   Value : 28   Time : 1405417426693

Rowkey : 100002   Familiy:Quilifier : name   Value : shichao   Time : 1405417426693

Rowkey : 100003   Familiy:Quilifier : address   Value : xierqi   Time : 1405417500485

Rowkey : 100003   Familiy:Quilifier : age   Value : 29   Time : 1405417500485
Rowkey : 100003   Familiy:Quilifier : name   Value : leon   Time : 1405417500485

（2）扫描指定行键范围，通过末尾加0，使得结果集包含StopRow

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:itable");

        Scan s = new Scan();

        s.setStartRow(Bytes.toBytes("100001"));

        s.setStopRow(Bytes.toBytes("1000020"));



        ResultScanner rs = table.getScanner(s);

        for (Result r : rs) {

            for (Cell cell : r.rawCells()) {

                System.out.println(

                        "Rowkey : "+Bytes.toString(r.getRow())+

                        "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+

                        "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))+

                        "   Time : "+cell.getTimestamp()

                        );

            }

        }
        table.close();

代码输出：

Rowkey : 100001   Familiy:Quilifier : address   Value : anywhere   Time : 1405417403438

Rowkey : 100001   Familiy:Quilifier : age   Value : 24   Time : 1405417403438

Rowkey : 100001   Familiy:Quilifier : name   Value : zhangtao   Time : 1405417403438

Rowkey : 100002   Familiy:Quilifier : address   Value : shangdi   Time : 1405417426693

Rowkey : 100002   Familiy:Quilifier : age   Value : 28   Time : 1405417426693
Rowkey : 100002   Familiy:Quilifier : name   Value : shichao   Time : 1405417426693

（3）返回所有已经被打上删除标记但尚未被真正删除的数据

本测试针对rd_ns:itable表的100003行。

如果使用get结合 setMaxVersions() 方法能返回所有未删除的数据，输出如下：

Rowkey : 100003   Familiy:Quilifier : address   Value : huilongguan   Time : 1405494141522

Rowkey : 100003   Familiy:Quilifier : address   Value : shangdi   Time : 1405417477465

Rowkey : 100003   Familiy:Quilifier : age   Value : new29   Time : 1405494141522
Rowkey : 100003   Familiy:Quilifier : name   Value : liyang   Time : 1405494141522

然而，使用Scan强大的 s.setRaw( true ) 方法，可以获得所有已经被打上删除标记但尚未被真正删除的数据。

代码如下：

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:itable");

        Scan s = new Scan();

        s.setStartRow(Bytes.toBytes("100003"));

        s.setRaw(true);

        s.setMaxVersions();



        ResultScanner rs = table.getScanner(s);

        for (Result r : rs) {

            for (Cell cell : r.rawCells()) {

                System.out.println(

                        "Rowkey : "+Bytes.toString(r.getRow())+

                        "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+

                        "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))+

                        "   Time : "+cell.getTimestamp()

                        );

            }

        }
        table.close();

输出结果如下：

Rowkey : 100003   Familiy:Quilifier : address   Value : huilongguan   Time : 1405494141522

Rowkey : 100003   Familiy:Quilifier : address   Value :    Time : 1405417500485

Rowkey : 100003   Familiy:Quilifier : address   Value : xierqi   Time : 1405417500485

Rowkey : 100003   Familiy:Quilifier : address   Value : shangdi   Time : 1405417477465

Rowkey : 100003   Familiy:Quilifier : address   Value :    Time : 1405417448414

Rowkey : 100003   Familiy:Quilifier : address   Value : longze   Time : 1405417448414

Rowkey : 100003   Familiy:Quilifier : age   Value : new29   Time : 1405494141522

Rowkey : 100003   Familiy:Quilifier : age   Value :    Time : 1405417500485

Rowkey : 100003   Familiy:Quilifier : age   Value :    Time : 1405417500485

Rowkey : 100003   Familiy:Quilifier : age   Value : 29   Time : 1405417500485

Rowkey : 100003   Familiy:Quilifier : age   Value : 30   Time : 1405417477465

Rowkey : 100003   Familiy:Quilifier : age   Value : 31   Time : 1405417448414

Rowkey : 100003   Familiy:Quilifier : name   Value : liyang   Time : 1405494141522

Rowkey : 100003   Familiy:Quilifier : name   Value :    Time : 1405493879419

Rowkey : 100003   Familiy:Quilifier : name   Value : leon   Time : 1405417500485

Rowkey : 100003   Familiy:Quilifier : name   Value : lee   Time : 1405417477465

Rowkey : 100003   Familiy:Quilifier : name   Value : lion   Time : 1405417448414

（4）结合过滤器，获取所有age在25到30之间的行

目前的数据：

hbase(main):049:0> scan 'rd_ns:itable'

ROW COLUMN+CELL

100001 column=info:address, timestamp=1405417403438, value=anywhere

100001 column=info:age, timestamp=1405417403438, value=24

100001 column=info:name, timestamp=1405417403438, value=zhangtao

100002 column=info:address, timestamp=1405417426693, value=shangdi

100002 column=info:age, timestamp=1405417426693, value=28

100002 column=info:name, timestamp=1405417426693, value=shichao

100003 column=info:address, timestamp=1405494141522, value=huilongguan

100003 column=info:age, timestamp=1405494999631, value=29

100003 column=info:name, timestamp=1405494141522, value=liyang

3 row(s) in 0.0240 seconds

代码：

Configuration conf = HBaseConfiguration.create();

        HTable table = new HTable(conf, "rd_ns:itable");

        FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL);

        SingleColumnValueFilter filter1 = new SingleColumnValueFilter(

                Bytes.toBytes("info"),

                Bytes.toBytes("age"),

                CompareOp.GREATER_OR_EQUAL,

                Bytes.toBytes("25")

                );

        SingleColumnValueFilter filter2 = new SingleColumnValueFilter(

                Bytes.toBytes("info"),

                Bytes.toBytes("age"),

                CompareOp.LESS_OR_EQUAL,

                Bytes.toBytes("30")

                );

        filterList.addFilter(filter1);

        filterList.addFilter(filter2);



        Scan scan = new Scan();

        scan.setFilter(filterList);



        ResultScanner rs = table.getScanner(scan);

        for (Result r : rs) {

            for (Cell cell : r.rawCells()) {

                System.out.println(

                        "Rowkey : "+Bytes.toString(r.getRow())+

                        "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+

                        "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))+

                        "   Time : "+cell.getTimestamp()

                        );

            }

        }
        table.close();

代码输出：

Rowkey : 100002   Familiy:Quilifier : address   Value : shangdi   Time : 1405417426693

Rowkey : 100002   Familiy:Quilifier : age   Value : 28   Time : 1405417426693

Rowkey : 100002   Familiy:Quilifier : name   Value : shichao   Time : 1405417426693

Rowkey : 100003   Familiy:Quilifier : address   Value : huilongguan   Time : 1405494141522

Rowkey : 100003   Familiy:Quilifier : age   Value : 29   Time : 1405494999631

Rowkey : 100003   Familiy:Quilifier : name   Value : liyang   Time : 1405494141522

注意：

HBase对列族、列名大小写敏感

关于过滤器请参见我的另外一篇博客：http://blog.csdn.net/u010967382/article/details/37653177

你可能感兴趣的:(bigdata)

Sharding-Sphere，Sharding-JDBC_介绍_Sharding-Sphere，Sharding-JDBC分布式_分库分表工作笔记001 添柴程序猿
技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152因为公司最近在做多租户的智慧城市相关的产品,这里,偶然看到这个框架,应该是可以用到,所以就看了一些,记录下来.先看一下我们要看的内容.去网站看看shardingsphere,是一套开源的分布式数据库中间件,解决方案包括3个产品点击了解更多去看一下

OGG从oracle到KAFKA的增量数据表同步操作 Romona_J oracle kafka 数据库
OGG从oracle到KAFKA的增量数据表同步操作需求oracle的库：cas库kfaka服务器：给与topic信息、以及服务器IP：端口同步表：cas.students环境在独立的服务器上面装oggfororacle11g以及oggforbigdata通过在oggfororacle服务器连接源端数据库做抽取到本地通过oggforbigdata服务器做复制1.OGGforOracle安装及配置开

MapReduce 程序详解
Hadoop的第一课总是MapReduce，但是往往我们每次都是使用自带的例子跑一遍MapReduce程序，今天总与自己写了一个完整的程序。技术有限，多多指教。1.导Jar包，将Hadoop的Jar导入到你的工程2.开始写自己的主类，分为3个类。第一个类WordcountMapperpackagecn.itcast.bigdata.mr.wcdemo;importjava.io.IOExcepti

【赛题样题】【大数据应用开发】2023年全国职业院校技能大赛高职组“大数据应用开发”第三套样题波比网络大数据大数据应用开发职业院校技能大赛高职组赛题样题
2023年全国职业院校技能大赛赛题第03套赛项名称：大数据应用开发英文名称：BigDataApplicationDevelopment赛项组别：高等职业教育组赛项编号：GZ033背景描述大数据时代背景下，电商经营模式发生很大改变。在传统运营模式中，缺乏数据积累，人们在做出一些决策行为过程中，更多是凭借个人经验和直觉，发展路径比较自我封闭。而大数据时代，为人们提供一种全新的思路，通过大量的数据分析得

云平台领域新秀：百度云的崛起之路 AI云原生与云计算技术学院百度云云计算 ai
云平台领域新秀：百度云的崛起之路关键词：百度云、云计算、云服务、技术架构、生态建设、市场竞争、行业智能化转型摘要：作为中国云计算市场的重要参与者，百度云通过独特的"ABC（AI+BigData+Cloud）"战略实现了从行业追赶者到创新引领者的蜕变。本文深度解析百度云的技术架构演进路径，揭示其在AI原生云、混合云架构、边缘计算协同等核心领域的技术优势；系统梳理生态建设策略与行业解决方案体系，分析其

DataX的json配置文件，{}，[]讲解 WZMeiei 大数据 json 数据库大数据
通过DataX将文件系统迁移到MySQLpython/bigdata/datax/bin/datax.py-rtxtfilereader-wmysqlwriter配置文件如下，（json文件中是不允许有//注释的，这里为了理解配置项的含义所以给加上了）{"job":{//数据同步任务的具体内容配置，包含数据源读取和写入目标的配置"content":[{//数据源读取器配置"reader":{//读

手把手教你搭建 Hadoop Namenode 高可用集群（HA）线条1 hadoop 大数据分布式
一、注意事项免密登录：确保所有节点间SSH免密登录正常，否则故障转移会失败。路径一致性：所有节点的Hadoop安装路径、数据目录需完全一致。端口冲突：检查9820、9870、8485等端口是否被占用。ZooKeeper集群：确保ZK集群稳定运行，至少3个节点避免脑裂。二、环境准备1.服务器规划节点角色软件依赖bigdata01Namenode1、JournalNode、ZooKeeperHadoo

智能商品推荐系统技术路线图-2 Nick_zcy 算法推荐算法 springboot spark
智能商品推荐系统技术路线图系统架构图系统分层架构用户交互层(PresentationLayer)↓HTTP/HTTPSAPI层(APILayer)↓Service调用业务服务层(ServiceLayer)↓数据访问数据访问层(DataAccessLayer)↓数据存储/处理数据存储层(DataStorageLayer)↓大数据处理大数据处理层(BigDataLayer)用户交互层Web前端(Vue

zookeeper 单机安装未来创世纪大数据 zookeeper
zookeeper安装1.下载zookeeper官方下载页面：http://zookeeper.apache.org/releases.html#download国内的下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/2.解压zookeeperterry@terry-VirtualBox:/opt/bigdata_platform

Shell中的sed命令(简单详细,一看就会,没一句废话) 线条1 linux bash 运维
sed可以用来实现过滤和替换1.可以进行查询操作sed可选项目标文件可选性：p打印$代表最后一行-n仅显示处理后的结果-e根据表达式进行处理2.列出txt文档中的数据catbigdata.txt|sed-n-e'3,5p'3.显示第一行到最后一行的数据：cat6.txt|sed-n-e'1,$p'显示第二行到最后一行cat6.txt|sed-n-e'2,$p'4.显示行号一种写法，没有使用sed,

springboot 基于IDEA排查脏jar 励志重写JDK java代码
查看springbootmaven相关依赖IDEA右上角m,执行命令：dependency:tree，控制台打印结果：com.xzff:bigdata-system:jar:2.6[INFO]+-com.xzff:bigdata-qt:jar:2.4:compile[INFO]|+-com.xzff:bigdata-generator:jar:2.6:compile[INFO]||+-org.sp

2024华为HCIP大数据考试总结&题库&提纲 KwCoding 华为大数据 HCIP big data
目录关于华为HCIP大数据HCIP大数据题库题库介绍关于题库更新购买方式HCIP大数据考试介绍考试形式考试题型考试内容祝：逢考必过关于华为HCIP大数据HCIP大数据，HCIP-BigDataDeveloper华为认证大数据开发高级工程师，考试代码H13-723因公司需要，最近这两年我从工程项目开发转为数据开发，负责数据仓库、数据中台的建设。在这期间参与了华为大数据培训，获赠了HCIP大数据考试券

bigdatareport chennalC#c.h.JA Ptho 数据结构 sqlite oracle json sql database spark
大数据技术体系深度解析（2025年版）一、大数据定义与核心特征（5V+扩展）传统5V模型升级Volume（体量）：从TB级到EB/ZB级，2025年全球数据总量预计达180ZB，其中非结构化数据（日志、视频、文本）占比超80%，推动存储架构向分层弹性扩展（冷热温数据分级，蓝光存储应用率提升至45%）。Velocity（速度）：实时数据流处理延迟要求从秒级（Kafka）进化到亚毫秒级（FlinkSQ

Spark-小练试刀 o不ok! 前端 javascript 开发语言
任务1：HDFS上有三份文件，分别为student.txt（学生信息表）result_bigdata.txt（大数据基础成绩表），result_math.txt（数学成绩表）。加载student.txt为名称为student的RDDx数据，result_bigdata.txt为名称为bigdata的RDD数据，result_math.txt为名称为math的RDD数据。hdfsdfs-mkdir/

Hive4.0.1集群安装部署（Hadoop版本为3.3.6）(详细教程) 大数据探索者 Hive Hadoop Centos hadoop 大数据 hive 分布式运维 centos mysql
前置环境Linux环境Zookeeper集群安装（详细教程）-CSDN博客HadoopHA高可用集群3.3.6搭建（详细教程）-CSDN博客MySQL8.0.40离线安装（详细教程）_mysql8.0.40ftp-CSDN博客Hadoop3.3.6官网下载链接地址部署规划服务器节点MetaStoreHiveServer2bigdata01√bigdata02√√bigdata03√1.先在bigd

【ATU Book-MemryX 系列】MemryX 推出浮点运算 AI 芯片，引领精准运算新时代 WPG大大通 ATU 伊布小編 (一部)人工智能大大通 ai npu 加速卡半导体
一、概述近年来，随着半导体制程的进步，硬件计算能力和数据量都有了飞跃性的提升，使得计算机视觉(ComputerVision)领域迎来了全新的发展阶段。过去，图像处理大多依赖像素级别的逐一运算，而现在，通过大数据(BigData)的支撑以及深度学习(DeepLearning)随着AI模型的成熟，它能够通过固定的学习模式从海量数据中快速创造出各种各样的应用。人工智能技术的普及与边缘计算在工业与车辆应用

spark-submit命令总览 zmd-zk 大数据组件的使用大数据 spark python 分布式学习
pyspark可以使用pyspark命令在服务器黑窗口中进行spark代码的编写pyspark--masterlocal[2]本地模式pyspark--masterspark://bigdata01:7077standalone模式pyspark--masteryarnyarn模式//启动一个黑窗口进行任务的编写spark-submit#提交任务的命令：spark-submit[options][

Prometheus+Kafka exporter+Grafana监控Kafka ErbaoLiu Prometheus grafana prometheus kafka kafka exporter
部署规划主机名bigdata111bigdata112bigdata113服务部署Kafka、Prometheus、Grafana、KafkaexporterKafkaKafkaKafka部署目录/opt/kafka_2.11-2.1.1Prometheus部署目录/opt/prometheus/

SAAS多租户实现方案_springboot 实现多租户_基于共享数据库_共享schema_共享数据表_基于baomidou_mybatis_plus---springcloud工作笔记158 添柴程序猿
技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152前面的博文说了,多租户其实就是把一套系统,提供给多个用户用,让每个用户都像拥有自己的一套系统一样,这样我们就可以把一套系统部署在我们自己这里,然后我们给某个来购买我们系统服务的商户,分个账号,他们就可以,拥有系统的整个功能了.这里的用户,也就是前来购买我们系统服务的,可以是一个公司,一个商户,我们称

Big Data 流处理框架 Flink wumingxiaoyao Big Data 大数据 flink Big Data 流处理框架实时数据处理
BigData流处理框架Flink什么是FlinkFlink的主要特性典型应用场景AmazonElasticMapReduce(EMR)VSFlink架构和运行时环境实时处理能力开发和编程模型操作和管理应用场景总结Flink支持的数据源Flink如何消费AWSSQS数据源自定义SourceFunctionFlinkConnectorforAWSSQS(社区贡献或第三方库)借助AWSLambda和K

Clickhouse集群集群安装大浪淘沙2023 clickhouse hadoop linux hdfs
1.环境信息：[root@bigdata003clickhouse-server]#cat/etc/redhat-releaseCentOSLinuxrelease7.9.2009(Core)2.在/etc/hosts中添加主机信息10.29.35.240bigdataxxx310.29.35.241bigdataxxx410.29.35.243bigdataxxx53.关闭防火墙和selinux

Utilizing DDR Memory Banks for Big Data Processing Performance 东北豆子哥 linux linux
UtilizingDDRMemoryBanksforBigDataProcessingPerformanceTomaximizeperformancewhenprocessingbigdatausingDDRmemorybanks,considerthesestrategies:MemoryArchitectureOptimizationBankInterleavingDistributedata

Java BigDecimal类 BigInter类简介及代码演示 JayceHarris java
BigDecimal类大数据中的大小数BigInter大数据中的大整数备注:如果除不尽程序会报错packagecom.BigData;importjava.math.BigDecimal;importjava.math.BigInteger;//定义大数据中的大整数和大小数publicclassBigDataDemo{publicstaticvoidmain(String[]args){//Big

【区块链+乡村振兴】数字农业区块链系统 | FISCO BCOS应用案例 FISCO_BCOS FISCO BCOS产业应用发展报告区块链乡村振兴
农业1.0时代为体力劳动为主的小农经济时代，农业2.0时代是以机械化生产为主、适度经营的“种植大户”时代，农业3.0时代则以现代科学技术为主要特征，而我们正在迈向的农业4.0时代，可以说是融合A(AI)、B(BlockChain)、C(Cloud)、D(BigData)技术，高度精准化、智能化、生态化的数字化农业时代。在助力数字化农业上，域乎科技利用FISCOBCOS区块链技术和物联网技术打造数字

Linux多线程工作笔记0004---C语言中g++ -o -c -g 功能添柴程序猿
技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152-o：指定生成可执行文件的名称。使用方法为：g++-oafilefile.cppfile.h...（可执行文件不可与待编译或链接文件同名，否则会生成相应可执行文件且覆盖原编译或链接文件），如果不使用-o选项，则会生成默认可执行文件a.out。-c：只编译不链接，只生成目标文件。-g：添加gdb调试选

大一python期末总结 wylrosewyl python
学期总结一.为什么选择大数据1.什么是大数据（bigdata）2.优秀的前景是什么二.关于这学期我收获了什么1.关于python的学习三.课堂初体验打印三角形99乘法表四.课堂练习五.最后的总结一.为什么选择大数据1.什么是大数据（bigdata）对于“大数据”（Bigdata）研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海

揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫

Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义

Big Data (H/M) Assessed Exercise 后端
BigData(H/M)AssessedExerciseTaskSheet2024/25–Individual–v107/02/25SummaryThegoalofthisexerciseistofamiliarizeyourselveswiththedesign,implementationandperformancetestingofBigDataanalysistasksusingApach

2025年计算机工程与大数据应用国际会议（CEBDA 2025） Yangxshy EI 会议大数据
2025年计算机工程与大数据应用国际会议2025InternationalConferenceonComputerEngineeringandBigDataApplications大会信息会议名称：2025年计算机工程与大数据应用国际会议会议简称：CEBDA2025收录检索：提交EiCompendex,CPCI,CNKI,GoogleScholar等大会地点：中国·北京审稿通知：投稿后2-3日内通

Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：     在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局

maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用

Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In

CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。     规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100

java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha

eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave

jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam

我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中

java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp

JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
         如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动;     &nb

单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static

javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
        对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有

【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data

我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0

腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心

java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ

看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写

[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
     为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。       所以，为避免这种不确定性风险，我

一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见   http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49      回复    发消息环境： Linux ve

Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi

备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p

iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠

html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov

浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列

移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h

AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be

redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na

使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret

BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。        BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有

安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

首页 - 关于我们 - 站内搜索 - Sitemap - 侵权投诉

版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.