LaoLiulaoliu

【甘道夫】HBase基本数据操作详解【完整版，绝对精品】

引言
之前详细写了一篇HBase过滤器的文章，今天把基础的表和数据相关操作补上。
本文档参考最新（截止2014年7月16日）的官方Ref Guide、Developer API编写。
所有代码均基于“hbase 0.96.2-hadoop2”版本编写，均实测通过。
欢迎转载，请注明来源：
http://blog.csdn.net/u010967382/article/details/37878701
概述
对于建表，和RDBMS类似，HBase也有namespace的概念，可以指定表空间创建表，也可以直接创建表，进入default表空间。
对于数据操作，HBase支持四类主要的数据操作，分别是：
Put：增加一行，修改一行；
Delete：删除一行，删除指定列族，删除指定column的多个版本，删除指定column的制定版本等；
Get：获取指定行的所有信息，获取指定行和指定列族的所有colunm，获取指定column，获取指定column的几个版本，获取指定column的指定版本等；
Scan：获取所有行，获取指定行键范围的行，获取从某行开始的几行，获取满足过滤条件的行等。
这四个类都是org.apache.hadoop.hbase.client的子类，可以到官网API去查看详细信息，本文仅总结常用方法，力争让读者用20%的时间掌握80%的常用功能。
目录
1.命名空间Namespace
2.创建表
3.删除表
4.修改表
5.新增、更新数据Put
6.删除数据Delete
7.获取单行Get
8.获取多行Scan
1. 命名空间Namespace
在关系数据库系统中，命名空间namespace指的是一个表的逻辑分组，同一组中的表有类似的用途。命名空间的概念为即将到来的多租户特性打下基础：
配额管理（Quota Management (HBASE-8410)）：限制一个namespace可以使用的资源，资源包括region和table等；
命名空间安全管理（Namespace Security Administration (HBASE-9206)）：提供了另一个层面的多租户安全管理；
Region服务器组（Region server groups (HBASE-6721)）：一个命名空间或一张表，可以被固定到一组regionservers上，从而保证了数据隔离性。
1.1.命名空间管理
命名空间可以被创建、移除、修改。
表和命名空间的隶属关系在在创建表时决定，通过以下格式指定：
:

Example：hbase shell中创建命名空间、创建命名空间中的表、移除命名空间、修改命名空间
#Create a namespace
create_namespace 'my_ns'

#create my_table in my_ns namespace
create 'my_ns:my_table', 'fam'

#drop namespace
drop_namespace 'my_ns'

#alter namespace
alter_namespace 'my_ns', {METHOD => 'set', 'PROPERTY_NAME' => 'PROPERTY_VALUE'}

1.2. 预定义的命名空间
有两个系统内置的预定义命名空间：
hbase：系统命名空间，用于包含hbase的内部表
default：所有未指定命名空间的表都自动进入该命名空间
Example：指定命名空间和默认命名空间
#namespace=foo and table qualifier=bar
create 'foo:bar', 'fam'

#namespace=default and table qualifier=bar
create 'bar', 'fam'
2.创建表
废话不多说，直接上样板代码，代码后再说明注意事项和知识点：

        Configuration conf = HBaseConfiguration.create();
        HBaseAdmin admin = new HBaseAdmin(conf);
        //create namespace named "my_ns"
        admin.createNamespace(NamespaceDescriptor.create("my_ns").build());

        //create tableDesc, with namespace name "my_ns" and table name "mytable"
        HTableDescriptor tableDesc = new HTableDescriptor(TableName.valueOf("my_ns:mytable"));
        tableDesc.setDurability(Durability.SYNC_WAL);

        //add a column family "mycf"
        HColumnDescriptor hcd = new HColumnDescriptor("mycf");
        tableDesc.addFamily(hcd);
        admin.createTable(tableDesc);
        admin.close();

关键知识点：
必须将HBase集群的hbase-site.xml文件添加进工程的classpath中，或者通过Configuration对象设置相关属性，否则程序获取不到集群相关信息，也就无法找到集群，运行程序时会报错；
HTableDescriptor tableDesc = new HTableDescriptor(TableName.valueOf("my_ns:mytable"))代码是描述表mytable，并将mytable放到了my_ns命名空间中，前提是该命名空间已存在，如果指定的是不存在命名空间，则会报错org.apache.hadoop.hbase.NamespaceNotFoundException；
命名空间一般在建模阶段通过命令行创建，在java代码中通过admin.createNamespace(NamespaceDescriptor.create("my_ns").build())创建的机会不多；
创建HBaseAdmin对象时就已经建立了客户端程序与HBase集群的connection，所以在程序执行完成后，务必通过admin.close()关闭connection；
可以通过HTableDescriptor对象设置表的特性，比如：通过tableDesc.setMaxFileSize(512)设置一个region中的store文件的最大size，当一个region中的最大store文件达到这个size时，region就开始分裂；通过tableDesc.setMemStoreFlushSize(512)设置region内存中的memstore的最大值，当memstore达到这个值时，开始往磁盘中刷数据。更多特性请自行查阅官网API；
可以通过HColumnDescriptor对象设置列族的特性，比如：通过hcd.setTimeToLive(5184000)设置数据保存的最长时间；通过hcd.setInMemory(true)设置数据保存在内存中以提高响应速度；通过 hcd.setMaxVersions(10)设置数据保存的最大版本数；通过hcd.setMinVersions(5)设置数据保存的最小版本数（配合TimeToLive使用）。更多特性请自行查阅官网API；
数据的版本数只能通过HColumnDescriptor对象设置，不能通过HTableDescriptor对象设置；
由于HBase的数据是先写入内存，数据累计达到内存阀值时才往磁盘中flush数据，所以，如果在数据还没有flush进硬盘时，regionserver down掉了，内存中的数据将丢失。要想解决这个场景的问题就需要用到WAL（Write-Ahead-Log），tableDesc.setDurability(Durability.SYNC_WAL)就是设置写WAL日志的级别，示例中设置的是同步写WAL，该方式安全性较高，但无疑会一定程度影响性能，请根据具体场景选择使用；
setDurability(Durability d)方法可以在相关的三个对象中使用，分别是：HTableDescriptor，Delete，Put（其中Delete和Put的该方法都是继承自父类org.apache.hadoop.hbase.client.Mutation）。分别针对表、插入操作、删除操作设定WAL日志写入级别。需要注意的是，Delete和Put并不会继承Table的Durability级别（已实测验证）。Durability是一个枚举变量，可选值参见4.2节。如果不通过该方法指定WAL日志级别，则为默认USE_DEFAULT级别。
3.删除表
删除表没创建表那么多学问，直接上代码：
        Configuration conf = HBaseConfiguration.create();
        HBaseAdmin admin = new HBaseAdmin(conf);
        String tablename = "my_ns:mytable";
        if(admin.tableExists(tablename)) {
            try {
                admin.disableTable(tablename);
                admin.deleteTable(tablename);
            } catch (Exception e) {
                // TODO: handle exception
                e.printStackTrace();
            }
        }
        admin.close();
说明：删除表前必须先disable表。
4.修改表
4.1.实例代码
（1）删除列族、新增列族
修改之前，四个列族：
hbase(main):014:0> describe 'rd_ns:itable'
DESCRIPTION                                                                                                        ENABLED
'rd_ns:itable', {NAME => 'info', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', V true
ERSIONS => '10', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false',
BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME => 'newcf', DATA_BLOCK_ENCODING => 'NONE
', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', COMPRESSION => 'NONE', VERSIONS => '10', TTL => '2147483647',
MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'tr
ue'}, {NAME => 'note', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS =>
  '10', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BLOCKSIZE
=> '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME => 'sysinfo', DATA_BLOCK_ENCODING => 'NONE', BLOOM
FILTER => 'ROW', REPLICATION_SCOPE => '0', COMPRESSION => 'NONE', VERSIONS => '10', TTL => '2147483647', MIN_VERS
IONS => '0', KEEP_DELETED_CELLS => 'true', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}
1 row(s) in 0.0450 seconds

修改表，删除三个列族，新增一个列族，代码如下：
        Configuration conf = HBaseConfiguration.create();
        HBaseAdmin admin = new HBaseAdmin(conf);
        String tablename = "rd_ns:itable";
        if(admin.tableExists(tablename)) {
            try {
                admin.disableTable(tablename);
                //get the TableDescriptor of target table
                HTableDescriptor newtd = admin.getTableDescriptor(Bytes.toBytes("rd_ns:itable"));

                //remove 3 useless column families
                newtd.removeFamily(Bytes.toBytes("note"));
                newtd.removeFamily(Bytes.toBytes("newcf"));
                newtd.removeFamily(Bytes.toBytes("sysinfo"));

                //create HColumnDescriptor for new column family
                HColumnDescriptor newhcd = new HColumnDescriptor("action_log");
                newhcd.setMaxVersions(10);
                newhcd.setKeepDeletedCells(true);

                //add the new column family(HColumnDescriptor) to HTableDescriptor
                newtd.addFamily(newhcd);

                //modify target table struture
                admin.modifyTable(Bytes.toBytes("rd_ns:itable"),newtd);

                admin.enableTable(tablename);
            } catch (Exception e) {
                // TODO: handle exception
                e.printStackTrace();
            }
        }
        admin.close();

修改之后：
hbase(main):015:0> describe 'rd_ns:itable'
DESCRIPTION ENABLED
'rd_ns:itable', {NAME => 'action_log', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => true
'0', COMPRESSION => 'NONE', VERSIONS => '10', TTL => '2147483647', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'tr
ue', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME => 'info', DATA_BLOCK_ENCODING => '
NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS => '10', COMPRESSION => 'NONE', MIN_VERSIONS => '
0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE =>
'true'}
1 row(s) in 0.0400 seconds

逻辑很简单：
通过admin.getTableDescriptor(Bytes.toBytes("rd_ns:itable"))取得目标表的描述对象，应该就是取得指向该对象的指针了；
修改目标表描述对象；
通过admin.modifyTable(Bytes.toBytes("rd_ns:itable"),newtd)将修改后的描述对象应用到目标表。

（2）修改现有列族的属性（setMaxVersions）
        Configuration conf = HBaseConfiguration.create();
        HBaseAdmin admin = new HBaseAdmin(conf);
        String tablename = "rd_ns:itable";
        if(admin.tableExists(tablename)) {
            try {
                admin.disableTable(tablename);

                //get the TableDescriptor of target table
                HTableDescriptor htd = admin.getTableDescriptor(Bytes.toBytes("rd_ns:itable"));
                HColumnDescriptor infocf = htd.getFamily(Bytes.toBytes("info"));
                infocf.setMaxVersions(100);

                //modify target table struture
                admin.modifyTable(Bytes.toBytes("rd_ns:itable"),htd);
                admin.enableTable(tablename);
            } catch (Exception e) {
                // TODO: handle exception
                e.printStackTrace();
            }
        }
        admin.close();

5.新增、更新数据Put
5.1.常用构造函数：
（1）指定行键
public Put(byte[] row)
参数：row 行键

（2）指定行键和时间戳
public Put(byte[] row, long ts)
参数：row 行键，ts 时间戳

（3）从目标字符串中提取子串，作为行键
Put(byte[] rowArray, int rowOffset, int rowLength)

（4）从目标字符串中提取子串，作为行键，并加上时间戳
Put(byte[] rowArray, int rowOffset, int rowLength, long ts)

5.2.常用方法：
（1）指定列族、限定符，添加值
add(byte[] family, byte[] qualifier, byte[] value)

（2）指定列族、限定符、时间戳，添加值
add(byte[] family, byte[] qualifier, long ts, byte[] value)

（3）设置写WAL（Write-Ahead-Log）的级别
public void setDurability(Durability d)
参数是一个枚举值，可以有以下几种选择：
ASYNC_WAL ：当数据变动时，异步写WAL日志
SYNC_WAL ：当数据变动时，同步写WAL日志
FSYNC_WAL ：当数据变动时，同步写WAL日志，并且，强制将数据写入磁盘
SKIP_WAL ：不写WAL日志
USE_DEFAULT ：使用HBase全局默认的WAL写入级别，即SYNC_WAL

5.3.实例代码
（1）插入行
Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:leetable");

        Put put = new Put(Bytes.toBytes("100001"));
        put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("lion"));
        put.add(Bytes.toBytes("info"), Bytes.toBytes("address"), Bytes.toBytes("shangdi"));
        put.add(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes("30"));
        put.setDurability(Durability.SYNC_WAL);

table.put(put);
table.close();

（2）更新行
        Configuration conf = HBaseConfiguration.create();
        HTable table = new HTable(conf, "rd_ns:leetable");

        Put put = new Put(Bytes.toBytes("100001"));
        put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("lee"));
        put.add(Bytes.toBytes("info"), Bytes.toBytes("address"), Bytes.toBytes("longze"));
        put.add(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes("31"));
        put.setDurability(Durability.SYNC_WAL);

table.put(put);
table.close();
注意：
Put的构造函数都需要指定行键，如果是全新的行键，则新增一行；如果是已有的行键，则更新现有行。
创建Put对象及put.add过程都是在构建一行的数据，创建Put对象时相当于创建了行对象，add的过程就是往目标行里添加cell，直到table.put才将数据插入表格；
以上代码创建Put对象用的是构造函数1，也可用构造函数2，第二个参数是时间戳；
Put还有别的构造函数，请查阅官网API。

（3）从目标字符串中提取子串，作为行键，构建Put
        Configuration conf = HBaseConfiguration.create();
        HTable table = new HTable(conf, "rd_ns:leetable");

        Put put = new Put(Bytes.toBytes("100001_100002"),7,6);
        put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("show"));
        put.add(Bytes.toBytes("info"), Bytes.toBytes("address"), Bytes.toBytes("caofang"));
        put.add(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes("30"));

        table.put(put);
        table.close();

注意，关于：Put put = new Put(Bytes.toBytes("100001_100002"),7,6)
第二个参数是偏移量，也就是行键从第一个参数的第几个字符开始截取；
第三个参数是截取长度；
这个代码实际是从 100001_100002 中截取了100002子串作为目标行的行键。
6.删除数据Delete
       Delete类用于删除表中的一行数据，通过HTable.delete来执行该动作。
       在执行Delete操作时，HBase并不会立即删除数据，而是对需要删除的数据打上一个“墓碑”标记，直到当Storefile合并时，再清除这些被标记上“墓碑”的数据。
       如果希望删除整行，用行键来初始化一个Delete对象即可。如果希望进一步定义删除的具体内容，可以使用以下这些Delete对象的方法：
为了删除指定的列族，可以使用deleteFamily
为了删除指定列的多个版本，可以使用deleteColumns
为了删除指定列的指定版本，可以使用deleteColumn，这样的话就只会删除版本号（时间戳）与指定版本相同的列。如果不指定时间戳，默认只删除最新的版本
      下面详细说明构造函数和常用方法：
6.1.构造函数
（1）指定要删除的行键
Delete(byte[] row)
删除行键指定行的数据。
如果没有进一步的操作，使用该构造函数将删除行键指定的行中所有列族中所有列的所有版本！

（2）指定要删除的行键和时间戳
Delete(byte[] row, long timestamp)
删除行键和时间戳共同确定行的数据。
如果没有进一步的操作，使用该构造函数将删除行键指定的行中，所有列族中所有列的时间戳小于等于指定时间戳的数据版本。
注意：该时间戳仅仅和删除行有关，如果需要进一步指定列族或者列，你必须分别为它们指定时间戳。

（3）给定一个字符串，目标行键的偏移，截取的长度
Delete(byte[] rowArray, int rowOffset, int rowLength)

（4）给定一个字符串，目标行键的偏移，截取的长度，时间戳
Delete(byte[] rowArray, int rowOffset, int rowLength, long ts)

6.2.常用方法
Delete deleteColumn(byte[] family, byte[] qualifier)    删除指定列的最新版本的数据。
Delete deleteColumns(byte[] family, byte[] qualifier)    删除指定列的所有版本的数据。
Delete deleteColumn(byte[] family, byte[] qualifier, long timestamp)    删除指定列的指定版本的数据。
Delete deleteColumns(byte[] family, byte[] qualifier, long timestamp)    删除指定列的，时间戳小于等于给定时间戳的所有版本的数据。

Delete deleteFamily(byte[] family)    删除指定列族的所有列的所有版本数据。
Delete deleteFamily(byte[] family, long timestamp)    删除指定列族的所有列中时间戳小于等于指定时间戳的所有数据。
Delete deleteFamilyVersion(byte[] family, long timestamp)    删除指定列族中所有列的时间戳等于指定时间戳的版本数据。

voidsetTimestamp(long timestamp) 为Delete对象设置时间戳。

6.3.实例代码
（1）删除整行的所有列族、所有行、所有版本
        Configuration conf = HBaseConfiguration.create();
        HTable table = new HTable(conf, "rd_ns:leetable");

        Delete delete = new Delete(Bytes.toBytes("000"));
        table.delete(delete);
        table.close();

（2）删除指定列的最新版本
以下是删除之前的数据，注意看100003行的info:address，这是该列最新版本的数据，值是caofang1，在这之前的版本值是caofang：
hbase(main):007:0> scan 'rd_ns:leetable'
ROW                       COLUMN+CELL
100001                   column=info:address, timestamp=1405304843114, value=longze
100001                   column=info:age, timestamp=1405304843114, value=31
100001                   column=info:name, timestamp=1405304843114, value=leon
100002                   column=info:address, timestamp=1405305471343, value=caofang
100002                   column=info:age, timestamp=1405305471343, value=30
100002                   column=info:name, timestamp=1405305471343, value=show
100003                   column=info:address, timestamp=1405390959464, value=caofang1
100003                   column=info:age, timestamp=1405390959464, value=301
100003                   column=info:name, timestamp=1405390959464, value=show1
3 row(s) in 0.0270 seconds

执行以下代码：
Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:leetable");

        Delete delete = new Delete(Bytes.toBytes("100003"));
        delete.deleteColumn(Bytes.toBytes("info"), Bytes.toBytes("address"));

        table.delete(delete);
        table.close();

然后查看数据，发现100003列的info:address列的值显示为前一个版本的caofang了！其余值均不变：
hbase(main):008:0> scan 'rd_ns:leetable'
ROW                       COLUMN+CELL
100001                   column=info:address, timestamp=1405304843114, value=longze
100001                   column=info:age, timestamp=1405304843114, value=31
100001                   column=info:name, timestamp=1405304843114, value=leon
100002                   column=info:address, timestamp=1405305471343, value=caofang
100002                   column=info:age, timestamp=1405305471343, value=30
100002                   column=info:name, timestamp=1405305471343, value=show
100003                   column=info:address, timestamp=1405390728175, value=caofang
100003                   column=info:age, timestamp=1405390959464, value=301
100003                   column=info:name, timestamp=1405390959464, value=show1
3 row(s) in 0.0560 seconds

（3）删除指定列的所有版本
接以上场景，执行以下代码：
Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:leetable");

        Delete delete = new Delete(Bytes.toBytes("100003"));
        delete.deleteColumns(Bytes.toBytes("info"), Bytes.toBytes("address"));

        table.delete(delete);
        table.close();

然后我们会发现，100003行的整个info:address列都没了：
hbase(main):009:0> scan 'rd_ns:leetable'
ROW                       COLUMN+CELL
100001                   column=info:address, timestamp=1405304843114, value=longze
100001                   column=info:age, timestamp=1405304843114, value=31
100001                   column=info:name, timestamp=1405304843114, value=leon
100002                   column=info:address, timestamp=1405305471343, value=caofang
100002                   column=info:age, timestamp=1405305471343, value=30
100002                   column=info:name, timestamp=1405305471343, value=show
100003                   column=info:age, timestamp=1405390959464, value=301
100003                   column=info:name, timestamp=1405390959464, value=show1
3 row(s) in 0.0240 seconds

（4）删除指定列族中所有列的时间戳等于指定时间戳的版本数据
为了演示效果，我已经向100003行的info:address列新插入一条数据
hbase(main):010:0> scan 'rd_ns:leetable'
ROW                       COLUMN+CELL
100001                   column=info:address, timestamp=1405304843114, value=longze
100001                   column=info:age, timestamp=1405304843114, value=31
100001                   column=info:name, timestamp=1405304843114, value=leon
100002                   column=info:address, timestamp=1405305471343, value=caofang
100002                   column=info:age, timestamp=1405305471343, value=30
100002                   column=info:name, timestamp=1405305471343, value=show
100003                   column=info:address, timestamp=1405391883886, value=shangdi
100003                   column=info:age, timestamp=1405390959464, value=301
100003                   column=info:name, timestamp=1405390959464, value=show1
3 row(s) in 0.0250 seconds

现在，我们的目的是删除info列族中，时间戳为1405390959464的所有列数据：
        Configuration conf = HBaseConfiguration.create();
        HTable table = new HTable(conf, "rd_ns:leetable");

        Delete delete = new Delete(Bytes.toBytes("100003"));
        delete.deleteFamilyVersion(Bytes.toBytes("info"), 1405390959464L);

        table.delete(delete);
        table.close();

hbase(main):011:0> scan 'rd_ns:leetable'
ROW                       COLUMN+CELL
100001                   column=info:address, timestamp=1405304843114, value=longze
100001                   column=info:age, timestamp=1405304843114, value=31
100001                   column=info:name, timestamp=1405304843114, value=leon
100002                   column=info:address, timestamp=1405305471343, value=caofang
100002                   column=info:age, timestamp=1405305471343, value=30
100002                   column=info:name, timestamp=1405305471343, value=show
100003                   column=info:address, timestamp=1405391883886, value=shangdi
100003                   column=info:age, timestamp=1405390728175, value=30
100003                   column=info:name, timestamp=1405390728175, value=show
3 row(s) in 0.0250 seconds

可以看到，100003行的info列族，已经不存在时间戳为1405390959464的数据，比它更早版本的数据被查询出来，而info列族中时间戳不等于1405390959464的address列，不受该delete的影响。
7.获取单行Get
如果希望获取整行数据，用行键初始化一个Get对象就可以，如果希望进一步缩小获取的数据范围，可以使用Get对象的以下方法：
如果希望取得指定列族的所有列数据，使用addFamily添加所有的目标列族即可；
如果希望取得指定列的数据，使用addColumn添加所有的目标列即可；
如果希望取得目标列的指定时间戳范围的数据版本，使用setTimeRange；
如果仅希望获取目标列的指定时间戳版本，则使用setTimestamp；
如果希望限制每个列返回的版本数，使用setMaxVersions；
如果希望添加过滤器，使用setFilter
下面详细描述构造函数及常用方法：
7.1.构造函数
Get的构造函数很简单，只有一个构造函数：Get(byte[] row) 参数是行键。

7.2.常用方法
GetaddFamily(byte[] family) 指定希望获取的列族
GetaddColumn(byte[] family, byte[] qualifier) 指定希望获取的列
GetsetTimeRange(long minStamp, long maxStamp) 设置获取数据的时间戳范围
GetsetTimeStamp(long timestamp) 设置获取数据的时间戳
GetsetMaxVersions(int maxVersions) 设定获取数据的版本数
GetsetMaxVersions() 设定获取数据的所有版本
GetsetFilter(Filter filter) 为Get对象添加过滤器，过滤器详解请参见：http://blog.csdn.net/u010967382/article/details/37653177
voidsetCacheBlocks(boolean cacheBlocks) 设置该Get获取的数据是否缓存在内存中

7.3.实测代码
测试表的所有数据：
hbase(main):016:0> scan 'rd_ns:leetable'
ROW                       COLUMN+CELL
100001                   column=info:address, timestamp=1405304843114, value=longze
100001                   column=info:age, timestamp=1405304843114, value=31
100001                   column=info:name, timestamp=1405304843114, value=leon
100002                   column=info:address, timestamp=1405305471343, value=caofang
100002                   column=info:age, timestamp=1405305471343, value=30
100002                   column=info:name, timestamp=1405305471343, value=show
100003                   column=info:address, timestamp=1405407883218, value=qinghe
100003                   column=info:age, timestamp=1405407883218, value=28
100003                   column=info:name, timestamp=1405407883218, value=shichao
3 row(s) in 0.0250 seconds
（1）获取行键指定行的所有列族、所有列的最新版本数据
        Configuration conf = HBaseConfiguration.create();
        HTable table = new HTable(conf, "rd_ns:leetable");
        Get get = new Get(Bytes.toBytes("100003"));
        Result r = table.get(get);
        for (Cell cell : r.rawCells()) {
            System.out.println(
                    "Rowkey : "+Bytes.toString(r.getRow())+
                    "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+
                    "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))
                    );
        }
        table.close();
代码输出：
Rowkey : 100003   Familiy:Quilifier : address   Value : qinghe
Rowkey : 100003   Familiy:Quilifier : age   Value : 28
Rowkey : 100003   Familiy:Quilifier : name   Value : shichao

（2）获取行键指定行中，指定列的最新版本数据
        Configuration conf = HBaseConfiguration.create();
        HTable table = new HTable(conf, "rd_ns:leetable");
        Get get = new Get(Bytes.toBytes("100003"));
        get.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"));
        Result r = table.get(get);
        for (Cell cell : r.rawCells()) {
            System.out.println(
                    "Rowkey : "+Bytes.toString(r.getRow())+
                    "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+
                    "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))
                    );
        }
        table.close();
代码输出：
Rowkey : 100003   Familiy:Quilifier : name   Value : shichao

（3）获取行键指定的行中，指定时间戳的数据
        Configuration conf = HBaseConfiguration.create();
        HTable table = new HTable(conf, "rd_ns:leetable");
        Get get = new Get(Bytes.toBytes("100003"));
        get.setTimeStamp(1405407854374L);
        Result r = table.get(get);
        for (Cell cell : r.rawCells()) {
            System.out.println(
                    "Rowkey : "+Bytes.toString(r.getRow())+
                    "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+
                    "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))
                    );
        }
        table.close();

代码输出了上面scan命令输出中没有展示的历史数据：
Rowkey : 100003   Familiy:Quilifier : address   Value : huangzhuang
Rowkey : 100003   Familiy:Quilifier : age   Value : 32
Rowkey : 100003   Familiy:Quilifier : name   Value : lily

（4）获取行键指定的行中，所有版本的数据
        Configuration conf = HBaseConfiguration.create();
        HTable table = new HTable(conf, "rd_ns:itable");
        Get get = new Get(Bytes.toBytes("100003"));
        get.setMaxVersions();
        Result r = table.get(get);
        for (Cell cell : r.rawCells()) {
            System.out.println(
                    "Rowkey : "+Bytes.toString(r.getRow())+
                    "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+
                    "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))+
                    "   Time : "+cell.getTimestamp()
                    );
        }
        table.close();

代码输出：
Rowkey : 100003   Familiy:Quilifier : address   Value : xierqi   Time : 1405417500485
Rowkey : 100003   Familiy:Quilifier : address   Value : shangdi   Time : 1405417477465
Rowkey : 100003   Familiy:Quilifier : address   Value : longze   Time : 1405417448414
Rowkey : 100003   Familiy:Quilifier : age   Value : 29   Time : 1405417500485
Rowkey : 100003   Familiy:Quilifier : age   Value : 30   Time : 1405417477465
Rowkey : 100003   Familiy:Quilifier : age   Value : 31   Time : 1405417448414
Rowkey : 100003   Familiy:Quilifier : name   Value : leon   Time : 1405417500485
Rowkey : 100003   Familiy:Quilifier : name   Value : lee   Time : 1405417477465
Rowkey : 100003   Familiy:Quilifier : name   Value : lion   Time : 1405417448414

注意：
能输出多版本数据的前提是当前列族能保存多版本数据，列族可以保存的数据版本数通过HColumnDescriptor的setMaxVersions(Int)方法设置。
8.获取多行Scan
Scan对象可以返回满足给定条件的多行数据。如果希望获取所有的行，直接初始化一个Scan对象即可。如果希望限制扫描的行范围，可以使用以下方法：
如果希望获取指定列族的所有列，可使用addFamily方法来添加所有希望获取的列族
如果希望获取指定列，使用addColumn方法来添加所有列
通过setTimeRange方法设定获取列的时间范围
通过setTimestamp方法指定具体的时间戳，只返回该时间戳的数据
通过setMaxVersions方法设定最大返回的版本数
通过setBatch方法设定返回数据的最大行数
通过setFilter方法为Scan对象添加过滤器，过滤器详解请参见：http://blog.csdn.net/u010967382/article/details/37653177
Scan的结果数据是可以缓存在内存中的，可以通过getCaching()方法来查看当前设定的缓存条数，也可以通过setCaching(int caching)来设定缓存在内存中的行数，缓存得越多，以后查询结果越快，同时也消耗更多内存。此外，通过setCacheBlocks方法设置是否缓存Scan的结果数据块，默认为true
我们可以通过setMaxResultSize(long)方法来设定Scan返回的结果行数。

       下面是官网文档中的一个入门示例：假设表有几行键值为 "row1", "row2", "row3"，还有一些行有键值 "abc1", "abc2", 和 "abc3"，目标是返回"row"打头的行：
HTable htable = ...      // instantiate HTable
Scan scan = new Scan();
scan.addColumn(Bytes.toBytes("cf"),Bytes.toBytes("attr"));
scan.setStartRow( Bytes.toBytes("row"));                   // start key is inclusive
scan.setStopRow( Bytes.toBytes("row" + (char)0)); // stop key is exclusive
ResultScanner rs = htable.getScanner(scan);
try {
  for (Result r = rs.next(); r != null; r = rs.next()) {
  // process result...
} finally {
  rs.close(); // always close the ResultScanner!
}

8.1.常用构造函数
（1）创建扫描所有行的Scan
Scan()

（2）创建Scan，从指定行开始扫描，
Scan(byte[] startRow)
参数：startRow行键
注意：如果指定行不存在，从下一个最近的行开始

（3）创建Scan，指定起止行
Scan(byte[] startRow, byte[] stopRow)
参数：startRow起始行，stopRow终止行
注意：startRow <= 结果集 < stopRow

（4）创建Scan，指定起始行和过滤器
Scan(byte[] startRow, Filter filter)
参数：startRow起始行，filter过滤器
注意：过滤器的功能和构造参见http://blog.csdn.net/u010967382/article/details/37653177

8.2.常用方法
Scan setStartRow(byte[] startRow) 设置Scan的开始行，默认结果集包含该行。如果希望结果集不包含该行，可以在行键末尾加上0。
Scan setStopRow(byte[] stopRow) 设置Scan的结束行，默认结果集不包含该行。如果希望结果集包含该行，可以在行键末尾加上0。
Scan setTimeRange(long minStamp, long maxStamp) 扫描指定时间范围的数据
Scan setTimeStamp(long timestamp) 扫描指定时间的数据
Scan addColumn(byte[] family, byte[] qualifier) 指定扫描的列
Scan addFamily(byte[] family) 指定扫描的列族
Scan setFilter(Filter filter) 为Scan设置过滤器
Scan setReversed(boolean reversed) 设置Scan的扫描顺序，默认是正向扫描（false），可以设置为逆向扫描（true）。注意：该方法0.98版本以后才可用！！
Scan setMaxVersions() 获取所有版本的数据
Scan setMaxVersions(int maxVersions) 设置获取的最大版本数
void setCaching(int caching) 设定缓存在内存中的行数，缓存得越多，以后查询结果越快，同时也消耗更多内存
voidsetRaw(boolean raw) 激活或者禁用raw模式。如果raw模式被激活，Scan将返回所有已经被打上删除标记但尚未被真正删除的数据。该功能仅用于激活了KEEP_DELETED_ROWS的列族，即列族开启了hcd.setKeepDeletedCells(true)。Scan激活raw模式后，就不能指定任意的列，否则会报错

Enable/disable "raw" mode for this scan. If "raw" is enabled the scan will return all delete marker and deleted rows that have not been collected, yet. This is mostly useful for Scan on column families that have KEEP_DELETED_ROWS enabled. It is an error to specify any column when "raw" is set.
hcd.setKeepDeletedCells(true);

8.3.实测代码
（1）扫描表中的所有行的最新版本数据
        Configuration conf = HBaseConfiguration.create();
        HTable table = new HTable(conf, "rd_ns:itable");

        Scan s = new Scan();
        ResultScanner rs = table.getScanner(s);
        for (Result r : rs) {
            for (Cell cell : r.rawCells()) {
                System.out.println(
                        "Rowkey : "+Bytes.toString(r.getRow())+
                        "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+
                        "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))+
                        "   Time : "+cell.getTimestamp()
                        );
            }
        }
        table.close();
代码输出：
Rowkey : 100001   Familiy:Quilifier : address   Value : anywhere   Time : 1405417403438
Rowkey : 100001   Familiy:Quilifier : age   Value : 24   Time : 1405417403438
Rowkey : 100001   Familiy:Quilifier : name   Value : zhangtao   Time : 1405417403438
Rowkey : 100002   Familiy:Quilifier : address   Value : shangdi   Time : 1405417426693
Rowkey : 100002   Familiy:Quilifier : age   Value : 28   Time : 1405417426693
Rowkey : 100002   Familiy:Quilifier : name   Value : shichao   Time : 1405417426693
Rowkey : 100003   Familiy:Quilifier : address   Value : xierqi   Time : 1405417500485
Rowkey : 100003   Familiy:Quilifier : age   Value : 29   Time : 1405417500485
Rowkey : 100003   Familiy:Quilifier : name   Value : leon   Time : 1405417500485

（2）扫描指定行键范围，通过末尾加0，使得结果集包含StopRow
        Configuration conf = HBaseConfiguration.create();
        HTable table = new HTable(conf, "rd_ns:itable");
        Scan s = new Scan();
        s.setStartRow(Bytes.toBytes("100001"));
        s.setStopRow(Bytes.toBytes("1000020"));

        ResultScanner rs = table.getScanner(s);
        for (Result r : rs) {
            for (Cell cell : r.rawCells()) {
                System.out.println(
                        "Rowkey : "+Bytes.toString(r.getRow())+
                        "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+
                        "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))+
                        "   Time : "+cell.getTimestamp()
                        );
            }
        }
        table.close();
代码输出：
Rowkey : 100001   Familiy:Quilifier : address   Value : anywhere   Time : 1405417403438
Rowkey : 100001   Familiy:Quilifier : age   Value : 24   Time : 1405417403438
Rowkey : 100001   Familiy:Quilifier : name   Value : zhangtao   Time : 1405417403438
Rowkey : 100002   Familiy:Quilifier : address   Value : shangdi   Time : 1405417426693
Rowkey : 100002   Familiy:Quilifier : age   Value : 28   Time : 1405417426693
Rowkey : 100002   Familiy:Quilifier : name   Value : shichao   Time : 1405417426693

（3）返回所有已经被打上删除标记但尚未被真正删除的数据
本测试针对rd_ns:itable表的100003行。
如果使用get结合setMaxVersions()方法能返回所有未删除的数据，输出如下：
Rowkey : 100003   Familiy:Quilifier : address   Value : huilongguan   Time : 1405494141522
Rowkey : 100003   Familiy:Quilifier : address   Value : shangdi   Time : 1405417477465
Rowkey : 100003   Familiy:Quilifier : age   Value : new29   Time : 1405494141522
Rowkey : 100003   Familiy:Quilifier : name   Value : liyang   Time : 1405494141522

然而，使用Scan强大的s.setRaw(true)方法，可以获得所有已经被打上删除标记但尚未被真正删除的数据。
代码如下：
        Configuration conf = HBaseConfiguration.create();
        HTable table = new HTable(conf, "rd_ns:itable");
        Scan s = new Scan();
        s.setStartRow(Bytes.toBytes("100003"));
        s.setRaw(true);
        s.setMaxVersions();

        ResultScanner rs = table.getScanner(s);
        for (Result r : rs) {
            for (Cell cell : r.rawCells()) {
                System.out.println(
                        "Rowkey : "+Bytes.toString(r.getRow())+
                        "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+
                        "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))+
                        "   Time : "+cell.getTimestamp()
                        );
            }
        }
        table.close();

输出结果如下：
Rowkey : 100003   Familiy:Quilifier : address   Value : huilongguan   Time : 1405494141522
Rowkey : 100003   Familiy:Quilifier : address   Value :    Time : 1405417500485
Rowkey : 100003   Familiy:Quilifier : address   Value : xierqi   Time : 1405417500485
Rowkey : 100003   Familiy:Quilifier : address   Value : shangdi   Time : 1405417477465
Rowkey : 100003   Familiy:Quilifier : address   Value :    Time : 1405417448414
Rowkey : 100003   Familiy:Quilifier : address   Value : longze   Time : 1405417448414
Rowkey : 100003   Familiy:Quilifier : age   Value : new29   Time : 1405494141522
Rowkey : 100003   Familiy:Quilifier : age   Value :    Time : 1405417500485
Rowkey : 100003   Familiy:Quilifier : age   Value :    Time : 1405417500485
Rowkey : 100003   Familiy:Quilifier : age   Value : 29   Time : 1405417500485
Rowkey : 100003   Familiy:Quilifier : age   Value : 30   Time : 1405417477465
Rowkey : 100003   Familiy:Quilifier : age   Value : 31   Time : 1405417448414
Rowkey : 100003   Familiy:Quilifier : name   Value : liyang   Time : 1405494141522
Rowkey : 100003   Familiy:Quilifier : name   Value :    Time : 1405493879419
Rowkey : 100003   Familiy:Quilifier : name   Value : leon   Time : 1405417500485
Rowkey : 100003   Familiy:Quilifier : name   Value : lee   Time : 1405417477465
Rowkey : 100003   Familiy:Quilifier : name   Value : lion   Time : 1405417448414

（4）结合过滤器，获取所有age在25到30之间的行
目前的数据：
hbase(main):049:0> scan 'rd_ns:itable'
ROW                                           COLUMN+CELL
100001                                       column=info:address, timestamp=1405417403438, value=anywhere
100001                                       column=info:age, timestamp=1405417403438, value=24
100001                                       column=info:name, timestamp=1405417403438, value=zhangtao
100002                                       column=info:address, timestamp=1405417426693, value=shangdi
100002                                       column=info:age, timestamp=1405417426693, value=28
100002                                       column=info:name, timestamp=1405417426693, value=shichao
100003                                       column=info:address, timestamp=1405494141522, value=huilongguan
100003                                       column=info:age, timestamp=1405494999631, value=29
100003                                       column=info:name, timestamp=1405494141522, value=liyang
3 row(s) in 0.0240 seconds

代码：
Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:itable");

        FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL);
        SingleColumnValueFilter filter1 = new SingleColumnValueFilter(
                Bytes.toBytes("info"),
                Bytes.toBytes("age"),
                CompareOp.GREATER_OR_EQUAL,
                Bytes.toBytes("25")
                );
        SingleColumnValueFilter filter2 = new SingleColumnValueFilter(
                Bytes.toBytes("info"),
                Bytes.toBytes("age"),
                CompareOp.LESS_OR_EQUAL,
                Bytes.toBytes("30")
                );
        filterList.addFilter(filter1);
        filterList.addFilter(filter2);

        Scan scan = new Scan();
        scan.setFilter(filterList);

        ResultScanner rs = table.getScanner(scan);
        for (Result r : rs) {
            for (Cell cell : r.rawCells()) {
                System.out.println(
                        "Rowkey : "+Bytes.toString(r.getRow())+
                        "   Familiy:Quilifier : "+Bytes.toString(CellUtil.cloneQualifier(cell))+
                        "   Value : "+Bytes.toString(CellUtil.cloneValue(cell))+
                        "   Time : "+cell.getTimestamp()
                        );
            }
        }
        table.close();

代码输出：
Rowkey : 100002   Familiy:Quilifier : address   Value : shangdi   Time : 1405417426693
Rowkey : 100002   Familiy:Quilifier : age   Value : 28   Time : 1405417426693
Rowkey : 100002   Familiy:Quilifier : name   Value : shichao   Time : 1405417426693
Rowkey : 100003   Familiy:Quilifier : address   Value : huilongguan   Time : 1405494141522
Rowkey : 100003   Familiy:Quilifier : age   Value : 29   Time : 1405494999631
Rowkey : 100003   Familiy:Quilifier : name   Value : liyang   Time : 1405494141522

注意：
HBase对列族、列名大小写敏感
关于过滤器请参见我的另外一篇博客：http://blog.csdn.net/u010967382/article/details/37653177
————————————————
版权声明：本文为CSDN博主「Gandalf_lee」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/u010967382/article/details/37878701

你可能感兴趣的:(bigdata)

Sharding-Sphere，Sharding-JDBC_介绍_Sharding-Sphere，Sharding-JDBC分布式_分库分表工作笔记001 添柴程序猿
技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152因为公司最近在做多租户的智慧城市相关的产品,这里,偶然看到这个框架,应该是可以用到,所以就看了一些,记录下来.先看一下我们要看的内容.去网站看看shardingsphere,是一套开源的分布式数据库中间件,解决方案包括3个产品点击了解更多去看一下
OGG从oracle到KAFKA的增量数据表同步操作 Romona_J oracle kafka 数据库
OGG从oracle到KAFKA的增量数据表同步操作需求oracle的库：cas库kfaka服务器：给与topic信息、以及服务器IP：端口同步表：cas.students环境在独立的服务器上面装oggfororacle11g以及oggforbigdata通过在oggfororacle服务器连接源端数据库做抽取到本地通过oggforbigdata服务器做复制1.OGGforOracle安装及配置开
MapReduce 程序详解
Hadoop的第一课总是MapReduce，但是往往我们每次都是使用自带的例子跑一遍MapReduce程序，今天总与自己写了一个完整的程序。技术有限，多多指教。1.导Jar包，将Hadoop的Jar导入到你的工程2.开始写自己的主类，分为3个类。第一个类WordcountMapperpackagecn.itcast.bigdata.mr.wcdemo;importjava.io.IOExcepti
【赛题样题】【大数据应用开发】2023年全国职业院校技能大赛高职组“大数据应用开发”第三套样题波比网络大数据大数据应用开发职业院校技能大赛高职组赛题样题
2023年全国职业院校技能大赛赛题第03套赛项名称：大数据应用开发英文名称：BigDataApplicationDevelopment赛项组别：高等职业教育组赛项编号：GZ033背景描述大数据时代背景下，电商经营模式发生很大改变。在传统运营模式中，缺乏数据积累，人们在做出一些决策行为过程中，更多是凭借个人经验和直觉，发展路径比较自我封闭。而大数据时代，为人们提供一种全新的思路，通过大量的数据分析得
云平台领域新秀：百度云的崛起之路 AI云原生与云计算技术学院百度云云计算 ai
云平台领域新秀：百度云的崛起之路关键词：百度云、云计算、云服务、技术架构、生态建设、市场竞争、行业智能化转型摘要：作为中国云计算市场的重要参与者，百度云通过独特的"ABC（AI+BigData+Cloud）"战略实现了从行业追赶者到创新引领者的蜕变。本文深度解析百度云的技术架构演进路径，揭示其在AI原生云、混合云架构、边缘计算协同等核心领域的技术优势；系统梳理生态建设策略与行业解决方案体系，分析其
DataX的json配置文件，{}，[]讲解 WZMeiei 大数据 json 数据库大数据
通过DataX将文件系统迁移到MySQLpython/bigdata/datax/bin/datax.py-rtxtfilereader-wmysqlwriter配置文件如下，（json文件中是不允许有//注释的，这里为了理解配置项的含义所以给加上了）{"job":{//数据同步任务的具体内容配置，包含数据源读取和写入目标的配置"content":[{//数据源读取器配置"reader":{//读
手把手教你搭建 Hadoop Namenode 高可用集群（HA）线条1 hadoop 大数据分布式
一、注意事项免密登录：确保所有节点间SSH免密登录正常，否则故障转移会失败。路径一致性：所有节点的Hadoop安装路径、数据目录需完全一致。端口冲突：检查9820、9870、8485等端口是否被占用。ZooKeeper集群：确保ZK集群稳定运行，至少3个节点避免脑裂。二、环境准备1.服务器规划节点角色软件依赖bigdata01Namenode1、JournalNode、ZooKeeperHadoo
智能商品推荐系统技术路线图-2 Nick_zcy 算法推荐算法 springboot spark
智能商品推荐系统技术路线图系统架构图系统分层架构用户交互层(PresentationLayer)↓HTTP/HTTPSAPI层(APILayer)↓Service调用业务服务层(ServiceLayer)↓数据访问数据访问层(DataAccessLayer)↓数据存储/处理数据存储层(DataStorageLayer)↓大数据处理大数据处理层(BigDataLayer)用户交互层Web前端(Vue
zookeeper 单机安装未来创世纪大数据 zookeeper
zookeeper安装1.下载zookeeper官方下载页面：http://zookeeper.apache.org/releases.html#download国内的下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/2.解压zookeeperterry@terry-VirtualBox:/opt/bigdata_platform
Shell中的sed命令(简单详细,一看就会,没一句废话) 线条1 linux bash 运维
sed可以用来实现过滤和替换1.可以进行查询操作sed可选项目标文件可选性：p打印$代表最后一行-n仅显示处理后的结果-e根据表达式进行处理2.列出txt文档中的数据catbigdata.txt|sed-n-e'3,5p'3.显示第一行到最后一行的数据：cat6.txt|sed-n-e'1,$p'显示第二行到最后一行cat6.txt|sed-n-e'2,$p'4.显示行号一种写法，没有使用sed,
springboot 基于IDEA排查脏jar 励志重写JDK java代码
查看springbootmaven相关依赖IDEA右上角m,执行命令：dependency:tree，控制台打印结果：com.xzff:bigdata-system:jar:2.6[INFO]+-com.xzff:bigdata-qt:jar:2.4:compile[INFO]|+-com.xzff:bigdata-generator:jar:2.6:compile[INFO]||+-org.sp
2024华为HCIP大数据考试总结&题库&提纲 KwCoding 华为大数据 HCIP big data
目录关于华为HCIP大数据HCIP大数据题库题库介绍关于题库更新购买方式HCIP大数据考试介绍考试形式考试题型考试内容祝：逢考必过关于华为HCIP大数据HCIP大数据，HCIP-BigDataDeveloper华为认证大数据开发高级工程师，考试代码H13-723因公司需要，最近这两年我从工程项目开发转为数据开发，负责数据仓库、数据中台的建设。在这期间参与了华为大数据培训，获赠了HCIP大数据考试券
bigdatareport chennalC#c.h.JA Ptho 数据结构 sqlite oracle json sql database spark
大数据技术体系深度解析（2025年版）一、大数据定义与核心特征（5V+扩展）传统5V模型升级Volume（体量）：从TB级到EB/ZB级，2025年全球数据总量预计达180ZB，其中非结构化数据（日志、视频、文本）占比超80%，推动存储架构向分层弹性扩展（冷热温数据分级，蓝光存储应用率提升至45%）。Velocity（速度）：实时数据流处理延迟要求从秒级（Kafka）进化到亚毫秒级（FlinkSQ
Spark-小练试刀 o不ok! 前端 javascript 开发语言
任务1：HDFS上有三份文件，分别为student.txt（学生信息表）result_bigdata.txt（大数据基础成绩表），result_math.txt（数学成绩表）。加载student.txt为名称为student的RDDx数据，result_bigdata.txt为名称为bigdata的RDD数据，result_math.txt为名称为math的RDD数据。hdfsdfs-mkdir/
Hive4.0.1集群安装部署（Hadoop版本为3.3.6）(详细教程) 大数据探索者 Hive Hadoop Centos hadoop 大数据 hive 分布式运维 centos mysql
前置环境Linux环境Zookeeper集群安装（详细教程）-CSDN博客HadoopHA高可用集群3.3.6搭建（详细教程）-CSDN博客MySQL8.0.40离线安装（详细教程）_mysql8.0.40ftp-CSDN博客Hadoop3.3.6官网下载链接地址部署规划服务器节点MetaStoreHiveServer2bigdata01√bigdata02√√bigdata03√1.先在bigd
【ATU Book-MemryX 系列】MemryX 推出浮点运算 AI 芯片，引领精准运算新时代 WPG大大通 ATU 伊布小編 (一部)人工智能大大通 ai npu 加速卡半导体
一、概述近年来，随着半导体制程的进步，硬件计算能力和数据量都有了飞跃性的提升，使得计算机视觉(ComputerVision)领域迎来了全新的发展阶段。过去，图像处理大多依赖像素级别的逐一运算，而现在，通过大数据(BigData)的支撑以及深度学习(DeepLearning)随着AI模型的成熟，它能够通过固定的学习模式从海量数据中快速创造出各种各样的应用。人工智能技术的普及与边缘计算在工业与车辆应用
spark-submit命令总览 zmd-zk 大数据组件的使用大数据 spark python 分布式学习
pyspark可以使用pyspark命令在服务器黑窗口中进行spark代码的编写pyspark--masterlocal[2]本地模式pyspark--masterspark://bigdata01:7077standalone模式pyspark--masteryarnyarn模式//启动一个黑窗口进行任务的编写spark-submit#提交任务的命令：spark-submit[options][
Prometheus+Kafka exporter+Grafana监控Kafka ErbaoLiu Prometheus grafana prometheus kafka kafka exporter
部署规划主机名bigdata111bigdata112bigdata113服务部署Kafka、Prometheus、Grafana、KafkaexporterKafkaKafkaKafka部署目录/opt/kafka_2.11-2.1.1Prometheus部署目录/opt/prometheus/
SAAS多租户实现方案_springboot 实现多租户_基于共享数据库_共享schema_共享数据表_基于baomidou_mybatis_plus---springcloud工作笔记158 添柴程序猿
技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152前面的博文说了,多租户其实就是把一套系统,提供给多个用户用,让每个用户都像拥有自己的一套系统一样,这样我们就可以把一套系统部署在我们自己这里,然后我们给某个来购买我们系统服务的商户,分个账号,他们就可以,拥有系统的整个功能了.这里的用户,也就是前来购买我们系统服务的,可以是一个公司,一个商户,我们称
Big Data 流处理框架 Flink wumingxiaoyao Big Data 大数据 flink Big Data 流处理框架实时数据处理
BigData流处理框架Flink什么是FlinkFlink的主要特性典型应用场景AmazonElasticMapReduce(EMR)VSFlink架构和运行时环境实时处理能力开发和编程模型操作和管理应用场景总结Flink支持的数据源Flink如何消费AWSSQS数据源自定义SourceFunctionFlinkConnectorforAWSSQS(社区贡献或第三方库)借助AWSLambda和K
Clickhouse集群集群安装大浪淘沙2023 clickhouse hadoop linux hdfs
1.环境信息：[root@bigdata003clickhouse-server]#cat/etc/redhat-releaseCentOSLinuxrelease7.9.2009(Core)2.在/etc/hosts中添加主机信息10.29.35.240bigdataxxx310.29.35.241bigdataxxx410.29.35.243bigdataxxx53.关闭防火墙和selinux
Utilizing DDR Memory Banks for Big Data Processing Performance 东北豆子哥 linux linux
UtilizingDDRMemoryBanksforBigDataProcessingPerformanceTomaximizeperformancewhenprocessingbigdatausingDDRmemorybanks,considerthesestrategies:MemoryArchitectureOptimizationBankInterleavingDistributedata
Java BigDecimal类 BigInter类简介及代码演示 JayceHarris java
BigDecimal类大数据中的大小数BigInter大数据中的大整数备注:如果除不尽程序会报错packagecom.BigData;importjava.math.BigDecimal;importjava.math.BigInteger;//定义大数据中的大整数和大小数publicclassBigDataDemo{publicstaticvoidmain(String[]args){//Big
【区块链+乡村振兴】数字农业区块链系统 | FISCO BCOS应用案例 FISCO_BCOS FISCO BCOS产业应用发展报告区块链乡村振兴
农业1.0时代为体力劳动为主的小农经济时代，农业2.0时代是以机械化生产为主、适度经营的“种植大户”时代，农业3.0时代则以现代科学技术为主要特征，而我们正在迈向的农业4.0时代，可以说是融合A(AI)、B(BlockChain)、C(Cloud)、D(BigData)技术，高度精准化、智能化、生态化的数字化农业时代。在助力数字化农业上，域乎科技利用FISCOBCOS区块链技术和物联网技术打造数字
Linux多线程工作笔记0004---C语言中g++ -o -c -g 功能添柴程序猿
技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152-o：指定生成可执行文件的名称。使用方法为：g++-oafilefile.cppfile.h...（可执行文件不可与待编译或链接文件同名，否则会生成相应可执行文件且覆盖原编译或链接文件），如果不使用-o选项，则会生成默认可执行文件a.out。-c：只编译不链接，只生成目标文件。-g：添加gdb调试选
大一python期末总结 wylrosewyl python
学期总结一.为什么选择大数据1.什么是大数据（bigdata）2.优秀的前景是什么二.关于这学期我收获了什么1.关于python的学习三.课堂初体验打印三角形99乘法表四.课堂练习五.最后的总结一.为什么选择大数据1.什么是大数据（bigdata）对于“大数据”（Bigdata）研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
Big Data (H/M) Assessed Exercise 后端
BigData(H/M)AssessedExerciseTaskSheet2024/25–Individual–v107/02/25SummaryThegoalofthisexerciseistofamiliarizeyourselveswiththedesign,implementationandperformancetestingofBigDataanalysistasksusingApach
2025年计算机工程与大数据应用国际会议（CEBDA 2025） Yangxshy EI 会议大数据
2025年计算机工程与大数据应用国际会议2025InternationalConferenceonComputerEngineeringandBigDataApplications大会信息会议名称：2025年计算机工程与大数据应用国际会议会议简称：CEBDA2025收录检索：提交EiCompendex,CPCI,CNKI,GoogleScholar等大会地点：中国·北京审稿通知：投稿后2-3日内通
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他