qq280929090

HBase学习笔记——基本操作：shell和java API

进入HBase shell的命令：./hbase shell

HBase的基本操作如下表所示

一、创建表

1、shell操作

2、Java API

Configuration conf = HBaseConfiguration.create();
HBaseAdmin admin = new HBaseAdmin(conf);
admin.createNamespace(NamespaceDescriptor.create("ns").build();

//create tableDesc, with namespace name "ns" and table name "table02"
HTableDescriptor tableDesc = new HTableDescriptor(TableName.valueOf("ns:table02"));

tableDesc.setDurability(Durability.SYNC_WAL);
//设置一个Region中的Store文件的最大size
tableDesc.setMaxFileSize(512);
//设置Region内存中的memstore的最大值
tableDesc.setMemStoreFlushSize(512);
//设置写WAL日志的级别
tableDesc.setDurability(Durability.SYNC_WAL);

//add a column family "mycf"
HColumnDescriptor hcd = new HColumnDescriptor("cf");
//设置数据保存的最大时间
hcd.setTimeToLive(5184000);
//设置数据保存在内存中以提高响应速度
hcd.setInMemory(true);
//设置数据保存的最大版本数
hcd.setMaxVersions(10);
//设置数据保存的最小版本数（配合TimeToLive使用）
hcd.setMinVersions(5);


tableDesc.addFamily(hcd);
admin.createTable(tableDesc);
admin.close();

注意以下几点：

可以通过HTableDescriptor对象设置表的特性。
由于HBase的数据是先写入内存，数据累计达到内存阀值时才往磁盘中flush数据，所以，如果在数据还没有flush进硬盘时，Region Server down掉了，内存中的数据将丢失。要想解决这个场景的问题就需要用到WAL（Write-Ahead-Log），可以设置写WAL日志的级别，示例中设置的是同步写WAL，该方式安全性较高，但无疑会一定程度影响性能，请根据具体场景选择使用；
可以通过HColumnDescriptor对象设置列族的特性。更多特性请自行查阅官网API；
数据的版本数只能通过HColumnDescriptor对象设置，不能通过HTableDescriptor对象设置；
setDurability(Durability d)方法可以在相关的三个对象中使用，分别是：HTableDescriptor，Delete，Put（其中Delete和Put的该方法都是继承自父类org.apache.hadoop.hbase.client.Mutation）。分别针对表插入操作、删除操作设定WAL日志写入级别。需要注意的是，Delete和Put并不会继承Table的Durability级别。Durability是一个枚举变量。如果不通过该方法指定WAL日志级别，则为默认USE_DEFAULT级别。

二、删除表

1、shell操作

删除表之前需要先disable表。
相关shell操作如下所示：

disable表
在1步骤后，删除表

2、Java API

Configuration conf = HBaseConfiguration.create();
HBaseAdmin admin = new HBaseAdmin(conf);
String tablename = "ns:table02";
if(admin.tableExists(tablename)) {
    try {
        admin.disableTable(tablename);
        admin.deleteTable(tablename);
    } catch (Exception e) {
        // TODO: handle exception
        e.printStackTrace();
    }
}
admin.close();

三、新增、删除列族

1、shell操作

2、Java API

Configuration conf = HBaseConfiguration.create();
HBaseAdmin admin = new HBaseAdmin(conf);
String tablename = "ns:table02";
if(admin.tableExists(tablename)) {
    try {
        admin.disableTable(tablename);
        //get the TableDescriptor of target table
        HTableDescriptor newtd = admin.getTableDescriptor(Bytes.toBytes("ns:table02"));

        //remove 3 useless column families
        newtd.removeFamily(Bytes.toBytes("note"));
        newtd.removeFamily(Bytes.toBytes("newcf"));
        newtd.removeFamily(Bytes.toBytes("susinfo"));

        //create HColumnDescriptor for new column family
        HColumnDescriptor newhcd = new HColumnDescriptor("action_log");
        newhcd.setMaxVersions(10);
        newhcd.setKeepDeletedCells(true);

        //add the new column family(HColumnDescriptor) to HTableDescriptor
        newtd.addFamily(newhcd);

        //modify target table struture

        admin.modifyTable(Bytes.toBytes("ns:table02"),newtd);

        admin.enableTable(tablename);
    } catch (Exception e) {
        // TODO: handle exception
        e.printStackTrace();
    }
}
admin.close();

流程如下：

通过admin.getTableDescriptor(Bytes.toBytes(“ns:table02”))取得目标表的描述对象，取得指向该对象的指针了。
修改目标表描述对象。
通过admin.modifyTable(Bytes.toBytes(“ns:table02”),newtd)将修改后的描述对象应用到目标表。

四、修改现有列族属性

1、shell操作

五、新增、更新数据Put

1、常用构造函数

指定行键
public Put(byte[] row)
参数：row 行键
指定行键和时间戳
public Put(byte[] row, long ts)
参数：row 行键，ts 时间戳
从目标字符串中提取子串，作为行键
Put(byte[] rowArray, int rowOffset, int rowLength)
参数：rowArray目标字符串，rowOffset起始位置，rowLength长度
从目标字符串中提取子串，作为行键，并加上时间戳
Put(byte[] rowArray, int rowOffset, int rowLength, long ts)

2、常用方法

指定列族、限定符，添加值
add(byte[] family, byte[] qualifier, byte[] value)
指定列族、限定符、时间戳，添加值
add(byte[] family, byte[] qualifier, long ts, byte[] value)
设置写WAL（Write-Ahead-Log）的级别
public void setDurability(Durability d)
参数是一个枚举值，可以有以下几种选择：
ASYNC_WAL ：当数据变动时，异步写WAL日志
SYNC_WAL ：当数据变动时，同步写WAL日志
FSYNC_WAL ：当数据变动时，同步写WAL日志，并且，强制将数据写入磁盘
SKIP_WAL ：不写WAL日志
USE_DEFAULT ：使用HBase全局默认的WAL写入级别，即SYNC_WAL

3、shell操作

向ns:table02表中插入信息，行健为rk0001，列族info中添加name列标示符，值为zhangsan
向ns:table02表中插入信息，行健为rk0001，列族info中添加gender列标示符，值为female
向ns:table02表中插入信息，行健为rk0001，列族info中添加age列标示符，值为20
向ns:table02表中插入信息，行健为rk0001，列族action_log中添加pic列标示符，值为picture
扫描表ns:table02

4、Java API

插入行

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "ns:table02");

Put put = new Put(Bytes.toBytes("100001"));
put.add(Bytes.toBytes("info"), Bytes.toBytes("name"),Bytes.toBytes("lion"));
put.add(Bytes.toBytes("info"), Bytes.toBytes("address"), Bytes.toBytes("shangdi"));
put.add(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes("30"));
put.setDurability(Durability.SYNC_WAL);  

table.put(put);
table.close();

更新行

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:leetable");

Put put = new Put(Bytes.toBytes("100001"));
put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("lee"));
put.add(Bytes.toBytes("info"), Bytes.toBytes("address"), Bytes.toBytes("longze"));
put.add(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes("31"));
put.setDurability(Durability.SYNC_WAL);  

table.put(put);        
table.close();

从目标字符串中提取子串，作为行键，构建Put

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:leetable");

Put put = new Put(Bytes.toBytes("100001_100002"),7,6);
put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("show"));
put.add(Bytes.toBytes("info"), Bytes.toBytes("address"), Bytes.toBytes("caofang"));
put.add(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes("30"));

table.put(put);
table.close();

注意以下几点：

Put的构造函数都需要指定行键，如果是全新的行键，则新增一行；如果是已有的行键，则更新现有行。
创建Put对象及put.add过程都是在构建一行的数据，创建Put对象时相当于创建了行对象，add的过程就是往目标行里添加cell，直到table.put才将数据插入表格。
以上代码创建Put对象用的是构造函数1，也可用构造函数2，第二个参数是时间戳。
Put还有别的构造函数，请查阅官网API。

六、删除数据

Delete类用于删除表中的一行数据，通过HTable.delete来执行该动作。

在执行Delete操作时，HBase并不会立即删除数据，而是对需要删除的数据打上一个“墓碑”标记，直到当Storefile合并时，再清除这些被标记上“墓碑”的数据。

如果希望删除整行，用行键来初始化一个Delete对象即可。如果希望进一步定义删除的具体内容，可以使用以下这些Delete对象的方法：

为了删除指定的列族，可以使用deleteFamily。
为了删除指定列的多个版本，可以使用deleteColumns。
为了删除指定列的指定版本，可以使用deleteColumn，这样的话就只会删除版本号（时间戳）与指定版本相同的列。如果不指定时间戳，默认只删除最新的版本。

1、构造函数

指定要删除的行键
Delete(byte[] row)
删除行键指定行的数据。如果没有进一步的操作，使用该构造函数将删除行键指定的行中所有列族中所有列的所有版本！
指定要删除的行键和时间戳
Delete(byte[] row, long timestamp)
删除行键和时间戳共同确定行的数据。如果没有进一步的操作，使用该构造函数将删除行键指定的行中，所有列族中所有列的时间戳小于等于指定时间戳的数据版本。
注意：该时间戳仅仅和删除行有关，如果需要进一步指定列族或者列，你必须分别为它们指定时间戳。
给定一个字符串，目标行键的偏移，截取的长度
Delete(byte[] rowArray, int rowOffset, int rowLength)
给定一个字符串，目标行键的偏移，截取的长度，时间戳
Delete(byte[] rowArray, int rowOffset, int rowLength, long ts)

2、常用方法

Delete deleteColumn(byte[] family, byte[] qualifier) ：删除指定列的最新版本的数据。
Delete deleteColumns(byte[] family, byte[] qualifier)：删除指定列的所有版本的数据。
Delete deleteColumn(byte[] family, byte[] qualifier, long timestamp)：删除指定列的指定版本的数据。
Delete deleteColumns(byte[] family, byte[] qualifier, long timestamp) ：删除指定列的，时间戳小于等于给定时间戳的所有版本的数据。
Delete deleteFamily(byte[] family)：删除指定列族的所有列的所有版本数据。
Delete deleteFamily(byte[] family, long timestamp)：删除指定列族的所有列中时间戳小于等于指定时间戳的所有数据。
Delete deleteFamilyVersion(byte[] family, long timestamp)：删除指定列族中所有列的时间戳等于指定时间戳的版本数据。
void setTimestamp(long timestamp)：为Delete对象设置时间戳。

3、shell操作

4、Java API

删除整行的所有列族、所有行、所有版本

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:leetable");
Delete delete = new Delete(Bytes.toBytes("000"));
table.delete(delete);
table.close();

删除指定列的最新版本

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:leetable");
Delete delete = new Delete(Bytes.toBytes("100003"));
delete.deleteColumn(Bytes.toBytes("info"),Bytes.toBytes("address"));                  
table.delete(delete);
table.close();

删除指定列的所有版本

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:leetable");
Delete delete = new Delete(Bytes.toBytes("100003"));
delete.deleteColumns(Bytes.toBytes("info"),Bytes.toBytes("address"));                 
table.delete(delete);
table.close();

删除指定列族中所有列的时间戳等于指定时间戳的版本数据

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:leetable");
Delete delete = new Delete(Bytes.toBytes("100003"));
delete.deleteFamilyVersion(Bytes.toBytes("info"),1405390959464L);                  
table.delete(delete);         
table.close();

七、获取单行Get

如果希望获取整行数据，用行键初始化一个Get对象就可以，如果希望进一步缩小获取的数据范围，可以使用Get对象的以下方法：

如果希望取得指定列族的所有列数据，使用addFamily添加所有的目标列族即可；
如果希望取得指定列的数据，使用addColumn添加所有的目标列即可；
如果希望取得目标列的指定时间戳范围的数据版本，使用setTimeRange；
如果仅希望获取目标列的指定时间戳版本，则使用setTimestamp；
如果希望限制每个列返回的版本数，使用setMaxVersions；
如果希望添加过滤器，使用setFilter

1、构造函数

Get(byte[] row)
参数是行键

2、常用方法

Get addFamily(byte[] family)：指定希望获取的列族。
Get addColumn(byte[] family, byte[] qualifier)：指定希望获取的列。
Get setTimeRange(long minStamp, long maxStamp)：设置获取数据的时间戳范围。
Get setTimeStamp(long timestamp)：设置获取数据的时间戳。
Get setMaxVersions(int maxVersions)：设定获取数据的版本数。
Get setMaxVersions()：设定获取数据的所有版本。
Get setFilter(Filter filter)：为Get对象添加过滤器，过滤器详解请参见：http://blog.csdn.net/u010967382/article/details/37653177
void setCacheBlocks(boolean cacheBlocks)：设置该Get获取的数据是否缓存在内存中。

3、shell操作

4、Java API

获取行键指定行的所有列族、所有列的最新版本数据

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:leetable");
Get get = new Get(Bytes.toBytes("100003"));
Result r = table.get(get);
for (Cell cell : r.rawCells()) {
    System.out.println(
    "Rowkey : " +Bytes.toString(r.getRow()) + "Familiy:Quilifier : " + Bytes.toString(CellUtil.cloneQualifier(cell)) + 
"   Value : " + Bytes.toString(CellUtil.cloneValue(cell))); 
}         
table.close();

获取行键指定行中，指定列的最新版本数据

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:leetable");
Get get = new Get(Bytes.toBytes("100003"));
get.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"));
Result r = table.get(get);
for (Cell cell : r.rawCells()) {
    System.out.println(
    "Rowkey : " +Bytes.toString(r.getRow()) + "Familiy:Quilifier : " + Bytes.toString(CellUtil.cloneQualifier(cell)) + 
"   Value : " + Bytes.toString(CellUtil.cloneValue(cell))); 
}         
table.close();

获取行键指定的行中，指定时间戳的数据

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:leetable");
Get get = new Get(Bytes.toBytes("100003"));
get.setTimeStamp(1405407854374L);
Result r = table.get(get);
for (Cell cell : r.rawCells()) {
    System.out.println(
    "Rowkey : " +Bytes.toString(r.getRow()) + "Familiy:Quilifier : " + Bytes.toString(CellUtil.cloneQualifier(cell)) + 
"   Value : " + Bytes.toString(CellUtil.cloneValue(cell))); 
}         
table.close();

获取行键指定的行中，所有版本的数据

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:itable");
Get get = new Get(Bytes.toBytes("100003"));
get.setMaxVersions();
Result r = table.get(get);
for (Cell cell : r.rawCells()) {
    System.out.println(
    "Rowkey : " +Bytes.toString(r.getRow()) + "Familiy:Quilifier : " + Bytes.toString(CellUtil.cloneQualifier(cell)) + 
"   Value : " + Bytes.toString(CellUtil.cloneValue(cell))+  "   Time : " + cell.getTimestamp()); 
}         
table.close();

八、获取多行Scan

Scan对象可以返回满足给定条件的多行数据。如果希望获取所有的行，直接初始化一个Scan对象即可。如果希望限制扫描的行范围，可以使用以下方法：

如果希望获取指定列族的所有列，可使用addFamily方法来添加所有希望获取的列族。
如果希望获取指定列，使用addColumn方法来添加所有列。
通过setTimeRange方法设定获取列的时间范围。
通过setTimestamp方法指定具体的时间戳，只返回该时间戳的数据。
通过setMaxVersions方法设定最大返回的版本数。
通过setBatch方法设定返回数据的最大行数。
通过setFilter方法为Scan对象添加过滤器，过滤器详解请参见：http://blog.csdn.net/u010967382/article/details/37653177。
Scan的结果数据是可以缓存在内存中的，可以通过getCaching()方法来查看当前设定的缓存条数，也可以通过setCaching(int caching)来设定缓存在内存中的行数，缓存得越多，以后查询结果越快，同时也消耗更多内存。此外，通过setCacheBlocks方法设置是否缓存Scan的结果数据块，默认为true。
我们可以通过setMaxResultSize(long)方法来设定Scan返回的结果行数。

1、常用构造函数

创建扫描所有行的Scan
Scan()
创建Scan，从指定行开始扫描
Scan(byte[] startRow)
参数：startRow行键
注意：如果指定行不存在，从下一个最近的行开始。
创建Scan，指定起止行
Scan(byte[] startRow, byte[] stopRow)
参数：startRow起始行，stopRow终止行
注意：startRow <= 结果集 < stopRow。
创建Scan，指定起始行和过滤器
Scan(byte[] startRow, Filter filter)
参数：startRow起始行，filter过滤器。

2、常用方法

Scan setStopRow(byte[] stopRow)：设置Scan的结束行，默认结果集不包含该行。如果希望结果集包含该行，可以在行键末尾加上0。
Scan setTimeRange(long minStamp, long maxStamp)：扫描指定时间范围的数据。
Scan setTimeStamp(long timestamp)：扫描指定时间的数据。
Scan addColumn(byte[] family, byte[] qualifier)：指定扫描的列。
Scan addFamily(byte[] family)：指定扫描的列族。
Scan setFilter(Filter filter)：为Scan设置过滤器。
Scan setReversed(boolean reversed)：设置Scan的扫描顺序，默认是正向扫描（false），可以设置为逆向扫描（true）。注意：该方法0.98版本以后才可用！！
Scan setMaxVersions()：获取所有版本的数据。
Scan setMaxVersions(int maxVersions)：设置获取的最大版本数。
void setCaching(int caching)：设定缓存在内存中的行数，缓存得越多，以后查询结果越快，同时也消耗更多内存。
void setRaw(boolean raw)：激活或者禁用raw模式。如果raw模式被激活，Scan将返回所有已经被打上删除标记但尚未被真正删除的数据。该功能仅用于激活了KEEP_DELETED_ROWS的列族，即列族开启了hcd.setKeepDeletedCells(true)。Scan激活raw模式后，就不能指定任意的列，否则会报错。

3、shell操作

4、Java API

扫描表中的所有行的最新版本数据

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:itable");
Scan s = new Scan();
ResultScanner rs = table.getScanner(s);
for (Cell cell : r.rawCells()) {
    System.out.println(
    "Rowkey : " +Bytes.toString(r.getRow()) + "Familiy:Quilifier : " + Bytes.toString(CellUtil.cloneQualifier(cell)) + 
"   Value : " + Bytes.toString(CellUtil.cloneValue(cell))+  "   Time : " + cell.getTimestamp()); 
}         
table.close();

扫描指定行键范围，通过末尾加0，使得结果集包含StopRow

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:itable");
Scan s = new Scan();
s.setStartRow(Bytes.toBytes("100001"));
s.setStopRow(Bytes.toBytes("1000020"));
ResultScanner rs = table.getScanner(s);
for (Cell cell : r.rawCells()) {
    System.out.println(
    "Rowkey : " +Bytes.toString(r.getRow()) + "Familiy:Quilifier : " + Bytes.toString(CellUtil.cloneQualifier(cell)) + 
"   Value : " + Bytes.toString(CellUtil.cloneValue(cell))+  "   Time : " + cell.getTimestamp()); 
}         
table.close();

返回所有已经被打上删除标记但尚未被真正删除的数据

 Configuration conf = HBaseConfiguration.create();
 HTable table = new HTable(conf, "rd_ns:itable");
 Scan s = new Scan();
 s.setStartRow(Bytes.toBytes("100003"));
 s.setRaw(true);
 s.setMaxVersions();
for (Cell cell : r.rawCells()) {
    System.out.println(
    "Rowkey : " +Bytes.toString(r.getRow()) + "Familiy:Quilifier : " + Bytes.toString(CellUtil.cloneQualifier(cell)) + 
"   Value : " + Bytes.toString(CellUtil.cloneValue(cell))+  "   Time : " + cell.getTimestamp()); 
}         
table.close();

结合过滤器，获取所有age在25到30之间的行

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "rd_ns:itable");

FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL);
SingleColumnValueFilter filter1 = new SingleColumnValueFilter(
Bytes.toBytes("info"), Bytes.toBytes("age"), CompareOp.GREATER_OR_EQUAL, Bytes.toBytes("25") );
SingleColumnValueFilter filter2 = new SingleColumnValueFilter(
Bytes.toBytes("info"), Bytes.toBytes("age"), CompareOp.LESS_OR_EQUAL, Bytes.toBytes("30") );
filterList.addFilter(filter1);
filterList.addFilter(filter2);

Scan scan = new Scan();
scan.setFilter(filterList);

ResultScanner rs = table.getScanner(scan);
for (Cell cell : r.rawCells()) {
    System.out.println(
    "Rowkey : " +Bytes.toString(r.getRow()) + "Familiy:Quilifier : " + Bytes.toString(CellUtil.cloneQualifier(cell)) + 
"   Value : " + Bytes.toString(CellUtil.cloneValue(cell))+  "   Time : " + cell.getTimestamp()); 
}         
table.close();

注意：

HBase对列族、列名大小写敏感

你可能感兴趣的:(HBase)

华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
HBase：大数据时代的“超级数据库” 狮歌~资深攻城狮 hbase 大数据
HBase：大数据时代的“超级数据库”你是不是也被数据淹没过？大家有没有这样的经历，手机里存了成千上万张照片，每次想找某一张特定的照片时，都得翻半天？或者在工作中面对堆积如山的数据报表，感觉像是在大海捞针。今天我们要聊的HBase，就是为了解决这种“数据洪流”的问题。什么是HBase？HBase是一个分布式的、面向列的开源数据库，它基于Google的Bigtable论文设计而成。简单来说，HBas
HBase常用的Filter过滤器操作梵高的夏天 python 算法机器学习
HBase常用的Filter过滤器操作_hbasefilter-CSDN博客HBase过滤器种类很多，我们选择8种常用的过滤器进行介绍。为了获得更好的示例效果，先利用HBaseShell新建students表格，并往表格中进行写入多行数据。一、数据准备工作（1）在默认命名空间中新建表格students，设置列族info、score。hbase:002:0>create'students','inf
Pinpoint应用性能管理工具Docker化安装小苏少 Docker Linux 软件测试 docker pinpoint linux JVM监控
目录Pinpoint应用性能管理工具Docker化安装Pinpoint是什么为什么用Pinpoint下载hbase-create.hbase编写Dockerfile编写run.sh构建Dockerfile启动Pinpoint其他Pinpoint应用性能管理工具Docker化安装本文主要介绍Pinpoint应用性能管理工具Docker化安装，以及在后期Pinpoint进行版本升级时，如何同步升级Do
hbase put 写入数据慢_HBase 马斯克·贾 hbase put 写入数据慢
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。逻辑结构物理存储结构数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。HBase的底层物理存储结构(K-V)。NameSpace命名空间，类似于关系型数据库的DatabBase概念，每个命名空间下有多个表。HBase有两个自带的命名空间，分别是hbase和default，hbase中存放的是H
如何用HBase轻松管理海量数据？狮歌~资深攻城狮 hbase 大数据
如何用HBase轻松管理海量数据？小白也能学会的入门指南数据太多，头都大了？你有没有过这样的经历：面对堆积如山的数据文件，感觉像是被淹没在信息的海洋里？别担心，今天我们要聊的HBase，就是来帮你解决这个问题的神器。不管你是技术小白还是有一定经验的开发者，这篇文章都能让你轻松上手HBase。什么是HBase？HBase是一个分布式的、面向列的开源数据库，专门用来处理大规模数据。它基于Google的
Zookeeper（67） Zookeeper在HBase中的应用是什么？辞暮尔尔-烟火年年微服务 zookeeper hbase python
Zookeeper在HBase中起到了至关重要的作用，主要用于协调和管理HBase集群中的多个组件。具体来说，Zookeeper在HBase中的应用包括以下几个方面：Master选举：HBase集群中可以有多个Master节点，但只有一个处于Active状态，其余为Standby状态。Zookeeper用于进行Master节点的选举。RegionServer协调：Zookeeper用于管理和协调R
深入HBase——核心组件黄雪超大数据基础 #深入HBase hbase 数据库数据结构
引入通过上一篇对HBase核心算法和数据结构的梳理，我们对于其底层设计有了更多理解。现在我们从引入篇里面提到的HBase架构出发，去看看其中不同组件是如何设计与实现。核心组件首先，需要提到的就是HBase架构中会依赖到的Zookeeper和HDFS。对于HDFS看过深入HDFS的小伙伴，应该都不陌生，它提供了高可靠的海量数据存储和读写能力；而对于Zookeeper，它是一个分布式协调存储服务，主要
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构 m0_74823705 面试学习路线阿里巴巴大数据架构
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
Trae 项目常见问题解决方案强和毓Hadley
Trae项目常见问题解决方案trae:postbox:MinimalisticFetchbasedHTTPclient项目地址:https://gitcode.com/gh_mirrors/tr/trae项目基础介绍Trae是一个基于FetchAPI的极简HTTP客户端，旨在提供一个简单、轻量级的HTTP请求工具。该项目的主要编程语言是TypeScript和JavaScript。Trae的设计理念
Hbase深入浅出天才之上数据存储 Hbase 大数据存储
目录HBase在大数据生态圈中的位置HBase与传统关系数据库的区别HBase相关的模块以及HBase表格的特性HBase的使用建议Phoenix的使用总结HBase在大数据生态圈中的位置提到大数据的存储，大多数人首先联想到的是Hadoop和Hadoop中的HDFS模块。大家熟知的Spark、以及Hadoop的MapReduce，可以理解为一种计算框架。而HDFS，我们可以认为是为计算框架服务的存
深入浅出了解HBase及RDD编程山海王子大数据 hbase
深入浅出了解HBaseHBase简介架构HBase是什么样的数据库？关键是数据模型关键要素：什么是单元格时间戳的功能是什么？HBase为什么能存储海量数据创建一个HBase表配置Spark编写程序读取HBase数据编写程序向HBase写入数据关于搭建HBase高可用集群的图文教程，可参考我的另一篇博文——安装并配置HBase集群（5个节点）。HBase简介HBase是GoogleBigTable的
HBase简介：高效分布式数据存储和处理代码指四方分布式 hbase 数据库大数据
HBase简介：高效分布式数据存储和处理HBase是一个高效的、可扩展的分布式数据库，它是构建在ApacheHadoop之上的开源项目。HBase的设计目标是为大规模数据存储和处理提供高吞吐量和低延迟的解决方案。它可以在成百上千台服务器上运行，并能够处理海量的结构化和半结构化数据。HBase的核心特点包括：分布式存储：HBase使用Hadoop分布式文件系统（HDFS）作为底层存储，数据被分布在集
HBase简介梦醒沉醉 Hadoop hbase 数据库大数据
目录1.HBase概述2.HBase核心概念2.1行关键字2.2列关键字2.3时间戳2.4单元2.4.1HBase和RDBMS的差异2.4.2HBase组成3.HBase流程3.1Region的分配3.2RegionServer上线3.3RegionServer下线3.4Master上线3.5Master下线3.6写请求处理参考1.HBase概述 HBase是NoSQL(NotOnlySQL，泛
MongoDB面试题答案解析 HappyAcmen java面试题集 mongodb 数据库
文章目录一、概念理解类1.什么是MongoDB？2.NoSQL数据库是什么意思？NoSQL与RDBMS有什么区别？为什么要使用和不使用NoSQL数据库？3.MySQL与MongoDB之间最基本的差别是什么？4.你怎么比较MongoDB、CouchDB及CouchBase？5.MongoDB成为最好的NoSQL数据库的原因是什么？6.journal回放在条目(entry)不完整时会遇到问题吗？7.分
HBase基本技巧：掌握高效数据管理的秘诀狮歌~资深攻城狮 java android 数据库
HBase基本技巧：掌握高效数据管理的秘诀嘿，小伙伴们！现在你已经对HBase有了初步的了解，接下来让我们深入探讨一些HBase的基本技巧。这些技巧不仅能帮助你更高效地管理和操作数据，还能让你在面对复杂场景时游刃有余。1.行键设计的艺术什么是行键？行键（RowKey）是HBase表中每一行的唯一标识符。它的设计直接影响到查询性能和数据分布。因此，合理设计行键是非常重要的。设计原则•避免热点问题：如
【动态路由】系统Web URL资源整合系列（后端技术实现）【apisix实现】飞火流星02027 URL整合 apisix反向代理 apisix网关 apisix实现web资源整合系统URL资源整合 apisix基于请求参数的路由 apisix基于请求头的路由 APISIXDashboard
需求说明软件功能需求：反向代理功能（描述：apollo、eureka控、apisix、sentinel、普米、kibana、timetask、grafana、hbase、skywalking-ui、pinpoint、cmak界面、kafka-map、nacos、gateway、elasticsearch、oa-portal业务应用等多个web资源等只能通过有限个代理地址访问），不考虑SSO。软件质
大数据之-hdfs+hive+hbase+kudu+presto集群(6节点) 管哥的运维私房菜大数据 hdfs hive kudu presto hbase
几个主要软件的下载地址：prestohttps://prestosql.io/docs/current/index.htmlkudurpm包地址https://github.com/MartinWeindel/kudu-rpm/releaseshivehttp://mirror.bit.edu.cn/apache/hive/hdfshttp://archive.apache.org/dist/ha
hbase快照同步到目标集群出现ERROR Multiple regions have the same startkey问题分析 spring208208 hbase hbase python 前端
问题现象源集群表split/merge过程中创建快照，该快照同步到目标集群，目标集群恢复快照后，进行hbck检查，就会出现异常报错：ERRORMultipleregionshavethesamestartkey;问题分析首先，出现上述问题可能有如下两种原因：源集群中snapshot表本身就存在这种问题，没有修复就执行snapshot，导出快照到目标集群，然后恢复表也会存在这种问题。在执行split
hive spark读取hive hbase外表报错分析和解决 spring208208 hive hive spark hbase
问题现象使用Sparkshell操作hive关联Hbase的外表导致报错；hive使用tez引擎操作关联Hbase的外表时报错。问题1：使用tez或spark引擎，在hive查询时只要关联hbase的hive表就会有问题其他表正常。“org.apache.hadoop.hbase.client.RetriesExhaustedException:Can’tgetthelocations”问题2：s
HBase的合并操作 b1gx HBase
compact的作用flush操作会将memstore的数据落地为一个个StoreFile（HFile），那么随着时间的增长在HDFS上面就会有很多的HFile文件，这样对读操作会产生比较大的影响（读操作会对HFile进行归并查询），并且对DataNode的压力也会比较大。为了降低对读操作的影响，可以对这些HFile进行compact操作，但是compact操作会产生大量的IO，所以可以看出com
hbase 刷新队列和文件描述符过高告警 battybaby hbase 数据库 database
5节点的hbase配置为虚机，8c16g，时常出现刷新队列和文件描述符过高告警，如下图，文件描述符的告警不会自动恢复基本上每周重启一次RegionServer，重启后刷新队列会降下来。1：刷新队列高是因为小文件比较多2：文件描述符高是因为打开的文件比较多处理方法：拟合并hbase文件，后面合并了再更新看看HBASE手动触发major_compact_刘本龙的专栏-CSDN博客_hbasemajor
HBASE面试技巧狮歌~资深攻城狮 hbase 大数据
准备HBase面试时，除了熟悉常见的面试题及其答案外，还需要掌握一些面试技巧，以更好地展示你的技能和知识。以下是一些有效的HBase面试技巧和策略：1.深入理解核心概念技术深度•倒排索引：虽然HBase本身不使用倒排索引（这是搜索引擎如Elasticsearch使用的），但理解这一概念有助于对比不同存储系统的特性。•列族设计：列族的设计对性能有很大影响，确保你能够解释如何选择合适的列族数量、块大小
如何学习HBase：从入门到精通的完整指南狮歌~资深攻城狮 hbase 大数据
如何学习HBase：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据存储感兴趣，并且想要掌握HBase这一强大的分布式数据库，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解HBase。1.基础知识准备1.1理解NoSQL数据库在开始学习HBase之前，建议先了解一下NoSQL数据库的基本概念和分类。NoSQL数据库与传统的关系型数据库（如MySQL）有很大的不同，
深入HBase——引入黄雪超大数据基础 #深入HBase 大数据数据库 hbase
引入前面我们通过深入HDFS到深入MapReduce，从设计和落地，去深入了解了大数据最底层的基石——存储与计算是如何实现的。这个专栏则开始来看大数据的三驾马车中最后一个。通过前面我们对于GFS和MapReduce论文实现的了解，我们知道GFS在数据写入时，只对顺序写入有比较弱的一致性保障，而对于数据读取，虽然GFS支持随机读取，但在当时的硬件条件下，实际上也是支撑不了真正的高并发读取的；此外，M
时序数据库技术体系 – 初识InfluxDB（原理） weixin_30622181 数据库大数据系统架构
原贴地址：http://hbasefly.com/2017/12/08/influxdb-1/?qytefg=c4ft23在上篇文章《时序数据库体系技术–时序数据存储模型设计》中笔者分别介绍了多种时序数据库在存储模型设计上的一些考虑，其中OpenTSDB基于HBase对维度值进行了全局字典编码优化，Druid采用列式存储并实现了Bitmap索引以及局部字典编码优化，InfluxDB和Beringe
分布式存储--大规模订单架构设计梦江河大数据分布式订单系统大数据
架构一：MySQL+HBase+ElasticsearchMySQL存储实时订单，HBase存储历史订单，Elasticsearch实现订单的多维度搜索。架构复杂，运维维护成本高架构二：MySQL+TablestoreTablestore其实是HBase+Elasticsearch，既能存储大量数据，也能全文搜索架构三：分布式数据库TiDB+全文搜索功能参考文章
蓝易云 - HBase基础知识蓝易云 hbase 数据库大数据 php python 人工智能
HBase是一个分布式、可伸缩、列式存储的NoSQL数据库，它建立在Hadoop的HDFS之上，提供高可靠性、高性能的数据存储和访问。以下是HBase的基础知识：数据模型：HBase以表的形式存储数据，每个表由行和列组成，可以动态添加列族。每行由唯一的行键标识，列族和列限定符（Qualifier）用于唯一标识列。架构：HBase采用分布式架构，数据被分散存储在多个RegionServer上，每个R
线上HBase client返回超时异常分析 HBase callTimeout=60000 spring208208 大数据组件线上问题分析 hbase 数据库大数据
问题现象HBaseclient直接返回超时异常HBasecallTimeout=60000,callDuration=60301:row‘12649160863966c2790195059018040900010003320’ontable‘Z_UPA’atregion=Z_UPA,1213d1a56,1184027415643.ba7224f83dbb09591a74b7059f17.,host
unable to create new native thread异常分析 spring208208 hadoop java 开发语言
问题现象HBase的RegionServer服务以及对应的节点均出现了OOM现象。在DataNode服务节点上信息如下：ERROR:DataNodeisoutofmemory.Willretryin30seconds.unabletocreatenewnativethread问题分析根据反馈的信息，程序报unabletocreatenewnativethread异常其中java.lang.OutO
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts