vinfly_li

Hbase基础全解析

HBASE基础全解析

标签：大数据生态
本文使用版本 hbase-0.98.6-cdh5.3.6
源码库： https://github.com/apache/hbase/releases
注：rel = release即发行版本， RC=Release Candidate即候选发行版
Write By VinFly

HBASE概述

HBASE是HADOOP数据库，是一个分布式的，可扩展的，存储海量数据的数据库，存储级别一般为数十亿行及数百万列的数据，它是一个非关系型数据库，能随机、实时读写，部署在低廉的商用机上（扩展性好），基于高可用性的分布式系统。

HBASE数据表结构

HBASE是以表的形式存储数据，表有行和列组成，列划分为若干个列族（Column Family）。
在HBASE的表中，Row Key的设计是表中每条记录的“主键”，在查询HBASE中的数据时，也是根据Row Key来查询，所以Row Key的设计非常重要，Row Key的值在表中以字节数组的类型存储。HBASE表结构如下图所示。

数据表结构详解：

- Row Key

与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行，只有三种方式：

通过单个rowkey访问 (get)
通过rowkey的range (scan)
全表扫描

Row key行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在hbase内部，row key保存为字节数组。
存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)

- 列族（Column Family）

hbase表中的每个列，都归属与某个列族。列族是表的schema的一部分(而列不是)，必须在使用表之前定义。列名都以列族作为前缀。例如courses:history ， courses:math 都属于 courses 这个列族。
访问控制、磁盘和内存的使用统计都是在列族层面进行的。实际应用中，列族上的控制权限能帮助我们管理不同类型的应用：我们允许一些应用可以添加新的基本数据、一些应用可以读取基本数据并创建继承的列族、一些应用则只允许浏览数据（甚至可能因为隐私的原因不能浏览所有数据）。

时间戳（Time Stamp）

HBase中通过row和columns确定的为一个存贮单元称为cell。每个 cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由hbase(在数据写入时自动 )赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。每个 cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。
为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，hbase提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本（比如最近七天）。用户可以针对每个列族进行设置。maxversion=3 verson=1

Cell
唯一确定的单元。cell中的数据是没有类型的，全部是字节码形式存贮
{rowkey, column( = + ), version}

HBASE安装部署及简单SHELL使用

1、下载、解压源码包
使用HBASE要注意其与Hadoop的兼容性，本文使用CDH5.3.6版本的HBASE及HADOOP，下载地址：
http://archive.cloudera.com/cdh5/cdh/5/
下载完成后上传Hbase压缩包，赋予执行权限，解压至指定目录

2、配置

检查jdk是否正确（jdk版本使用1.7以上），启动hadoop，检查dfsadmin是否脱离安全模式

配置{HBASE_HOME}/conf下的hbase-enc.sh
export JAVA_HOME=/opt/modules/jdk1.7.0_67 export HBASE_MANAGES_ZK=false
其中的export HBASE_MANAGES_ZK=false是配置是否使用HBASE自带的zookeeper
配置{HBASE_HOME}/conf下的hbase-site.xml
首先在hbase目录下创建目录(可以在任意目录下)：
mkdir -p data/tmp
配置hbase.tmp.dir属性值为创建的目录

配置hbase.root.dir指定存储的数据在HDFS上的目录

配置hbase.cluster.distributed值为true，指定是否为分布式模式

配置hbase.zookeeper.quorum ，这里配置的是zookeeper所在机器，在设置了主机名与IP地址映射之后，这里写的是主机名，中间用逗号隔开。

配置{HBASE_HOME}/conf下的regionservers，这里配置的是regionserver所在机器，根据需要自己设定。

注：如果下载的hbase版本与使用的hadoop版本不兼容，替换掉{HBASE_HOME}/lib下的hadoop jar包即可。
到这里基本的配置就完成了，如果有其他参数要求，参考官网。
地址：http://hbase.apache.org/book.html#config.files

3、启动与shell基本使用

启动命令：
${HBASE_HOME}/bin/hbase-daemon.sh start master
${HBASE_HOME}/bin/hbase-daemon.sh start regionserver

查看启动的进程：

启动Hbase命令行：bin/hbase shell

在命令行中，如果不熟悉某个命令，可以使用 help：查看帮助信息比如help+’create’查看create命令使用方法
基本命令举例
创建表
create 'user', 'info' //创建user表，列族名为info
PUT/UPDATE //插入数据
put 'user', '100001', 'info:name', 'zhangsan'

查询
get
依据ROWKEY进行查询，速度最快的
get 'user', '100001'

scan
全表扫描，也就测试用用，实际慎用
scan 'user'
scan range
范围查询
使用最多最广泛
scan 'user' , {STARTROW => ‘100001’}

HBASE也有它的端口号，默认为60010，可在浏览器中监控HBASE运行状况。

HBASE的物理结构

首先看HBASE的物理模型图

从图中可以看出一下几点：

在HBASE的表中，所有的行都是按照Row Key的字典序排列（a~z,1~9…）
在行的方向上分割为多个Region，而Region是按大小进行分割的，每个表初始只有一个Region，随着数据的增多，Region不断增大，当增大到一定阀值得时候，Region就会等分为两个新的Region
Region是HBASE中分布式存储的最小单元，不同的Region分布到不同的RegionServer上
Region是分布式存储的最小单元，但它不是存储的最小单元，Region又由一个或者多个Store组成，每个Store保存一个column family，每个Store由一个memStore和0到多个StoreFile组成，其中的memStore存储在内存中，StoreFile存储在HDFS文件系统上。
HBASE在HDFS上的存储
HBASE中所有数据文件都存储在了HDFS文件系统上，HBASE主要包括两种文件类型：
HFile：HBase中KeyValue数据的存储格式，HFile是Hadoop的二进制格式文件，实际上上面提到的StoreFile就是对HFile做了轻量级包装，即StoreFile底层就是HFile
HLog File：HBASE中的WAL（Write Ahead Log ：预写日志）的存储格式，物理上是Hadoop的Sequence File，具体的WAL将在后面讲解。

HBASE架构

HBase架构也是主从服务器架构，它由HRegion服务器（HRegion Server）群和HBase Master服务器（HBaseMaster Server)构成。HBase Master服务器负责管理所有的HRegion服务器，而HBase中所有的服务器都是通过ZooKeeper来进行协调，并处理HBase服务器运行期间可能遇到的错误。HBase Master Server本身不存储HBase中的任何数据，HBase中的表可能会被划分为多个HRegion，然后存储到HRegion Server群中，HBase Master Server中存储的是从数据到HRegionServer中的映射。
HBASE架构见图

HBASE架构中的组件解析

Client

客户端Client是整个集群的访问入口
Client使用HBase RPC机制与HMaster和HRegionserver进行通信
与HMaster进行通信进行管理类操作
与HRegionserver进行数据读写类操作
包含访问HBase的接口，并维护cache来加快对HBase的访问

协作组件zookeeper
zookeeper作为一个大数据协作框架，它的HBASE中的地位相当重要。

1、 zookeeper管理着HBASE的meta表的region等相关信息，那么何谓meta表？
在HBASE中，有命名空间——NAMESPACE的概念，它类似于数据库，我们用户自定义的表存储在名为default的namespace下，而meta表是hbase自带的系统表，它存储在名为hbase的命名空间下，见图。

其中的user table是我们自定义的表，而catalog tables是系统自带的表，那么meta表中存储的是什么数据呢？
通过完整的hbase命令hbase(main):005:0> scan 'hbase:meta'查看meta表中的信息

在这个meta表中可以看到user表的信息，比如user表的某个region存储在了哪个regionserver上，region的startRowKey和endRowKey等信息。但是meta表也是HBASE中的一张表，它也遵循HBASE表的一般特性，那么它也有自己的region，比如某个region存储某张用户自定义的表，这些region的信息（表名、表的唯一标识符、startRowKey、endRowKey/存储在哪个regionserver上…）存储在哪里呢？
这里我们进入zookeeper的znode里面查看zookeeper存储的一些数据
使用命令：bin/zkCli.sh -> ls -> ls /hbase

在这里可以看到zookeeper存储了关于hbase的数据，其中的meta-region-server中就是存储了hbase中meta表的region的相关数据。所以，这里我们总结出对HBASE中数据操作的流程：
client->zookeeper->meta-region-server->regionServer上meta数据查找具体Regioin
2、 zookeeper中存储了监控着regionserver是否存活的数据，见图。也就是说，zookeeper实时监控了Hregionserver的上线和下线信息，并通知给HMaster。

3、 zookeeper保证了在任何时候，集群只有一个HMaster，如果一个HMaster宕掉，那么zookeeper会通过它的选举机制再重新选取一个regionserver作为新的HMaster，所以HBase集群不会有单节点故障。

主节点HMaster

为Region server分配region
负责Region server的负载均衡
发现失效的Region server并重新分配其上的region
管理用户对table的增删改查操作
Client访问hbase中的数据的过程并不需要master参与（寻址访问的是zookeeper和Regionserver，数据读写访问的是HRegionserver），HMaster仅仅维护元数据信息，负载很低。

HRegionserver

1、维护HRegion，处理这些Region的IO请求，向HDFS文件系统中读写数据
2、负责切分在运行过程中变大的HRegion
3、一台机器上面一般只运行一个HRegionServer，且每一个区段的HRegion也只会被一个HRegionServier维护
4、当用户需要更新数据的时候，他会被分配到对应的HRegionServer上提交修改，这些修改先是被写到memStore（内存中的缓存，保存最近更新的数据）缓存和服务器的Hlog（磁盘上面的记录文件，它记录着所有的更新操作）文件里面。在操作写入Hlog之后，commit()调用才会将其返回给客户端。
5、在读取数据的时候，HRegionServier会先访问memStore缓存，如果缓存里没有改数据，才会回到Store磁盘上面寻找，每一个列族都会有一个Store集合，每一个Store集合包含很多storeFile(封装了Hfile）文件

HBASE的数据存储

数据存储原理
这里首先介绍一下LSM树（log-structured merge-tree）

输入数据首先被存储在日志文件，这些文件内的数据完全有序。当有日志文件被修改时，对应的更新会被先保存在内存中来加速查询。当系统经历过许多次数据修改，且内存空间被逐渐被占满后，LSM树会把有序的“键-记录”对写到磁盘中，同时创建一个新的数据存储文件。此时，因为最近的修改都被持久化了，内存中保存的最近更新就可以被丢弃了。

存储文件的组织与B树相似，不过其为磁盘顺序读取做了优化，所有节点都是满的并按页存储。修改数据文件的操作通过滚动合并完成，也就是说，系统将现有的页与内存刷写数据混合在一起进行管理，直到数据块达到它的容量
在内存中多个块存储归并到磁盘的过程，合并写入会产生一个新的结果块，最终多个块被合并为更大块。
多次数据刷写之后会创建许多数据存储文件，后台线程就会自动将小文件聚合成大文件，这样磁盘查找就会被限制在少数几个数据存储文件中。磁盘上的树结构也可以拆分成独立的小单元，这样更新就可以被分散到多个数据存储文件中。所有的数据存储文件都按键排序，所以没有必要在存储文件中为新的键预留位置。
查询时先查找内存中的存储，然后再查找磁盘上的文件。这样在客户端看来数据存储文件的位置是透明的。
删除是一种特殊的更改，当删除标记被存储之后，查找会跳过这些删除过的键。当页被重写时，有删除标记的键会被丢弃。
此外，后台运维过程可以处理预先设定的删除请求。这些请求由TTL（time-to-live）触发，例如，当TTL设为20天后，合并进程会检查这些预设的时间戳，同时在重写数据块时丢弃过期的记录。

根据LSM树的原理，可以总结出：在HBASE中数据写入的流程如下：

Client写入 ->存入memStore，一直到memStore满->Flush成一个StoreFile，直到成长到一定阀值->出现Compact合并操作->多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除->当StoreFile Compact合并后，逐步形成一个大的StoreFile->单个StoreFile超过一定阀值后，触发split操作，把当前的Region split成两个region,老region会下线，新Split出的两个孩子Region会被HMaster分配到相应的HRegionServer上，使得原先一个Region压力得以分流到2个Region上
注：所有的更新和删除操作，都是在Compact阶段做的，所以，用户写操作只需要进入到内存即可，从而保证了IO高性能。

WAL（write-ahead-log)

WAL即为预写日志，它的存储格式是HLog File，WAL主要用作数据恢复，类似于MYSQL中的binlog。
HLog记录着数据的变更，一旦数据更改，就可以通过log进行恢复，每个HRegionserver维护一个HLog，而不是每个Region一个，这样不同的Region（来自不同的表）的日志会混在一起，这样做的目的是不断追加单个文件相对于同时写多个文件而言，可以减少磁盘寻址次数，因此提高对table的写性能，但是带的缺点是，如果一台Regionserver下线，为了恢复其上的region，需要将该Regionserver的HLog进行拆分，然后分发到其它Regionserver上进行恢复。
WAL的处理流程如下：

首先客户端启动一个操作来修改数据。例如，可以对put()、delete()和increment()进行调用。每一个修改都封装到一个KeyValue对象实例中，并通过RPC调用发送出去。这些调用（理想情况下）成批地发送给含有匹配region的HRegionServer。一旦KeyValue实例到达，它们会被发送到管理相应行的HRegion实例。数据被写入到WAL，然后被放入到实际拥有记录的存储文件的MemStore中。实质上，这就是HBase大体的写路径。最后，当memstore达到一定的大小或是经历一个特定的时间之后，数据就会异步地连续写入到文件系统中。在写入的过程中，数据以一种不稳定的状态存放在内存中，即使在服务器完全崩溃的情况下，WAL也能够保证数据不会丢失，因为实际的日志存储在HDFS上。其他服务器可以打开日志文件然后回放这些修改—恢复操作并不在这些崩溃的物理服务器上进行。

HBASE的JAVA API基本使用

在IDE或者IDEA环境中开发HBASE都使用MAVEN工程来进行管理，所以在开发代码前要做以下几步：

1、在Maven工程中的 pom.xml 文件中添加HBASE依赖

<hbase.version>0.98.6-hadoop2hbase.version>

        
<dependency>
    <groupId>org.apache.hbasegroupId>
    <artifactId>hbase-serverartifactId>
    <version>${hbase.version}version>
dependency>
<dependency>
    <groupId>org.apache.hbasegroupId>
    <artifactId>hbase-clientartifactId>
    <version>${hbase.version}version>
dependency>

2、确定maven工程中依赖包里有Hbase jar包，并拷贝${HADOOP_HOME} /conf下的core-site.xml 、 hdfs-site.xml配置文件以及${HBASE_HOME}/conf下的hbase-site.xml配置文件到maven工程中，确保所有regionserver启动，master启动即可在eclipse下运行java application

添加数据到HBASE

package hbase_study;
import .......
public class HBaseClientApp {

    public static HTable getHTableByTableName(String tableName)throws Exception{
        // Get instance of Configuration
        Configuration configuration = HBaseConfiguration.create();

        // Get table instance
        HTable table = new HTable(configuration, tableName) ;

//      System.out.println(table);

        return table ;
    }

    public static void putData() throws Exception{
        String tableName = "user" ;

        HTable table = getHTableByTableName(tableName) ;

        // create put instance
        Put put = new Put(Bytes.toBytes("100002")) ;

        // add a column with value
        put.add(
            Bytes.toBytes("info"),
            Bytes.toBytes("name"), 
            Bytes.toBytes("lisi")
        );
        put.add(
                Bytes.toBytes("info"),
                Bytes.toBytes("age"), 
                Bytes.toBytes("22")
            );
        put.add(
                Bytes.toBytes("info"),
                Bytes.toBytes("sex"), 
                Bytes.toBytes("female")
            );
        put.add(
                Bytes.toBytes("info"),
                Bytes.toBytes("address"), 
                Bytes.toBytes("nanjing")
            );
        put.add(
                Bytes.toBytes("info"),
                Bytes.toBytes("tel"), 
                Bytes.toBytes("188888888")
            );  
        // put data into table
        table.put(put);

        // close
        table.close();
    }

查询数据(get Row Key)

/**
     * Get Data From Table By ROWKEY
     * 
     * @throws Exception
     */
    public static void getData() throws Exception{
        String tableName = "user" ;
        //
        HTable table = getHTableByTableName(tableName) ;
        /**
         * get 'user', '10001', 'info:name' 
         */
        // Create Get with rowkey
        Get get = new Get(Bytes.toBytes("1001")) ;
/*      
        get.addColumn(//
            Bytes.toBytes("info"),//
            Bytes.toBytes("name") //
        ) ;
*/      

        // Get Data
        Result result = table.get(get);

        // System.out.println(result);
        /**
         * Key:
         *      rowkey + cf + c + version
         * Value:
         *      value
         */
        for(Cell cell : result.rawCells()){
            System.out.println(// 
                // column family
                Bytes.toString(CellUtil.cloneFamily(cell))
                + ":"
                // column
                + Bytes.toString(CellUtil.cloneQualifier(cell))
                + "->"
                // value
                + Bytes.toString(CellUtil.cloneValue(cell))
                + "     "
                // timestamp
                + cell.getTimestamp()
            );
            System.out.println("=============================");
        }
        // close
        table.close();
    }

查询数据（scan）

/**
     * Scan Data
     * 
     * @throws Exception
     */
    public static void scanData() throws Exception{
        String tableName = "user" ;
        //
        HTable table = null ;
        ResultScanner resultScanner = null ;


        try{
            // 
            table = getHTableByTableName(tableName) ;

            // 
            Scan scan = new Scan() ;

//==========================================================
// Range
        //  scan.setStartRow(startRow) ; // 2016070112000000_
        //  scan.setStopRow(stopRow) ;   // 2016070113000000_

//==========================================================
// Range            
// iterator
    //  Scan scan2 = new Scan(startRow, stopRow) ;

// add Column
    //  scan.addColumn(family, qualifier) ;
    //  scan.addFamily(family) ;    

// Filter
    //  Filter filter = new PrefixFilter(prefix) ;
    //  scan.setFilter(filter) ;

    // page
        //  PageFilter

//
        // 是否缓存查询出来的数据
    //  scan.setCacheBlocks(false);
        //  
    //  scan.setCaching(2);

        scan.setBatch(2);

            // scan all table
            resultScanner =  table.getScanner(scan) ;

            for(Result result : resultScanner){
                System.out.println(Bytes.toString(result.getRow()));
                for(Cell cell : result.rawCells()){
                    System.out.println(// 
                        // column family
                        Bytes.toString(CellUtil.cloneFamily(cell))
                        + ":"
                        // column
                        + Bytes.toString(CellUtil.cloneQualifier(cell))
                        + "->"
                        // value
                        + Bytes.toString(CellUtil.cloneValue(cell))
                        + "     "
                        // timestamp
                        + cell.getTimestamp()
                    );
                }
                System.out.println("=============================");
            }
        }catch(Exception e){
            e.printStackTrace(); 
        }finally{
            IOUtils.closeStream(resultScanner);
            IOUtils.closeStream(table);
        }

    }

删除HBASE中的数据

/**
     * Delete Data
     * 
     * @throws Exception
     */
    public static void deleteData() throws Exception{
        String tableName = "user" ;
        //
        HTable table = getHTableByTableName(tableName) ;
        //
        Delete delete = new Delete(Bytes.toBytes("1004")) ;
/*      
        delete.deleteColumn(
            Bytes.toBytes("info"),//
            Bytes.toBytes("address") //
            ) ;
*/      
        // delete data
        table.delete(delete);

        // close
        table.close();
    }

HBASE与MapReduce集成

HBASE与MapReduce集成的三种方式：

1、input - source ==== 从HBase表中读取数据
2、output - sink ==== 将MapReduce的计算结果存储到HBase表中
3、input & output - source & sink ====既从HBase表中读取数据，又向HBase表中存储数据，mapreduce程序可以看作是hbase的一个客户端

1、运行测试HBASE自带的mapreduce例子
首先测试运行：
[vin@vin01 hbase-0.98.6-cdh5.3.6]$ /opt/modules/hadoop-2.5.0-cdh5.3.6/bin/yarn jar lib/hbase-server-0.98.6-cdh5.3.6.jar

发现报错，原因是mapreduce运行需要HBASE的jar包，我们通过执行bin/hbase mapredcp来查看需要哪些jar包，而解决这些jar包的方法就是设置classpath：
参考官网：http://hbase.apache.org/book.html#hbase.mapreduce.classpath
设置方式：

export HADOOP_HOME=/opt/modules/hadoop-2.5.0-cdh5.3.6
export HBASE_HOME=/opt/modules/hbase-0.98.6-cdh5.3.6
export HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath`

设置完成之后再测试运行该jar包：

可以看出该jar包中有多个实例，这里再测试运行rowcounter来计算user表：
执行：

export HADOOP_HOME=/opt/modules/hadoop-2.5.0-cdh5.3.6
export HBASE_HOME=/opt/modules/hbase-0.98.6-cdh5.3.6
export HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath`
/opt/modules/hadoop-2.5.0-cdh5.3.6/bin/yarn jar lib/hbase-server-0.98.6-cdh5.3.6.jar rowcounter user

测试结果：

测试既从HBase表中读取数据，又向HBase表中存储数据
这里就需要使用MAVEN工程来开发mapreduce程序了，代码如下：

package hbase_study;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public class ExportBasicFromUserMapReduce extends Configured implements Tool {

    // step 1: Mapper
    /**
     * Mapper
     */
    public static class ReadFromUserMapper 
            extends TableMapper<ImmutableBytesWritable, Put> {

        @Override
        public void map(ImmutableBytesWritable key, Result value, Context context)
                throws IOException, InterruptedException {
            // get rowkey
            // String rowkey = Bytes.toString(key.get()) ;

            // create put
            Put put = new Put(key.get());

            // iterator
            for (Cell cell : value.rawCells()) {
                // add family: info
                if ("info".equals(Bytes.toString(CellUtil.cloneFamily(cell)))) {
                    // add column : name
                    if ("name".equals(Bytes.toString(CellUtil.cloneQualifier(cell)))) {
                        put.add(cell);
                    }
                    // add column : age
                    else if ("age".equals(Bytes.toString(CellUtil.cloneQualifier(cell)))) {
                        put.add(cell);
                    }
                }
            }
            // output
            context.write(key, put);
        }
    }

    // step 2: Reducer
    /**
     * Reducer
     */
    public static class WriteToBasicReducer 
            extends TableReducer<ImmutableBytesWritable, Put, ImmutableBytesWritable> {

        @Override
        public void reduce(ImmutableBytesWritable key, Iterable values, 
            Context context) throws IOException, InterruptedException {
            for(Put put : values){
                // output
                context.write(key, put);
            }
        }
    }

    // step 3: Driver
    public int run(String[] args) throws Exception {
        // 1) get conf
        Configuration conf = super.getConf();

        // 2) create job
        Job job = Job.getInstance(conf, this.getClass().getSimpleName());

        job.setJarByClass(ExportBasicFromUserMapReduce.class);

        // 3) set job
        // input & mapper
        Scan scan = new Scan();
        scan.setCaching(500);        // 1 is the default in Scan, which will be bad for MapReduce jobs
        scan.setCacheBlocks(false);  // don't set to true for MR jobs

        TableMapReduceUtil.initTableMapperJob(
          "user",        // input table
          scan,               // Scan instance to control CF and attribute selection
          ReadFromUserMapper.class,     // mapper class
          ImmutableBytesWritable.class,         // mapper output key
          Put.class,  // mapper output value
          job //
        );

        // reducer & output
        TableMapReduceUtil.initTableReducerJob(
          "basic",        // output table
          WriteToBasicReducer.class,    // reducer class
          job //
       );

        job.setNumReduceTasks(1);   // at least one, adjust as required

        // 4) submit job
        boolean isSuccess = job.waitForCompletion(true);

        return isSuccess ? 0 : 1;
    }

    /**
     * Entry
     * 
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception {
        // create conf
        Configuration configuration = HBaseConfiguration.create();

        // run job
        int status = ToolRunner.run( //
                configuration, new ExportBasicFromUserMapReduce(), args);
        // exit program
        System.exit(status);
    }

}

上述代码完成的功能是编写mapreduce从user表中查询抽取某些字段到basic表中
代码编写完成，打成jar包

上传该jar包并运行：

export HADOOP_HOME=/opt/modules/hadoop-2.5.0-cdh5.3.6
export HBASE_HOME=/opt/modules/hbase-0.98.6-cdh5.3.6
export HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath`
/opt/modules/hadoop-2.5.0-cdh5.3.6/bin/yarn jar mr-user2basic.jar hbase_study.ExportBasicFromUserMapReduce

注：上述shell代码是在$HBASE_HOME主目录下执行的，上传的jar包也在该主目录下，所以省略了路径，在实际运行中应该写上jar的绝对路径。

HBASE的数据迁移

HBASE的数据来源一般就是Logs 、 RDBMS，或者本身的备份。
1）数据迁移几种方式：

1、PUT API 写入数据
这种方式主要是通过编写mapreduce，通过连接JDBC，将RDBMS关系型数据库中的数据迁移到HBASE中，编写过程复杂，这里我们使用HBASE自带的一个mapreduce来测试将以制表符分隔的tsv格式的文件导入到HBASE表中，该mapreduce也在自带的jar包中，见图。

测试运行：
查看其用法：
/opt/modules/hadoop-2.5.0-cdh5.3.6/bin/yarn jar lib/hbase-server-0.98.6-cdh5.3.6.jar importtsv

测试步骤：

首先在hbase创建表：create ‘person’ ,‘info’ 用来存放要导入的数据
将tsv数据上传到hdfs文件系统中，本文使用的是/user/hadoop001/hbase/data/importtsv/目录
运行：
```
export HADOOP_HOME=/opt/modules/hadoop-2.5.0-cdh5.3.6
export HBASE_HOME=/opt/modules/hbase-0.98.6-cdh5.3.6
export HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/conf \
/opt/modules/hadoop-2.5.0-cdh5.3.6/bin/yarn jar lib/hbase-server-0.98.6-cdh5.3.6.jar importtsv \
-Dimporttsv.columns=HBASE_ROW_KEY,\
info:name,info:age,info:sex,info:address \
person \
/user/hadoop001/hbase/data/importtsv
```
说明：通常MapReduce在写HBASE时使用的是TableOutputFormat方式，在reduce中直接生成put对象写入Hbase，该方式在大数据量时写入效率低下，HBase会Block写入，频繁进行flush、split、compact等大量IO操作，并对HBase节点的稳定性造成一定影响。
2、使用bulk load tool
过程：先将数据转换为HFile格式文件，然后将HFile文件加载到HBase表中。
BULK LOAD 是利用HBase的数据信息按照特定格式存储在HDFS内这一原理，直接在HDFS中生成持久化的HFile数据格式文件，然后上传至合适位置，完成了海量数据快速入库的方式，配合mapreduce完成，高效便捷，不占用region资源，消除看对HBase集群插入数据的压力，提高了job运行效率。
在hbase-server-0.98.6-cdh5.3.6.jar中的importtsv方法也具有bulkload功能，见图。下面对它进行测试

测试步骤：
设置HFile存储的目录（该目录会自动创建）
-Dimporttsv.bulk.output=/user/hadoop001/hbase/hfileOutput
要处理的数据仍然为
/user/hadoop001/hbase/data/importtsv目录下的student.tsv文件
运行代码,生成HFile文件

export HADOOP_HOME=/opt/modules/hadoop-2.5.0-cdh5.3.6
export HBASE_HOME=/opt/modules/hbase-0.98.6-cdh5.3.6
export HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/conf \
/opt/modules/hadoop-2.5.0-cdh5.3.6/bin/yarn jar lib/hbase-server-0.98.6-cdh5.3.6.jar importtsv \
-Dimporttsv.bulk.output=/user/hadoop001/hbase/hfileOutput \
-Dimporttsv.columns=HBASE_ROW_KEY, \
info:name,info:age,info:sex,info:address \
person \
/user/hadoop001/hbase/data/importtsv

- 加载HFile数据到HBase表中

export HADOOP_HOME=/opt/modules/hadoop-2.5.0-cdh5.3.6
export HBASE_HOME=/opt/modules/hbase-0.98.6-cdh5.3.6
export HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/conf \
${HADOOP_HOME}/bin/yarn jar \
${HBASE_HOME}/lib/hbase-server-0.98.6-hadoop2.jar completebulkload \
/user/hadoop001/hbase/hfileOutput \
person

通过运行此条命令，会将/user/hadoop001/hbase/hfileOutput下的文件剪切到/hbase/data/default/person/0731f5632f614b5bfdc2381353eb2d70/目录下

这时我们通过查看HBASE表，就可以看到数据被成功的加载到其中了。

3、编写mapreduce的固定模式

HBASE表的设计

HBASE创建表的方式及预分区

通过在HBASE SHELL命令行中输入help 'create'可以查看创建表的方法及其常用属性


从HBASE给出的示例中可以总结：

创建的表可以有多个列族，列族可以有多个属性
split

在HBASE中，前面我们谈过了其数据来源有两种，一种是日志文件写入，一种是将文件转换成HFile，通过BULK load导入到HBASE表中，但是我们知道HBASE初始给表设计的是一个Region，而Bulk Load 短时间将大量的数据文件写入到Region，所以管理这个Region的Regionserver负载会非常大，可能会造成节点损坏，那么解决办法就是在创建表的时候指定多个Region（根据表的Row Key进行设计，结合实际业务）。那么如何在创建表的时候创建多个Region呢？
split就是对HBASE表的预分区，分区是相对于region而已，而Region的划分是根据Row Key划分的，[startRow , endRow)
测试split：
create 'ns1:t1', 'f1', SPLITS => ['10', '20', '30', '40']

这其中的’10’, ‘20’, ‘30’, ‘40’就是预估的分区，这里还可以将分区写入到文件中，然后创建表的时候加载该文件即可，在创建很多个region的时候使用这个方式：
hbase> create 't1', 'f1', SPLITS_FILE => 'splits.txt'
文件中的格式为

在设计表的时候，某些不常用但是有需求的业务表设计成索引表，索引表的某个列必须是主表的RowKey，而实现主表与索引表的数据同步需要使用Phoenix的JDBC方式。

2.RowKey的设计原则

- rowkey长度原则

rowkey是一个二进制码流，可以是任意字符串，最大长度 64kb ，实际应用中一般为10-100bytes，以 byte[] 形式保存，一般设计成定长。
建议越短越好，不要超过16个字节，原因如下：
数据的持久化文件HFile中是按照KeyValue存储的，如果rowkey过长，比如超过100字节，1000w行数据，光rowkey就要占用100*1000w=10亿个字节，将近1G数据，这样会极大影响HFile的存储效率；
MemStore将缓存部分数据到内存，如果rowkey字段过长，内存的有效利用率就会降低，系统不能缓存更多的数据，这样会降低检索效率。
目前操作系统都是64位系统，内存8字节对齐，控制在16个字节，8字节的整数倍利用了操作系统的最佳特性。

rowkey散列原则

如果rowkey按照时间戳的方式递增，不要将时间放在二进制码的前面，建议将rowkey的高位作为散列字段，由程序随机生成，低位放时间字段，这样将提高数据均衡分布在每个RegionServer，以实现负载均衡的几率。如果没有散列字段，首字段直接是时间信息，所有的数据都会集中在一个RegionServer上，这样在数据检索的时候负载会集中在个别的RegionServer上，造成热点问题，会降低查询效率。

rowkey唯一原则

必须在设计上保证其唯一性，rowkey是按照字典顺序排序存储的，因此，设计rowkey的时候，要充分利用这个排序的特点，将经常读取的数据存储到一块，将最近可能会被访问的数据放到一块。

什么是热点

HBase中的行是按照rowkey的字典顺序排序的，这种设计优化了scan操作，可以将相关的行以及会被一起读取的行存取在临近位置，便于scan。然而糟糕的rowkey设计是热点的源头。热点发生在大量的client直接访问集群的一个或极少数个节点（访问可能是读，写或者其他操作）。大量访问会使热点region所在的单个机器超出自身承受能力，引起性能下降甚至region不可用，这也会影响同一个RegionServer上的其他region，由于主机无法服务其他region的请求。设计良好的数据访问模式以使集群被充分，均衡的利用。
为了避免写热点，设计rowkey使得不同行在同一个region，但是在更多数据情况下，数据应该被写入集群的多个region，而不是一个。
下面是一些常见的避免热点的方法以及它们的优缺点：

加盐

这里所说的加盐不是密码学中的加盐，而是在rowkey的前面增加随机数，具体就是给rowkey分配一个随机前缀以使得它和之前的rowkey的开头不同。分配的前缀种类数量应该和你想使用数据分散到不同的region的数量一致。加盐之后的rowkey就会根据随机生成的前缀分散到各个region上，以避免热点。

哈希

哈希会使同一行永远用一个前缀加盐。哈希也可以使负载分散到整个集群，但是读却是可以预测的。使用确定的哈希可以让客户端重构完整的rowkey，可以使用get操作准确获取某一个行数据

反转

第三种防止热点的方法时反转固定长度或者数字格式的rowkey。这样可以使得rowkey中经常改变的部分（最没有意义的部分）放在前面。这样可以有效的随机rowkey，但是牺牲了rowkey的有序性。
反转rowkey的例子以手机号为rowkey，可以将手机号反转后的字符串作为rowkey，这样的就避免了以手机号那样比较固定开头导致热点问题

时间戳反转

一个常见的数据处理问题是快速获取数据的最近版本，使用反转的时间戳作为rowkey的一部分对这个问题十分有用，可以用 Long.Max_Value - timestamp 追加到key的末尾，例如 [key][reverse_timestamp] , [key] 的最新值可以通过scan [key]获得[key]的第一条记录，因为HBase中rowkey是有序的，第一条记录是最后录入的数据。
比如需要保存一个用户的操作记录，按照操作时间倒序排序，在设计rowkey的时候，可以这样设计
[userId反转][Long.Max_Value - timestamp]，在查询用户的所有操作记录数据的时候，直接指定反转后的userId，startRow是[userId反转][000000000000],stopRow是[userId反转][Long.Max_Value - timestamp]
如果需要查询某段时间的操作记录，startRow是[user反转][Long.Max_Value - 起始时间]，stopRow是[userId反转][Long.Max_Value - 结束时间]

其他一些建议

尽量减少行和列的大小在HBase中，value永远和它的key一起传输的。当具体的值在系统间传输时，它的rowkey，列名，时间戳也会一起传输。如果你的rowkey和列名很大，甚至可以和具体的值相比较，那么你将会遇到一些有趣的问题。HBase storefiles中的索引（有助于随机访问）最终占据了HBase分配的大量内存，因为具体的值和它的key很大。可以增加block大小使得storefiles索引再更大的时间间隔增加，或者修改表的模式以减小rowkey和列名的大小。压缩也有助于更大的索引。

列族尽可能越短越好，最好是一个字符

冗长的属性名虽然可读性好，但是更短的属性名存储在HBase中会更好

HBASE表的压缩属性配置

压缩首先在HBASE SHELL中输入`describe ‘user’`来查看user表的信息： ![image_1arcl4ca6gifhcqn6n1vm1i9u9.png-72.5kB][39] 其中的COMPRESSION =’NONE’表示的表的存储是否使用压缩，而HBASE数据是存储在HDFS上的，检查hadoop支持哪些压缩格式： `bin/hadoop checknative`

配置HBASE压缩步骤（以常用的压缩格式snappy为例）：

– 配置hadoop压缩
使用bin/hadoop checknative检查
–配置HBASE
1、将hadoop与snappy集成的jar包放入HBASE安装目录下的lib目录中
2、将本地native库放入HBASE安装目录中

–在hbase-site.xml文件中配置压缩属性

–在做好上面步骤好，就可以在表中将压缩属性设置为想要的压缩格式
注：已经存在的数据不会因为设置压缩属性而压缩

HBASE与Hive集成

参考官网: https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration

喜欢我的文章请关注微信公众号DTSpider

你可能感兴趣的:(hbase)

Hbase - 表导出CSV数据 kikiki1
新鲜文章，昨天刚经过线上验证过的，使用它导出了3亿的用户数据出来，花了半个小时，性能还是稳稳的，好了不吹牛皮了，直接上代码吧。MR考查了Hbase的各种MR，没有发现哪一个是能实现的，如果有请通知我，我给他发红包。所以我们只能自己来写一个MR了，编写一个Hbase的MR，官方文档上也有相应的例子。我们用来加以化妆就得到我们想要的了。导出的CSV格式为admin,22,北京admin,23,天津依赖
ftp文件服务器有连接数限制,查看ftp服务器连接数命令赵承铭 ftp文件服务器有连接数限制
查看ftp服务器连接数命令内容精选换一换本章节适用于MRS3.x之前版本。Loader支持以下多种连接，每种连接的配置介绍可根据本章节内容了解。obs-connectorgeneric-jdbc-connectorftp-connector或sftp-connectorhbase-connector、hdfs-connector或hive-connectorOBS连接是Loa“数据导入”章节适用于
HBase总结
HBase1.HBase核心概念HBase的作用HBase主要用于存储和管理超大规模的结构化或半结构化数据（如PB级），特点包括：高扩展性：通过分布式架构横向扩展，支持数千台服务器高吞吐量：适合实时随机读写（如用户行为日志、实时分析）强一致性：保证同一行数据的原子性操作灵活的数据模型：支持动态列和稀疏存储典型应用场景：互联网公司的用户行为日志存储（如点击流数据）社交媒体的实时消息存储物联网设备时序
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
HBase 开发：使用Java操作HBase 睡觉的时候我不困 hbase java python
第1关：创建表任务描述相关知识如何使用Java连接HBase数据库HBaseConfigurationConnectionFactory创建表HBase2.X创建表编程要求测试说明任务描述本关任务：使用Java代码在HBase中创建表。相关知识为了完成本关任务，你需要掌握：1.如何使用Java连接HBase数据库，2.如何使用Java代码在HBase中创建表。如何使用Java连接HBase数据库J
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
PostgreSql、Hbase的安装月光一族吖 postgresql hbase 数据库
在CentOS8中安装PostgreSQL和HBase，以下是详细步骤，包括使用sudo权限的命令：安装PostgreSQL更新系统包在两台CentOS8上运行以下命令，确保系统是最新的：sudodnfupdate-y安装PostgreSQLCentOS8默认仓库提供PostgreSQL。你可以直接安装所需版本的PostgreSQL：sudodnfinstall-ypostgresql-serve
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
Hbase和关系型数据库、HDFS、Hive的区别别这么骄傲 hive hbase 数据库
目录1.Hbase和关系型数据库的区别2.Hbase和HDFS的区别3.Hbase和Hive的区别1.Hbase和关系型数据库的区别关系型数据库Hbase存储适合结构化数据，单机存储适合结构化和半结构数据的松散数据，分布式存储功能（1）支持ACID（2）支持join（3）使用主键PK（4）数据类型：int、varchar等（1）仅支持单行事务（2）不支持join，把数据糅合到一张大表（3）行键ro
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop、HDFS、Hive、Hbase区别及联系静心观复大数据 hadoop hdfs hive
Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。HadoopHadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统，包括HadoopCommon（共享库和工具）、HadoopDistributedFileSystem(
大数据(1)-hdfs&hbase viperrrrrrr 大数据 hdfs hbase
hbase&hdfs一、体系结构HDFS是一个标准的主从(Master/Slave)体系结构的分布式系统；HDFS集群包含一个或多个NameNode(NameNodeHA会有多个NameNode)和多个DataNode(根据节点情况规划),用户可以通过HDFS客户端同NameNode和DataNode进行交互以访问文件系统。HDFS公开文件系统名称空间，并允许将用户数据存储在文件中。在内部，一个文
HBase 开发：使用Java操作HBase 第1关：创建表是草莓熊吖 hbase 大数据 Educoder hbase hadoop 大数据
为了完成本关任务，你需要掌握：1.如何使用Java连接HBase数据库，2.如何使用Java代码在HBase中创建表。如何使用Java连接HBase数据库Java连接HBase需要两个类：HBaseConfigurationConnectionFactoryHBaseConfiguration要连接HBase我们首先需要创建Configuration对象，这个对象我们需要通过HBaseConfig
Hbase-表操作红笺Code Hbase hbase 大数据数据分析非关系型数据库 zookeeper
目录一、创建表:1.创建表时指定列族的属性2.创建表时不指定列族的属性多学一招：克隆表二、查看表信息三、查看表四、停用和启用表1.停用表2.启用表多学一招：停用或启用多个表五、判断表1.exists命令2.is_enabled命令3.is_disabled命令六、修改表1.修改表属性（1）添加属性（2）删除属性2.修改列族（1）修改列族属性（2）添加列族（3）删除列族七、删除表drop命令多学一招
头歌当HBase遇上MapReduce 敲代码的苦13 头歌 hbase mapreduce 数据库
头歌当HBase遇上MapReduce第1关：HBase的MapReduce快速入门代码行：packagecom.processdata;importjava.io.IOException;importjava.util.List;importjava.util.Scanner;importorg.apache.hadoop.conf.Configuration;importorg.apache.
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
JT808教程：设置/查询终端参数
REDISANT提供互联网与物联网开发测试套件#互联网与中间件：RedisAssistantZooKeeperAssistantKafkaAssistantRocketMQAssistantRabbitMQAssistantPulsarAssistantHBaseAssistantNoSqlAssistantEtcdAssistantGarnetAssistant工业与物联网：MQTTAssist
Squirrel：通用SQL、NoSQL客户端 antui1957
安装配置数据库配置驱动配置连接如果你的工作中，需要使用到多个数据库，又不想在多种客户端之间切换来切换去。那么就需要找一款支持多数据库的客户端工具了。如果你要连接多个关系型数据库，你就可以使用NavicatPremium。但是如果你有使用到NOSQL（譬如HBase、MongoDB等），还是建议使用SquirrelSQLClient。1、安装下载地址：http://squirrel-sql.sour
使用datax进行mysql的表恢复是桃萌萌鸭~ mysql 数据库
DataXDataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、SQLServer、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。FeaturesDataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上Dat
hbase:meta 表解析有数的编程笔记 HBase
hbase:meta表中存储了Hbase集群中全部表的所有的region信息，在Hbase2.x之后新增了表的状态信息。hbase:meta表的结构非常简单，在Hbase2.x之前整个表只有一个名为info的ColumnFamily。在Hbase2.x新增表状态信息后，增加了名为table的ColumnFamily。HBase保证hbase:meta表始终只有一个Region，这是为了确保meta
Hadoop等大数据处理框架的Java API 扬子鳄008 Java hadoop java 大数据
Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。此外，还有许多其他组件，如YARN（YetAnotherResourceNegotiator）、HBase、Hive等。下面详细介绍Hadoop及其相关组件的JavaAPI及其使用方法。HadoopHad
手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」 AAA建材批发王师傅数据库 sqoop 大数据 hive hdfs
一、Sqoop是什么？——数据界的「超级搬运工」兄弟们，今天咱们聊个大数据圈的「搬运小能手」——Sqoop！可能有人会问：这玩意儿跟Flume啥区别？简单来说：Flume是专门搬日志数据的「快递员」而Sqoop是搬数据库数据的「搬家公司」它的名字咋来的？SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核
【请关注】hBase要用的顺畅的思路 DoWeixin6 数据相关数据库
玩楞一下HBase，要让这玩意儿在大数据量下跑得顺，索引和优化可都是实打实的硬活。先说索引这块。HBase就认RowKey这个主索引，所有数据都按它排得明明白白。平时查数据，只要RowKey设计得好，直接就能定位到对应的Region，速度快得很。但RowKey要是拍脑袋瞎写，比如全按时间戳排序，那准得出大问题——数据全往一个Region挤，妥妥的热点，集群直接卡住。所以设计RowKey时，我一般会
【赵渝强老师】HBase的体系架构赵渝强老师 NoSQL数据库 hbase 架构数据库大数据 hadoop hdfs nosql
HBase是大表（BigTable）思想的一个具体实现。它是一个列式存储的NoSQL数据库，适合执行数据的分析和处理。简单来说，就是适合执行查询操作。从体系架构的角度看，HBase是一种主从架构，包含：HBaseHMaster、RegionServer和ZooKeeper，下图展示了这一架构。其中：HBaseHMaster负责Region的分配及数据库的创建和删除等操作。Regionserver负
大数据学习（141）-分布式数据库 viperrrrrrr 大数据学习分布式 clickhouse hdfs hbase
在分布式数据库中主要有hdfs、hbase、clickhouse三种。HDFS（HadoopDistributedFileSystem）、HBase和ClickHouse都是处理大数据的分布式系统，但它们的设计目标、架构和适用场景有所不同。一、HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生态系统的一部分，是一个高度容错的系统，适合存储大量数据。它被设计为
TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能 TiDB 社区干货传送门 tidb hbase 架构数据库大数据
作者：数据源的TiDB学习之路原文来源：https://tidb.net/blog/c687d474第一章：HBase的历史使命与技术瓶颈1.1HBase的核心价值与经典场景作为Hadoop生态的核心组件，HBase凭借LSM-Tree存储引擎和Region分片机制，在2010年代成为海量数据存储的标杆。其典型场景包括：日志流处理：支持Kafka每日TB级数据持久化，写入吞吐达百万级QPS（如某头
【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8 TTBIGDATA ambari bigtop hdp hidataplus edp 大数据 el8
如果有其他系统部署需求可以参考原文https://doc.janettr.com/install/manual/Step3—安装JDK17与JDK1.8Ambari3.0及部分Bigtop/Hadoop新组件强制要求JDK17，而HBase/Hive/Spark生态仍有组件长期依赖JDK1.8。因此推荐双版本共存方案，让集群灵活兼容各种大数据组件，满足未来升级和遗留需求。JDK17与JDK1.8可
时序数据管理的新维度：解析IoTDB与HBase的技术边界时序数据说 iotdb hbase 数据库时序数据库分布式开源
在物联网与工业大数据场景中，数据的时序特性对存储与计算提出了独特挑战。面对海量设备生成的高频时序数据，如何在有限的资源内实现高效写入、灵活查询与实时分析，成为企业技术选型的核心考量。本文将从架构设计、数据建模、性能表现及场景适配等角度，对比分析IoTDB与HBase的技术差异，探索时序数据库的演进方向。一、设计哲学的分野：专用时序与通用存储HBase作为经典的NoSQL数据库，以宽表模型和LSM-
大数据领域HBase的数据压缩技术应用 AI天才研究院 AI大模型企业级应用开发实战 AI Agent 应用开发大数据 hbase 数据库 ai
大数据领域HBase的数据压缩技术应用关键词：大数据、HBase、数据压缩技术、压缩算法、性能优化摘要：本文深入探讨了大数据领域中HBase的数据压缩技术应用。首先介绍了HBase的背景以及数据压缩技术在其中的重要性，详细阐述了常见的压缩算法原理，包括LZO、Snappy、Gzip等。通过数学模型和公式分析了不同压缩算法的性能指标，如压缩比和压缩速度。给出了在HBase中应用数据压缩技术的项目实战
大数据、数据挖掘技术收集（Vivo互联网技术） XiaoQiong.Zhang 数据挖掘大数据
Hudi在vivo湖仓一体的落地实践用户行为分析模型实践（四）——留存分析模型用户行为分析模型实践（三）——H5通用分析模型用户行为分析模型实践（二）——漏斗分析模型用户行为分析模型实践（一）——路径分析模型AB实验遇到用户不均匀怎么办？——vivo游戏中心业务实践经验分享HBaseCompaction原理与线上调优实践vivo游戏黑产反作弊实践Kafka实时数据即席查询应用与实践Hive和Spa
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key