骚戴

大数据技术之HBase

第1 章HBase 简介

1.1、HBase 定义

Apache HBase™ 是以 hdfs 为数据存储的，一种分布式、可扩展的NoSQL 数据库。

1.2、HBase 数据模型

HBase 的设计理念依据Google 的BigTable 论文，论文中对于数据模型的首句介绍。

Bigtable 是一个稀疏的、分布式的、持久的多维排序map（类型）。

之后对于映射的解释如下：

该映射由行键、列键和时间戳索引；映射中的每个值都是一个未解释（序列化后的）的字节数组。

最终HBase 关于数据模型和BigTable 的对应关系如下：

HBase 使用与Bigtable 非常相似的数据模型。用户将数据行存储在带标签的表中。数据行具有可排序的键和任意数量的列。该表存储稀疏，因此如果用户喜欢，同一表中的行可以具有疯狂变化的列。

最终理解HBase 数据模型的关键在于稀疏、分布式、多维、排序的映射。其中映射map指代非关系型数据库的key-Value 结构。

1.2.1、HBase 逻辑结构

HBase 可以用于存储多种结构的数据，以JSON 为例，存储的数据原貌为：

1.2.2、HBase 物理存储结构

物理存储结构即为数据映射关系，而在概念视图的空单元格，底层实际根本不存储。

1.2.3、数据模型

1）Name Space

命名空间，类似于关系型数据库的database 概念，每个命名空间下有多个表。HBase 两个自带的命名空间，分别是hbase 和default，hbase 中存放的是HBase 内置的表，default表是用户默认使用的命名空间。

2）Table

类似于关系型数据库的表概念。不同的是，HBase 定义表时只需要声明列族即可，不需要声明具体的列。因为数据存储时稀疏的，所有往HBase 写入数据时，字段可以动态、按需指定。因此，和关系型数据库相比，HBase 能够轻松应对字段变更的场景。

3）Row

HBase 表中的每行数据都由一个RowKey 和多个Column（列）组成，数据是按照RowKey 的字典顺序存储的，并且查询数据时只能根据RowKey 进行检索（不支持SQL），所以RowKey 的设计十分重要。

4）Column

HBase 中的每个列都由Column Family(列族)和Column Qualifier（列限定符，其实就是列名）进行限定，例如info：name，info：age。建表时，只需指明列族，而列限定符无需预先定义。

5）Time Stamp

用于标识数据的不同版本（version），每条数据写入时，系统会自动为其加上该字段，其值为写入HBase 的时间。

6）Cell

由{rowkey, column Family：column Qualifier, timestamp} 唯一确定的单元。cell 中的数据全部是字节码形式存贮。

其实就是这样一行就是一个单元

1.3、HBase 基本架构

架构角色：

1）Master

实现类为HMaster，负责监控集群中所有的RegionServer 实例。主要作用如下：

管理元数据表格hbase:meta，接收用户对表格创建修改删除的命令并执行

监控region 是否需要进行负载均衡，故障转移和region 的拆分。通过启动多个后台线程监控实现上述功能：

①LoadBalancer 负载均衡器

周期性监控region 分布在regionServer 上面是否均衡，由参数hbase.balancer.period 控制周期时间，默认5 分钟。

②CatalogJanitor 元数据管理器

定期检查和清理hbase:meta 中的数据。meta 表内容在进阶中介绍。

③MasterProcWAL master 预写日志处理器

把master 需要执行的任务记录到预写日志WAL 中，如果master 宕机，让backupMaster读取日志继续干。

2）Region Server

Region Server 实现类为HRegionServer，主要作用如下:

负责数据cell 的处理，例如写入数据put，查询数据get 等

拆分合并region 的实际执行者，由master 监控，由regionServer 执行。

3）Zookeeper

HBase 通过Zookeeper 来做master 的高可用、记录RegionServer 的部署信息、并且存储有meta表的位置信息。

HBase 对于数据的读写操作时直接访问Zookeeper 的，在2.3 版本推出Master Registry 模式，客户端可以直接访问master。使用此功能，会加大对master 的压力，减轻对Zookeeper 的压力。

4）HDFS

HDFS 为Hbase 提供最终的底层数据存储服务，同时为HBase 提供高容错的支持。

第2 章HBase 快速入门

2.1、HBase 安装部署

2.1.1、Zookeeper 正常部署

首先保证Zookeeper 集群的正常部署，并启动之。

[atguigu@hadoop102 zookeeper-3.5.7]$ bin/zkServer.sh start 
[atguigu@hadoop103 zookeeper-3.5.7]$ bin/zkServer.sh start 
[atguigu@hadoop104 zookeeper-3.5.7]$ bin/zkServer.sh start

2.1.2、Hadoop 正常部署

Hadoop 集群的正常部署并启动。

[atguigu@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh 
[atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh

2.1.3、HBase 的解压

[atguigu@hadoop102 software]$ tar -zxvf hbase-2.4.11-bin.tar.gz -C
/opt/module/
[atguigu@hadoop102 software]$ mv /opt/module/hbase-2.4.11/opt/module/hbase

配置环境变量

[atguigu@hadoop102 ~]$ sudo vim /etc/profile.d/my_env.sh

#HBASE_HOME
export HBASE_HOME=/opt/module/hbase export PATH=$PATH:$HBASE_HOME/bin

使用source 配置的环境变量生效

[atguigu@hadoop102 module]$ source /etc/profile.d/my_env.sh

2.1.4、HBase 的配置文件

hbase-env.sh 修改内容，可以添加到最后：

export HBASE_MANAGES_ZK=false

hbase-site.xml 修改内容：





    
        hbase.zookeeper.quorum //集群ip
        hadoop102,hadoop103,hadoop104
        The directory shared by RegionServers.
        
    
 







 
    
        hbase.rootdir //设置根节点
        hdfs://hadoop102:8020/hbase
        The directory shared by RegionServers.
        
    
 
    
        hbase.cluster.distributed//是否开启集群模式
        true

regionservers

hadoop102 
hadoop103 
hadoop104

解决HBase 和Hadoop 的log4j 兼容性问题，修改HBase 的jar 包，使用Hadoop 的jar 包

2.1.5、HBase 远程发送到其他集群

[atguigu@hadoop102 module]$ xsync hbase/

2.1.6、HBase 服务的启动

单点启动

[atguigu@hadoop102 hbase]$ bin/hbase-daemon.sh start master 
[atguigu@hadoop102 hbase]$ bin/hbase-daemon.sh start regionserver

群启

[atguigu@hadoop102 hbase]$ bin/start-hbase.sh

对应的停止服务

[atguigu@hadoop102 hbase]$ bin/stop-hbase.sh

2.1.7、查看HBase 页面

启动成功后，可以通过“host:port”的方式来访问 HBase 管理页面，例如：http://hadoop102:16010

2.1.8、高可用（可选）

在HBase 中HMaster 负责监控HRegionServer 的生命周期，均衡RegionServer 的负载，如果HMaster 挂掉了，那么整个HBase 集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase 支持对HMaster 的高可用配置。

关闭HBase 集群（如果没有开启则跳过此步）

[atguigu@hadoop102 hbase]$ bin/stop-hbase.sh

在conf 目录下创建backup-masters 文件

[atguigu@hadoop102 hbase]$ touch conf/backup-master

在backup-masters 文件中配置高可用HMaster 节点

[atguigu@hadoop102 hbase]$ echo hadoop103 > conf/backup-masters

[atguigu@hadoop102 hbase]$ xsync conf

重启hbase,打开页面测试查看 http://hadooo102:16010

2.2、HBase Shell 操作

2.2.1、基本操作

进入HBase 客户端命令行

[atguigu@hadoop102 hbase]$ bin/hbase shell

查看帮助命令

能够展示HBase 中所有能使用的命令，主要使用的命令有namespace 命令空间相关，DDL 创建修改表格，DML 写入读取数据。

hbase:001:0> help

2.2.2、namespace

创建命名空间

使用特定的help 语法能够查看命令如何使用。

hbase:002:0> help 'create_namespace'

创建命名空间bigdata

hbase:003:0> create_namespace 'bigdata'

查看所有的命名空间

hbase:004:0> list_namespace

2.2.3、DDL

创建表

在 bigdata 命名空间中创建表格student，两个列族。info 列族数据维护的版本数为 5 个，如果不写默认版本数为1。

hbase:005:0> create 'bigdata:student', {NAME => 'info', VERSIONS => 5}, {NAME => 'msg'}

如果创建表格只有一个列族，没有列族属性，可以简写。如果不写命名空间，使用默认的命名空间default。

hbase:009:0> create 'student1','info'

查看表

查看表有两个命令：list 和describe

list：查看所有的表名

hbase:013:0> list

describe：查看一个表的详情

hbase:014:0> describe 'student1'

修改表

表名创建时写的所有和列族相关的信息，都可以后续通过alter 修改，包括增加删除列族。

增加列族和修改信息都使用覆盖的方法

hbase:015:0> alter 'student1', {NAME => 'f1', VERSIONS => 3}

删除信息使用特殊的语法

hbase:015:0> alter 'student1', NAME => 'f1', METHOD => 'delete' 
hbase:016:0> alter 'student1', 'delete' => 'f1'

删除表

shell 中删除表格,需要先将表格状态设置为不可用。

hbase:017:0> disable 'student1' 
hbase:018:0> drop 'student1'

2.2.4、DML

写入数据

在HBase 中如果想要写入数据，只能添加结构中最底层的cell。可以手动写入时间戳指定cell 的版本，推荐不写默认使用当前的系统时间。

 hbase:019:0> put 'bigdata:student','1001','info:name','zhangsan'
 hbase:020:0> put 'bigdata:student','1001','info:name','lisi' 
hbase:021:0> put 'bigdata:student','1001','info:age','18'

如果重复写入相同rowKey，相同列的数据，会写入多个版本进行覆盖。例如上面的rowKey是1001，最后info列族的name值是lisi

取数据

读取数据的方法有两个：get 和scan。

 hbase:022:0> get 'bigdata:student','1001'
hbase:023:0> get 'bigdata:student','1001' , {COLUMN => 'info:name'}

get 最大范围是一行数据，也可以进行列的过滤，读取数据的结果为多行cell。

也可以修改读取cell 的版本数，默认读取一个。最多能够读取当前列族设置的维护版本数。

 hbase:024:0>get 'bigdata:student','1001' , {COLUMN => 'info:name', VERSIONS => 6}

scan 是扫描数据，能够读取多行数据，不建议扫描过多的数据，推荐使用startRow 和stopRow 来控制读取的数据，默认范围左闭右开。

hbase:025:0> scan 'bigdata:student',{STARTROW => '1001',STOPROW => '1002'}

实际开发中使用shell 的机会不多，所有丰富的使用方法到API 中介绍。

删除数据

删除数据的方法有两个：delete 和deleteall。

delete 表示删除一个版本的数据，即为 1 个 cell，不填写版本默认删除最新的一个版本。hbase:026:0> delete 'bigdata:student','1001','info:name'

deleteall 表示删除所有版本的数据，即为当前行当前列的多个 cell。（执行命令会标记

数据为要删除，不会直接将数据彻底删除，删除数据只在特定时期清理磁盘时进行）

hbase:027:0> deleteall 'bigdata:student','1001','info:name'

第3 章HBase API

3.1、环境准备

新建项目后在pom.xml 中添加依赖

注意：会报错javax.el 包不存在，是一个测试用的依赖，不影响使用


    
    org.apache.hbase
    hbase-server
    2.4.11
         
            
                org.glassfish
                javax.el
            
        
    
    
        org.glassfish
        javax.el
        3.0.1-b06

3.2、创建连接

根据官方API 介绍，HBase 的客户端连接由ConnectionFactory 类来创建，用户使用完成之后需要手动关闭连接。同时连接是一个重量级的，推荐一个进程使用一个连接，对HBase 的命令通过连接中的两个属性Admin 和Table 来实现。

3.2.1、单线程创建连接

package com.atguigu.hbase;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.client.AsyncConnection; 
import  org.apache.hadoop.hbase.client.Connection; 
import org.apache.hadoop.hbase.client.ConnectionFactory;
import java.io.IOException;
import java.util.concurrent.CompletableFuture;
public class HBaseConnect {
 public static void main(String[] args) throws IOException {
     // 1. 创建配置对象
     Configuration conf = new Configuration();
     // 2. 添加配置参数
    conf.set("hbase.zookeeper.quorum","hadoop102,hadoop103,hadoop104");
     // 3. 创建 hbase 的连接
     // 默认使用同步连接
     Connection connection = ConnectionFactory.createConnection(conf);
     // 可以使用异步连接
     // 主要影响后续的 DML 操作
     CompletableFuture asyncConnection = ConnectionFactory.createAsyncConnection(conf);
     // 4. 使用连接
     System.out.println(connection);
     // 5. 关闭连接
     connection.close();
     }
}

3.2.2、多线程创建连接

使用类单例模式,确保使用一个连接，可以同时用于多个线程。

 package com.atguigu;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.client.AsyncConnection;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import java.io.IOException;
import java.util.concurrent.CompletableFuture;
public class HBaseConnect {
     // 设置静态属性 hbase 连接
     public static Connection connection = null;
     static {
         // 创建 hbase 的连接
         try {
             // 使用配置文件的方法
             connection = ConnectionFactory.createConnection();
         } catch (IOException e) {
             System.out.println("连接获取失败");
             e.printStackTrace();
         }
     }
     /**
     * 连接关闭方法,用于进程关闭时调用
     * @throws IOException
     */
     public static void closeConnection() throws IOException {
         if (connection != null) {
             connection.close();
         }
     }
}

在 resources 文件夹中创建配置文件 hbase-site.xml，添加以下内容




     
         hbase.zookeeper.quorum
         hadoop102,hadoop103,hadoop104

3.3 、DDL

创建 HBaseDDL 类，添加静态方法即可作为工具类

public class HBaseDDL {
     // 添加静态属性 connection 指向单例连接
     public static Connection connection = HBaseConnect.connection;
}

3.3.1 、创建命名空间

/**
 * 创建命名空间
 * @param namespace 命名空间名称
 */
 public static void createNamespace(String namespace) throws IOException {
     // 1. 获取 admin
     // 此处的异常先不要抛出 等待方法写完 再统一进行处理
     // admin 的连接是轻量级的 不是线程安全的 不推荐池化或者缓存这个连接
     Admin admin = connection.getAdmin();
     // 2. 调用方法创建命名空间
     // 代码相对 shell 更加底层 所以 shell 能够实现的功能 代码一定能实现
     
     // 所以需要填写完整的命名空间描述
     // 2.1 创建命令空间描述建造者 => 设计师
     NamespaceDescriptor.Builder builder = NamespaceDescriptor.create(namespace);
     // 2.2 给命令空间添加需求
     builder.addConfiguration("user","atguigu");
     // 2.3 使用 builder 构造出对应的添加完参数的对象 完成创建
     // 创建命名空间出现的问题 都属于本方法自身的问题 不应该抛出
     try {
         admin.createNamespace(builder.build());
     } catch (IOException e) {
         System.out.println("命令空间已经存在");
         e.printStackTrace();
     }
     // 3. 关闭 admin
     admin.close();
 }

骚戴理解： admin.createNamespace(builder.build());的异常是同try-catch处理的，为什么不直接抛出去呢？这是因为直接抛出去的话，假如出现了异常，那么异常代码后面的代码就都不会执行了，如果是try-catch捕获处理了异常，那么异常代码后的代码都会继续正常的执行

3.3.2 、判断表格是否存在

/**
 * 判断表格是否存在
 * @param namespace 命名空间名称
 * @param tableName 表格名称
 * @return ture 表示存在
 */
 public static boolean isTableExists(String namespace,String tableName) throws IOException {
     // 1. 获取 admin
     Admin admin = connection.getAdmin();
     // 2. 使用方法判断表格是否存在
     boolean b = false;
     try {
         b = admin.tableExists(TableName.valueOf(namespace, tableName));
     } catch (IOException e) {
         e.printStackTrace();
     }
     // 3. 关闭 admin
     admin.close();
     // 3. 返回结果
     return b;
     // 后面的代码不能生效
 }

骚戴理解：这里的admin.close();要写在 return b;的前面，因为return表示方法结束了，就直接退出方法了，那写在后面的话是不会执行的！！获取TableName对象的时候不能直接通过new来获取，因为这类的构造方法是私有的，所以通过静态方法TableName.valueOf(namespace, tableName)来获取TableName对象

3.3.3 、创建表

 
/**
 * 创建表格
 * @param namespace 命名空间名称
 * @param tableName 表格名称
 * @param columnFamilies 列族名称 可以有多个
 */
 public static void createTable(String namespace , String tableName , String...columnFamilies) throws IOException {
     // 判断是否有至少一个列族
     if (columnFamilies.length == 0){
         System.out.println("创建表格至少有一个列族");
         return;
     }
     // 判断表格是否存在
     if (isTableExists(namespace,tableName)){
         System.out.println("表格已经存在");
         return;
     }
     // 1.获取 admin
     Admin admin = connection.getAdmin();
     // 2. 调用方法创建表格
     // 2.1 创建表格描述的建造者
     TableDescriptorBuilder tableDescriptorBuilder = 
     TableDescriptorBuilder.newBuilder(TableName.valueOf(namespace, tableName));
     // 2.2 添加参数
     for (String columnFamily : columnFamilies) {
     // 2.3 创建列族描述的建造者
         ColumnFamilyDescriptorBuilder columnFamilyDescriptorBuilder = ColumnFamilyDescriptorBuilder.newBuilder(Bytes.toBytes(columnFamily));
         // 2.4 对应当前的列族添加参数
         // 添加版本参数
         columnFamilyDescriptorBuilder.setMaxVersions(5);
         // 2.5 创建添加完参数的列族描述
         
        tableDescriptorBuilder.setColumnFamily(columnFamilyDescriptorBuilder.build());
     }
     // 2.6 创建对应的表格描述
     try {
         admin.createTable(tableDescriptorBuilder.build());
     } catch (IOException e) {
         e.printStackTrace();
     
     }
     // 3. 关闭 admin
     admin.close();
 }

骚戴理解： String...columnFamilies是可变参数，可以理解为其实就是一个数组，可以传入多个值

3.3.4、修改表

/**
 * 修改表格中一个列族的版本
 * @param namespace 命名空间名称
 * @param tableName 表格名称
 * @param columnFamily 列族名称
 * @param version 版本
 */
 public static void modifyTable(String namespace ,String tableName,String columnFamily,int version) throws IOException {
     // 判断表格是否存在
     if (!isTableExists(namespace,tableName)){
         System.out.println("表格不存在无法修改");
         return;
     }
     // 1. 获取 admin
     Admin admin = connection.getAdmin();
     try {
         // 2. 调用方法修改表格
         // 2.0 获取之前的表格描述
         TableDescriptor descriptor = 
        admin.getDescriptor(TableName.valueOf(namespace, tableName));
         // 2.1 创建一个表格描述建造者
         // 如果使用填写 tableName 的方法 相当于创建了一个新的表格描述建造
        者 没有之前的信息
         // 如果想要修改之前的信息 必须调用方法填写一个旧的表格描述
         TableDescriptorBuilder tableDescriptorBuilder = 
        TableDescriptorBuilder.newBuilder(descriptor);
         // 2.2 对应建造者进行表格数据的修改
         ColumnFamilyDescriptor columnFamily1 = 
        descriptor.getColumnFamily(Bytes.toBytes(columnFamily));
         // 创建列族描述建造者
         // 需要填写旧的列族描述
         ColumnFamilyDescriptorBuilder columnFamilyDescriptorBuilder = 
        ColumnFamilyDescriptorBuilder.newBuilder(columnFamily1);
         // 修改对应的版本
         columnFamilyDescriptorBuilder.setMaxVersions(version);
         
         // 此处修改的时候 如果填写的新创建 那么别的参数会初始化
         
        tableDescriptorBuilder.modifyColumnFamily(columnFamilyDescriptorB
        uilder.build());
        admin.modifyTable(tableDescriptorBuilder.build());
     } catch (IOException e) {
         e.printStackTrace();
     }
     // 3. 关闭 admin
     admin.close();
 }

骚戴理解：如果想要修改之前的信息必须调用方法填写一个旧的表格描述，也就是不能像上面创建表描述一样直接新建一个TableDescriptorBuilder表格描述对象，而是通过下面的语句来获取旧的表描述

  TableDescriptor descriptor =admin.getDescriptor(TableName.valueOf(namespace,tableName));

同样，修改列值也要用原来旧的表描述的列族，通过下面的语句来获取旧的列族描述

 ColumnFamilyDescriptor columnFamily1 = descriptor.getColumnFamily(Bytes.toBytes(columnFamily));

3.3.5 、删除表

/**
 * 删除表格
 * @param namespace 命名空间名称
 * @param tableName 表格名称
 * @return true 表示删除成功
 */
 public static boolean deleteTable(String namespace ,String tableName) throws IOException {
     // 1. 判断表格是否存在
     if (!isTableExists(namespace,tableName)){
         System.out.println("表格不存在 无法删除");
         return false;
     }
     // 2. 获取 admin
     Admin admin = connection.getAdmin();
     // 3. 调用相关的方法删除表格
     try {
         // HBase 删除表格之前 一定要先标记表格为不可以
         TableName tableName1 = TableName.valueOf(namespace, tableName);
         admin.disableTable(tableName1);
         admin.deleteTable(tableName1);
     } catch (IOException e) {
         e.printStackTrace();
     }
     // 4. 关闭 admin
     admin.close();
     return true;
 }

骚戴理解： HBase 删除表格之前一定要先标记表格为不可以，通过admin.disableTable(tableName1);语句来设置表格为不可用

3.4 、DML

创建类 HBaseDML

public class HBaseDML {
 // 添加静态属性 connection 指向单例连接
 public static Connection connection = HBaseConnect.connection;
}

3.4.1、插入数据

/**
 * 插入数据
 * @param namespace 命名空间名称
 * @param tableName 表格名称
 * @param rowKey 主键
 * @param columnFamily 列族名称
 * @param columnName 列名
 * @param value 值
 */
 public static void putCell(String namespace,String tableName,String rowKey, String columnFamily,String columnName,String value) throws IOException {
     // 1. 获取 table
     Table table = connection.getTable(TableName.valueOf(namespace, tableName));
     // 2. 调用相关方法插入数据
     // 2.1 创建 put 对象
     Put put = new Put(Bytes.toBytes(rowKey));
     // 2.2. 给 put 对象添加数据
     
    put.addColumn(Bytes.toBytes(columnFamily),Bytes.toBytes(columnName),Bytes.toBytes(value));
     // 2.3 将对象写入对应的方法
     try {
         table.put(put);
     } catch (IOException e) {
         e.printStackTrace();
     }
     // 3. 关闭 table
     table.close();
 }

3.4.2 、读取数据（读取对应的一行中的某一列）

/**
 * 读取数据 读取对应的一行中的某一列
 *
 * @param namespace 命名空间名称
 * @param tableName 表格名称
 * @param rowKey 主键
 * @param columnFamily 列族名称
 * @param columnName 列名
 */
 
 public static void getCells(String namespace, String tableName, String rowKey, String columnFamily, String columnName) throws IOException {
     // 1. 获取 table
     Table table = connection.getTable(TableName.valueOf(namespace, tableName));
     // 2. 创建 get 对象
     Get get = new Get(Bytes.toBytes(rowKey));
     // 如果直接调用 get 方法读取数据 此时读一整行数据
     // 如果想读取某一列的数据 需要添加对应的参数
     get.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(columnName));
     // 设置读取数据的版本
     get.readAllVersions();
     try {
     // 读取数据 得到 result 对象
     Result result = table.get(get);
     // 处理数据
     Cell[] cells = result.rawCells();
     // 测试方法: 直接把读取的数据打印到控制台
     // 如果是实际开发 需要再额外写方法 对应处理数据
     for (Cell cell : cells) {
         // cell 存储数据比较底层
         String value = new String(CellUtil.cloneValue(cell));
         System.out.println(value);
         }
     } catch (IOException e) {
         e.printStackTrace();
     }
     // 关闭 table
     table.close();
 }

骚戴理解：String value = new String(CellUtil.cloneValue(cell));这句是为了防止乱码，通过这句代码把底层的cell转成字符串来方便打印出来

3.4.3 、扫描数据

/**
 * 扫描数据
 *
 * @param namespace 命名空间
 * @param tableName 表格名称
 * @param startRow 开始的 row 包含的
 * @param stopRow 结束的 row 不包含
 */
 public static void scanRows(String namespace, String tableName, String startRow, String stopRow) throws IOException {
 
     // 1. 获取 table
     Table table = connection.getTable(TableName.valueOf(namespace, tableName));
     // 2. 创建 scan 对象
     Scan scan = new Scan();
     // 如果此时直接调用 会直接扫描整张表
     // 添加参数 来控制扫描的数据
     // 默认包含
     scan.withStartRow(Bytes.toBytes(startRow));
     // 默认不包含
     scan.withStopRow(Bytes.toBytes(stopRow));
     try {
     // 读取多行数据 获得 scanner
     ResultScanner scanner = table.getScanner(scan);
     // result 来记录一行数据 cell 数组
     // ResultScanner 来记录多行数据 result 的数组
     for (Result result : scanner) {
        Cell[] cells = result.rawCells();
     for (Cell cell : cells) {
         System.out.print (new 
            String(CellUtil.cloneRow(cell)) + "-" + new 
            String(CellUtil.cloneFamily(cell)) + "-" + new 
            String(CellUtil.cloneQualifier(cell)) + "-" + new 
            String(CellUtil.cloneValue(cell)) + "\t");
             }
         System.out.println();
         }
     } catch (IOException e) {
         e.printStackTrace();
     }
     // 3. 关闭 table
     table.close();
 }

骚戴理解：result 来记录一行数据 cell 数组， ResultScanner 来记录多行数据 result 的数组这两句话说的非常精准，这里要理解什么是cell才能理解那个双重for循环

Cell由{rowkey, column Family：column Qualifier, timestamp} 唯一确定的单元。cell 中的数据全部是字节码形式存贮。下面就是一个cell，对照下面的图片和代码比较一下

   // result 来记录一行数据 cell 数组
     // ResultScanner 来记录多行数据 result 的数组
     for (Result result : scanner) {
        Cell[] cells = result.rawCells();
     for (Cell cell : cells) {
         System.out.print (new 
            String(CellUtil.cloneRow(cell)) + "-" + new 
            String(CellUtil.cloneFamily(cell)) + "-" + new 
            String(CellUtil.cloneQualifier(cell)) + "-" + new 
            String(CellUtil.cloneValue(cell)) + "\t");
             }
         System.out.println();
         }

对比就可以知道这个Cell[]数组其实里面就是每一行的每一个列值，而不是所有的行！

看下面的打印结果就能知道了

3.4.4 、带过滤扫描

 /**
 * 带过滤的扫描
 *
 * @param namespace 命名空间
 * @param tableName 表格名称
 * @param startRow 开始 row
 * @param stopRow 结束 row
 * @param columnFamily 列族名称
 * @param columnName 列名
 * @param value value 值
 * @throws IOException
 */
 public static void filterScan(String namespace, String tableName, String startRow, String stopRow, String columnFamily, String columnName, String value) throws IOException {
     // 1. 获取 table
     Table table = connection.getTable(TableName.valueOf(namespace, tableName));
     // 2. 创建 scan 对象
     Scan scan = new Scan();
     // 如果此时直接调用 会直接扫描整张表
     // 添加参数 来控制扫描的数据
     // 默认包含
     scan.withStartRow(Bytes.toBytes(startRow));
     // 默认不包含
     scan.withStopRow(Bytes.toBytes(stopRow));
     // 可以添加多个过滤
     FilterList filterList = new FilterList();
     // 创建过滤器
     // (1) 结果只保留当前列的数据
     ColumnValueFilter columnValueFilter = new ColumnValueFilter(
     // 列族名称
     Bytes.toBytes(columnFamily),
     // 列名
     Bytes.toBytes(columnName),
     // 比较关系
     CompareOperator.EQUAL,
     // 值
     Bytes.toBytes(value)
     );
     // (2) 结果保留整行数据
     // 结果同时会保留没有当前列的数据
     SingleColumnValueFilter singleColumnValueFilter = new 
    SingleColumnValueFilter(
     // 列族名称
     Bytes.toBytes(columnFamily),
     // 列名
     Bytes.toBytes(columnName),
     // 比较关系
     CompareOperator.EQUAL,
     // 值
     Bytes.toBytes(value)
     );
     // 本身可以添加多个过滤器
     filterList.addFilter(singleColumnValueFilter);
     // 添加过滤
     scan.setFilter(filterList);
     try {
         // 读取多行数据 获得 scanner
         ResultScanner scanner = table.getScanner(scan);
         // result 来记录一行数据 cell 数组
         // ResultScanner 来记录多行数据 result 的数组
         for (Result result : scanner) {
             Cell[] cells = result.rawCells();
             for (Cell cell : cells) {
             System.out.print(new 
            String(CellUtil.cloneRow(cell)) + "-" + new 
            String(CellUtil.cloneFamily(cell)) + "-" + new 
            String(CellUtil.cloneQualifier(cell)) + "-" + new 
            String(CellUtil.cloneValue(cell)) + "\t");
             }
         System.out.println();
         }
     } catch (IOException e) {
         e.printStackTrace();
     }
     // 3. 关闭 table
     table.close();
 }

骚戴理解：ColumnValueFilter和SingleColumnValueFilter的区别就是ColumnValueFilter只会查询到指定的列的cell，而SingleColumnValueFilter会把符合条件的所有列的cell查出来

使用ColumnValueFilter查询name列为张三结果如下所示

使用SingleColumnValueFilter查询name列为张三结果如下所示

这样的就很好理解了，但是这里有个1001是为什么呢？这是因为SingleColumnValueFilter除了查询符合条件的所有列，还会把没有这个列的那一行给显示出来，也就是rowKey为1001的这一行里面没有列名为name的，所以才会显示出来，由于只有一个age列，所以就只显示了一个1001-info-age-18

3.4.5、删除数据

/**
* 删除 column 数据
*
* @param nameSpace
* @param tableName
* @param rowKey
* @param family
* @param column
* @throws IOException
*/
public static void deleteColumn(String nameSpace, String tableName, 
String rowKey, String family, String column) throws IOException {
     // 1.获取 table
     Table table = connection.getTable(TableName.valueOf(nameSpace, tableName));
     // 2.创建 Delete 对象
     Delete delete = new Delete(Bytes.toBytes(rowKey));
     // 3.添加删除信息
     // 3.1 删除单个版本
    delete.addColumn(Bytes.toBytes(family),Bytes.toBytes(column));
     // 3.2 删除所有版本
     delete.addColumns(Bytes.toBytes(family), Bytes.toBytes(column));
     // 3.3 删除列族
    // delete.addFamily(Bytes.toBytes(family));
     // 3.删除数据
     table.delete(delete);
     // 5.关闭资源
     table.close();
    }
public static void main(String[] args) throws IOException {
    // putCell("bigdata","student","1002","info","name","lisi");
    // String cell = getCell("bigdata", "student", "1001", "info", 
    "name");
    // System.out.println(cell);
    // List strings = scanRows("bigdata", "student", 
    "1001", "2000");
    // for (String string : strings) {
    // System.out.println(string);
     deleteColumn("bigdata", "student", "1001", "info", "name");
}

骚戴理解：删除有三种类型如下所示

// 3.1 删除单个版本
delete.addColumn(Bytes.toBytes(family),Bytes.toBytes(column));
// 3.2 删除所有版本
delete.addColumns(Bytes.toBytes(family), Bytes.toBytes(column));
// 3.3 删除列族
 delete.addFamily(Bytes.toBytes(family));

第4 章HBase 进阶

4.1、Master 架构

Meta 表格介绍：（警告：不要去改这个表）

全称hbase：meta，只是在list 命令中被过滤掉了，本质上和HBase 的其他表格一样。

RowKey：

([table],[region start key],[region id]) 即表名、region 起始位置、regionID。

列：

regioninfo 为region 信息，存储一个HRegionInfo 对象。

server 当前region 所处的RegionServer 信息，包含端口号。

serverstartcode 当前region 被分到RegionServer 的起始时间。

如果一个表处于切分的过程中，即 region 切分，还会多出两列 info：splitA 和info：splitB，存储值也是HRegionInfo 对象，拆分结束后，删除这两列。

注意：在客户端对元数据进行操作的时候才会连接master，如果对数据进行读写，直接连接zookeeper 读取目录/hbase/meta-region-server 节点信息，会记录meta 表格的位置。直接读取即可，不需要访问master，这样可以减轻master 的压力，相当于master 专注meta 表的写操作，客户端可直接读取meta 表。

在HBase 的2.3 版本更新了一种新模式：Master Registry。客户端可以访问master 来读取meta 表信息。加大了master 的压力，减轻了zookeeper 的压力。

骚戴理解：预写日志管理器的作用就是在master做操作之前先记录在预写日志管理器里面，防止master做了一半突然挂掉了导致操作丢失，这样即使master挂掉了也可以去让备胎上位然后读取预写日志管理器继续操作

4.2、RegionServer 架构

MemStory

写缓存，由于HFile 中的数据要求是有序的，所以数据是先存储在MemStory 中，排好序后，等到达刷写时机才会刷写到HFile，每次刷写都会形成一个新的HFile，写入到对应的文件夹store 中。每个region里的每个store对应一个MemStory

由于数据要经MemStory 排序后才能刷写到HFile，但把数据保存在内存中会有很高的概率导致数据丢失，为了解决这个问题，数据会先写在一个叫做Write-Ahead logfile 的文件中，然后再写入MemStory 中。所以在系统出现故障的时候，数据可以通过这个日志文件重建。

BlockCache

读缓存，每次查询出的数据会缓存在BlockCache 中，方便下次查询。

4.3、写流程

写流程：

写流程顺序正如API 编写顺序，首先创建HBase 的重量级连接

首先访问zookeeper，获取hbase:meta 表位于哪个Region Server；

访问对应的Region Server，获取hbase:meta 表，将其缓存到连接中，作为连接属性MetaCache，由于Meta 表格具有一定的数据量，导致了创建连接比较慢；

之后使用创建的连接获取Table，这是一个轻量级的连接，只有在第一次创建的时候会检查表格是否存在访问RegionServer，之后在获取Table 时不会访问RegionServer；

调用Table 的put 方法写入数据，此时还需要解析RowKey，对照缓存的MetaCache，查看具体写入的位置有哪个RegionServer；

将数据顺序写入（追加）到WAL，此处写入是直接落盘的，并设置专门的线程控

制WAL 预写日志的滚动（类似Flume）；

根据写入命令的RowKey 和ColumnFamily 查看具体写入到哪个MemStory，并且在MemStory 中排序；

向客户端发送ack；

等达到MemStore 的刷写时机后，将数据刷写到对应的story 中。

回炉重造：https://www.bilibili.com/video/BV1PZ4y1i7gZ?p=36&vd_source=eb68502f30a10ee7e5e6328b4db887ac

4.4、MemStore Flush

MemStore 刷写由多个线程控制，条件互相独立：

主要的刷写规则是控制刷写文件的大小，在每一个刷写线程中都会进行监控

（1）当某个 memstroe 的大小达到了 hbase.hregion.memstore.flush.size（默认值 128M），

其所在 region 的所有 memstore 都会刷写。

当 memstore 的大小达到了

hbase.hregion.memstore.flush.size（默认值 128M）* hbase.hregion.memstore.block.multiplier（默认值 4）

时，会刷写同时阻止继续往该 memstore 写数据（由于线程监控是周期性的，所有有可能面

对数据洪峰，尽管可能性比较小）

（2）由 HRegionServer 中的属性 MemStoreFlusher 内部线程 FlushHandler 控制。标准为

LOWER_MARK（低水位线）和 HIGH_MARK（高水位线），意义在于避免写缓存使用过多的内

存造成 OOM

当 region server 中 memstore 的总大小达到低水位线

java_heapsize*hbase.regionserver.global.memstore.size（默认值 0.4）*hbase.regionserver.global.memstore.size.lower.limit（默认值 0.95）

region 会按照其所有 memstore 的大小顺序（由大到小）依次进行刷写。直到 region server

中所有 memstore 的总大小减小到上述值以下。

当 region server 中 memstore 的总大小达到高水位线

java_heapsize*hbase.regionserver.global.memstore.size（默认值 0.4）

时，会同时阻止继续往所有的 memstore 写数据。

（3）为了避免数据过长时间处于内存之中，到达自动刷写的时间，也会触发 memstore flush。由 HRegionServer 的属性 PeriodicMemStoreFlusher 控制进行，由于重要性比较低，5min

才会执行一次。

自动刷新的时间间隔由该属性进行配置 hbase.regionserver.optionalcacheflushinterval（默认

1 小时）。

（4）当 WAL 文件的数量超过 hbase.regionserver.max.logs，region 会按照时间顺序依次

进行刷写，直到 WAL 文件数量减小到 hbase.regionserver.max.log 以下（该属性名已经废弃，

现无需手动设置，最大值为 32）。

回炉重造：https://www.bilibili.com/video/BV1PZ4y1i7gZ/?p=37&vd_source=eb68502f30a10ee7e5e6328b4db887ac

4.5、读流程

4.5.1 、HFile 结构

在了解读流程之前，需要先知道读取的数据是什么样子的。

HFile 是存储在 HDFS 上面每一个 store 文件夹下实际存储数据的文件。里面存储多种内容。包括数据本身（keyValue 键值对）、元数据记录、文件信息、数据索引、元数据索引和一个固定长度的尾部信息（记录文件的修改情况）。

键值对按照块大小（默认 64K）保存在文件中，数据索引按照块创建，块越多，索引越大。每一个 HFile 还会维护一个布隆过滤器（就像是一个很大的地图，文件中每有一种 key，就在对应的位置标记，读取时可以大致判断要 get 的 key 是否存在 HFile 中）。

KeyValue 内容如下:
rowlength -----------→ key 的长度
row -----------------→ key 的值
columnfamilylength --→ 列族长度
columnfamily --------→ 列族
columnqualifier -----→ 列名
timestamp -----------→ 时间戳（默认系统时间）
keytype -------------→ Put

由于 HFile 存储经过序列化，所以无法直接查看。可以通过 HBase 提供的命令来查看存

储在 HDFS 上面的 HFile 元数据内容。

[atguigu@hadoop102 hbase]$ bin/hbase hfile -m -f /hbase/data/命名
空间/表名/regionID/列族/HFile 名

4.5.2 、读流程

创建连接同写流程。

（1）创建 Table 对象发送 get 请求。

（2）优先访问 Block Cache，查找是否之前读取过，并且可以读取 HFile 的索引信息和

布隆过滤器。

（3）不管读缓存中是否已经有数据了（可能已经过期了），都需要再次读取写缓存和

store 中的文件。

（4）最终将所有读取到的数据合并版本，按照 get 的要求返回即可。

回炉重造：https://www.bilibili.com/video/BV1PZ4y1i7gZ?p=42&vd_source=eb68502f30a10ee7e5e6328b4db887ac

4.5.3 、合并读取数据优化

每次读取数据都需要读取三个位置，最后进行版本的合并。效率会非常低，所有系统需要对此优化。

（1）HFile 带有索引文件，读取对应 RowKey 数据会比较快。

（2）Block Cache 会缓存之前读取的内容和元数据信息，如果 HFile 没有发生变化（记录在 HFile 尾信息中），则不需要再次读取。

（3）使用布隆过滤器能够快速过滤当前 HFile 不存在需要读取的 RowKey，从而避免读取文件。（布隆过滤器使用 HASH 算法，不是绝对准确的，出错会造成多扫描一个文件，对读取数据结果没有影响）

4.6、StoreFile Compaction

由于memstore 每次刷写都会生成一个新的HFile，文件过多读取不方便，所以会进行文件的合并，清理掉过期和删除的数据，会进行StoreFile Compaction。

Compaction 分为两种，分别是Minor Compaction 和Major Compaction。Minor Compaction 会将临近的若干个较小的HFile 合并成一个较大的HFile，并清理掉部分过期和删除的数据，有系统使用一组参数自动控制，Major Compaction 会将一个Store 下的所有的HFile 合并成一个大HFile，并且会清理掉所有过期和删除的数据，由参数hbase.hregion.majorcompaction 控制，默认7 天。

Minor Compaction 控制机制：

参与到小合并的文件需要通过参数计算得到，有效的参数有 5 个

（1）hbase.hstore.compaction.ratio（默认 1.2F）合并文件选择算法中使用的比率。

（2）hbase.hstore.compaction.min（默认 3）为 Minor Compaction 的最少文件个数。

（3）hbase.hstore.compaction.max（默认 10）为 Minor Compaction 最大文件个数。

（4）hbase.hstore.compaction.min.size（默认 128M）为单个 Hfile 文件大小最小值，小于这

个数会被合并。

（5）hbase.hstore.compaction.max.size（默认 Long.MAX_VALUE）为单个 Hfile 文件大小最大

值，高于这个数不会被合并。

小合并机制为拉取整个 store 中的所有文件，做成一个集合。之后按照从旧到新的顺序遍历。

判断条件为：

① 过小合并，过大不合并

② 文件大小/ hbase.hstore.compaction.ratio < (剩余文件大小和) 则参与压缩。所有把比值设

置过大，如 10 会最终合并为 1 个特别大的文件，相反设置为 0.4，会最终产生 4 个 storeFile。

不建议修改默认值

③ 满足压缩条件的文件个数达不到个数要求（3 <= count <= 10）则不压缩。

4.7 、Region Split

Region 切分分为两种，创建表格时候的预分区即自定义分区，同时系统默认还会启动一

个切分规则，避免单个 Region 中的数据量太大。

4.7.1 、预分区（自定义分区）

每一个 region 维护着 startRow 与 endRowKey，如果加入的数据符合某个 region 维护的

rowKey 范围，则该数据交给这个 region 维护。那么依照这个原则，我们可以将数据所要投

放的分区提前大致的规划好，以提高 HBase 性能。

1）手动设定预分区

create 'staff1','info', SPLITS => ['1000','2000','3000','4000']

2）生成 16 进制序列预分区

create 'staff2','info',{NUMREGIONS => 15, SPLITALGO => 'HexStringSplit'}

3）按照文件中设置的规则预分区

（1）创建 splits.txt 文件内容如下：

aaaa
bbbb
cccc
dddd

（2）然后执行：

create 'staff3', 'info',SPLITS_FILE => 'splits.txt'

4）使用 JavaAPI 创建预分区

package com.atguigu.hbase;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;
import java.io.IOException;
public class HBaseConnect {
 public static void main(String[] args) throws IOException {
     // 1.获取配置类
     Configuration conf = HBaseConfiguration.create();
     // 2.给配置类添加配置
     
    conf.set("hbase.zookeeper.quorum","hadoop102,hadoop103,hadoop104" );
     // 3.获取连接
     Connection connection = ConnectionFactory.createConnection(conf);
     // 3.获取 admin
     Admin admin = connection.getAdmin();
     // 5.获取 descriptor 的 builder
     TableDescriptorBuilder builder = 
    TableDescriptorBuilder.newBuilder(TableName.valueOf("bigdata", 
    "staff4"));
     // 6. 添加列族
     
    builder.setColumnFamily(ColumnFamilyDescriptorBuilder.newBuilder(Bytes.toBytes("info")).build());
     // 7.创建对应的切分
     byte[][] splits = new byte[3][];
     splits[0] = Bytes.toBytes("aaa");
     splits[1] = Bytes.toBytes("bbb");
     splits[2] = Bytes.toBytes("ccc");
     // 8.创建表
     admin.createTable(builder.build(),splits);
     // 9.关闭资源
     admin.close();
     connection.close();
     }
}

回炉重造：https://www.bilibili.com/video/BV1PZ4y1i7gZ?p=46&vd_source=eb68502f30a10ee7e5e6328b4db887ac

4.7.2、系统拆分

Region 的拆分是由 HRegionServer 完成的，在操作之前需要通过 ZK 汇报 master，修改对应的 Meta 表信息添加两列 info：splitA 和 info：splitB 信息。之后需要操作 HDFS 上面对应的文件，按照拆分后的 Region 范围进行标记区分，实际操作为创建文件引用，不会挪动数据。刚完成拆分的时候，两个 Region 都由原先的 RegionServer 管理。之后汇报给 Master，由Master将修改后的信息写入到Meta表中。等待下一次触发负载均衡机制，才会修改Region的管理服务者，而数据要等到下一次压缩时，才会实际进行移动。

骚戴理解：”数据要等到下一次压缩时“里的压缩是指的Hfile大合并

不管是否使用预分区，系统都会默认启动一套 Region 拆分规则。不同版本的拆分规则有差别。系统拆分策略的父类为 RegionSplitPolicy。

0.94 版本之前 => ConstantSizeRegionSplitPolicy

（ 1 ）当 1 个 region 中的某个 Store 下所有 StoreFile 的总大小超过

hbase.hregion.max.filesize （10G），该 Region 就会进行拆分。

0.94 版本之后，2.0 版本之前 => IncreasingToUpperBoundRegionSplitPolicy

（ 2 ）当 1 个 region 中的某个 Store 下所有 StoreFile 的总大小超过

Min(initialSize*R^3 ,hbase.hregion.max.filesize")，该 Region 就会进行拆分。其中 initialSize 的

默认值为 2*hbase.hregion.memstore.flush.size，R 为当前 Region Server 中属于该 Table 的Region 个数（0.94 版本之后）。

具体的切分策略为：

第一次 split：1^3 * 256 = 256MB

第二次 split：2^3 * 256 = 2048MB

第三次 split：3^3 * 256 = 6912MB

第四次 split：4^3 * 256 = 16384MB > 10GB，因此取较小的值 10GB

后面每次 split 的 size 都是 10GB 了。

2.0 版本之后 => SteppingSplitPolicy

（3）Hbase 2.0 引入了新的 split 策略：如果当前 RegionServer 上该表只有一个 Region，

按照 2 * hbase.hregion.memstore.flush.size 分裂，否则按照 hbase.hregion.max.filesize 分裂。

这叫大道至简，学海抽丝。

回炉重造：https://www.bilibili.com/video/BV1PZ4y1i7gZ/?p=47&spm_id_from=pageDriver&vd_source=eb68502f30a10ee7e5e6328b4db887ac

第5 章HBase 优化

5.1 、RowKey 设计

一条数据的唯一标识就是 rowkey，那么这条数据存储于哪个分区，取决于 rowkey 处于哪个一个预分区的区间内，设计 rowkey的主要目的，就是让数据均匀的分布于所有的 region中，在一定程度上防止数据倾斜。接下来我们就谈一谈 rowkey 常用的设计方案

1）生成随机数、hash、散列值

2）时间戳反转

3）字符串拼接

需求：使用 hbase 存储下列数据，要求能够通过 hbase 的 API 读取数据完成两个统计需

求。

（1）统计张三在 2021 年 12 月份消费的总金额

（2）统计所有人在 2021 年 12 月份消费的总金额

5.1.1 、实现需求 1

为了能够统计张三在 2021 年 12 月份消费的总金额，我们需要用 scan 命令能够得到张

三在这个月消费的所有记录，之后在进行累加即可。Scan 需要填写 startRow 和 stopRow：

scan : startRow -> ^A^Azhangsan2021-12 
 endRow -> ^A^Azhangsan2021-12.

注意点：

（1）避免扫描数据混乱，解决字段长度不一致的问题，可以使用相同阿斯卡码值的符

号进行填充，框架底层填充使用的是阿斯卡码值为 1 的^A。

（2）最后的日期结尾处需要使用阿斯卡码略大于’-’的值

最终得到 rowKey 的设计为：

//注意 rowkey 相同的数据会视为相同数据覆盖掉之前的版本

rowKey: userdate(yyyy-MM-dd HH:mm:SS)

5.1.2 、实现需求 2

问题提出：按照需要 1 的 rowKey 设计，会发现对于需求 2，完全没有办法写 rowKey 的

扫描范围。此处能够看出 hbase 设计 rowKey 使用的特点为：

适用性强泛用性差能够完美实现一个需求但是不能同时完美实现多个需要。

如果想要同时完成两个需求，需要对 rowKey 出现字段的顺序进行调整。

调整的原则为：可枚举的放在前面。其中时间是可以枚举的，用户名称无法枚举，所以

必须把时间放在前面。

最终满足 2 个需求的设计
可以穷举的写在前面即可
rowKey 设计格式 => date(yyyy-MM)^A^Auserdate(-dd hh:mm:ss ms)
（1）统计张三在 2021 年 12 月份消费的总金额
scan: startRow => 2021-12^A^Azhangsan
stopRow => 2021-12^A^Azhangsan.
（2）统计所有人在 2021 年 12 月份消费的总金额
scan: startRow => 2021-12
stopRow => 2021-12.

5.1.3 、添加预分区优化

预分区的分区号同样需要遵守 rowKey 的 scan 原则。所有必须添加在 rowKey 的最前面，

前缀为最简单的数字。同时使用 hash 算法将用户名和月份拼接决定分区号。（单独使用用

户名会造成单一用户所有数据存储在一个分区）

添加预分区优化
startKey stopKey
001
001 
002
002 
003
...
119 
120
分区号=> hash(user+date(MM)) % 120
分区号填充 如果得到 1 => 001
rowKey 设计格式 => 分区号 date(yyyy-MM)^A^Auserdate(-dd hh:mm:ss ms)

缺点：实现需求 2 的时候，由于每个分区都有 12 月份的数据，需要扫描 120 个分区。

解决方法：提前将分区号和月份进行对应。

提前将月份和分区号对应一下
000 到 009 分区 存储的都是 1 月份数据
010 到 019 分区 存储的都是 2 月份数据
...
110 到 119 分区 存储的都是 12 月份数据
是 9 月份的数据
分区号=> hash(user+date(MM)) % 10 + 80
分区号填充 如果得到 85 => 085
得到 12 月份所有人的数据
扫描 10 次
scan: startRow => 1102021-12
stopRow => 1102021-12.
...
startRow => 1122021-12
stopRow => 1122021-12.
..
startRow => 1192021-12
stopRow => 1192021-12.

5.2 、参数优化

1）Zookeeper 会话超时时间

hbase-site.xml

属性：zookeeper.session.timeout

解释：默认值为 90000 毫秒（90s）。当某个 RegionServer 挂掉，90s 之后 Master 才能察觉到。可适当减小此值，尽可能快地检测 regionserver 故障，可调整至 20-30s。

看你能有都能忍耐超时，同时可以调整重试时间和重试次数

hbase.client.pause（默认值 100ms）

hbase.client.retries.number（默认 15 次）

2）设置 RPC 监听数量

hbase-site.xml

属性：hbase.regionserver.handler.count

解释：默认值为 30，用于指定 RPC 监听的数量，可以根据客户端的请求数进行调整，读写

请求较多时，增加此值。

3）手动控制 Major Compaction

hbase-site.xml

属性：hbase.hregion.majorcompaction

解释：默认值：604800000 秒（7 天）， Major Compaction 的周期，若关闭自动 Major

Compaction，可将其设为 0。如果关闭一定记得自己手动合并，因为大合并非常有意义

4）优化 HStore 文件大小

hbase-site.xml

属性：hbase.hregion.max.filesize

解释：默认值 10737418240（10GB），如果需要运行 HBase 的 MR 任务，可以减小此值，

因为一个 region 对应一个 map 任务，如果单个 region 过大，会导致 map 任务执行时间

过长。该值的意思就是，如果 HFile 的大小达到这个数值，则这个 region 会被切分为两

个 Hfile。

5）优化 HBase 客户端缓存

hbase-site.xml

属性：hbase.client.write.buffer

解释：默认值 2097152bytes（2M）用于指定 HBase 客户端缓存，增大该值可以减少 RPC

调用次数，但是会消耗更多内存，反之则反之。一般我们需要设定一定的缓存大小，以达到

减少 RPC 次数的目的。

6）指定 scan.next 扫描 HBase 所获取的行数

hbase-site.xml

属性：hbase.client.scanner.caching

解释：用于指定 scan.next 方法获取的默认行数，值越大，消耗内存越大。

7）BlockCache 占用 RegionServer 堆内存的比例

hbase-site.xml

属性：hfile.block.cache.size

解释：默认 0.4，读请求比较多的情况下，可适当调大

8）MemStore 占用 RegionServer 堆内存的比例

hbase-site.xml

属性：hbase.regionserver.global.memstore.size

解释：默认 0.4，写请求较多的情况下，可适当调大

Lars Hofhansl（拉斯·霍夫汉斯）大神推荐 Region 设置 20G，刷写大小设置 128M，其

它默认。

5.3 、JVM 调优

JVM 调优的思路有两部分：一是内存设置，二是垃圾回收器设置。

垃圾回收的修改是使用并发垃圾回收，默认 PO+PS 是并行垃圾回收，会有大量的暂停。理由是 HBsae 大量使用内存用于存储数据，容易遭遇数据洪峰造成 OOM，同时写缓存的数据是不能垃圾回收的，主要回收的就是读缓存，而读缓存垃圾回收不影响性能，所以最终设置的效果可以总结为：防患于未然，早洗早轻松。

1）设置使用 CMS 收集器：

-XX:+UseConcMarkSweepGC

2）保持新生代尽量小，同时尽早开启 GC，例如：

//在内存占用到 70%的时候开启 GC
-XX:CMSInitiatingOccupancyFraction=70
//指定使用 70%，不让 JVM 动态调整
-XX:+UseCMSInitiatingOccupancyOnly
//新生代内存设置为 512m
-Xmn512m
//并行执行新生代垃圾回收
-XX:+UseParNewGC
// 设 置 scanner 扫 描 结 果 占 用 内 存 大 小 ， 在 hbase-site.xml 中，设置
hbase.client.scanner.max.result.size(默认值为 2M)为 eden 空间的 1/8
（大概在 64M）
// 设置多个与 max.result.size * handler.count 相乘的结果小于 Survivor 
Space(新生代经过垃圾回收之后存活的对象)

5.4 、HBase 使用经验法则

官方给出了权威的使用法则：

（1）Region 大小控制 10-50G

（2）cell 大小不超过 10M（性能对应小于 100K 的值有优化），如果使用 mob（Medium

sized Objects 一种特殊用法）则不超过 50M。

（3）1 张表有 1 到 3 个列族，不要设计太多。最好就 1 个，如果使用多个尽量保证不

会同时读取多个列族。

（4）1 到 2 个列族的表格，设计 50-100 个 Region。

（5）列族名称要尽量短，不要去模仿 RDBMS（关系型数据库）具有准确的名称和描述。

（6）如果 RowKey 设计时间在最前面，会导致有大量的旧数据存储在不活跃的 Region

中，使用的时候，仅仅会操作少数的活动 Region，此时建议增加更多的 Region 个数。

（7）如果只有一个列族用于写入数据，分配内存资源的时候可以做出调整，即写缓存

不会占用太多的内存。

第 6 章整合 Phoenix

6.1 、Phoenix 简介

6.1.1 、Phoenix 定义

Phoenix 是 HBase 的开源 SQL 皮肤。可以使用标准 JDBC API 代替 HBase 客户端 API来创建表，插入数据和查询 HBase 数据。

6.1.2、为什么使用 Phoenix

官方给的解释为：在 Client 和 HBase 之间放一个 Phoenix 中间层不会减慢速度，因为用户编写的数据处理代码和 Phoenix 编写的没有区别（更不用说你写的垃圾的多），不仅如此Phoenix 对于用户输入的 SQL 同样会有大量的优化手段（就像 hive 自带 sql 优化器一样）。之后使用执行计划查看效果Phoenix 在 5.0 版本默认提供有两种客户端使用（瘦客户端和胖客户端），在 5.1.2 版本安装包中删除了瘦客户端，本文也不再使用瘦客户端。而胖客户端和用户自己写 HBase 的API 代码读取数据之后进行数据处理是完全一样的。

6.2、 Phoenix 快速入门

6.2.1、安装

1）官网地址

Overview | Apache Phoenix

2）Phoenix 部署

（1）上传并解压 tar 包

[atguigu@hadoop102 software]$ tar -zxvf phoenix-hbase-2.4-5.1.2-bin.tar.gz -C /opt/module/
[atguigu@hadoop102 module]$ mv phoenix-hbase-2.4-5.1.2-bin/ phoenix

（2）复制 server 包并拷贝到各个节点的 hbase/lib

（3）配置环境变量

#phoenix
export PHOENIX_HOME=/opt/module/phoenix
export PHOENIX_CLASSPATH=$PHOENIX_HOME
export PATH=$PATH:$PHOENIX_HOME/bin

（4）重启 HBase

[atguigu@hadoop102 ~]$ stop-hbase.sh
[atguigu@hadoop102 ~]$ start-hbase.sh

（5）连接 Phoenix

[atguigu@hadoop101 phoenix]$ /opt/module/phoenix/bin/sqlline.py
hadoop102,hadoop103,hadoop104:2181

（6）错误解决

出现下面错误的原因是之前使用过 phoenix，建议删除之前的记录

解决方法：在/home/atguigu 目录下删除.sqlline 文件夹

[atguigu@hadoop102 ~]$ rm -rf .sqlline/

6.2.2、Phoenix Shell 操作

6.2.2.1 table

关于 Phoenix 的语法建议使用时直接查看官网：

Grammar | Apache Phoenix

1）显示所有表

!table 或 !tables

2）创建表

直接指定单个列作为 RowKey

CREATE TABLE IF NOT EXISTS student(
id VARCHAR primary key,
name VARCHAR,
age BIGINT,
addr VARCHAR);

在 phoenix 中，表名等会自动转换为大写，若要小写，使用双引号，如"us_population"。

骚戴理解：phoenix只是一个皮肤，实际上还是底层还是hbase，只是说可以通过操作phoenix来写sql操作hbase，所以这里必须要指定RowKey

指定多个列的联合作为 RowKey

CREATE TABLE IF NOT EXISTS student1 (
id VARCHAR NOT NULL,
name VARCHAR NOT NULL,
age BIGINT,
addr VARCHAR
CONSTRAINT my_pk PRIMARY KEY (id, name));

注：Phoenix 中建表，会在 HBase 中创建一张对应的表。为了减少数据对磁盘空间的占用，Phoenix 默认会对 HBase 中的列名做编码处理。具体规则可参考官网链接：Storage Formats | Apache Phoenix，若不想对列名编码，可在建表语句末尾加上 COLUMN_ENCODED_BYTES = 0;

3）插入数据

upsert into student values('1001','zhangsan', 10, 'beijing');

4）查询记录

select * from student;

select * from student where id='1001';

5）删除记录

delete from student where id='1001';

6）删除表

drop table student;

7）退出命令行

!quit

6.2.2.2 表的映射

1）表的关系

默认情况下，HBase 中已存在的表，通过 Phoenix 是不可见的。如果要在 Phoenix 中操作 HBase 中已存在的表，可以在 Phoenix 中进行表的映射。映射方式有两种：视图映射和表映射。

2）命令行中创建表 test

HBase 中 test 的表结构如下，两个列族 info1、info2。

（1）启动 HBase Shell

[atguigu@hadoop102 ~]$ /opt/module/hbase/bin/hbase shell

（2）创建 HBase 表 test

hbase(main):001:0> create 'test','info1','info2'

3）视图映射

Phoenix 创建的视图是只读的，所以只能用来做查询，无法通过视图对数据进行修改等操作。在 phoenix 中创建关联 test 表的视图

0: jdbc:phoenix:hadoop101,hadoop102,hadoop103> 
create view "test"(
id varchar primary key,
"info1"."name" varchar, 
"info2"."address" varchar);

删除视图

0: jdbc:phoenix:hadoop101,hadoop102,hadoop103> drop view "test";

4）表映射

在 Pheonix 创建表去映射 HBase 中已经存在的表，是可以修改删除 HBase 中已经存在的数据的。而且删除 Phoenix 中的表，那么 HBase 中被映射的表也会被删除。

注：进行表映射时，不能使用列名编码，需将 column_encoded_bytes 设为 0。

0: jdbc:phoenix:hadoop101,hadoop102,hadoop103> 
create table "test"(
id varchar primary key,
"info1"."name" varchar, 
"info2"."address" varchar) 
column_encoded_bytes=0;

6.2.2.3 数字类型说明

HBase 中的数字，底层存储为补码，而 Phoenix 中的数字，底层存储为在补码的基础上，将符号位反转。故当在 Phoenix 中建表去映射 HBase 中已存在的表，当 HBase 中有数字类型的字段时，会出现解析错误的现象。

Hbase 演示：

create 'test_number','info'
put 'test_number','1001','info:number',Bytes.toBytes(1000)
scan 'test_number',{COLUMNS => 'info:number:toLong'}

phoenix 演示：

create view "test_number"(id varchar primary key,"info"."number" bigint);
select * from "test_number";

解决上述问题的方案有以下两种：

（1）Phoenix 种提供了 unsigned_int，unsigned_long 等无符号类型，其对数字的编码解

码方式和 HBase 是相同的，如果无需考虑负数，那在 Phoenix 中建表时采用无符号类型是最

合适的选择。

phoenix 演示：

drop view "test_number";
create view "test_number"(
id varchar primary key,
"info"."number" unsigned_long);
select * from "test_number";

（2）如需考虑负数的情况，则可通过 Phoenix 自定义函数，将数字类型的最高位，即符号位反转即可，自定义函数可参考如下链接：User-defined functions(UDFs) | Apache Phoenix。

6.2.3 、Phoenix JDBC 操作

此处演示一个标准的 JDBC 连接操作，实际开发中会直接使用别的框架内嵌的 Phoenix 连接。

1）胖客户端

（1）maven 依赖


     
         org.apache.phoenix
         phoenix-client-hbase-2.4
         5.1.2

（2）编写代码

package com.atguigu.phoenix;
import java.sql.*;
import java.util.Properties;
public class PhoenixClient {
 public static void main(String[] args) throws SQLException {
         // 标准的 JDBC 代码
         // 1.添加链接
         String url = 
        "jdbc:phoenix:hadoop102,hadoop103,hadoop104:2181";
         // 2. 创建配置
         // 没有需要添加的必要配置 因为 Phoenix 没有账号密码
         Properties properties = new Properties();
         // 3. 获取连接
         Connection connection = DriverManager.getConnection(url, 
        properties);
         // 5.编译 SQL 语句
         PreparedStatement preparedStatement = 
        connection.prepareStatement("select * from student");
         // 6.执行语句
         ResultSet resultSet = preparedStatement.executeQuery();
         // 7.输出结果
         while (resultSet.next()){
         System.out.println(resultSet.getString(1) + ":" + 
        resultSet.getString(2) + ":" + resultSet.getString(3));
         }
         // 8.关闭资源
         connection.close();
         // 由于 Phoenix 框架内部需要获取一个 HBase 连接,所以会延迟关闭
         // 不影响后续的代码执行
         System.out.println("hello");
     }
}

6.3、 Phoenix 二级索引

6.3.1 、二级索引配置文件

如果要用二级索引的话就需要添加如下配置到 HBase 的 HRegionserver 节点的 hbase-site.xml。



     hbase.regionserver.wal.codec
    org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec

6.3.2 、全局索引（global index）

Global Index 是默认的索引格式，创建全局索引时，会在 HBase 中建立一张新表。也就是说索引数据和数据表是存放在不同的表中的，因此全局索引适用于多读少写的业务场景。

写数据的时候会消耗大量开销，因为索引表也要更新，而索引表是分布在不同的数据节点上的，跨节点的数据传输带来了较大的性能消耗。

在读数据的时候 Phoenix 会选择索引表来降低查询消耗的时间。

创建单个字段的全局索引。

CREATE INDEX my_index ON my_table (my_col);
#例如
0: jdbc:phoenix:hadoop102,hadoop103,hadoop104>
create
index
my_index on student1(age);

#删除索引
DROP INDEX my_index ON my_table
0: jdbc:phoenix:hadoop102,hadoop103,hadoop104> drop index my_index on student1;

查看二级索引是否有效，可以使用 explain查看执行计划，有二级索引之后会变成范围扫描

0: jdbc:phoenix:hadoop102,hadoop103,hadoop104> explain select id,name from student1 where age = 10;
+----------------------------------------------------------------
---------+----------------+---------------+---------+
| PLAN |
EST_BYTES_READ | EST_ROWS_READ | EST_INF |
+----------------------------------------------------------------
---------+----------------+---------------+---------+
| CLIENT 1-CHUNK PARALLEL 1-WAY ROUND ROBIN RANGE SCAN OVER MY_INDEX
[10] | null | null | null |
| SERVER FILTER BY FIRST KEY ONLY
| null | null | null |
+----------------------------------------------------------------
---------+----------------+---------------+---------+
2 rows selected (0.044 seconds)

如果想查询的字段不是索引字段的话索引表不会被使用，也就是说不会带来查询速度的提升。

0: jdbc:phoenix:hadoop102,hadoop103,hadoop104> explain select id,name,addr from student1 where age = 10;
+----------------------------------------------------------------
---+----------------+---------------+-------------+
| PLAN |
EST_BYTES_READ | EST_ROWS_READ | EST_INFO_TS |
+----------------------------------------------------------------
---+----------------+---------------+-------------+
| CLIENT 1-CHUNK PARALLEL 1-WAY ROUND ROBIN FULL SCAN OVER STUDENT1
| null | null | null |
| SERVER FILTER BY AGE = 10 |
null | null | null |
+----------------------------------------------------------------
---+----------------+---------------+-------------+
2 rows selected (0.024 seconds)

若想解决上述问题，可采用如下方案：

（1）使用包含索引

（2）使用本地索引

6.3.3、包含索引（covered index）

创建携带其他字段的全局索引（本质还是全局索引）。

语法：CREATE INDEX my_index ON my_table (v1) INCLUDE (v2);

骚戴理解：其中v1是索引列，v2是包含索引列，看下面的例子就懂了！

先删除之前的索引：
0: jdbc:phoenix:hadoop102,hadoop103,hadoop104> drop index my_index on student1;
#创建包含索引
0: jdbc:phoenix:hadoop102,hadoop103,hadoop104>
create
index
my_index on student1(age) include (addr);

之后使用执行计划查看效果

0: jdbc:phoenix:hadoop102,hadoop103,hadoop104> explain select id,name,addr from student1 where age = 10;
+----------------------------------------------------------------
---------+----------------+---------------+---------+
| PLAN |
EST_BYTES_READ | EST_ROWS_READ | EST_INF |
+----------------------------------------------------------------
---------+----------------+---------------+---------+
| CLIENT 1-CHUNK PARALLEL 1-WAY ROUND ROBIN RANGE SCAN OVER MY_INDEX
[10] | null | null | null |
+----------------------------------------------------------------
---------+----------------+---------------+---------+
1 row selected (0.112 seconds)

6.3.4 、本地索引（local index）

Local Index 适用于写操作频繁的场景。

索引数据和数据表的数据是存放在同一张表中（且是同一个 Region），避免了在写操作的时候往不同服务器的索引表中写索引带来的额外开销。

CREATE LOCAL INDEX my_index ON my_table (my_column);//my_column 可以是多个。

本地索引会将所有的信息存在一个影子列族中，虽然读取的时候也是范围扫描，但是没有全局索引快，优点在于不用写多个表了。

#删除之前的索引
0: jdbc:phoenix:hadoop102,hadoop103,hadoop104> drop index my_index on student1;
#创建本地索引
0: jdbc:phoenix:hadoop102,hadoop103,hadoop104> CREATE LOCAL INDEX my_index ON student1 (age,addr);

#使用执行计划

0: jdbc:phoenix:hadoop102,hadoop103,hadoop104> explain select id,name,addr from student1 where age = 10;
+----------------------------------------------------------------
-----------+----------------+---------------+-------+
| PLAN |
EST_BYTES_READ | EST_ROWS_READ | EST_I |
+----------------------------------------------------------------
-----------+----------------+---------------+-------+
| CLIENT 1-CHUNK PARALLEL 1-WAY ROUND ROBIN RANGE SCAN OVER STUDENT1
[2,10] | null | null | null |
| SERVER MERGE [0.ADDR]
| null | null | null |
| SERVER FILTER BY FIRST KEY ONLY
| null | null | null |
+----------------------------------------------------------------
-----------+----------------+---------------+-------+
3 rows selected (0.025 seconds)

第 7 章与 Hive 的集成

7.1 、使用场景

如果大量的数据已经存放在 HBase 上面，需要对已经存在的数据进行数据分析处理，那

么 Phoenix 并不适合做特别复杂的 SQL 处理，此时可以使用 hive 映射 HBase 的表格，之后

写 HQL 进行分析处理。

7.2 、HBase 与 Hive 集成使用

在 hive-site.xml 中添加 zookeeper 的属性，如下：


     hive.zookeeper.quorum
     hadoop102,hadoop103,hadoop104
    
    
     hive.zookeeper.client.port
     2181

1）案例一

目标：建立 Hive 表，关联 HBase 表，插入数据到 Hive 表的同时能够影响 HBase 表。

分步实现：

（1）在 Hive 中创建表同时关联 HBase

CREATE TABLE hive_hbase_emp_table(
 empno int,
 ename string,
 job string,
 mgr int,
 hiredate string,
 sal double,
 comm double,
 deptno int
)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = 
":key,info:ename,info:job,info:mgr,info:hiredate,info:sal,info:co
mm,info:deptno")
TBLPROPERTIES ("hbase.table.name" = "hbase_emp_table");

骚戴理解：STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'表示以HBase存储数据

("hbase.columns.mapping" = ":key,info:ename,info:job,info:mgr,info:hiredate,info:sal,info:co
mm,info:deptno")

和

empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int

是一一对应的！

提示：完成之后，可以分别进入 Hive 和 HBase 查看，都生成了对应的表。

（2）在 Hive 中创建临时中间表，用于 load 文件中的数据

提示：不能将数据直接 load 进 Hive 所关联 HBase 的那张表中。

CREATE TABLE emp(
 empno int,
 ename string,
 job string,
 mgr int,
 hiredate string,
 sal double,
 comm double,
 deptno int
)
row format delimited fields terminated by '\t';

（3）向 Hive 中间表中 load 数据

hive> load data local inpath '/opt/software/emp.txt' into table emp;

（4）通过 insert 命令将中间表中的数据导入到 Hive 关联 Hbase 的那张表中

hive> insert into table hive_hbase_emp_table select * from emp;

（5）查看 Hive 以及关联的 HBase 表中是否已经成功的同步插入了数据

hive> select * from hive_hbase_emp_table;

Hbase> scan 'hbase_emp_table'

2）案例二

目标：在 HBase 中已经存储了某一张表 hbase_emp_table，然后在 Hive 中创建一个外部

表来关联 HBase 中的 hbase_emp_table 这张表，使之可以借助 Hive 来分析 HBase 这张表中

的数据。

注：该案例 2 紧跟案例 1 的脚步，所以完成此案例前，请先完成案例 1。

分步实现：

（1）在 Hive 中创建外部表

CREATE EXTERNAL TABLE relevance_hbase_emp(
 empno int,
 ename string,
 job string,
 mgr int,
 hiredate string,
 sal double,
 comm double,
 deptno int
)
STORED BY 
'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = 
":key,info:ename,info:job,info:mgr,info:hiredate,info:sal,info:co
mm,info:deptno") 
TBLPROPERTIES ("hbase.table.name" = "hbase_emp_table");

（2）关联后就可以使用 Hive 函数进行一些分析操作了

hive (default)> 
select deptno,avg(sal) monery from 
relevance_hbase_emp group by deptno ;

你可能感兴趣的:(大数据,hadoop,大数据,hbase)

Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
【Linux】Hadoop-3.4.1的伪分布式集群的初步配置孤独打铁匠Julian Linux linux hadoop ubuntu
配置步骤一、检查环境JDK#目前还是JDK8最适合Hadoopjava-versionecho$JAVA_HOMEHadoophadoopversionecho$HADOOP_HOME二、配置SSH免密登录Hadoop需要通过SSH管理节点（即使在伪分布式模式下）sudoaptinstallopenssh-server#安装SSH服务（如未安装）cd~/.ssh/ssh-keygen-trsa#生
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
HBase安装 lianhedaxue Hadoop hbase
HBase安装本章将介绍如何安装HBase和初始配置。需要用Java和Hadoop来处理HBase，所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前，需要建立和使用LinuxSSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先，建议从Unix创建一个单独的Hadoop用户，文件系统隔离Hadoop文件系统。按照下面给出创建
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
Spring Boot 与 Couchbase 整合教程嘵奇提升自己 spring boot 后端 java
精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取SpringBoot与Couchbase整合教程环境要求JDK8+SpringBoot2.7.xCouchbaseServer7.xMaven/Gradle步骤1：创建SpringBoot项目使用start.spring.io创建项目，添加以下依赖：SpringWeb（可选，用于RESTAPI）Spri
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

大数据技术之HBase

第1 章HBase 简介

1.1、HBase 定义

1.2、HBase 数据模型

1.2.1、HBase 逻辑结构

1.2.2、HBase 物理存储结构

1.2.3、数据模型

1.3、HBase 基本架构

第2 章HBase 快速入门

2.1、HBase 安装部署

2.1.1、Zookeeper 正常部署

2.1.2、Hadoop 正常部署

2.1.3、HBase 的解压

2.1.4、HBase 的配置文件

2.1.5、HBase 远程发送到其他集群

2.1.6、HBase 服务的启动

2.1.7、查看HBase 页面

2.1.8、高可用（可选）

2.2、HBase Shell 操作

2.2.1、基本操作

2.2.2、namespace

2.2.3、DDL

2.2.4、DML

第3 章HBase API

3.1、环境准备

3.2、创建连接

3.2.1、单线程创建连接

3.2.2、多线程创建连接

3.3 、DDL

3.3.1 、创建命名空间

3.3.2 、判断表格是否存在

3.3.3 、创建表

3.3.4、 修改表

3.3.5 、删除表

3.4 、DML

3.4.1、 插入数据

3.4.2 、读取数据（读取对应的一行中的某一列）

3.4.3 、扫描数据

3.4.4 、带过滤扫描

3.4.5、 删除数据

第4 章HBase 进阶

4.1、Master 架构

4.2、RegionServer 架构

4.3、写流程

4.4、MemStore Flush

4.5、 读流程

4.5.1 、HFile 结构

4.5.2 、读流程

4.5.3 、合并读取数据优化

4.6、StoreFile Compaction

4.7 、Region Split

4.7.1 、预分区（自定义分区）

4.7.2、系统拆分

第5 章HBase 优化

5.1 、RowKey 设计

5.1.1 、实现需求 1

5.1.2 、实现需求 2

5.1.3 、添加预分区优化

5.2 、参数优化

5.3 、JVM 调优

5.4 、HBase 使用经验法则

第 6 章 整合 Phoenix

6.1 、Phoenix 简介

6.1.1 、Phoenix 定义

6.1.2、 为什么使用 Phoenix

6.2、 Phoenix 快速入门

6.2.1、 安装

6.2.2、Phoenix Shell 操作

6.2.3 、Phoenix JDBC 操作

6.3、 Phoenix 二级索引

6.3.1 、二级索引配置文件

6.3.2 、全局索引（global index）

6.3.3、 包含索引（covered index）

6.3.4 、本地索引（local index）

第 7 章 与 Hive 的集成

7.1 、使用场景

7.2 、HBase 与 Hive 集成使用

你可能感兴趣的:(大数据,hadoop,大数据,hbase)

3.3.4、修改表

3.4.1、插入数据

3.4.5、删除数据

4.5、读流程

第 6 章整合 Phoenix

6.1.2、为什么使用 Phoenix

6.2.1、安装

6.3.3、包含索引（covered index）

第 7 章与 Hive 的集成