吹老师个人app编程教学

HBase详解

1、学HBase的意义是什么

我本想用MySQL来与HBase作比较，但发现他们两者毫无可比性，因为两者运用领域不同，各自有各自的优点，就好比爬山穿登山鞋，潜水穿脚蹼一般。

一门技术的兴起，一个优秀的开源项目的存在肯定是有它所存在的意义，正如大数据一样，正是因为随着时间的发展，随着技术的发展导致我们每天的数据增量达到一个非常庞大的状态，同时在数据之中又能挖掘到很多有用的信息。所以才有了大数据技术的飞速发展。

而学习HBase不仅仅是因为他属于Hadoop生态圈，而且他很特殊；

我想各位在接触HBase之前可能就没有看到过哪个数据库是面向列存储的，我也不知该如何简述他的与众不同，总之我们就沉浸下来，由笔者带各位从下文的学习中深刻体会一下吧。

1.1、引入

HBase是什么
HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统；
HBase是Apache的Hadoop项目的子项目；
HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库;
HBase另一个不同的是HBase基于列的而不是基于行的模式;
HBase利用Hadoop的HDFS作为其文件存储系统，利用zookeeper作为其分布式协调服务主要用来存储半结构化或非结构化的松散数据。

1.2、HBase能做什么

海量数据存储：
上百亿行 x 上百万列
并没有列的限制
当表非常大的时候才能发挥这个作用，最多百万行的话，没有必要放入hbase中

1.3、准实时查询：

百亿行 x 百万列，在百毫秒以内
Hbase在实际场景中的应用
1). 交通方面：
船舶GPS信息，全长江的船舶GPS信息，每天有1千万左右的数据存储
2). 金融方面：
消费信息，贷款信息，信用卡还款信息等
3). 电商：
淘宝的交易信息等，物流信息，浏览信息等
4). 移动：
通话信息等，都是基于HBase的存储

1.4、HBase特点是什么

容量大：
传统关系型数据库，单表不会超过五百万，超过要做分表分库
Hbase单表可以有百亿行、百万列，数据矩阵横向和纵向两个维度所支持的数据量级都非常具有弹性

面向列：
面向列的存储和权限控制，并支持独立检索，可以动态增加列，即，可单独对列进行各方面的操作
列式存储，其数据在表中是按照某列存储的，这样在查询只需要少数几个字段的时候，能大大减少读取的数量

多版本：
Hbase的每一个列的数据存储有多个Version，比如住址列，可能有多个变更，所以该列可以有多个version

稀疏性：
为空的列并不占用存储空间，表可以设计的非常稀疏。
不必像关系型数据库那样需要预先知道所有列名然后再进行null填充

拓展性：
底层依赖HDFS，当磁盘空间不足的时候，只需要动态增加datanode节点服务(机器)就可以了

高可靠性：
WAL机制，保证数据写入的时候不会因为集群异常而导致写入数据丢失
Replication机制，保证了在集群出现严重的问题时候，数据不会发生丢失或者损坏
Hbase底层使用HDFS，本身也有备份。

高性能：
底层的LSM数据结构和RowKey有序排列等架构上的独特设计，使得Hbase写入性能非常高。
Region切分、主键索引、缓存机制使得Hbase在海量数据下具备一定的随机读取性能，该性能针对Rowkey的查询能够到达毫秒级别
LSM树，树形结构，最末端的子节点是以内存的方式进行存储的，内存中的小树会flush到磁盘中（当子节点达到一定阈值以后，会放到磁盘中，且存入的过程会进行实时merge成一个主节点，然后磁盘中的树定期会做merge操作，合并成一棵大树，以优化读性能。）

总结：
面向列，容量大，写入比mysql快但是读取没有，超过五百万条数据的话建议读写用Hbase。

2、HBase数据模型

在HBase中有些术语需要提前了解一下：

2.1、NameSpace

命名空间类似于关系型数据库中数据库的概念，它其实是表的逻辑分组。
命名空间是可以管理维护的，可以创建，删除或者更改命名空间
HBase有两个特殊定义的命名空间：
default:没有明确指定命名空间的表将自动划分到此命名空间
hbase:系统命名空间，用于包含HBase内部表

2.2、Table

HBase采用表来组织数据；

他不同于MySQL的是他的表不是单纯由行（记录）列（字段）组成
他的表由RowKey、Colum Family、Colum Qualifier、Timestamp、cell共同构成

2.3、RowKey

RowKey是用来检索记录的主键，是一行数据的唯一标识
RowKey可以是任意字符串最大长度是64KB，以字节数组保存
存储时，数据按照Row Key的字典序排序，设计RowKey时要充分考虑排序存储这个特性，将经常读取的行存放到一起

2.4、 Colum Family

列族在物理上包含了许多列与列的值，每个列族都有一些存储的属性可配置
将功能相近的列存放到同一个列族中，相同列族中的列会存放在同一个store中
列族一般需要在创建表的时候声明，一般一个表中的列族不超过3个
列隶属于列族，列族隶属于表

2.5、Colum Qualifier

列族的限定词，理解为列的唯一标识。但是列标识是可以改变的，因此每一行会有不同的列标识
使用的时候必须列族：列
列可以根据需求动态添加或删除，同一个表中的不同行的数据列都可以不同

2.6、Timestamp

通过rowkey、columFamily、columqualifier确定一个存储单元通过时间戳来索引
每个cell都保存着同一份数据的多个版本
每个cell中，不同版本的数据按照时间顺序倒叙排序，即最新的数据排到最前面。
为了避免数据存在过多版本中造成管理负担，HBase提供了两种数据版本回收方式
一是存储数据的最后n个版本
二是保存最近一段时间的版本

2.7、cell

Cell是由row columFamily、columQualifier、version组成
cell中数据没有类型，全部是字节码存储的
因为HDFS上的数据是字节数组

3、HBase架构模型

HBase架构有三个主要组成部分：
客户端（Client）
主服务器（HMaster）
区域服务器（HRegionServer）

3.1、Client

主要功能
客户端负责发送请求到数据库，客户端连接的方式有很多种
hbase shell
类JDBC
client维护着一些cache来加快对hbase的访问，比如regione的位置信息。
发送请求的类型
DDL：数据库定义语言(表的建立，删除，添加删除列族,控制版本)
DML：数据库操作语言(增删改)
DQL：数据库查询语言(查询–全表扫描–基于主键–基于过滤器)

3.2、HMaster

定义
HBase集群的主节点，HMaster也可以实现高可用(active–standby)
通过Zookeeper来维护主副节点的切换
作用
上下线的监督，创建表的时候为Region server分配region并负责Region server的负载均衡
负责接受客户端对table的结构DDL(创建，删除，修改)操作，DML和DQL由其他节点承担
因为HMaster没有联邦机制，业务承载能力有限，而且数据库的表结构很少会变化，大部分都是CRUD操作
表的元数据信息–>Zookeeper上面
表的数据–>HRegionServer上
负责监督HRegionServer的健康状况
当HRegionServer下线的时候，HMaster会将当前HRegionServer上的Region转移到其他的HRegionServer

3.3、 HRegionServer

定义
HBase的具体工作节点（RegionServer属于HBase具体数据的管理者），一般一台主机就是一个RegionServer
作用
一个RegionServer中包含很多HMaster分配给RegionServer的Region，同时RegionServer处理这些Region的IO请求（DML和DQL请求）
当客户端发送DML和DQL操作的时候，HRegionServer负责和客户端建立连接
HRegionServer会实时和HMaster保持心跳，汇报当前节点的信息
当接收到Hmaster命令创建表的时候，分配一个Region对应一张表
Region server负责切分在运行过程中变得过大的region
其他：
当意外关闭的时候，当前节点的Region会被其他HRegionServer管理
图解 RegionServer、Region、store和storefile之间的关系

3.4、HRegion

定义理解
HRegion是HBase中分布式存储和负载均衡最小单元（HBase的表数据具体存放的位置）
最小单元就表示不同的HRegion可以分布在不同的 HRegion server上。
一个Region只属于一张表，但是一张表可以有多个Region
HBase自动把表水平划分成多个区域(region)，每个region会保存一个表里面某段连续的数据
Region的平分
最开始声明表的时候就会为这个表默认创建一个Region，一个Region只属于一张表，随着时间的推移Region会越来越大，当达到阈值10G时，然后Region会1分为2（逻辑上平分，尽量保证数据的完整性）
切分后的其中一个Region转移到其他的HRegionServer上管理
预分区
当table中的行不断增多，就会有越来越多的region。这样一张完整的表被保存在多个Regionserver 上。
为了防止前期数据的处理都集中在一个HRegionServer，我们可以根据自己的业务进行预分区

3.5、Store

定义理解
一个表中的一个列族对应一个Store
一个Store里面分为1个MenStore和0或多个StoreFile
HRegion、Store和columns family之间的关系
HRegion是表获取和分布的基本元素，由一个或者多个Store组成，每个store保存一个columns family。
HFile
HFile是Hbase在HDFS中存储数据的格式，它包含多层的索引，这样在Hbase检索数据的时候就不用完全的加载整个文件。
StoreFile存储在HDFS上之后就称为HFile

3.6、StoreFile

定义理解
StoreFile是文件的硬盘存储，直接存到HDFS上，存到HDFS之后被称为HFile
StoreFile是数据存储文件的映射，对应HDFS上的HFile
表、Region、Store、StoreFile之间的关系
一个table对应多个Region，一个Region对应多个Store，一个Store对应一个MEMStore和多个StoreFile，多个StoreFile内部有序，但是外部无序
集群会设置一些阈值，当达到阈值的时候开始将小文件合并成大文件

3.7、MemStore

定义理解
MemStore是基于内存存放数据，每个Store大概分配128M的空间
HFile中并没有任何Block，数据首先存在于MemStore中。Flush发生时，创建HFile Writer
数据最开始优先写入到MemStore，当flush的时候才会被写入到磁盘中（之前在内存中）
默认情况下，一个MemStore的大小为128M，当客户端向数据库插入数据的时候，当内存使用到128M的时候，直接申请128M的内存空间，数据直接写到新内存中，原来已经满的数据写出到HDFS上，称为HFile
MemStore与 Data Block之间的关系
当操作数据的时候，第一个空的Data Block初始化，初始化后的Data Block中为Header部分预留了空间，Header部分用来存放一个Data Block的元数据信息。
位于MemStore中的KeyValues被一个个append到位于内存中的第一个Data Block中
如果配置了Data Block Encoding，则会在Append KeyValue的时候进行同步编码，编码后的数据不再是单纯的KeyValue模式。
Data Block Encoding是HBase为了降低KeyValue结构性膨胀而提供的内部编码机制

3.8、 Hlog

定义理解
HBase的日志机制，WAL(Write After Log)做任何操作之前先写日志，一个HRegionServer只有一个Log文档
日志也会存储到HDFS上，在任何操作之前先记录日志到HDFS，以后MenStore丢失数据或者RegionServer异常都能够通过日志进行恢复一个RegionServer对应的一个Hlog
HLog文件就是一个普通的Hadoop Sequence File,SequeceFile的Key是HLogKey对象
作用
当memStore达到阈值的时候开始写出到文件之后，会在日志中对应的位置标识一个检查点
WAL记录所有的Hbase数据改变，如果一个RegionServer在MemStore进行FLush的时候挂掉了，WAL可以保证数据的改变被应用到。如果写WAL失败了，那么修改数据的完整操作就是失败的。
图解Hlog在整个HBase中的结构

3.9、Zookeeper

定义理解
HBase的协调服务
作用
主备选举与切换
记录当前集群的状态信息，当主备切换的时候，集群的状态可以被新主节点直接读取到
记录当前集群的数据存放信息
存储HBase的元数据信息

4、HBase集群搭建

其实我们搭建了这么多集群总结起来无外乎三步：
解压安装包
配置文件
启动测试
注：在搭建HBase之前，请完成jdk、zookeeper、Hadoop等基础配置，详情可见我之前的文章

Hadoop-HDFS详解与HA，完全分布式集群搭建(细到令人发指的教程)
大数据学前准备–zookeeper详解与集群搭建（保姆级教程）
搭建准备
安装包下载：Index of /hbase https://downloads.apache.org/hbase/
本文示例版本：https://downloads.apache.org/hbase/2.4.14/ Index of /hbase/2.4.14

或者通过wget命令下载
wget https://downloads.apache.org/hbase/1.7.2/hbase-1.7.2-bin.tar.gz # 红色是版本信息，依情景或公司要求自行选择

这里笔者为方便演示，直接上传已经下载好的安装包：hbase-2.4.14-bin.tar.gz
接下来以hbase-2.4.14-bin.tar.gz为例讲解hbase集群模式。

上传安装包并解压
上传后在安装包的目录执行：tar -zxvf hbase-2.4.14-bin.tar.gz -C /opt

5、集群搭建

5.1、节点规划

5.2、配置文件

配置hbase环境变量
终端输入：vim /etc/profile
末行加入：

export HBASE_HOME=/opt/hbase-2.4.14
export PATH=$PATH:$HBASE_HOME/bin

重新加载配置文件：source /etc/profile

创建logs目录存放日志文件
[root@node001 ~]# mkdir -p /opt/hbase-2.4.14/logs

hbase-env.sh
终端输入：vim /opt/hbase-2.4.14/conf/hbase-env.sh

末行加入：

export HBASE_LOG_DIR=${HBASE_HOME}/logs
export JAVA_HOME=/usr/java/jdk1.8.0_231-amd64
export HADOOP_HOME=/opt/hadoop-3.1.2
export HBASE_HOME=/opt/hbase-2.4.14
export HBASE_MANAGES_ZK=false #不启动hbase内置的zookeeper集群，因为我们已经搭建了

hbase-site.xml
终端输入：vim /opt/hbase-2.4.14/conf/hbase-site.xml

将configuration中内容修改为：

<configuration>
  <property>
          <name>hbase.rootdir</name>
          <value>hdfs://bdp/hbase</value>
  </property>
 
    
  <!--配置WEB UI界面-->
  <property>
	      <name>hbase.master.info.port</name>
	      <value>60010</value>
  </property>
 
  <!--超时时间-->
  <property>
          <name>zookeeper.session.timeout</name>
          <value>120000</value>
  </property>
 
 
  <!--zookeeper集群配置,如果是集群，则添加其他主机地址-->
<property>
          <name>hbase.zookeeper.quorum</name>
          <value>node001:2181,node002:2181,node003:2181</value>
  </property>
 
  <!--hbase数据存放目录，tmp并不是临时文件目录-->
  <property>
          <name>hbase.tmp.dir</name>
          <value>/var/bdp/hbase</value>
  </property>
 
  <!--集群或者单机模式,false是单机模式，true是分布式-->
  <property>
          <name>hbase.cluster.distributed</name>
          <value>true</value>
  </property>
 
  <!--hbase在zookeeper上数据的根目录znode节点-->
  <property>
          <name>hbase.znode.parent</name>
          <value>/hbase</value>
  </property>
 
  <!--使用本地文件系统设置为false，使用hdfs设置为true-->
  <property>
	      <name>hbase.unsafe.stream.capability.enforce</name>
	      <value>false</value>
  </property>
 
</configuration>

regionservers
终端输入：vim /opt/hbase-2.4.14/conf/regionservers
去掉localhost加入：
node001
node002
node003

backup-masters（原本没有这个文件）
终端输入:vim /opt/hbase-2.4.14/conf/backup-masters
node002 # 将node002作为备用节点standby

拷贝Hadoop中core-site.xml文件到hbase中
终端输入：scp /opt/hadoop-3.1.2/etc/hadoop/core-site.xml /opt/hbase-2.4.14/conf/

拷贝Hadoop中hdfs-site.xml文件到hbase中
终端输入：scp /opt/hadoop-3.1.2/etc/hadoop/hdfs-site.xml /opt/hbase-2.4.14/conf/

5.3、分发配置文件

拷贝hbase文件
发送hbase到node002节点
终端输入：scp -r /opt/hbase-2.4.14/ node002:/opt/

发送hbase到node003节点
终端输入：scp -r /opt/hbase-2.4.14/ node003:/opt/

拷贝profile文件
发送profile到node002节点
终端输入：scp /etc/profile node002:/etc/

发送profile到node003节点
终端输入：scp /etc/profile node003:/etc/

重新加载配置文件
在node001终端输入：
ssh root@node002 “source /etc/profile” # 重新加载node002 配置文件
ssh root@node003 “source /etc/profile” # 重新加载node0023配置文件

5.4、启动测试

先启动zookeeper集群
三台节点都输入：zkServer.sh start

再启动Hadoop集群
node001输入：start-all.sh

启动HBase集群
node001终端输入：start-hbase.sh

访问web界面
通过hbase-env.sh配置文件中所配置的端口号（60010）访问web界面

  <property>
	      <name>hbase.master.info.port</name>
	      <value>60010</value>
  </property>

查看日志文件
还记得我们在hbase-env.sh中配置的logs日志文件么
export HBASE_LOG_DIR=${HBASE_HOME}/logs

我们进入这个目录：cd /opt/hbase-2.4.14/logs/
输入：ls 展示一下自动生成的日志文件

在node002，node003节点也生成了他对应的日志文件

所以以后hbase集群有了什么问题可以在这些日志文件中查看。
到此HBase集群搭建完成！记得拍摄快照哟~

6、HBase操作

hbase的操作也类似于MySQL库、表的增删改查等操作
这里罗列一些常用的hbase操作

通过命令：hbase shell进入hbase（hbase集群启动的情况下）
通过help命令查看帮助命令
通过exit命令退出hbase客户端界面
查看服务器状态：status

查看hbase版本：version

6.1、命名空间操作

创建命名空间
语法：create_namespace ‘命名空间名称’
create_namespace ‘test’

查看命名空间
根据命名空间名称查询
describe_namespace ‘test’

在某命名空间中创建表
语法：create ‘命名空间名称:表名’,‘列族’,‘列族’
create ‘test:tab_test’,‘love’,‘you’

6.2、表操作

创建表

# 语法：create   表名，列族1，列组2，...
# 例如：create 'tabname','column_family01','column_family02'
create 'student','info','grade'

现在先不用创建列，列名是后期插入数据时才定义的。
展示表
list:罗列出所有表
hbase:012:0> list
TABLE
student
tab_test
2 row(s)
Took 0.0286 seconds
=> [“student”, “tab_test”]

describe：展示表的详细信息

hbase:013:0> describe 'tab_test'
Table tab_test is ENABLED                                                      
tab_test                                                                       
COLUMN FAMILIES DESCRIPTION                                                    
{NAME => 'column_family01', BLOOMFILTER => 'ROW', IN_MEMORY => 'false', VERSION
S => '1', KEEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING => 'NONE', COMPRES
SION => 'NONE', TTL => 'FOREVER', MIN_VERSIONS => '0', BLOCKCACHE => 'true', BL
OCKSIZE => '65536', REPLICATION_SCOPE => '0'}                                  
 
{NAME => 'column_family02', BLOOMFILTER => 'ROW', IN_MEMORY => 'false', VERSION
S => '1', KEEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING => 'NONE', COMPRES
SION => 'NONE', TTL => 'FOREVER', MIN_VERSIONS => '0', BLOCKCACHE => 'true', BL
OCKSIZE => '65536', REPLICATION_SCOPE => '0'}                                  
 
2 row(s)
Quota is disabled
Took 0.1754 seconds

6.3、列族

增加列族
语法：alter ‘tablename’,‘column_famaily03’
alter ‘student’,‘class’

删除列族
语法：alter 表名, ‘delete’ => 列族名
我们删除student表的class列族试试：

alter 'student','delete'=>'class'
alter 'student',{NAME=>'class',METHOD=>'delete'}

hbase:015:0> alter 'student','delete'=>'class'
Updating all regions with the new schema...
1/1 regions updated.
Done.
Took 2.8162 seconds                                                            
hbase:016:0> describe 'student'   # 展示student的详细信息，发现class列族已经没有了
Table student is ENABLED                                                       
student                                                                        
COLUMN FAMILIES DESCRIPTION                                                    
{NAME => 'grade', BLOOMFILTER => 'ROW', IN_MEMORY => 'false', VERSIONS => '1', 
KEEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING => 'NONE', COMPRESSION => 'N
ONE', TTL => 'FOREVER', MIN_VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE =>
 '65536', REPLICATION_SCOPE => '0'}                                            
 
{NAME => 'info', BLOOMFILTER => 'ROW', IN_MEMORY => 'false', VERSIONS => '1', K
EEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING => 'NONE', COMPRESSION => 'NO
NE', TTL => 'FOREVER', MIN_VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => 
'65536', REPLICATION_SCOPE => '0'}                                             
 
2 row(s)
Quota is disabled
Took 0.1113 seconds

删除表
表创建成功后，默认状态是enable，即“使用中”的状态，删除表之前需先设置表为“关闭中”。
disable ‘student’
再使用关键字drop删除表
drop ‘student’

对数据的操作
插入（跟新）数据
由于hbase有时间戳版本这一概念，所以跟新操作跟插入操作一样，但是旧数据不会就消失了，旧数据会被当做老版本依旧存放于表中。
语法：put ‘表名’,‘行键’,‘列族:列名’,‘值’

put 'student','student_01','grade:math','82'
put 'student','student_01','grade:english','96'
put 'student','student_01','info:name','lisi'
put 'student','student_01','info:addr','chongqing'

查看数据(get|scan)
语法：
get: 只查看某个行键的数据 get ‘表名’ ,‘行键’

scan：查看表的所有数据 scan ‘表名’

说明：scan全表扫描与get获取到的数据都是目前时间戳最新的数据。
我们如何查看老版本的信息呢：scan时可以设置是否开启RAW模式，开启RAW模式会返回已添加删除标记但是未实际进行删除的数据
语法：scan ‘表名’,{RAW=>true,VERSIONS=>你想展示多少个版本的信息就写几}
scan ‘student’,{RAW=>true,VERSIONS=>2}

删除一行数据中的列值
delete ‘表名’,‘行键’,‘列族:列名’ # 不指定时间戳的话，默认删除当前最新版本的记录
或deleteall ‘表名’,‘行键’,‘列族:列名’ # 删除指定单元格所有版本的记录

delete ‘student’,‘student_01’,‘info:addr’

 hbase:036:0> get 'student','student_01' # 第一次获取数据，zhangsan的地址是beijing
COLUMN                    CELL                                                                   
 grade:english            timestamp=2022-09-22T11:32:38.926, value=45                            
 grade:math               timestamp=2022-09-22T11:32:38.540, value=99                            
 info:addr                timestamp=2022-09-22T11:32:40.774, value=beijing                       
 info:name                timestamp=2022-09-22T11:32:39.091, value=zhangsan                      
1 row(s)
Took 0.0510 seconds                                                                              
hbase:039:0> delete 'student','student_01','info:addr'   # 删除掉了新版本的addr记录
Took 0.1579 seconds                                                                              
hbase:040:0> get 'student','student_01' # 第二次获取数据，zhangsan的地址是chongqing(旧版本)
COLUMN                    CELL                                                                   
 grade:english            timestamp=2022-09-22T11:32:38.926, value=45                            
 grade:math               timestamp=2022-09-22T11:32:38.540, value=99                            
 info:addr                timestamp=2022-09-22T11:16:53.171, value=chongqing                     
 info:name                timestamp=2022-09-22T11:32:39.091, value=zhangsan                      
1 row(s)
Took 0.0583 seconds                                                                              
hbase:041:0> delete 'student','student_01','info:addr'  # 再次删除掉当前最新版本也就是之前的旧版本chongqing
Took 0.0370 seconds                                                                              
hbase:042:0> get 'student','student_01'  # 由于只存入了两个版本的信息，两条addr的信息都被删除后就，没有数据展示了
COLUMN                    CELL                                                                   
 grade:english            timestamp=2022-09-22T11:32:38.926, value=45                            
 grade:math               timestamp=2022-09-22T11:32:38.540, value=99                            
 info:name                timestamp=2022-09-22T11:32:39.091, value=zhangsan                      
1 row(s)
Took 0.0424 seconds

deleteall ‘student’,‘student_01’,‘grade:math’

hbase:048:0> get 'student','student_01'
COLUMN                    CELL                                                                   
 grade:english            timestamp=2022-09-22T11:32:38.926, value=45                            
 grade:math               timestamp=2022-09-22T11:32:38.540, value=99                            
 info:name                timestamp=2022-09-22T11:32:39.091, value=zhangsan                      
1 row(s)
Took 0.0599 seconds                                                                              
hbase:049:0> deleteall 'student','student_01','grade:math'  # 一次性删除所有版本的记录
Took 0.0256 seconds                                                                              
hbase:050:0> get 'student','student_01'
COLUMN                    CELL                                                                   
 grade:english            timestamp=2022-09-22T11:32:38.926, value=45                            
 info:name                timestamp=2022-09-22T11:32:39.091, value=zhangsan                      
1 row(s)
Took 0.0303 seconds

删除一行数据（deleteall）
deleteall ‘表名’,‘行键’
deleteall ‘student’,‘student_01’

6.4、HBase读写流程

写流程
先回顾一下我们的节点规划：

接下来以我们搭建好的hbase集群与我们刚才上文对表的操作来讲讲当我们提交了put ‘student’,‘student_01’,‘grade:math’,'82’命令后hbase到底做了什么（建议初学者将下图着重掌握）：

写入流程
由客户端发起写入数据的请求, 首先会先连接zookeeper
从zookeeper中获取 hbase:meta表(meta-region-server)被哪一个个regionServer所管理
我们也可以登录zookeeper客户端（zkCli.sh）后使用命令：get /hbase/meta-region-server 获取meta表存储的信息，如图现在meta表在node002上。

连接meta表对应的RegionServer地址（假设是node001）, 从meta表获取当前要写入的表对应region被那个RegionServer所管理(一般只会返回一个RegionServer地址, 除非一次性写入多条数据)

连接对应要写入RegionServer的地址, 开始写入数据, 将数据首先会写入到HLog中,然后将数据写入到对应Region的对应Store模块的MemStore中(有可能会写入到MemStore), 当这两个地方都写入完成后, 客户端认为数据写入完成了(即hbase服务端与客户端的一次交流就结束了)

服务端写入过程: 异步操作(可能客户端执行N多次写入后, 服务端才开始对之前的数据进行操作)
随着客户端不断的写入操作, memstore中数据会越来越多, 当内存中数据达到阈值(128M / 1h)后, 就会触发flush刷新机制, 将数据<最终>刷新到HDFS上形成StoreFile(小Hfile)文件.
随着不断的刷新, 在HDFS上StoreFile文件会越来越多, 当StoreFlie文件数量达到阈值(3个及以上)后, 就会触发compact合并压缩机制, 将多个StoreFlie文件<最终>合并为一个大的HFile文件

随着不断的合并, 大的HFile也会越来越大, 当大HFile达到一定的阈值(<最终>10GB)后, 就会触发Split分裂机制, 将大HFile进行一分为二,形成两个新的大HFile, 同时管理这个大HFile的Region也会形成两个新的Region, 形成的两个新的Region和两个新的大HFile 进行一对一的管理即可, 原来的Region和原来的大的HFile就会下线删除掉。

6.5 、读流程

读取流程
客户端发起读取数据的请求, 首先会先连接zookeeper
从zookeeper中获取一个 hbase:meta表被那个RegionServer所管理着
连接meta表对应RegionServer, 从meta表获取当前要读取的这个表对应的Region是那些, 并且这些Region对应的RegionServer是谁当表有多个Region的时候: 如果执行的Get操作获取某一条数据, 只会返回一个RegionServer的地址；如果执行的Scan操作, 会将所有的Region对应RegionServer地址全部返回（前三步与写流程差不多）。
连接要读取表对应的RegionServer, 从RegionServer上开始获取数据即可:
读取顺序:
MemStore —> blockCache(缓存) —> StoreFlie(小HFile) —>大HFile
当从后续的文件中读取到数据后, 会将这一部分存储到缓存中
如果执行Scan操作, blockCache基本没有太大意义
————————————————

7、javaAPI访问HBase数据库

在操作之前确保hbase集群正常运行！
编程实现
环境介绍
使用的是IDEA+Maven来进行测试
Maven的pom.xml中hbase依赖如下：

org.apache.hbase hbase-client 2.4.5 org.apache.hbase hbase-common 2.4.5 org.apache.hbase hbase-protocol 2.4.5 org.apache.hbase hbase-server 2.4.5 junit junit 4.12

获取所有表
package com.libing.hbase;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Admin;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
 
import java.io.IOException;
 
/**
 * @author liar
 * @version 1.0
 * @date 2022/9/24 13:48
 */
public class GetAllTableTest {
    public static Configuration cfg = HBaseConfiguration.create();
    public static Connection conn;
 
    public static void main(String[] args) throws IOException {
        cfg.set("hbase.zookeeper.quorum","192.168.1.101:2181,192.168.1.102:2181,192.168.1.103:2181");
        //cfg.set("hbase.zookeeper.quorum","node001:2181,node002:2181,node003:2181");
        //创建数据库连接
        conn = ConnectionFactory.createConnection(cfg);
 
        /**
         * Admin 用于管理HBase数据库的表信息
         * org.apache.hadoop.hbase.client.Admin是为管理HBase而提供的接口，在Connection
         * 实例调用getAdmin()和close()方法期间有效。
         */
        Admin admin = conn.getAdmin();
        for(TableName name : admin.listTableNames())
        {
            System.out.println(name);
        }
        //关闭连接
        conn.close();
    }

}

注：这里运行报错Caused by: java.net.UnknownHostException: can not resolve node001,16000,1663…的需要在Windows的C:\Windows\System32\drivers\etc\hosts文件中添加对应的域名解析（我也不知道为啥，反正我的加了解决了报错）：192.168.1.101 node001

言归正传：
org.apache.hadoop.hbase.client.Admin是为管理HBase而提供的接口，在Connection
实例调用getAdmin()和close()方法期间有效。使用Admin接口可以实现的主要
HBase Shell命令包括create, list, drop, enable, disable, alter，相应java方法如下表：

创建表

package com.libing.hbase;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.*;
import org.apache.hadoop.hbase.client.Admin;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
 
 
import java.io.IOException;
 
/**
 * @author liar
 * @version 1.0
 * @date 2022/9/24 15:16
 */
public class CreateTableTest {
 
    public static Configuration cfg = HBaseConfiguration.create();
    public static Connection conn;
 
    public static void main(String[] args) throws IOException {
        cfg.set("hbase.zookeeper.quorum","192.168.1.101:2181,192.168.1.102:2181,192.168.1.103:2181");
        //创建数据库连接
        conn = ConnectionFactory.createConnection(cfg);
 
        /**
         * Admin 用于管理HBase数据库的表信息
         * org.apache.hadoop.hbase.client.Admin是为管理HBase而提供的接口，在Connection
         * 实例调用getAdmin()和close()方法期间有效。
         */
        Admin admin = conn.getAdmin();
        String tableName = "create_test";
        String columFamily1 = "create_test_family1";
        String columFamily2 = "create_test_family2";
        HTableDescriptor tableDescriptor = new HTableDescriptor(TableName.valueOf(tableName));
        HColumnDescriptor hColumnDescriptor1 = new HColumnDescriptor(columFamily1);
        HColumnDescriptor hColumnDescriptor2 = new HColumnDescriptor(columFamily2);
        tableDescriptor.addFamily(hColumnDescriptor1).addFamily(hColumnDescriptor2);
        admin.createTable(tableDescriptor);
 
 
 
        for (TableName tables :admin.listTableNames()) {
            System.out.println(tables);
        }
        //关闭连接
        conn.close();
    }
 
}

通过hbase客户端也发现这张表的列族也是按照要求创建好了的。

添加数据

Table接口用于和HBase中的表进行通信，代表了该表的实例，使用Connection的getTable(TableName tableName)方法可以获取该接口的实例，用于获取、添加、删除、扫描HBase表中的数据。
Table接口包含的主要方法如下:

这里不对每一个方法进行展示，不然文章就太臃肿了，读者视情况可以自行测试。

8、HBase常用性能优化

数据库表数据优化
预创建HRegion

默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。

手动设定预分区
Hbase> create’staff1’,‘info’,‘partition1’,SPLITS =>[‘1000’,‘2000’,‘3000’,‘4000’]

生成 16 进制序列预分区
create ‘staff2’,‘info’,‘partition2’,{NUMREGIONS => 15, SPLITALGO =>‘HexStringSplit’}

按照文件中设置的规则预分区
创建 splits.txt 文件内容如下：

Row Key优化
在HBase中，Row Key可以是任意字符串，最大长度为64KB,实际应用中一般为10～100Bytes，存为byte[]字节数组，一般设计成定长的。Row Key是按照字典顺序存储的，也就是说行键在顺序上接近的数据大概率在物理上是存储在一起的。充分利用这个特性可提高数据查询效率。
生成随机数、 hash 、散列值
字符串反转
字符串拼接
————————————————

列族优化
不要在一张表里定义太多的列族Column Family。目前 HBase并不能很好地处理超过3个列族的表。因为某个列族在刷新缓冲区的时候，它邻近的列族也会因关联效应被触发刷新缓冲区,最终导致系统产生更多的1/O。

版本优化
通过HColumnDescriptor.sctMaxVersions(int maxVersions)设置表中数据的最大版本,如果只需要保存最新版本的数据，那么可以设置 setMax Versions( 1)。

数据库读写优化
HBase支持并发读取,为了加快读取数据速度，可以创建多个HTable客户端同时进行读操作，提高吞吐量

Scanner 缓存
调用HTable.setScannerCaching(int scannerCaching)可以设置Hbase扫描一次从服务端抓取的数条数。通过将此值设置成一个合理的值，可以减少扫描过程next()的时间花销，代价是扫描需要通过客户端的内存来维持这些被缓存的行记录。扫描时指定需安的 Coumn Family，可以减少网络传输数据量，否则默认扫描操作会返回整行所有Column family 数据。通过扫描取完数据后，要及时关闭 ResultScanner，否则HRegionServer可能会出现回题（对应的Server资源无法释放)
批量读取
通过调用 HTable.get(Get)方法，可以根据一个指定的Row Key获取一行记录。同样地，HBase 提供了另一个方法:通过调用 HTable.get(List)方法，可以根据指定的Row Key 列表批量获取多行记录。这样做的好处是批量执行，只需要一次网络IO开销，这可能带来明显的性能提升

多线程并发读取
在客户端开启多个 HTable读线程，每个读线程都通过HTable对象进行get 操作

缓存结果查询
对于频繁查询HBase的应用场景,可以考虑在应用程序中进行缓存,当有新的查询请求时首先在缓存中查找，如果存在则直接返回，不再查询HBase;否则对HBase发起读请求查询然后在应用程序中将查询结果缓存起来。至于缓存的替换策略,可以考虑LRU等常用的策略

块缓存
HBase上 HRegionServer 的内存分为两个部分:一部分作为MemStore，主要用来写;另外一部分作为BlockCache，主要用于读。写请求会先写入MemStore，HRegionServer 会给每个HRegion提供一个 MemStore，当MmStore满64MB以后，会清空MemStore并把数据写

9、 HBase参数设置优化

允许在 HDFS 的文件中追加内容
hdfs-site.xml 、 hbase-site.xml

属性：dfs.support.append
解释：开启 HDFS 追加同步，可以优秀的配合 HBase 的数据同步和持久化。默认值为 true

优化 DataNode 允许的最大文件打开数
hdfs-site.xml

属性：dfs.datanode.max.transfer.threads
解释：HBase 一般都会同一时间操作大量的文件，根据集群的数量和规模以及数据动作，
设置为 4096 或者更高。默认值：4096

优化延迟高的数据操作的等待时间
hdfs-site.xml

属性：dfs.image.transfer.timeout
解释：如果对于某一次数据操作来讲，延迟非常高，socket 需要等待更长的时间，建议把
该值设置为更大的值（默认 60000 毫秒），以确保 socket 不会被 timeout 掉
————————————————

优化数据的写入效率
mapred-site.xml

属性：
mapreduce.map.output.compress
mapreduce.map.output.compress.codec
解释：开启这两个数据可以大大提高文件的写入效率，减少写入时间。第一个属性值修改为
true，第二个属性值修改为：org.apache.hadoop.io.compress.GzipCodec 或者其
他压缩方式

设置 RPC 监听数量
hbase-site.xml

属性：Hbase.regionserver.handler.count
解释：默认值为 30，用于指定 RPC 监听的数量，可以根据客户端的请求数进行调整，读写
请求较多时，增加此值

优化 HStore 文件大小
hbase-site.xml

属性：hbase.hregion.max.filesize
解释：默认值 10737418240（10GB），如果需要运行 HBase 的 MR 任务，可以减小此值，因为一个 region 对应一个 map 任务，如果单个 region 过大，会导致 map 任务执行时间过长。该值的意思就是，如果 HFile 的大小达到这个数值，则这个 region 会被切分为两
个 Hfile

优化 HBase 客户端缓存
hbase-site.xml

属性：hbase.client.write.buffer
解释：用于指定 Hbase 客户端缓存，增大该值可以减少 RPC 调用次数，但是会消耗更多内
存，反之则反之。一般我们需要设定一定的缓存大小，以达到减少 RPC 次数的目的

指定 scan.next 扫描 HBase 所获取的行数
hbase-site.xml

属性：hbase.client.scanner.caching
解释：用于指定 scan.next 方法获取的默认行数，值越大，消耗内存越大

flush 、 compact 、 split 机制
当 MemStore 达到阈值，将 Memstore 中的数据 Flush 进 Storefile；compact 机制则是把 flush
出来的小文件合并成大的 Storefile 文件。split 则是当 Region 达到阈值，会把过大的 Region
一分为二。

结语
这篇博客我也是花了很大精力写的，但是难免有错误，希望对文章有意见或建议的朋友可以联系我，我也希望能够听取读者的意见完善自己的文章。

最后，附上一张我在写博客时画的一些图示：

你可能感兴趣的:(hbase,hbase)

Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
HBase安装 lianhedaxue Hadoop hbase
HBase安装本章将介绍如何安装HBase和初始配置。需要用Java和Hadoop来处理HBase，所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前，需要建立和使用LinuxSSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先，建议从Unix创建一个单独的Hadoop用户，文件系统隔离Hadoop文件系统。按照下面给出创建
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
Spring Boot 与 Couchbase 整合教程嘵奇提升自己 spring boot 后端 java
精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取SpringBoot与Couchbase整合教程环境要求JDK8+SpringBoot2.7.xCouchbaseServer7.xMaven/Gradle步骤1：创建SpringBoot项目使用start.spring.io创建项目，添加以下依赖：SpringWeb（可选，用于RESTAPI）Spri
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
mysql总结 tianyunlinger 大数据 mysql 数据库
MySQL基础1.数据库基本介绍数据库定义：用于存储数据的仓库，通过SQL语句操作。数据库作用：存储应用程序中的数据，便于管理和查询。数据库分类：关系型数据库（如MySQL、Oracle、DB2）和非关系型数据库（如Redis、HBase）。关系型数据库：通过E-R图描述数据之间的关系，支持复杂查询。2.MySQL在Linux中的安装安装前准备：配置防火墙、创建统一的管理目录（如/export/s
如果企业数据仓库全部使用 Couchbase Analytics 服务，可能会面临哪些问题？ PersistDZ 数据存储数据仓库
如果企业数据仓库全部使用CouchbaseAnalytics服务，可能会面临哪些问题？一、概述CouchbaseAnalytics服务是一项强大的工具，旨在为NoSQL数据提供近实时的分析能力。然而，如果企业的数据仓库全部依赖于CouchbaseAnalytics服务，可能会遇到一些问题和挑战。以下将从多个角度详细分析这些可能的问题。二、可能的问题和挑战资源消耗和成本高资源需求：Couchbase
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
Couchbase Analytics 的结构 PersistDZ 数据存储 couchbase
CouchbaseAnalytics的结构CouchbaseAnalytics服务专为大规模、并发、复杂的分析查询而设计，同时不会影响事务性工作负载的性能。下面将详细介绍其结构和架构，以帮助您深入理解CouchbaseAnalytics的运作方式。1.Couchbase集群架构CouchbaseServer是一个多维度可扩展的分布式数据库，其核心架构由多个服务组成：数据服务（DataService
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
java+redis+pipleline_详解Java使用Pipeline对Redis批量读写（hmset&hgetall） 666齐乐家园
一般情况下，RedisClient端发出一个请求后，通常会阻塞并等待Redis服务端处理，Redis服务端处理完后请求命令后会将结果通过响应报文返回给Client。感觉这有点类似于HBase的Scan，通常是Client端获取每一条记录都是一次RPC调用服务端。在Redis中，有没有类似HBaseScannerCaching的东西呢，一次请求，返回多条记录呢？有，这就是Pipline。官方介绍ht
Flume详解——介绍、部署与使用克里斯蒂亚诺罗纳尔多阿维罗 flume 大数据分布式
1.Flume简介ApacheFlume是一个专门用于高效地收集、聚合、传输大量日志数据的分布式、可靠的系统。它特别擅长将数据从各种数据源（如日志文件、消息队列等）传输到HDFS、HBase、Kafka等大数据存储系统。特点：可扩展：支持大规模数据传输，灵活扩展容错性：支持数据恢复和失败重试，确保数据不丢失多种数据源：支持日志文件、网络数据、HTTP请求、消息队列等多种来源流式处理：数据边收集边传
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
HBase学习二：HBase的表结构 hucs420109 HBase HBase
HBase的表结构初次接触HBase，可能看到以下描述会懵：“基于列存储”，“稀疏MAP”，“RowKey”,“ColumnFamily”。其实没那么高深，我们需要分两步来理解HBase,就能够理解为什么HBase能够“快速地”“分布式地”处理“大量数据”了。内存结构文件存储结构先介绍几个名称概念行键RowKey：行键，类似mysql中的主键，Table中的记录按照RowKey排序，行键是表结构的
分布式存储—— HBase数据模型详解 Future_yzx 分布式 hbase 数据库
目录1.3HBase数据模型1.3.1两类数据模型1.3.2数据模型的重要概念1.3.3数据模型的操作1.3.4数据模型的特殊属性1.3.5CAP原理与最终一致性1.3.6小结本文章参考、总结于学校教材课本《HBase开发与应用》1.3HBase数据模型在开始学习HBase之前非常有必要先学习HBase的特性，因此本节将介绍HBase的逻辑模型、物理模型和访问HBase的方法等。和传统的关系型数据
分布式存储学习——HBase表结构设计 Future_yzx oracle 数据库
目录1.4.1模式创建1.4.2Rowkey设计1.4.3列族定义1.4.3.1可配置的数据块大小1.4.3.2数据块缓存1.4.3.3布隆过滤器1.4.3.4数据压缩1.4.3.5单元时间版本1.4.3.6生存时间1.4.4模式设计实例1.4.4.1实例1：动物分类1.4.4.2实例2：店铺与商品1.4.4.3实例3：网上商城用户消费记录1.4.4.4实例4：微博用户与粉丝1.4.4.5小结本文
HBase2.6.1部署文档 CXH728 zookeeper hbase
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。它适合处理结构化和半结构化数据，能够存储数十亿行和数百万列的数据，并支持实时读写操作。HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区
使用Couchbase中的向量搜索进行智能查询 eahba python
技术背景介绍Couchbase是一种强大的分布式NoSQL数据库，广泛应用于云、移动、AI和边缘计算应用中。其向量搜索功能，作为全文搜索服务的一部分，支持在应用中进行高效的语义查询。这为开发者在实现AI驱动的应用时提供了极大的便利。核心原理解析Couchbase的向量搜索利用向量嵌入技术对文本进行处理，可以实现基于语义相似度的查询。这与传统的关键词匹配有根本的不同，更适合AI应用场景中模糊或语义相
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
phoenix无法连接hbase shell创建表失败_报错_PleaseHoldException: Master is initializing---记录020_大数据工作笔记0180 添柴程序猿 hbase连接报错 phoenix连接hbase phoenix PleaseHoldExcep
今天发现,我的phoenix,去连接hbase集群,怎么也连不上了,奇怪了...弄了一晚上org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing[root@hadoop120bin]#ll总用量184-rwxr-xr-x.1rootroot36371月222020chaos-daemon.sh-rwxr-xr-x.1root
regionserver实例僵住问题分析 spring208208 hbase hbase
问题现象：应用提交超时，发现regionserver实例异常。hbase原生页面这个实例dead，业务连接到这个rs的进程超时8个regionserver实例。D08在18：30分后显示warning，应用提交任务到这个rs节点超时，hbase控制台不显示d08的rs信息了。19：30在页面停止rs实例失败，然后kill进程。18：30统计图等就不刷新了，但是机器里rs进程在。d08节点还有dn，
hbase 默认目录_[HBase] HBase数据存储目录解析 weixin_39577422 hbase 默认目录
Hbase在hdfs上的存储位置，根目录是由配置项hbase.rootdir决定，默认就是"/hbase"/hbase/WALs在该目录下，对于每个RegionServer，都会对应1~n个子目录/hbase/oldWALs当/hbase/WALs中的HLog文件被持久化到存储文件时，它们就会被移动到/hbase/oldWALs/hbase/hbase.id集群的唯一ID/hbase/hbase.
hbase-05 namespace、数据的确界&TTL 小技工丨大数据技术学习 hbase 数据库大数据
要点掌握HBase的命名空间namespace概念掌握HBase数据版本确界掌握HBase数据TTL1.HBase的namespace1.1namespace基本介绍在HBase中，namespace命名空间指对一组表的逻辑分组，类似RDBMS中的database，方便对表在业务上划分。ApacheHBase从0.98.0,0.95.2两个版本号开始支持namespace级别的授权操作，HBase
Hbase在hdfs上的archive目录占用空间过大宝罗Paul 大数据 hbase
hbase版本：1.1.2hadoop版本：2.7.3Hbase在hdfs上的目录/apps/hbase/data/archive占用空间过大，导致不停地发出hdfs空间使用率告警。【问题】告警信息alert:datanode_storageistriggered告警信息表明某个或某些datanode的HDFS存储空间使用率已超过阈值(我们设置的是80%)，需要清理。[hdfs@master-2r
hbase集群archive目录过大问题处理 spring208208 大数据组件线上问题分析 hbase 数据库大数据
1.问题现象现场反馈hbase集群/hbase/archive目录过大，大小约为1.52PB现场集群已经清理掉2个月以前的snapshot文件，当前archive目录文件仍不能释放现场发现1T以上的archive子目录有211个查看集群hbase配置，hmaster堆栈大小20GB，hmaster清理周期5分钟查看hmaster进程分配内存占用6G上下问题分析HMaster内存估算，假如/hbas
Flume-HBase-Kafka 正在緩沖҉99% kafka Flume HBase 大数据
Flume-HBase-Kafka一、各自介绍1.Flume简介和特征2.HBase简介和特征3.Kafka简介和特征二、通过Flume读取日志文件写入到Kafka中在写入HBase各自作用一、各自介绍1.Flume简介和特征一、简介Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方
大数据面试临阵磨枪不知看什么？看这份心理就有底了-大数据常用技术栈常见面试100道题大模型大数据攻城狮大数据面试职场和发展面试题数据仓库算法
目录1描述Hadoop的架构和它的主要组件。2MapReduce的工作原理是什么？3什么是YARN，它在Hadoop中扮演什么角色？4Spark和HadoopMapReduce的区别是什么？5如何在Spark中实现数据的持久化？6SparkStreaming的工作原理是什么？7如何优化Spark作业的性能？8描述HBase的架构和它的主要组件。9HBase的读写流程是怎样的？10HBase如何处理
value error wqq奋斗的小鸟 pyspark
ValueError:invalidliteralforint()withbase10:''int()函数只能转化数字组成的字符串
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_