Rich Dad

2021-02-07 大数据课程笔记 day18

@R星校长

初识 HBase

hbase 介绍

概述

Welcome to Apache HBase™
Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.
Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project’s goal is the hosting of very large tables – billions of rows X millions of columns – atop clusters of commodity hardware. Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google’s Bigtable: A Distributed Storage System for Structured Data by Chang et al. Just as Bigtable leverages the distributed data storage provided by the Google File System, Apache HBase provides Bigtable-like capabilities on top of Hadoop and HDFS.

Apache HBase™ 是 Hadoop 数据库，是一个分布式、可伸缩、大数据存储区。
当您需要随机、实时读/写访问大数据时，请使用 Apache HBase™。该项目的目标是在商用硬件集群之上托管非常大的表----数十亿行X百万列。 Apache HBase 是一个开源的、分布式的、版本化的、非关系的数据库，它参考了Google 的 Bigtable。正如 Bigtable 利用 Google 文件系统提供的分布式数据存储一样，Apache HBase 在 Hadoop 和 HDFS 之上提供了类似 Bigtable 的功能。

定义：HBase 是 Hadoop Database ，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式 NOSQL 数据库。
作用：主要用来存储非结构化、半结构化和结构化的松散数据（列式存储的NoSQL 数据库）

注：MySQL 亿级别的数据，效率极具下降。
tb_order 达到 10 亿条数据，是不是非常慢呢？
阿里又是如何解决的呢。将订单数据横向拆分，平均放到 80 个 MySQL 中：
OrderId.hashCode()%80 来决定数据放到哪个表中。
利用 Hadoop HDFS 作为其文件存储系统，利用 Hadoop MapReduce 来处理 HBase 中的海量数据，利用 Zookeeper 作为其分布式协同服务。正常情况下，HBase 不依赖于 YARN ，用到的时候可以随时开启。从技术上讲，HBase 实际上更像是“数据存储”而不是“数据库”，因为它缺少 RDBMS中的许多功能，例如字段类型，二级索引，触发器和高级查询语言等。

HBase 数据模型

逻辑上，HBase 的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从底层物理存储结构（Key-Value）来看，HBase 更像一个 Map。

HBase 逻辑结构

物理存储结构

13489854921_92233704903999438078233/basic:dnum/1592979155327/Put/vlen=11/mvcc=0 V: 15973136770

数据模型

NameSpace
命名空间，相当于关系型数据库中的 database，每个命名空间下有多个表。Hbase 默认自带的命名空间 hbase 和 default ；hbase 中存放的是 HBase 内置的表，default 是用户默认使用的命名空间。
Region
类似关系型数据库的表，不同之处在于 HBase 定义表示只需要声明列族，不需要声明具体的列。列可以动态的按需要指定；HBase 更加适合自带经常变更的场景。开始创建表是一个表对应一个 region，当表增大到一定值是会被拆分为两个 region。
Row
HBase 表中的每行数据被称为 Row，由一个 RowKey 和多个 Column 组成，数据是按照 RowKey 的字典顺序存储的，并且查询是只能根据 RowKey 进行检索，所以 RowKey 的设计很关键。
Column
列是由列族（Column Family）和列限定符（Column Qualifier）进行限定，例如：base:name,base:sex。建表示只需定义列族，而列限定符无需预先定义。
Cell
某行中的某一列被称为 Cell（单元格），由 {rowkey，column family:column qualifier,time stamp} 确定单元。Cell 中没有具体的类型，全部是字节码的形式（字节数组）存储。
TimeStamp
用于标识数据的不同版本（version），每条数据写入时，如果不指定时间戳，系统会自动为其加上该字段，值为写入 HBase 的时间。

非关系型数据库知识面扩展

redis，memcached
mongoDB，CouchDB
Hbase、Cassandra 横向扩展随机读写

hbase 架构

MySQL 存储是 4KB 作为一个小的存储空间。4KB datapage 数据页。查询时会从磁盘上遍历寻址。效率较低。
HBase 引入了列族（面向列族存储，而不是列存储每个列都单独存储）的概念：

CF1                   CF2
id,name,age ||    likes,address

查询列所在的列族即可，其他列族中内字段不查询。

目录表 hbase:meta

目录表 hbase:meta 作为 HBase 表存在，并从 hbase shell 的 list (类似 show tables)命令中过滤掉，但实际上是一个表，就像任何其他表一样。
hbase:meta 表（以前称为.META.），保有系统中所有 region 的列表。hbase:meta 位置信息存储在 zookeeper 中。hbase:meta 表是所有查询的入口
表结构如下：

key：
	region的key，结构为：[table],[region start key,end key],[region id]
values:
	info:regioninfo（当前region序列化的HRegionInfo实例）
	info:server（包含当前region的RegionServer的server:port）
	info:serverstartcode（包含当前region的RegionServer进程的开始时间）

当表正在拆分时，将创建另外两列，称为 info:splitA 和 info:splitB 。这些列代表两个子 region。这些列的值也是序列化的 HRegionInfo 实例。区域分割后，将删除此行。

a,,endkey
a,startkey,endkey
a,startkey,

空键用于表示表开始和表结束。具有空开始键的 region 是表中的第一个 region。如果某个 region 同时具有空开始和空结束键，则它是表中唯一的 region。

Client

hbase:meta   tablea,,100,node2
hbase:meta   tablea,101-200,node3
hbase:meta   tablea,201-300,node5
hbase:meta   tablea,301-400,node237
hbase:meta   tablea,401-500,node24
hbase:meta   tablea,501,,node896

Client->zookeeper(hbase:meta)->root region（tablea,node3 tableb,node4）->meta region-> regionserver（数据）

包含访问 HBase 的接口并维护 cache 来加快对 HBase 的访问。HBase 客户端查找关注的行范围所在的 regionserver。它通过查询 hbase:meta表来完成此操作。在找到所需的 region 之后，客户端与提供该 region 的 RegionServer 通信，而不是通过 Master，并发出读取或写入请求。此信息缓存在客户端中，以便后续请求无需经过查找过程。如果 Master 的负载均衡器重新平衡或者由于 regionserver 宕机，都会重新指定该 region 的 regionserver 。客户端将重新查询目录表以确定用户 region 的新位置。
通过 Admin 进行管理功能的实现。

Zookeeper

保证任何时候，集群中只有一个活跃 master
存贮所有 Region 的寻址入口。 root region 的地址 hbase:meta 表的位置
实时监控 Region server 的上线和下线信息。并实时通知 Master
存储 HBase 的 schema 和 table 元数据

Master

为 Region server 分配 region
负责 Region server 的负载均衡
发现失效的 Region server 并重新分配其上的 region
管理用户对 table 的增删改操作不是数据的增删改（DML） DDL
概括：管理 region 的分配和管理对表的操作

RegionServer

Region server 维护 region，处理对这些 region 的 IO 请求
Region server 负责切分在运行过程中变得过大的 region

Region

HBase 自动把表水平划分成多个区域 (region)，每个 region 会保存一个表里面某段连续的数据（每条记录都有一个行键，按照行键字典序排列）
每个表一开始只有一个 region ，随着数据不断插入表，region 不断增大，当增大到一个阈值的时候，region 就会等分会两个新的 region（裂变）
当 table 中的行不断增多，就会有越来越多的 region。这样一张完整的表被保存在多个 Regionserver 上。
一个 region 由多个 store 组成，一个 store 对应一个 CF（列族）
HRegion 是 HBase 中分布式存储和负载均衡的最小单元。最小单元就表示不同的 HRegion 可以分布在不同的 HRegion server 上。HRegion 由一个或者多个 Store 组成，每个 store 保存一个 columns family 。每个 Store 又由一个 memStore 和 0 至多个 StoreFile 组成。如图：StoreFile 以 HFile 格式保存在 HDFS 上。

Memstore 与 storefile

store 包括位于内存中的 memstore 和位于磁盘的 storefile。
写操作先写入 memstore，当 memstore 中的数据达到某个阈值， hregionserver 会启动 flashcache 进程写入 storefile ，每次写入形成单独的一个 storefile。
当 storefile 文件的数量增长到一定阈值后，系统会进行合并（minor、major compaction），在合并过程中会进行版本合并和删除工作（majar），形成更大的 storefile
当一个 region 所有 storefile 的大小和数量超过一定阈值后，会把当前的 region 分割为两个，并由 hmaster 分配到相应的 regionserver 服务器，实现负载均衡
客户端检索数据，先查找 memstore，再 blockcache（查询缓存），找不到再找 storefile

hbase 搭建方式以及搭建流程

独立模式

JDK 版本要求：jdk7 最好，jdk8 也行，官方称未充分测试。
这是默认模式。独立模式是快速入门部分中描述的内容。在独立模式下，HBase 不使用 HDFS - 它使用本地文件系统 - 它在同一个 JVM 中运行所有HBase 守护进程和本地 ZooKeeper 。 Zookeeper 绑定到端口 2181，因此客户可以与 HBase 通信。

具体操作
将 HBase 与本地文件系统一起使用并不能保证持久性。如果文件未正确关闭，HDFS 本地文件系统实现将丢失编辑。当您尝试使用新软件时，很可能会发生这种情况，经常启动和停止守护进程，而不是总是干净利落。您需要在 HDFS 上运行 HBase 以确保保留所有写入。作为评估的第一阶段，针对本地文件系统运行旨在使您熟悉常规系统的工作方式。

在conf/hbase-env.sh中设置 JAVA_HOME
在conf/hbase-site.xml中，仅需要指定 hbase 和 zookeeper 写数据的本地路径。默认情况下会在 /tmp 下创建新的目录。

<configuration>
  <property>
    <name>hbase.rootdir</name>
    <value>file:///var/bjsxt/only/hbase</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/var/bjsxt/only/zookeeper</value>
  </property>
</configuration>

我们不需要创建任何目录，hbase 会创建。如果手动创建了，hbase 会做一个迁移，这不是我们想要的。

bin/start-hbase.sh脚本用于启动 hbase。启动成功，hbase 会在标准输出打印成功启动的信息。使用 jps 查看进程，会只有一个 HMaster 进程。这个进程中包含了一个 HMaster、一个 HRegionServer 以及一个 zookeeper 的 daemon。它们在同一个进程中。
网页访问：http://node1:60010/
1、连接HBase：
shell> ./bin/hbase shell
2、在 hbase 的 shell 中输入 help 并回车，获取帮助：
hbase(main):001:0> help
3、创建表
使用 create 命令创建表，必须指定表名和列族的名称

hbase(main):001:0> create 'test', 'cf'
0 row(s) in 0.4170 seconds
=> Hbase::Table - test

4、列出表的信息
使用 list 命令列出信息。

hbase(main):002:0> list 'test'
TABLE
test
1 row(s) in 0.0180 seconds

=> ["test"]

5、向 table 插入数据
使用 put 命令。

hbase(main):003:0> put 'test', 'row1', 'cf:a', 'value1'
0 row(s) in 0.0850 seconds

hbase(main):004:0> put 'test', 'row2', 'cf:b', 'value2'
0 row(s) in 0.0110 seconds

hbase(main):005:0> put 'test', 'row3', 'cf:c', 'value3'
0 row(s) in 0.0100 seconds

以上，插入了三个值，每次一个。第一次在 row1 的位置，cf:a 列插入值 value1。hbase 中的列由列族前缀cf跟一个冒号，再跟一个列标识符后缀比如 a。

6、一次性扫描表中的所有数据
要查询表中的数据，可以使用 scan 命令。可以在该命令中使用限定条件，下面获取了表中的所有数据：

hbase(main):016:0> scan 'test'
ROW                     COLUMN+CELL                                                                                                
  row1                  column=cf:a, timestamp=1568514191889, value=value1                                                         
  row2                  column=cf:b, timestamp=1568514198429, value=value2                                                         
row3                  column=cf:c, timestamp=1568514205341, value=value3                                                         
3 row(s) in 0.0350 seconds

7、查询一行记录
使用 get 命令一次获取一行记录

hbase(main):017:0> get 'test', 'row1'
COLUMN                         CELL                                                                                                       
 cf:a          timestamp=1568514191889, value=value1                                                                      
1 row(s) in 0.0140 seconds

8、禁用一张表
如果要删除表或更改表的设置，需要先使用 disable 命令禁用该表，之后也可以使用 enable 命令重新使用该表。

hbase(main):018:0> disable 'test'
0 row(s) in 1.3350 seconds
hbase(main):019:0> enable 'test'
0 row(s) in 0.2520 seconds
#再次使用disable命令禁用该表：
hbase(main):020:0> disable 'test'
0 row(s) in 1.2580 seconds

9、删除表
在表已经禁用的情况下，使用 drop 命令删除表

hbase(main):021:0> drop 'test'
0 row(s) in 0.1550 seconds

10、退出 HBase 的 shell
退出 shell 断开到集群的连接，可以使用 quit 命令。但是 hbase 服务进程仍然在后台运行。

hbase(main):022:0> quit
[root@node1 hbase-0.98.12.1-hadoop2]#

11、停止 hbase 服务进程
bin/start-hbase.sh开启 hbase 的所有进程，bin/stop-hbase.sh 用于停止所有 hbase 进程。

[root@node1 hbase-0.98.12.1-hadoop2]# bin/stop-hbase.sh 
stopping hbase..................
[root@node1 hbase-0.98.12.1-hadoop2]#

12、使用 jps 查看进程信息，确保 hbase 的 HMaster 和 HRegionServer 进程成功关闭：

[root@node1 hbase-0.98.12.1-hadoop2]# jps
2831 Jps
[root@node1 hbase-0.98.12.1-hadoop2]#

伪分布式

伪分布式模式只是在单个主机上运行的完全分布式模式。在 HBase 上使用此配置测试和原型设计。请勿将此配置用于生产，也不要用于评估 HBase 性能。

通过快速入门后，您可以重新配置 HBase 以在伪分布式模式下运行。伪分布模式意味着 HBase 仍然在单个主机上完全运行，但每个 HBase 守护程序（HMaster，HRegionServer和Zookeeper）作为单独的进程运行。默认情况下，除非您按照快速入门中的说明配置 hbase.rootdir 属性，否则您的数据仍存储在 /tmp/ 中。在本演练中，我们将您的数据存储在 HDFS 中，假设您有 HDFS 可用。您可以跳过 HDFS 配置以继续将数据存储在本地文件系统中。

具体操作
1、如果前面的独立模式的 hbase 还在运行，停止 hbase。
2、配置 hbase
a) 编辑hbase-site.xml。添加如下的配置，让 hbase 在分布式模式运行，一个 daemon 一个 JVM 进程：

<property>
  <name>hbase.cluster.distributed</name>
  <value>true</value>
</property>

b) 更改hbase.rootdir，将其设置为 HDFS 实例的地址，hdfs://。

<property>
  <name>hbase.rootdir</name>
  <value>hdfs://mycluster/hbase</value>
</property>

我们不需要在 hdfs 上创建该目录，hbase 会自己创建。如果我们手动创建，hbase 会做迁移，这不是我们要看到的。
c) 指定 zookeeper 写的目录

<property>
  <name>hbase.zookeeper.property.dataDir</name>
  <value>/var/bjsxt/pseudo/zookeeper</value>
</property>

注意：由于 HBase 要使用 HDFS 的客户端，HDFS 客户端的配置必须让 hbase 看到并使用。有三种方式做到这一点：
i. 在hbase-env.sh中，将 HADOOP_CONF_DIR 添加到 HBASE_CLASSPATH 环境变量中，HADOOP_CONF_DIR 指向 HADOOP 的 etc/hadoop 目录。
ii. 拷贝hdfs-site.xml到 HBASE_HOME/conf ，当然，最好是做一个符号链接。

[root@node1 conf]# ln /opt/hadoop-2.6.5/etc/hadoop/hdfs-site.xml hdfs-site.xml

iii. 如果 HDFS 客户端配置很少，可以直接添加到 hbase-site.xml 中。
3、启动 hbase
要保证 hadoop 先启动。hfds 一定要启动，YARN 可以不启动
a) 使用bin/start-hbase.sh启动 hbase。启动成功后使用 jps 可以看到 HMaster 和 HRegionServer 的进程在运行。

4、在 HDFS 检查 Hbase 的目录
a) http://node1:60010
5、 hbase shell 操作
a、连接 HBase：
shell> ./bin/hbase shell
b、在 hbase 的 shell 中输入 help 并回车，获取帮助：
hbase(main):001:0> help
c、创建表
使用 create 命令创建表，必须指定表名和列族的名称

hbase(main):001:0> create 'test', 'cf'
0 row(s) in 0.4170 seconds
=> Hbase::Table - test

d、列出表的信息
使用 list 命令列出信息。

hbase(main):002:0> list 'test'
TABLE
test
1 row(s) in 0.0180 seconds
=> ["test"]

e、向 table 插入数据
使用 put 命令。

hbase(main):003:0> put 'test', 'row1', 'cf:a', 'value1'
0 row(s) in 0.0850 seconds

hbase(main):004:0> put 'test', 'row2', 'cf:b', 'value2'
0 row(s) in 0.0110 seconds

hbase(main):005:0> put 'test', 'row3', 'cf:c', 'value3'
0 row(s) in 0.0100 seconds

以上，插入了三个值，每次一个。第一次在 row1 的位置，cf:a 列插入值 value1。hbase 中的列由列族前缀 cf 跟一个冒号，再跟一个列标识符后缀比如 a。

f、一次性扫描表中的所有数据
要查询表中的数据，可以使用 scan 命令。可以在该命令中使用限定条件，下面获取了表中的所有数据：

hbase(main):016:0> scan 'test'
ROW                     COLUMN+CELL                                                                                                
row1          column=cf:a, timestamp=1568514191889, value=value1                                                         
row2          column=cf:b, timestamp=1568514198429, value=value2                                                         
row3          column=cf:c, timestamp=1568514205341, value=value3                                                         
3 row(s) in 0.0350 seconds

g、查询一行记录
使用 get 命令一次获取一行记录

hbase(main):017:0> get 'test', 'row1'
COLUMN                         CELL                                                                                                       
 	cf:a              timestamp=1568514191889, value=value1                                                                      
1 row(s) in 0.0140 seconds

h、禁用一张表
如果要删除表或更改表的设置，需要先使用 disable 命令禁用该表，之后也可以使用 enable 命令重新使用该表。

hbase(main):018:0> disable 'test'
0 row(s) in 1.3350 seconds

hbase(main):019:0> enable 'test'
0 row(s) in 0.2520 seconds

再次使用 disable 命令禁用该表：

hbase(main):020:0> disable 'test'
0 row(s) in 1.2580 seconds

i、删除表
在表已经禁用的情况下，使用 drop 命令删除表

hbase(main):021:0> drop 'test'
0 row(s) in 0.1550 seconds

j、退出 HBase 的 shell
退出 shell 断开到集群的连接，可以使用 quit 命令。但是 hbase 服务进程仍然在后台运行。

hbase(main):022:0> quit
[root@node1 hbase-0.98.12.1-hadoop2]#

k、停止 hbase 服务进程
bin/start-hbase.sh开启 hbase 的所有进程，bin/stop-hbase.sh用于停止所有 hbase 进程。

[root@node1 hbase-0.98.12.1-hadoop2]# bin/stop-hbase.sh 
stopping hbase..................
[root@node1 hbase-0.98.12.1-hadoop2]#

l、使用jps查看进程信息，确保 hbase 的 HMaster 和 HRegionServer 进程成功关闭：

[root@node1 hbase-0.98.12.1-hadoop2]# jps
2831 Jps
[root@node1 hbase-0.98.12.1-hadoop2]#

完全分布式

实际上，您需要完全分布式配置才能完全测试 HBase 并在实际场景中使用它。在分布式配置中，群集包含多个节点，每个节点运行一个或多个 HBase 守护程序。其中包括主要和备用 Master，多个 Zookeeper 节点和多个 RegionServer 节点。

规划如下：
具体操作
1、配置四台主机免密钥
2、将 hbase 解压到 node1 的 /opt
3、在 /etc/profile 中配置 HBASE_HOME，并将 HBase 的 bin 目录添加到 PATH 中
4、删除 /opt/hbase-0.98.12.1-hadoop2 中的 docs 目录
5、进入 conf，编辑 regionservers
a) 配置如下：
node2
node3
node4
6、配置 node2 为 backup master
a) 在 conf 中添加一个文件 backup-masters ，并配置如下

[root@node1 conf]# echo "node2" >> backup-masters

7、在conf/hbase-env.sh中设置 JAVA_HOME
a)
8、配置 zookeeper
a) 设置使用外部的zookeeper
在conf/hbase-env.sh中设置HBASE_MANAGES_ZK=false
b) 要么将 zoo.cfg 拷贝到 HBASE 的 CLASSPATH，要么在 hbase-site.xml 中配置 zookeeper 的信息。hbase 会优先使用 zoo.cfg 的配置。在hbase-site.xml中配置如下：

<property>
  <name>hbase.cluster.distributed</name>
  <value>true</value>
</property>
<property>
  <name>hbase.rootdir</name>
  <value>hdfs://mycluster/hbase_ha</value>
</property>
<property>
  <!-- 默认端口号可以不写，也可以添加：node2:2181,node3:2181,node4:2181 -->
  <name>hbase.zookeeper.quorum</name>
  <value>node2,node3,node4</value>
</property>
<property>
  <!-- 可以不配置 -->
  <name>hbase.zookeeper.property.dataDir</name>
  <value>/var/bjsxt/zookeeper/data</value>
</property>

9、将 hadoop 的hdfs-site.xml拷贝到$HBASE_HOME/conf目录下。
10、将/opt/hadoop-0.98拷贝到 node2，node3 和 node4。确保没有任意一个节点运行 hbase
11、在 node2 上配置 hbase 的环境变量，生效后并将之拷贝 node3 和 node4 上。
12、要保证 hadoop 先启动。hfds 一定要启动，YARN 可以不启动
13、启动集群
在 node1 上执行 start-hbase.sh
14、在各个节点使用 jps 验证运行的进程
a)
b)
c)
d)

15、浏览 HBase 的 Web UI。
a) http://node1:60010

16、测试一下如果节点或服务消失会发生什么。
如果只配置了四个节点，HBase 还不是太有弹性。不过依然可以测试如果主 HMaster 或者 HRegionServer 消失会发生什么。比如可以 kill 掉进程，查看 log 日志等。
a) 杀死 node1 上的 HMaster 观察 web ui
http://node2:60010/master-status
b) 在 node1 启动 HMaster：hbase-daemon.sh start master
访问 node1 的 web ui 界面：
http://node1:60010/master-status
c) 在 node2 上 kill 掉 HRegionServer，查看 web ui：
d) 在 node2 上启动 HRegionServer：hbase-daemon.sh start regionserver，查看 web ui：

hbase 数据模型进阶

rowkey cf1:q2 获取最新数据
row key , CF1, q2, t2 四维数据库，获取指定列族指定列指定时间戳的数据
rowkey 列族列名时间戳四个纬度

row key

决定一行数据
按照字典顺序排序的。
Row key只能存储 64k 的字节数据(UTF-8 编码格式下 2.133w 多个汉字)

Column Family 列族 & qualifier 列

HBase表中的每个列都归属于某个列族，列族必须作为表模式(schema)定义的一部分预先给出。 create ‘tb_user’, ‘cf’ 或 create ‘test’, ‘course’；
列名以列族作为前缀，每个“列族”都可以有多个列成员(column)；如course:math, course:english , 新的列族成员（列）可以随后按需、动态加入；
权限控制、存储以及调优都是在列族层面进行的；
HBase 把同一列族里面的数据存储在同一目录下，由几个文件保存。

Cell 单元格

由行和列的坐标交叉决定；
单元格是有版本的；
单元格的内容是未解析的字节数组；
由 {row key， column( = +)， version} 唯一确定的单元。
cell中的数据是没有类型的，全部是字节数组形式存贮。

Timestamp 时间戳

rowkey - liezu:biaozhifu version cell value
在 HBase 每个 cell 存储单元对同一份数据有多个版本，根据唯一的时间戳来区分每个版本之间的差异，不同版本的数据按照时间倒序排序，最新的数据版本排在最前面。 rowkey cf name
时间戳的类型是 64 位整型。
时间戳可以由 HBase(在数据写入时自动)赋值，此时时间戳是精确到毫秒的当前系统时间。
时间戳也可以由客户显式赋值，如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。
在 HBase 0.96 之前，保留的默认版本数为 3，但是在 0.96 中，更新版本已更改为 1。

hbase 可以容忍不同 regionserver 之间的时间差 30s，否则失败。
做时间同步

yum install ntp -y
service ntpd start
chkconfig ntpd on

HLog(WAL log)

WAL:WRITE AHEAD LOG

HLog 文件就是一个普通的 Hadoop Sequence File，Sequence File 的 Key 是 HLogKey 对象，HLogKey 中记录了写入数据的归属信息，除了table 和 region 名字外，同时还包括 sequence number 和 timestamp，timestamp 是”写入时间”，sequence number 的起始值为0，或者是最近一次存入文件系统中 sequence number。
HLog SequeceFile 的 Value 是 HBase 的 KeyValue 对象，即对应 HFile 中的 KeyValue。
键（四个维度）value（单元格的值）
该文件作用是保证数据不丢失。

目录表

目录表 hbase:meta 作为 HBase 表存在，并从 hbase shell 的 list 命令中过滤掉，但实际上是一个表，就像任何其他表一样。
hbase:meta 表（以前称为 .META.），保有系统中所有 region 的列表。hbase:meta 存储在 zookeeper 中。
表结构如下：

key：
	region的key，结构为：[table],[region start key],[region id]
values:
	info:regioninfo（当前region序列化的HRegionInfo实例）
	info:server（包含当前region的RegionServer的server:port）
	info:serverstartcode（包含当前region的RegionServer进程的开始时间）

当表正在拆分时，将创建另外两列，称为 info:splitA 和 info:splitB。这些列代表两个子 region。这些列的值也是序列化的 HRegionInfo 实例。区域分割后，将删除此行。
空键用于表示表开始和表结束。具有空开始键的 region 是表中的第一个 region。如果某个 region 同时具有空开始和空结束键，则它是表中唯一的 region。
启动顺序:首先，在 zookeeper 中查找 hbase:meta 的位置。其次，使用服务器和启动代码更新 hbase:meta 的值。

给 RegionServer 赋值 region（最好理解）
当 hbase 启动的时候，region 通过如下步骤赋值给 regionserver：
1、系统启动的时候，master 调用 AssignmentManager（赋值管理器）
2、 AssignmentManager 在 hbase:meta 中查找已经存在的 region 条目
3、如果 region 条目依旧是正确的（比如说 regionserver 依然在线），就保留该赋值信息
4、如果赋值不正确，就调用 LoadBalancerFactory 对 region 进行赋值。负载平衡器将 region 赋值给一个 regionserver。hbase1.0 中默认的负载均衡器是 StochasticLoadBalancer。
5、在 regionserver 打开 region 的时候使用 regionserver 的开始代码更新 hbase:meta 中 regionserver 的赋值。

当客户端访问的时候，regionserver 失败的时候：
1、由于 regionserver 宕机，region 立即不可用
2、 master 检测到该 regionserver 的失败
3、认为 region 的赋值不正确，使用启动顺序的流程重新给 region 赋值
4、正在进行的查询会重试，而不是丢失。
5、在下述时间内操作会转移到新的 regionserver：zookeeper session timeout+split time+assignment/replay time

Client->regionserver1(宕机了，在zk上对应的临时节点一定时间后消失)
Client->hbase:meta-->regionserver2(重新分配一个regionserver）
Client->regionserver2->对应的region

客户端

HBase 客户端查找关注的行范围所在的 regionserver。它通过查询 hbase:meta 表来完成此操作。在找到所需的 region 之后，客户端联系提供该 region 的 RegionServer ，而不是通过 Master，并发出读取或写入请求。此信息缓存在客户端中，以便后续请求无需经过查找过程。如果 Master 的负载均衡器重新平衡或者由于 regionserver 宕机，都会重新指定该 region 的 regionserver。客户端将重新查询目录表以确定用户 region 的新位置。
通过 Admin 进行管理功能的实现。

HBase 的特点

强大的一致读/写：HBase 不是“最终一致”的 DataStore。它非常适合高速计数器聚合等任务。
自动分片：HBase 表通过 region 分布在群集上，并且随着数据的增长，region 会自动分割和重新分配。
自动的 RegionServer 故障转移。
Hadoop/HDFS 集成：HBase 支持 HDFS 作为其分布式文件系统。
MapReduce：HBase 支持通过 MapReduce 进行大规模并行处理，将 HBase 用作源和漏。 HBASE->MR->HDFS HBASE->MR->HBASE HDFS->MR->HBASE
Java 客户端 API：HBase 支持易于使用的 Java API 以进行编程访问。
Thrift/REST API：HBase 还支持非 Java 前端的 Thrift 和 REST。
块缓存和布隆过滤器：HBase 支持块缓存和布隆过滤器，以实现大容量查询优化。
运维管理：HBase 提供内置网页，用于运维监控和 JMX 指标。
HBase 不支持行间事务（情侣转账 520） HBase 支持行内事务

hbase 读写流程

LSMTree

LSM 树（log-structured merge-tree）。输入数据首先被存储在日志文件（HLog），这些文件内的数据完全有序。当有日志文件被修改时，对应的更新会被先保存在内存中来加速查询。
当系统经历过许多次数据修改，且内存（存放数据）空间被逐渐被占满后，LSM 树会把有序的 “键-记录” 对写到磁盘中，同时创建一个新的数据存储文件（storefile）。此时，因为最近的修改都被持久化了，内存中保存的最近更新就可以被丢弃了。
存储文件的组织与 B 树(课后研究一下)相似，不过其为磁盘顺序读取做了优化，所有节点都是满的并按页存储。修改数据文件的操作通过滚动合并完成，也就是说，系统将现有的页与内存刷写数据混合在一起进行管理，直到数据块达到它的容量（region 的阈值，达到阈值进行 region 的切割，重新分配 hregionserver）。
多次数据刷写之后会创建许多数据存储文件，后台线程就会自动将小文件聚合成大文件，这样磁盘查找就会被限制在少数几个数据存储文件中。磁盘上的树结构也可以拆分成独立的小单元，这样更新就可以被分散到多个数据存储文件中。所有的数据存储文件都按键排序，所以没有必要在存储文件中为新的键预留位置。
查询时先查找内存中的存储，然后再查找磁盘上的文件。这样在客户端看来数据存储文件的位置是透明的。

删除是一种特殊的更改，当一条记录被删除标记之后，查找会跳过这些删除过的键。当页被重写时，有删除标记的键会被丢弃。

大合并（major）和小合并（minor）：

随着 memstore 的刷写会生成很多磁盘文件。如果文件的数目达到阈值，合并（compaction）过程将把它们合并成数量更少的体积更大的文件。这个过程持续到这些文件中最大的文件超过配置的最大存储文件大小，此时会触发一个 region 拆分。
minor 合并负责重写最后生成的几个文件到一个更大的文件中。文件数量是由hbase.hstore.compaction.min属性设置的。它的默认值为 3，并且最小值需要大于或等于 2。过大的数字将会延迟 minor 合并的执行，同时也会增加执行时消耗的资源及执行的时间。minor 合并可以处理的最大文件数量默认为 10，用户可以通过hbase.hstore.compaction.max来配置。(课后思考？)
hbase.hstore.compaction.min.size（默认设置为 region 的 memstore 刷写大小）和hbase.hstore.compaction.max.size（默认设置为 Long.MAX_VALUE）配置项属性进一步减少了需要合并的文件列表。任何比最大合并大小大的文件都会被排除在外。
major 合并：它们把所有文件压缩成一个单独的文件。默认情况下，major 合并间隔是 7 天，看情况随机的加上或减去 4.8 小时。
如果要删除数据，不会直接修改 storefile，因为 hadoop 不允许修改。hbase 会将删除的数据标志为已删除（给该数据添加墓碑标记），如果添加了墓碑标记，查询不到该数据。在大合并的时候，将标记了墓碑标记的数据真正删除。

读路径

Client 访问 Zookeeper，查找 hbase:meta 表位置，看他在哪个 regionserverR 上。
Client 访问 regionserverR 上 hbase:meta 表中的数据，查找要操作的表对应 region 所在的 regionserverX
Client 读取 regionserverX 上的 region 数据
定位到真正的数据所在的 region 的时候，按照下述步骤进行操作：
先查找 memstore，如果 memstore 没有，查找 blockcache；如果 blockcache 没有，则查找 storefile 的数据，同时将数据缓存与 blockcache 中。

写路径

当用户向 HRegionServer 发起 HTable.put(Put) 请求时，其会将请求交给对应的 HRegion 实例来处理。
第一步是要决定数据是否需要写到由 HLog 类实现的预写日志中。WAL 是标准的 Hadoop SequenceFile，并且存储了 HLogKey 实例。这些键包括序列号和实际数据，所以在服务器崩溃时可以回滚还没有持久化的数据。
一旦数据被写入到 WAL 中，数据就会被放到 MemStore 中。同时还会检查 MemStore 是否已经满了，如果满了，就会被请求刷写到磁盘中去。刷写请求由另外一个 HRegionServer 的线程处理，它会把数据写成 HDFS 中的一个新 HFile。同时也会保存最后写入的序号，系统就知道哪些数据现在被持久化了。

hbase 客户端操作

查看帮助信息

直接在 hbase shell 输入 help 并回车查看如何使用帮助。

在 hbase shell 中输入 'help “COMMAND” ’ 查看指定命令的帮助信息。（如，'help “get” ’ – get 的引号是必须的）
命令是分组的，输入’help “COMMAND_GROUP” '查看命令组帮助信息。（如，'help “general” '）

命令组：
  组名：general
  命令：status, table_help, version, whoami

  组名：ddl
  命令：alter, alter_async, alter_status, create, describe, disable, disable_all, drop, drop_all, enable, enable_all, exists, get_table, is_disabled, is_enabled, list, show_filters

  组名：namespace
  命令：alter_namespace, create_namespace, describe_namespace, drop_namespace, list_namespace, list_namespace_tables

  组名：dml
  命令：append, count, delete, deleteall, get, get_counter, get_splits, incr, put, scan, truncate, truncate_preserve

  组名：tools
  命令：assign, balance_switch, balancer, catalogjanitor_enabled, catalogjanitor_run, catalogjanitor_switch, close_region, compact, compact_rs, flush, hlog_roll, major_compact, merge_region, move, split, trace, unassign, zk_dump

  组名：replication
  命令：add_peer, disable_peer, disable_table_replication, enable_peer, enable_table_replication, list_peers, list_replicated_tables, remove_peer, set_peer_tableCFs, show_peer_tableCFs

  组名：snapshots
  命令：clone_snapshot, delete_all_snapshot, delete_snapshot, list_snapshots, restore_snapshot, snapshot

  组名：security
  命令：grant, revoke, user_permission

  组名：visibility labels
  命令：add_labels, clear_auths, get_auths, list_labels, set_auths, set_visibility

SHELL USAGE:
shell 用法：
将所有的名称如表名列名，用引号引起来。逗号分隔命令参数。回车执行命令。
在创建表或修改表的时候使用配置字典。配置字典是 Ruby 的 Hashes 。看起来像这样：

{‘key1’ => ‘value1’, ‘key2’ => ‘value2’, …}

用大括号引起来，键值分隔符是=>。通常键是预定义的常量，比如：NAME, VERSIONS, COMPRESSION 等。常量不需要括起来。输入 ‘Object.constants’ 查看环境中所有常量。

如果用到了二进制的 key，使用双引号引起来的十六进制表示。例如：

  hbase> get 't1', "key\x03\x3f\xcd"
  hbase> get 't1', "key\003\023\011"
  hbase> put 't1', "test\xef\xff", 'f1:', "\x01\x33\x40"

hbase java api 操作

1、创建 java 项目
2、添加依赖 jar 包
hadoop 和 hbase 的 jar 包，$HBASE_HOME/lib
3、编写示例程序

1.	package com.bjsxt.hbase;
2.	
3.	import org.apache.hadoop.conf.Configuration;
4.	import org.apache.hadoop.hbase.*;
5.	import org.apache.hadoop.hbase.client.*;
6.	import org.apache.hadoop.hbase.util.Bytes;
7.	import org.junit.After;
8.	import org.junit.Before;
9.	import org.junit.Test;
10.	
11.	public class HBaseDemo {
     
12.	
13.	   //表的管理类
14.	   HBaseAdmin admin = null;
15.	   //数据的管理类
16.	   HTable table = null;
17.	   //表名
18.	   String tm = "phone";
19.	   /**
20.	    * 完成初始化功能
21.	    * @throws Exception
22.	    */
23.	   @Before
24.	   public void init() throws Exception{
     
25.	      Configuration conf = new Configuration();
26.	      conf.set("hbase.zookeeper.quorum", "node2,node3,node4");
27.	      admin = new HBaseAdmin(conf);
28.	      table = new HTable(conf,tm.getBytes());
29.	   }
30.	   @After
31.	   public void destory() throws Exception{
     
32.	      if(admin!=null){
     
33.	         admin.close();
34.	      }
35.	   }
36.	   /**
37.	    * 创建表
38.	    * @throws Exception
39.	    */
40.	   @Test
41.	   public void createTable() throws Exception{
     
42.	      //表的描述类
43.	      HTableDescriptor desc = new HTableDescriptor(TableName.valueOf(tm));
44.	      //列族的描述类
45.	      HColumnDescriptor family = new HColumnDescriptor("cf".getBytes());
46.	      desc.addFamily(family);
47.	      if(admin.tableExists(tm)){
     
48.	         admin.disableTable(tm);
49.	         admin.deleteTable(tm);
50.	      }
51.	      admin.createTable(desc);
52.	   }
53.	
54.	   @Test                    
55.	   public void insert() throws Exception{
        
56.	      Put put = new Put("1111".getBytes());
57.	      put.add("cf".getBytes(), "name".getBytes(), "zhangsan".getBytes());
58.	      put.add("cf".getBytes(), "age".getBytes(), "12".getBytes());
59.	      put.add("cf".getBytes(), "sex".getBytes(), "man".getBytes());
60.	      table.put(put);
61.	   }
62.	   @Test
63.	   public void get() throws Exception{
     
64.	      Get get = new Get("1111".getBytes());
65.	      //添加要获取的列和列族，减少网络的io，相当于在服务器端做了过滤
66.	      get.addColumn("cf".getBytes(), "name".getBytes());
67.	      get.addColumn("cf".getBytes(), "age".getBytes());
68.	      get.addColumn("cf".getBytes(), "sex".getBytes());
69.	      Result result = table.get(get);
70.	      Cell cell1 = result.getColumnLatestCell("cf".getBytes(), "name".getBytes());
71.	      Cell cell2 = result.getColumnLatestCell("cf".getBytes(), "age".getBytes());
72.	      Cell cell3 = result.getColumnLatestCell("cf".getBytes(), "sex".getBytes());
73.	      System.out.println(Bytes.toString(CellUtil.cloneValue(cell1)));
74.	      System.out.println(Bytes.toString(CellUtil.cloneValue(cell2)));
75.	      System.out.println(Bytes.toString(CellUtil.cloneValue(cell3)));
76.	   }
77.	
78.	   @Test
79.	   public void scan() throws Exception{
     
80.	      Scan scan = new Scan();
81.	//    scan.setStartRow(startRow);
82.	//    scan.setStopRow(stopRow);
83.	      ResultScanner rss = table.getScanner(scan);
84.	      for (Result result : rss) {
     
85.	         Cell cell1 = result.getColumnLatestCell("cf".getBytes(), "name".getBytes());
86.	         Cell cell2 = result.getColumnLatestCell("cf".getBytes(), "age".getBytes());
87.	         Cell cell3 = result.getColumnLatestCell("cf".getBytes(), "sex".getBytes());
88.	         System.out.println(Bytes.toString(CellUtil.cloneValue(cell1)));
89.	         System.out.println(Bytes.toString(CellUtil.cloneValue(cell2)));
90.	         System.out.println(Bytes.toString(CellUtil.cloneValue(cell3)));
91.	      }
92.	   }
93.	    @Test
94.	    public void addFamily() throws IOException {
     
95.	        TableName tableName = TableName.valueOf(tn);
96.	        admin.disableTable(tableName);
97.	        HTableDescriptor hDescriptor= admin.getTableDescriptor(tableName);
98.	        HColumnDescriptor hColumnDescriptor=new HColumnDescriptor("cf2".getBytes());
99.	        hDescriptor.addFamily(hColumnDescriptor);
100.	        admin.modifyTable(tableName, hDescriptor);
101.	        admin.enableTable(tableName);
102.	        //describe 'phone' 查看
103.	    }
104.	    @Test
105.	    public void deleteData() throws IOException {
     
106.	        Delete delete = new Delete(Bytes.toBytes("1111"));
107.	        //delete.deleteColumn(Bytes.toBytes("cf"),Bytes.toBytes("cf:name"));
108.	        delete.deleteFamily(Bytes.toBytes("cf"));//删除rowkey 1111这行数据在cf列族下全部数据
109.	        table.delete(delete);
110.	    }
111.	}

作业：通话记录

电话号码，时间
1、按照电话号码和时间查询通话记录
2、按照电话号码和主被叫类型查询通话记录
手机号通话时长对方手机号日期类型（主叫，被叫）
rowkey： cf:(通话记录信息)
手机号
时间（倒序）
需求：按照手机号和时间段查询记录，rowkey如何设计？
phonenum_(Long.MAX_VALUE-timestamp)
cf:length=,cf:onum=,cf:date=,cf:type= 0表示主叫 1表示被叫

你可能感兴趣的:(西行日记,分布式,数据库,大数据,hbase,hadoop)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
【穿过丛林看见你】2015年在《诗歌报》读诗日记（一）快快_ce70
写完《三月的领土》和《手握一把锄头，在翻动诗歌的春天》之后，安稳的睡了个好觉，这是从2013年的五月之后，第一次睡的如此安稳和香甜。其实这对于我来说，也没有什么特别的意义和变故，就像我现在的生活在人人忙着踏青、写生、拍照的春天。在我脚下，没有领土的完整，也没有加剧的破碎。我曾经和现在都是个辛勤的“蜂农”，在这样一个角色里，尽管有人盗走了我所有的蜜，但不妨碍我对甜蜜的不懈追求和喜爱。翻开最近的阅读笔
2019-3-23晨间日记红红火火小耳朵
今天是什么日子起床：7点40就寝：23点半天气：有太阳，不过一会儿出来一会儿进去特别清爽的凉意，还蛮舒服的心情：小激动要给女朋友过生日啦纪念日：田田女士过生日任务清单昨日完成的任务，最重要的三件事：1.英语一对一2.运动计划3.认真护肤习惯养成：调整状态周目标·完成进度英语七天打卡（5/7）轻课阅读（87/180）音标课（25/30）读书（福尔摩斯一章）学习·信息·阅读#英语课#Cookingte
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
午间日记遥远的距离
有的人是来爱你的，有的人就是来给你上课的。我们会和很多人遇见，这其中有一些人，会给你爱。另外一些人，会给你伤害。有些缘分是好事，有些缘却是孽缘。不过它既然来了，也总会教会你一些什么。比如认清人渣，更明白什么是真正的爱。
2019-10-24 柒月的可可
今日上班无事，人又懒怠动，不知道如何打发这个下午，终于打开了。我大概是把当日记来写的。重庆的天气骤然凉了。早上出门的时候，满地都是落叶，脚踩上去，却是刚下过雨，叶子已润掉，走不出声响。白天在办公室不见天日，对温度也无甚感觉，晚上一个人回到家，屋子里窗户都开着，被冷风吹了一天，一迈进屋，便觉冷气森然。将近二十度的天气，竟要裹着毯子才觉温暖。再过一周，就到十一月。扛过十一月，就可以开暖气了。然而我真的
渝婧感恩日记第68天梁渝婧lydia
1.哇！我真是太幸福啦！感恩奇迹感恩训练营毕业典礼，让我能共振到同学们的喜悦和能量，感谢！感谢！感谢！2.哇！我真是太幸福啦！感恩每天早起，运动3公里！这个星期又做到连续三天，不间断！感谢亲爱的渝婧！你真的是非常的棒！加油，继续坚持！感谢！感谢！感谢！3.哇！我真是太幸福啦！感恩曾正波班主任给我们分享的艾宾浩斯的记忆曲线255学习法，让我蠢蠢欲试，感谢！感谢！感谢！4.哇！我真是太幸福啦！感恩胜利
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
#开始记日记#1235 胃口不好吃饺子董克平日记
2020/06/24星期三北京吃个醋拌茄子消暑珠珠送了一个父亲节礼物，要我陪她一起去体检。这些年身上多了许多毛病，血压、血脂、血糖都需要吃药维持了，上一次体检知道血糖已经到了临界点，可是也没有予以重视，继续大吃大喝少锻炼，结果可想而知，现在是每一餐都离不开二甲双胍了。不过我还是不愿意去体检，总觉得体检没什么用，身体有毛病就去看医生，体检又不治病。我对体检的看法是“小病不用治，大病治不了”，通过体检
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
晓盈的感恩日记第5天 fanny晓
2021年2月5日周五晴天今天是特别的一天，在家里参加完公司线上的职工大会，下午跑到妈妈家去户外劳作了。我感恩家公早上为我准备早餐，今天早读后回笼觉起晚了，又赶上开线上会议，爷爷帮我准备了早餐。我感恩儿子，早晨醒来发现我在早读，还愿意陪伴我早读，一直陪伴我半个小时。我感恩儿子和侄子，下午去户外劳作时来帮助我，一个帮我捡土豆，一个帮忙浇水，很难得的田园生活让孩子们体验到了，一直以来都想让孩子来体验，
2020-8-19晨间日记：看过的电影盐大虾
今天是周三起床：6点半就寝：11点天气：晴心情：正常纪念日：周三任务清单今日完成的任务，最重要的三件事：1.整理写过的文档2.电影《电灯泡》3.这就是街舞第三季第五期改进：早睡早起习惯养成：早睡早起，看书周目标·完成进度两篇文章学习·信息·阅读电影艺术发展史相关教材健康·饮食·锻炼吃了挺多零食，还喝了果粒橙，还是得少吃，多锻炼，不然会慢慢死掉的。人际·家人·朋友淡定交流，不放在心上。工作·思考专心
辟谷日记备谷6 玉衡_李俊晔
备谷6图片发自App日期：18.1.31（周三）起床：7：30放假的日子，5：45的闹钟并没有关掉，每天也差不多这个点就朦朦胧胧醒了，有时不是真的醒了，就允许继续睡。今天似乎真的没什么睡意了——看来身体自然会有“够了”那个点，更加笃定：交托这词就是完完全全交托给身体，全然交托给宇宙，不需要任何评判，放下各种担心，恐惧，要求，内疚……在床上做逆转，思绪静不下来……知道成长就是做自己的主人，可以“掌控
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
#王六六日记 3a15f0e47473
怎么突然忘了写日记了呢？今天补一下昨天的，从佘山回来，和xh一起，我太幸福了下午新人培训，没啥事儿干
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
2022-10-10 幸福芳芳
10.10日觉察日记1.事件：开晨会员工来不齐，路远的请假，离得近的也请假，一律不批！2.感受：生气，气愤（情绪如何转化或使用）3.想法：1.今年已经很少开晨会了，非必要不会通知开会的，临近点了再打电话请假，又不是特别忙的季节，借口都会找～～2.不来的按公司标准执行负激励，待岗处理！我为你们负责，你们安全重要会议都不参加，自己都不为自己负责！以后有事也别找我！尤其是经销商老板，自己都不清楚自己用工
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
2023-06-19【感恩日记】第246篇 o泡沫o
思想日记：坚持下去，相信自己一定可以的【感恩日记】第246篇1.我真是太幸福啦！感恩孩子早起阅读，放学到学生之家完成作业，平安度过美好的一天。感恩！感恩！感恩！❤️2.我真是太幸福啦！感恩自己早起给孩子煮早餐，完成计划的工作，晚上学习。感恩！感恩！感恩！❤️3.我真是太幸福啦！感恩为我设计效果图的老师。感恩！感恩！感恩！❤️4.我真是太幸福啦！感恩父母养育了我，有妈的孩子真幸福。感恩！感恩！感恩！
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在