旁观者最嗨

HBase核心原理

一、HBase简介

1.1HBase定义

HBase是一种分布式、可拓展、支持海量数据存储的非关系型数据库。来源于谷歌的三驾马车之一的BigTable，负责海量数据的存储。对于数据量不大的时候优势不明显，使用HBase不划算，在运行期间一直在“分分合合”的操作耗费资源，当数据量上来时，可以做到几十亿条数据秒级响应。针对HDFS并不支持随机写操作，但HBase是基于HDFS可以在HDFS上实现随机写操作，实现HDFS上的增删改查，其实现十分简单HBase把数据下载下来修改然后重新上传，但由于HBase拥有许多组件对其进行极致的优化，使之让这种效率低的方法速度变得极快，利用资源换取了时间，目前是Apache维护的顶级项目。

1.2 HBase 数据模型

逻辑上，HBase的数据模型关系数据库同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构（K - V）来看，HBase更像是一个multi-dimensional map

1.2.1 HBase逻辑结构

Row Key：行键，系统自带，在一张表中必须是唯一的，类似MySQL的主键【字典序】
列：类似MySQL的字段
列族：将很多列分出来不同的列族，影响最终的存储，不同的列族存储在不同的文件夹中
Region：横向切片
store：存储，真正存储在HDFS的数据

其中region/store借鉴MySQL的高表宽表的存储策略

1.2.2 再谈store

在HBsae上每一条数据都有很多信息，如row_key1这列真正存储了行键、列族、列名、时间戳、操作类型和数据，其中HBase实现HDFS的随机写操作完全靠这个时间戳来完成即TimeStamp（记录当前操作时间），因此后面进行API操作时一定要将Linux时间和Windows时间调成一致，否则会发生各种诡异的事情，如：删除数据删不掉，插入数据看不见等等… 注意到t3和t4时间戳行，发现它们的列名都是phone且操作类型都是Put，这就是HBase的随机写操作（修改phone数据操作），只要t4>t3即可实现修改（覆盖），若进行删除HBase会将操作类型设为Delete，若Delete的时间戳大于Put的时间戳则不返回数据，造成了一种删除的错觉，其实当时的数据并没有被删除（在分表和表过程中删除），否则HBase的速度不会这么快。

1.2.3 数据模型

1）Name Space
命名空间，类似MySQL库的概念，每个命名空间下有很多表，其中HBase自带两个命名空间分别是hbase和default，其中hbase存放系统内置的表，default是用户默认使用的命名空间。
2）Region
表的切片，当达到高表时会有很多切片对于HBase来说10G一切，当然我们也可以手动切。HBase建表时只需要指定到列族即可，字段可以动态增加，因为HBase是以键值对的形式为一个数据进行存储，他的列（字段）相当于数据里的键。
3）Row
每行数据都有一个RowKey和多个列组成，数据是按照RowKey的字典顺序存储，并且查询数据时只能根据RowKey进行检索。
4）Column
每个列都是由列族和列限定符（字段）进行鉴定
5）TimeStamp
用于标识数据的不同版本，如果不指定时间戳系统会自动天剑当前时间
6）Cell
唯一确定的单元｛rowkey，column Family：column Qualifier，time Stamp｝。cell中的数据没有类型，底层都是字节数组形式存储。

总结：第一个NameSpace命名空间，类似数据库；第二个Region和表有关系，从大的结构往小看的，起初数据量小的时候，这个表就是一个Region；表里面在HBase叫列族，列族下是列，列下面是数据，但这个数据是你看到的版本最大的数据，实际上这个单元格底下可能隐藏着其它数据，只有row key加列族加列加时间戳才能唯一确定这个数据，不加时间戳可能会是一系列数据，如果我们能唯一确定一个数据即加了时间戳那么这个数据就是一个Cell，叫单元格或者细胞，在这个Cell里数据没有复杂的数据类型都是字节数组。

1.3 HBase基本框架

1）Region Server【DML】
Region的管理者，管理数据的增删改查，和Region的分表（splitRegion）和表（compactRegion）
2）Master【DDL】
RegionServer的管理者，管理表的增删改查，监控每个RegionServer的状态，负载均衡和故障转移
3）Zookeeper
通过Zookeeper实现Master的高可用，RegionServer的监控、元数据入口以及集群的配置维护等
4）HDFS
为HBase提供最终的底层数据存储服务，提供HBase的高可用

二、HBase快速入门

2.1 HBase集群搭建

2.1.1 Zookeeper正常部署并启动

HBase的Master需要Zookeeper提供高可用的支持，通过群起脚本快速启动

#!/bin/bash
pcount=$#
if [ $pcount == 0 ]
then
echo "no args"
        exit
fi

# 获取参数
p1=$1
if [ $p1 == "start" ]
then
        for i in root@master root@slave01 root@slave02
        do
                echo "=============== $i ==============="
                ssh $i "source /etc/profile && /usr/local/soft/zookeeper-3.4.10/bin/zkServer.sh start"
        done
        exit
fi

if [ $p1 == "stop" ]
then
        for i in root@master root@slave01 root@slave02
        do
                echo "=============== $i ==============="
                ssh $i '/usr/local/soft/zookeeper-3.4.10/bin/zkServer.sh stop'
        done
        exit
fi


if [ $p1 == "status" ]
then
        for i in root@master root@slave01 root@slave02
        do
                echo "=============== $i ==============="
                ssh $i "source /etc/profile && /usr/local/soft/zookeeper-3.4.10/bin/zkServer.sh status"
        done
        exit
fi

2.1.2 Hadoop正常部署并启动

HBase需要HDFS提供存储服务，通过配置slaves文件可实现群起Hadoop集群（启动hdfs即可）

start-dfs.sh

2.1.3 HBase正常部署并启动

1. HBase解压

tar -zxvf hbase-2.2.5-bin.tar.gz

2. 修改配置文件

cd hbase-2.2.5/conf/

修改hbase-env.sh

# The java implementation to use.  Java 1.8+ required.
export JAVA_HOME=/usr/local/soft/jdk1.8.0_144

# Tell HBase whether it should manage it's own instance of ZooKeeper or not.
export HBASE_MANAGES_ZK=false

写死JAVA_HOME，最新版[2020/6/25]的HBase要求jdk1.8+了，最后一定要修改你HBASE_MANAGES_ZK为false，HBase内置了一个Zookeeper默认使用它内置的版本，但会修改你本机的Zookeeper的myid导致原先的Zookeeper集群下次无法正常使用。
修改hbase-site.xml，内容如下

<configuration>
  <!--
    The following properties are set for running HBase as a single process on a
    developer workstation. With this configuration, HBase is running in
    "stand-alone" mode and without a distributed file system. In this mode, and
    without further configuration, HBase and ZooKeeper data are stored on the
    local filesystem, in a path under the value configured for `hbase.tmp.dir`.
    This value is overridden from its default value of `/tmp` because many
    systems clean `/tmp` on a regular basis. Instead, it points to a path within
    this HBase installation directory.

    Running against the `LocalFileSystem`, as opposed to a distributed
    filesystem, runs the risk of data integrity issues and data loss. Normally
    HBase will refuse to run in such an environment. Setting
    `hbase.unsafe.stream.capability.enforce` to `false` overrides this behavior,
    permitting operation. This configuration is for the developer workstation
    only and __should not be used in production!__

    See also https://hbase.apache.org/book.html#standalone_dist
  -->
  		<!-- 是否搭建分布式 -->
        <property>
                <name>hbase.cluster.distributed</name>
                <value>true</value>
        </property>
		<!-- 临时文件目录 -->
        <property>
                <name>hbase.tmp.dir</name>
                <value>/usr/local/soft/hbase-2.2.5/tmp/</value>
        </property>
		<!-- 暂时不知道干嘛的，上面的注释说让你设置成false-->
        <property>
                <name>hbase.unsafe.stream.capability.enforce</name>
                <value>false</value>
        </property>
		<!-- 写的是hdfs的namenode节点，相当于将HBase存储到hdfs下的/HBase -->
        <property>
                <name>hbase.rootdir</name>
                <value>hdfs://master:9000/HBase</value>
        </property>
		<!-- 默认端口号，可写可不写 -->
        <property>
                <name>hbase.master.port</name>
                <value>16000</value>
        </property>
		<!-- 你的Zookeeper节点 -->
        <property>
                <name>hbase.zookeeper.quorum</name>
                <value>master,slave01,slave02</value>
        </property>
		<!-- 你的Zookeeper工作目录，配置文件里的 -->
        <property>
                <name>hbase.zookeeper.property.dataDir</name>
                <value>/usr/local/soft/zookeeper-3.4.10/zkData</value>
        </property>
</configuration>

配置regionservers

master
slave01
slave02

注意不要写空格，和群起hdfs一样的要求
软连接hadoop配置文件到hbase

ln -s /usr/local/soft/hadoop-2.7.2/etc/hadoop/core-site.xml /usr/local/soft/hbase-2.2.5/conf/core-site.xml
ln -s /usr/local/soft/hadoop-2.7.2/etc/hadoop/hdfs-site.xml /usr/local/soft/hbase-2.2.5/conf/hdfs-site.xml

最后一步同步分发到其他节点，下面是我的分发脚本xsync.sh

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if [ $pcount == 0 ]
then
        echo no args
        exit
fi
#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

rsync -rvl $pdir/$fname $user@slave01:$pdir
rsync -rvl $pdir/$fname $user@slave02:$pdir

执行分发

xsync.sh /usr/local/soft/hbase-2.2.5/

上面说过在HBase中时间戳很重要，是一切操作的基础，因此集群之间的时间必须通过，默认时间差30秒，因此在集群启动之间必须同步时间，否则无法启动报ClockOutOfSyncException异常如何同步集群时间，不推荐修改默认时间差

<property>
	<name>hbase.master.maxclockskew</name>
	<value>180000</value>
	<description>Time difference of regionserver from master</description>
</property>

3. 启动HBase

start-hbase.sh //启动HBase

stop-hbase.sh //关闭HBase

下面这种情况是由于Hadoop的slf4j-log4j12-1.7.10.jar与HBase的slf4j-log4j12-1.7.25.jar版本不一样，但是不会影响正常使用，网上的解决方法删除其中一个jar包，亲测删除Hadoop的jar包后HBase确实不报异常了，Hadoop开始报异常(┬＿┬)，最好的方法是更换Hadoop版本，在搭建集群的时候就提前规划好（没有强迫症的随意）

SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/local/soft/hadoop-2.7.2/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/local/soft/hbase-2.2.5/lib/client-facing-thirdparty/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]

2.1.4 查看集群状态

1. 方式一 jps

为了方便查看各个集群的java进程，我编写一个简单的脚本call.sh

#!/bin/bash
pcount=$#
if [ $pcount == 0 ]
then
        echo "no args"
        exit
fi

args=$1
if [ $args == "jps" ]
then
        for i in master slave01 slave02
        do
                echo "================ $i ================"
                ssh $i /usr/local/soft/jdk1.8.0_144/bin/jps
        done
fi

[root@master shell]# call.sh jps
================ master ================
11521 DataNode
11254 QuorumPeerMain
12070 HRegionServer
11928 HMaster
12285 Jps
11407 NameNode
================ slave01 ================
8018 DataNode
7943 QuorumPeerMain
8107 SecondaryNameNode
8236 HRegionServer
8351 Jps
================ slave02 ================
6344 QuorumPeerMain
6665 Jps
6540 HRegionServer
6413 DataNode

1. 方式二 web查看

端口号 master:16010，master是你的HBase的Master节点ip（可在windows配置一下主机名映射）

2.2 HBase Shell 操作

写在前面，HBase的Shell命令只可能在学习，熟悉命令的时候使用，真正的项目开发还得用API

2.2.1 基本操作

1. 进入HBase客户端

habse shell

2. 查看帮助命令

help

看到了熟悉的DDL、DML和namespace，以及前面说的compact、split和flush等
3. 查看所有的用户表

list

hbase(main):010:0> list
TABLE
0 row(s)
Took 0.0087 seconds
=> []

当前namespace下的表为空
注意：命令结束不要使用; ，命令结束不要使用; ，命令结束不要使用;
误操作可输入两次'退回shell命令行，不要ctrl c来回登录很麻烦

hbase(main):011:0> list;
hbase(main):012:0* '
hbase(main):013:0' '
TABLE
0 row(s)
Took 0.0093 seconds
=> "\n"
hbase(main):014:0>

2.2.2 DDL

1.创建一个表

create 'student','info'

基本语法：create '表名','列族名'
注意事项：

表名，列族名要用引号括起来（不区分单双引号）
一定要写列族名

2.查看表结构

describe 'student'

注意：hbase的shell支持tab提示

这个VERSIONS => '1'可以改，上面解释cell说过需要加时间戳才能唯一确定一个数据，这个VERSIONS决定这个单元格最终能存几个数据
3.修改表结构
常见的是改VERSIONS的信息

alter 'student',{NAME=>'info1',VERSIONS=>3}

将VERSIONS改为3，这样在分表和表时一个单元格会保留三份时间戳最大的数据
4.删除表

hbase(main):020:0> drop 'student'

ERROR: Table student is enabled. Disable it first.

For usage try 'help "drop"'

Took 0.0211 seconds

这里它报错了，说这个表是可用的，删除前让这个表下线，使用disable

disable 'student'
drop 'student'

5.关于命名空间的命令
和DDL命令几乎一样，如：
查看命名空间

list_namespace

创建一个命名空间

create_namespace 'bigdata'

将表创建到指定的命名空间，当我们不指定命名空间时，系统默认创建到default中，且使用表时不加命名空间系统会从default中查找

create 'bigdata:student','info'

list查看一下

hbase(main):025:0> list
TABLE
bigdata:student
student
2 row(s)
Took 0.0092 seconds
=> ["bigdata:student", "student"]

可能有人就说了，我怎么知道是创建在bigdata的命名空间呢，或许是你的表名就是bigdata:student呢？好吧，我们可以通过web来查看一下

最后是删除命名空间

hbase(main):026:0> drop_namespace 'bigdata'

ERROR: org.apache.hadoop.hbase.constraint.ConstraintException: Only empty namespaces can be removed. Namespace bigdata has 1 tables
        at org.apache.hadoop.hbase.master.procedure.DeleteNamespaceProcedure.prepareDelete(DeleteNamespaceProcedure.java:217)
        at org.apache.hadoop.hbase.master.procedure.DeleteNamespaceProcedure.executeFromState(DeleteNamespaceProcedure.java:78)
        at org.apache.hadoop.hbase.master.procedure.DeleteNamespaceProcedure.executeFromState(DeleteNamespaceProcedure.java:45)
        at org.apache.hadoop.hbase.procedure2.StateMachineProcedure.execute(StateMachineProcedure.java:194)
        at org.apache.hadoop.hbase.procedure2.Procedure.doExecute(Procedure.java:962)
        at org.apache.hadoop.hbase.procedure2.ProcedureExecutor.execProcedure(ProcedureExecutor.java:1662)
        at org.apache.hadoop.hbase.procedure2.ProcedureExecutor.executeProcedure(ProcedureExecutor.java:1409)
        at org.apache.hadoop.hbase.procedure2.ProcedureExecutor.access$1100(ProcedureExecutor.java:78)
        at org.apache.hadoop.hbase.procedure2.ProcedureExecutor$WorkerThread.run(ProcedureExecutor.java:1979)

For usage try 'help "drop_namespace"'

Took 0.9124 seconds

发现它报错了，这个和MySQL一样，命名空间有表是不能被删除的，因此我们首先disable掉所有表，然后删除所有表，最后drop_namespace

2.2.3 DML

首先查看一下put的用法

hbase(main):003:0> help 'put'
Put a cell 'value' at specified table/row/column and optionally
timestamp coordinates.  To put a cell value into table 'ns1:t1' or 't1'
at row 'r1' under column 'c1' marked with the time 'ts1', do:

  hbase> put 'ns1:t1', 'r1', 'c1', 'value'
  hbase> put 't1', 'r1', 'c1', 'value'
  hbase> put 't1', 'r1', 'c1', 'value', ts1
  hbase> put 't1', 'r1', 'c1', 'value', {ATTRIBUTES=>{'mykey'=>'myvalue'}}
  hbase> put 't1', 'r1', 'c1', 'value', ts1, {ATTRIBUTES=>{'mykey'=>'myvalue'}}
  hbase> put 't1', 'r1', 'c1', 'value', ts1, {VISIBILITY=>'PRIVATE|SECRET'}

The same commands also can be run on a table reference. Suppose you had a reference
t to table 't1', the corresponding command would be:

  hbase> t.put 'r1', 'c1', 'value', ts1, {ATTRIBUTES=>{'mykey'=>'myvalue'}}

解释：

ns1:t1指定一张表，不写ns1默认default
r1是Row Key
c1是列族，一般这个时候会加入列，如：info:name
value插入的数据

put 'student','1001','info1:name','张三'

查看表两种方法scan和get，同理首先help 'scan'

Some examples:

  hbase> scan 'hbase:meta'
  hbase> scan 'hbase:meta', {COLUMNS => 'info:regioninfo'}
  hbase> scan 'ns1:t1', {COLUMNS => ['c1', 'c2'], LIMIT => 10, STARTROW => 'xyz'}
  hbase> scan 't1', {COLUMNS => ['c1', 'c2'], LIMIT => 10, STARTROW => 'xyz'}
  hbase> scan 't1', {COLUMNS => 'c1', TIMERANGE => [1303668804000, 1303668904000]}
  hbase> scan 't1', {REVERSED => true}
  hbase> scan 't1', {ALL_METRICS => true}
  hbase> scan 't1', {METRICS => ['RPC_RETRIES', 'ROWS_FILTERED']}
  hbase> scan 't1', {ROWPREFIXFILTER => 'row2', FILTER => "
    (QualifierFilter (>=, 'binary:xyz')) AND (TimestampsFilter ( 123, 456))"}
  hbase> scan 't1', {FILTER =>
    org.apache.hadoop.hbase.filter.ColumnPaginationFilter.new(1, 0)}
  hbase> scan 't1', {CONSISTENCY => 'TIMELINE'}
  hbase> scan 't1', {ISOLATION_LEVEL => 'READ_UNCOMMITTED'}
  hbase> scan 't1', {MAX_RESULT_SIZE => 123456}

最简单的直接跟表名，当然可以添加过滤器过滤条件（在命令行写怕是疯了）

hbase(main):008:0> scan 'student'
ROW                                    COLUMN+CELL
 1001                                  column=info1:name, timestamp=1593241775973, value=\xE5\xBC\xA0\xE4\xB8\x89
1 row(s)
Took 0.0844 seconds

数据会自动增加一个时间戳，请忽略value（远程连接工具编码格式问题，影响不大）
第二种方法get

  hbase> get 'ns1:t1', 'r1'
  hbase> get 't1', 'r1'
  hbase> get 't1', 'r1', {TIMERANGE => [ts1, ts2]}
  hbase> get 't1', 'r1', {COLUMN => 'c1'}
  hbase> get 't1', 'r1', {COLUMN => ['c1', 'c2', 'c3']}
  hbase> get 't1', 'r1', {COLUMN => 'c1', TIMESTAMP => ts1}
  hbase> get 't1', 'r1', {COLUMN => 'c1', TIMERANGE => [ts1, ts2], VERSIONS => 4}
  hbase> get 't1', 'r1', {COLUMN => 'c1', TIMESTAMP => ts1, VERSIONS => 4}
  hbase> get 't1', 'r1', {FILTER => "ValueFilter(=, 'binary:abc')"}
  hbase> get 't1', 'r1', 'c1'
  hbase> get 't1', 'r1', 'c1', 'c2'
  hbase> get 't1', 'r1', ['c1', 'c2']
  hbase> get 't1', 'r1', {COLUMN => 'c1', ATTRIBUTES => {'mykey'=>'myvalue'}}
  hbase> get 't1', 'r1', {COLUMN => 'c1', AUTHORIZATIONS => ['PRIVATE','SECRET']}
  hbase> get 't1', 'r1', {CONSISTENCY => 'TIMELINE'}
  hbase> get 't1', 'r1', {CONSISTENCY => 'TIMELINE', REGION_REPLICA_ID => 1}

hbase(main):010:0> get 'student','1001'
COLUMN                                 CELL
 info1:name                            timestamp=1593241775973, value=\xE5\xBC\xA0\xE4\xB8\x89
1 row(s)
Took 0.0641 seconds

总结：get最大可以指定到row key，最小可以指定列

细节一波，首先添加一些数据

hbase(main):011:0> put 'student','1001','info1:sex','nan'
Took 0.0130 seconds
hbase(main):012:0> put 'student','1001','info2:addr','anhui'
Took 0.0208 seconds
hbase(main):013:0> put 'student','1002','info1:name','lisi'
Took 0.0074 seconds
hbase(main):014:0> put 'student','1002','info1:sex','nv'
Took 0.0082 seconds
hbase(main):015:0> put 'student','1003','info1:name','wangwu'
Took 0.0057 seconds
hbase(main):016:0> scan 'student'
ROW                                    COLUMN+CELL
 1001                                  column=info1:name, timestamp=1593241775973, value=\xE5\xBC\xA0\xE4\xB8\x89
 1001                                  column=info1:sex, timestamp=1593242822073, value=nan
 1001                                  column=info2:addr, timestamp=1593242848437, value=anhui
 1002                                  column=info1:name, timestamp=1593242882626, value=lisi
 1002                                  column=info1:sex, timestamp=1593242890679, value=nv
 1003                                  column=info1:name, timestamp=1593242899920, value=wangwu
3 row(s)
Took 0.0123 seconds

列名可以在添加数据的时候动态增加
列名只和row key有关，虽然scan出很多行，但最终它就是3条数据

看下面的语句

hbase(main):018:0> scan 'student',{STARTROW=>'1001',STOPROW=>'1003'}
ROW                                    COLUMN+CELL
 1001                                  column=info1:name, timestamp=1593241775973, value=\xE5\xBC\xA0\xE4\xB8\x89
 1001                                  column=info1:sex, timestamp=1593242822073, value=nan
 1001                                  column=info2:addr, timestamp=1593242848437, value=anhui
 1002                                  column=info1:name, timestamp=1593242882626, value=lisi
 1002                                  column=info1:sex, timestamp=1593242890679, value=nv
2 row(s)
Took 0.0401 seconds

它是左闭右开，当然STOPROW不写或者STARTROW不写结果应该能猜出来，参考java的subString
看下面的语句

put 'student','10010','info1:name','zhaoliu'

这时候我再scan会返回什么，2秒钟考虑

hbase(main):020:0> scan 'student'
ROW                                    COLUMN+CELL
 1001                                  column=info1:name, timestamp=1593241775973, value=\xE5\xBC\xA0\xE4\xB8\x89
 1001                                  column=info1:sex, timestamp=1593242822073, value=nan
 1001                                  column=info2:addr, timestamp=1593242848437, value=anhui
 10010                                 column=info1:name, timestamp=1593243313017, value=zhaoliu
 1002                                  column=info1:name, timestamp=1593242882626, value=lisi
 1002                                  column=info1:sex, timestamp=1593242890679, value=nv
 1003                                  column=info1:name, timestamp=1593242899920, value=wangwu
4 row(s)
Took 0.0162 seconds

猜对了吗，Row Key是按字典序进行排序，和插入顺序无关

这个时候工位旁边的小伙伴问了我一句，HBase的数据到底是怎么存的，存在哪里？
还记得当时的配置文件

<property>
	<name>hbase.rootdir</name>
	<value>hdfs://master:9000/HBase</value>
</property>

没错存在HDFS的/HBase

继续追，看到了什么，没错就是namespace

再追一次你就能看到表了（不截图了），不要放弃继续追

看着背影确实是个美女，走进一看懵了吧，两个隐藏文件夹，还有一个不知道是什么的文件夹，不要着急，如果我告诉你它是一个Region呢？

是不是一模一样？那就继续追吧

看到了什么，没错你看到列族了，如果你是第一次使用HBase，刚创建的表，添加了屈指可数的数据，那我劝你就追到这吧，因为里面是空的…没错因为此时的数据还在内存中，没有到刷写(flush)的阶段。（你可以等一个小时自动刷，当然手动刷也是支持的）

现在插播改数据操作
前面说过改数据也是put只要我的时间戳比原来的大就能实现覆盖，注意是覆盖不是删除原来的数据哟

put 'student','1002','info1:name','lisi666'

hbase(main):023:0> scan 'student'
ROW                                    COLUMN+CELL
 1001                                  column=info1:name, timestamp=1593241775973, value=\xE5\xBC\xA0\xE4\xB8\x89
 1001                                  column=info1:sex, timestamp=1593242822073, value=nan
 1001                                  column=info2:addr, timestamp=1593242848437, value=anhui
 10010                                 column=info1:name, timestamp=1593243313017, value=zhaoliu
 1002                                  column=info1:name, timestamp=1593244813675, value=lisi666
 1002                                  column=info1:sex, timestamp=1593242890679, value=nv
 1003                                  column=info1:name, timestamp=1593242899920, value=wangwu
4 row(s)
Took 0.0148 seconds

下面我来证明一下，原来的数据还在内存中

hbase(main):025:0> scan 'student',{RAW=>true,VERSIONS=>10}
ROW                                    COLUMN+CELL
 1001                                  column=info1:name, timestamp=1593241775973, value=\xE5\xBC\xA0\xE4\xB8\x89
 1001                                  column=info1:name, timestamp=1593241639593, value=\xE5\xBC\xA0\xE4\xB8\x89
 1001                                  column=info1:sex, timestamp=1593242822073, value=nan
 1001                                  column=info2:addr, timestamp=1593242848437, value=anhui
 10010                                 column=info1:name, timestamp=1593243313017, value=zhaoliu
 1002                                  column=info1:name, timestamp=1593244813675, value=lisi666
 1002                                  column=info1:name, timestamp=1593242882626, value=lisi
 1002                                  column=info1:sex, timestamp=1593242890679, value=nv
 1003                                  column=info1:name, timestamp=1593242899920, value=wangwu
4 row(s)
Took 0.0177 seconds

上面的命令就是查看10个版本以内的所有数据，现在相信你的数据并没有被立刻删除，只是给你返回最大的时间戳数据，让你以为我把你数据删了
如果你还是没有明白其中的道理，那再来一个例子
首先get一波lisi666，记住它的时间戳

hbase(main):030:0> get 'student','1002','info1:name'
COLUMN                                 CELL
 info1:name                            timestamp=1593245367468, value=lisi666
1 row(s)
Took 0.0155 seconds

上面看到的put例子可以指定时间戳，那我们时间戳修改到比lisi666小一丢丢看看

 put 'student','1002','info1:name','lisi666777',1593245367467

我们再get一波

hbase(main):033:0> get 'student','1002','info1:name'
COLUMN                                 CELL
 info1:name                            timestamp=1593245367468, value=lisi666
1 row(s)
Took 0.0343 seconds

发现数据并没有被修改，那么lisi666777到底有没有被插入进去呢？

现在明白HBase是怎么操作了的吧！
最后一个DDL——删除操作

写在前面删除操作delete，我觉得HBase的程序员在封装API到Shell时抽风了，导致Shell中的delete设计很不合理

老规矩先查help

hbase(main):041:0> help 'delete'
Put a delete cell value at specified table/row/column and optionally
timestamp coordinates.  Deletes must match the deleted cell's
coordinates exactly.  When scanning, a delete cell suppresses older
versions. To delete a cell from  't1' at row 'r1' under column 'c1'
marked with the time 'ts1', do:

  hbase> delete 'ns1:t1', 'r1', 'c1', ts1
  hbase> delete 't1', 'r1', 'c1', ts1
  hbase> delete 't1', 'r1', 'c1', ts1, {VISIBILITY=>'PRIVATE|SECRET'}

The same command can also be run on a table reference. Suppose you had a reference
t to table 't1', the corresponding command would be:

  hbase> t.delete 'r1', 'c1',  ts1
  hbase> t.delete 'r1', 'c1',  ts1, {VISIBILITY=>'PRIVATE|SECRET'}

看到帮助文档delete至少要三个参数，居然还要我传一个时间戳…但实际使用过程中发现时间戳可以不用写
先把1001的名字删了（就是我写中文，然后不识别）

delete 'student','1001','info1:name'

hbase(main):046:0> scan 'student'
ROW                                    COLUMN+CELL
 1001                                  column=info1:sex, timestamp=1593242822073, value=nan
 1001                                  column=info2:addr, timestamp=1593242848437, value=anhui
 1002                                  column=info1:name, timestamp=1593245367468, value=lisi666
 1002                                  column=info1:sex, timestamp=1593242890679, value=nv
 1003                                  column=info1:name, timestamp=1593242899920, value=wangwu
3 row(s)
Took 0.0112 seconds

确实是删了，和put的时候考虑一样，这台数据是不是真的被删了，根据最开始说的逻辑，应该是没有被删除，只是删除的时间戳大于原先的。

证明HBase确实是这么做的，当查询时，发现type=Delete且时间戳最大，这个时候就不会返回value给你造成了被删除的错觉。刚才看到了删除操作也可以传一个时间戳，那我们在熟悉一下HBase这样的操作逻辑。
首先put一个值进去

put 'student','1001','info1:name','zhangsan'

这个时候肯定能get到

hbase(main):050:0> get 'student','1001'
COLUMN                                 CELL
 info1:name                            timestamp=1593253497595, value=zhangsan
 info1:sex                             timestamp=1593242822073, value=nan
 info2:addr                            timestamp=1593242848437, value=anhui
1 row(s)
Took 0.0139 seconds

现在我们传一个比当前put操作小一丢丢的时间戳

delete 'student','1001','info1:name',1593253497594

我们再查看一波

hbase(main):052:0> get 'student','1001'
COLUMN                                 CELL
 info1:name                            timestamp=1593253497595, value=zhangsan
 info1:sex                             timestamp=1593242822073, value=nan
 info2:addr                            timestamp=1593242848437, value=anhui
1 row(s)
Took 0.0151 seconds

结果证明并没有被删除。关于delete就说到这，下面来吐糟一波delete
我们delete一直是用的都是定位到列，那么我们可以定位到列族，直接删除列族可不可以呢

hbase(main):053:0> delete 'student','1001','info1'
Took 0.0119 seconds
hbase(main):054:0> get 'student','1001'
COLUMN                                 CELL
 info1:name                            timestamp=1593253497595, value=zhangsan
 info1:sex                             timestamp=1593242822073, value=nan
 info2:addr                            timestamp=1593242848437, value=anhui
1 row(s)
Took 0.0103 seconds

结果是没有删除成功这时候又有一个疑问我可以直接根据row key删除吗?

hbase(main):057:0> delete 'student','1001'

ERROR: wrong number of arguments (2 for 3)

For usage try 'help "delete"'

Took 0.0020 seconds

直接给我报错？？？好吧！果然shell就是给你玩一玩，到了API操作都是可以做到的。
在MySQL是不是有个truncat直接清空表，当然HBase也是有的

hbase(main):058:0> truncate 'student'
Truncating 'student' table (it may take a while):
Disabling table...
Truncating table...
Took 2.3316 seconds

这个命令设计的就很人性化，先把你表停了在清空数据。

2.3 浅谈VERSIONS

前面在修改表结构的时候说到过VERSIONS我们设置成了3，这样HBase给我们保留最大的个数为3，举个例子吧。

put 'student','1005','info1:name','zhangsan'
put 'student','1005','info1:name','lisi'
put 'student','1005','info1:name','wangwu'
put 'student','1005','info1:name','zhaoliu'

我么可以通过下面命令获取数据

hbase(main):018:0> get 'student','1005',{COLUMN=>'info1:name',VERSIONS=>4}
COLUMN                                 CELL
 info1:name                            timestamp=1593260002688, value=zhaoliu
 info1:name                            timestamp=1593259997155, value=wangwu
 info1:name                            timestamp=1593259766686, value=lisi
1 row(s)
Took 0.0493 seconds

发现了什么，get 'student','1005',{COLUMN=>'info1:name',VERSIONS=>4}设置成4不管用，真正看的是建表时设置的VERSIONS，此时student表的VERSIONS是3（默认为1），这就意味着保存数据的最大数是3，即使你存了很多份，最终只会给你保留最新的三个版本的数据，当然你只存一份就只能给你保存一份。

到这里HBase的Shell就结束了，下面将是HBase的原理部分

三、HBase进阶

3.1 架构原理

我们知道HBase依赖HDFS也依赖Zookeeper，那么首先出来的应该是HDFS，这是他底层的存储地，随便画几个DataNode无所谓，然后HBase还依赖Zookeeper，因此我们在启动HBase之前需要先启动它们。那接下轮到HBase启动了，HBase需要启动两大进程HMaster和HRegionServer，这个Master工作太累了，它需要把某些工作交给Zookeeper，后面在说具体都交给些什么任务。Master主要管理DDL相关的操作，操作表，操作命名空间，HRegionServer则是管理DML数据层面的操作，涉及数据的增删改查，同时Master也会管理HRegionServer，因为我的Region到底是给哪个HRegionServer维护由Master说的算，万一某个HRegionServer挂掉了，也需要Master重新分配给其它人来维护。
在谈HRegionServer之前还有一个HLog，这个又叫预写入日志Write-Ahead logfile在/HBase/wal文件夹中，相当于HDFS的edits文件，由于数据一开始并没有落盘存在内存中，若内存崩掉数据就会丢失，HLog会实时记录操作。接下来就是一堆HRegion，一个表对应一个或者多个HRegion，HRegion里面就是列族，也就是Store，它们的存储是隔离的，就像上面看的info1,info2，对于HBase来说它的列就是数据，在插入数据之前是没有列这个概念的，随着插入数据而存在。
下面来看看Mem Store，主要是做刷写操作（flush），上面我们做个一个操作证明HBase是按照Row Key的字典序排列的，因此数据首先存到Mem Store中进行排序，等待刷写时机将其写入磁盘中这就是HFile，因此将来会有很多个文件，当触发全局刷写条件（即HRegionServer的刷写条件）时可能有的Mem Store只有几k，就会产生很多小文件，这时候HBase就会做合并（compact）操作，当合并的文件过大又会做拆分（split）操作。
关于Store File和HFile的关系：HFile和.txt，.csv等同等级，是一种存储格式，Store File只是我们对刷写下来的文件的一种命名，这个文件以HFile格式存储，虽然Store File是HBase的一个组件，但它真正活跃在DataNode上，作用在磁盘上，然后就是一系列的HDFS读写操作。
那么Zookeeper到底为HMaster做了什么？如果是DDL那没话说客户端需要请求HMaster，若进行DML操作，客户端会请求Zookeeper然后直接到HRegionServer不经过HMaster，即使HMaster挂了，也可以进行读写操作，因此Zookeeper作为HBase接待客户端的第一管家，分担HBase的DML操作。

3.2 写流程

对于HBase来说，它的读比写慢

在写数据之前，首先肯定有一个客户端client，Zookeeper、HDFS、HBase得起来且wal、region、store都已经存在，这有这些前置条件成立才能进行写操作
假设我们需要put 'student','1001','info1:name','zhangsan'，首先client会去Zookeeper拿meta表所在的RegionServer，那么meta表到底存了什么内容，其实它存了一些表的元数据，比如我们要put student那么我的学生表到底存在哪个HRegionServer上就记录在meta表上。

大致能看到我的meta表存在slave02节点上，那么client就会到这个节点上找meta表缓存一下（下次直接找缓存，若缓存没有就继续找zk）并且返回student表位置，接下来client就找到了我们需要插入的表，与指定节点建立连接后首先写到HLog中，对于client来说任务就结束了，它认为我数据写到内存中就不会丢失，不需要等到数据flush操作。
下面我们看看meta表内容到底是什么

它记录了所有表元数据，因此client主要就是取红线框住的部分与其建立连接。老版本的HBase还有一个-root-表，它是基于meta也要做切分考虑，因此老版本的逻辑是client向Zookeeper取-root-表，这个表存的是meta表的位置，然后从meta表取将要操作的表的位置信息。设计之初HBase害怕meta表过大所以让他加入切分逻辑，因此需要额外一张表来维护，但实际开发发现meta表根本就达不到切分要求（大于10G），因此新版本HBase摒弃了-root-表，在表进行切分操作时首先判断是不是meta表，让meta表不进入切分逻辑，这样仅用Zookeeper节点去维护即可。

可以看到老版本（0.90.x）还让你去扫描-root-表，和我们扫描meta表是一样的逻辑

3.3 源码分析写流程

HBase的源码写的是真的好

追HRegion这个类，因为最终的操作是一个个Region，可以搜一波STEP 1

第一步：获取锁。主要是为了读写分离，采用的是java.util.concurrent.locks.Lock

第二步：更新时间戳。更新的是服务端时间，因此即使windows时间真的无法与linux同步，我们调用API时就不传入时间戳即可。

第三步：构建wal文件

第四步：将记录操作的wal追加到最终的wal中，注意这里它没有选择同步，即没有写到HDFS中。

第五步：回写到memstore，what？memstore在哪？它是在内存中呀！难道它不怕这个时候断电，导致数据丢失吗？

第六步：释放锁，也就意味着写流程结束。这时候所有的东西都在内存中。

第七步：同步wal，即将其写到HDFS上。

最大的疑问：为什么HBase选择在写流程结束之后同步wal文件呢？万一断电岂不可惜，这里它做了一个事务的操作，看下面代码

当同步失败的时候，删除写入memstore的数据并且回滚，注意这个逻辑是定义在finally的

总结：

client访问zookeeper，从中获取hbase:meta表所在的HResgionServer
访问对应的HResgionServer，获取hbase:meta写入缓存并从中去读预操作表在哪个HResgionServer哪个Region中
与对应的目标节点通讯
将操作追加到wal中
将数据写入memstore中，并在其中进行排序
同步wal，返回ack，client写操作到此结束
等待memstore刷写时机，将数据刷写到HFile

3.4 Flush

3.4.1 HRegionServer级别的flush

内存在一定条件下进行刷写操作，那么我们想到的条件有哪些？无非就是时间和大小。注意不同的store对应着不同的列族，即最终存储再不同的文件夹下面（隔离存储，可以提高效率），而之后的合并操作也只是对一个文件夹下的Store File进行合并。下面我们来看看刷写的时机都有哪些？
看一下HBase的默认配置文件
hbase.regionserver.global.memstore.size

当一个HRegionServer的全部memstore总量达到了jvm默认堆大小的40%时，触发HRegionServer级别的flush刷写，阻塞客户端的读写，HBase认为达到了这个级别很容易引起内存崩溃，因此它会暂停客户端的所有操作直到刷写全部完成。
hbase.regionserver.global.memstore.size.lower.limit

默认值为hbase.regionserver.global.memstore.size的95%，当一个HRegionServer中memstore总量达到这个数值HBase就开始读写，但是不会阻塞客户端读写操作，和hbase.regionserver.global.memstore.size搭配使用的意思就是，当达到hbase.regionserver.global.memstore.size.lower.limit时开始刷写，但若客户端的写操作速度大于刷写操作导致memstore总量持续增加达到了hbase.regionserver.global.memstore.size规定的大小，这就意味着客户端写数据太快，必须暂停一下等待flush完成；若客户端写操作速度小于刷写操作时，memstore总量下降直到低于hbase.regionserver.global.memstore.size.lower.limit刷写操作结束。
hbase.regionserver.optionalcacheflushinterval

一个小时自动刷写，若设置为0则关闭此功能，是一种“优先级略低的刷写”，这是什么意思呢？比如当客户端持续的进行写操作，但是写的数据特别小一个小时都没有达到默认堆的40%的95%，是不会触发刷写操作。这一个小时是指当前HRegionServer即这个节点内存最后一次编辑时间，对应的场景是长时间不操作，即这一个小时都没有新的数据进来那就进行刷写操作

HRegionServer级别的flush会按照memstore的大小进行顺序刷写，都要去刷写。

3.4.2 HRegion级别的flush

hbase.hregion.memstore.flush.size

当单个memstore达到128M时HRegion进行刷写操作，将其写入Store File中
还有一个老版本的配置hbase.regionserver.max.logs，即控制wal的大小，防止内存特别大，那么达到40%才进行刷写，那得刷多少数据呀。可以说wal和memstore是对等的。但目前版本这个配置不对用户开放，可以在HBase官网文档中找到。

3.5 读流程

和写流程类似，首先client向Zookeeper拿到meta表所在的HRegionServer，去对应的节点读取meta表并返回将要操作的表所在的HRegionServer并且写入缓存以便下次使用，从对应的节点去读取文件，在读流程中会有一个Block Cache将最新读取的内容写入缓存中，使用的是是LRU算法，因此读取数据就面临着三个选择Block Cache（内存）、MenStore（内存）、StoreFile（磁盘），~~一般来说能从内存读绝不从磁盘读，例如先在内存找没有则去磁盘找，并且写入缓存中，但对于HBase来说不是这样的~~ ，这样做将会导致非常严重的后果。
上面的操作忽略了HBase最重要的元素——时间戳，设想下面这种情况，put 'stu','1001','info:name','zhangsan',timestmap1，这个时候数据大概率没有落盘，那么我手动flush将其写入HDFS中，随后我再次put 'stu','1001','info:name','lisi',timestmap2且timestmap1 > timestmap2，这个时候我通过get获取1001的数据，结果应该是zhangsan，但zhangsan此时是在磁盘中，内存中的却是lisi，是不是出问题了…
真正的操作是，同时读内存和磁盘并在Block Cache中进行比较，返回时间戳大的数据，同时存到缓存中方便下次读取。那么Block Cache的作用是什么？当Block Cache有的那个文件将不再扫磁盘的那个文件，注意是不扫缓存的那个文件，磁盘该扫还得扫，因此无论如何都要扫磁盘，当数据量大的时候甚至做全盘扫描，这就对应着前面说的那句话 HBase的写比读快

3.6 StoreFile Compaction

总结HBase的刷写逻辑发现，这种机制的刷写会产生很多小文件，因为最小的刷写都是HRegion级别的，一个HRegion会存在很多个Store对应着很多memstore存在刷写时部分memstore数据量少的情况，而HDFS是不擅长管理小文件的，因此HBase必须得有处理小文件的机制，即compact。HBase合表的机制分为两种分别是Minor Compaction和Major Compaction,它们的区别在于Minor Compaction属于小合并，将相邻的几个小文件合并成稍微大一点的文件（相邻的的意思就是在一个store中，因为不同的store是分文件夹存储，即仅合并一个文件夹下的），而Major Compaction属于大合并，不管文件大小全部合成一个文件。它们最大的区别是Minor Compaction合并不会删除数据，即一些被打了Delete标记或旧VERSIONS文件是不会删除的，而Major Compaction合并文件时会对其进行删除操作，且官网用的词是rewrite重写，意思就是读到内存修改再写回磁盘，因此Major Compaction非常消耗资源。下面是Compaction的一些配置

默认配置是7天进行一次Major Compaction，一到这个时间点就触发，万一此时客户端正在进行大规模的读写操作将非常危险，因此建议设置为0，找一个合适的时间手动调用major_compact

当一个Store即一个文件夹下有三个文件时会自动触发Major compact，考虑到数据的一致性，并不会立刻删除合并前的文件即使你是手动触发合并操作，亲测虚拟机在2分钟后自动删除，当不手动触发时，也不会一旦到了三个文件就立刻合并，并没有关注过到底多长时间自动合并（估计得按小时计算）。

hbase(main):007:0> put 'student','1001','info1:name','zhangsan'
hbase(main):008:0> flush

通过这种方式让一个Region里面刷写出4个文件

吃个饭的时间都没有自动合并，于是我开始手动合并

hbase(main):014:0> compact 'student'

手动合并出一个文件（当文件数多于三个是，compact底层走的也是major_compact），静等几分钟合表前的数据就会被删除。

3.7 来点“恶心”的操作

根据上面的读写流程发现根本就没有master什么事，确实在关于数据的增删改查是不经过master的，因此下面我们试图kill掉HMaster进程测试是否能够继续进行curd操作。

此时HMaster已经被干掉了，然后启动客户端进行curd，发现并不影响我的操作

hbase(main):006:0> create 'stu','info'

ERROR: KeeperErrorCode = NoNode for /hbase/master

For usage try 'help "create"'

Took 0.0934 seconds

但是建表语句就会报错，且是Zookeeper的报错，因此之后的API操作只要连接Zookeeper即可

突然想到我漏了一个小的知识点，那就是flush也能删除数据，但和合表操作删除不太一样。可以做这样的实验，连续put两次数据让后一条数据覆盖前一条，然后手动flush表，此时再scan ‘stu’,{RAW=>true,VERSIONS=>10}，会发现原先的数据被删除了，但若你put一次flush一次就不会被删除，因此flush会根据设定的VERSIONS值删除内存中的数据，已经刷写到磁盘的就不归flush管。

3.8 Split

核心原理最后一部分

当持续进行合表操作时，表会越来越大，大到一定程度就要进行切分，那么切分也有它的时机。
hbase.hregion.max.filesize

任何列族超过这个大小（10G）对于老版本来说会将其一分为二，但是新版本（0.94版本之后）会有一个公式，当某个列族下所有文件超过min(hbase.hregion.max.filesize,hbase.hregion.memstore.flush.size*R^2)
即min(10G,128M*R^2)其中R为Region数，切分是按照Row Key。

HBase核心原理到此结束，另一篇博客将开启HBase实战及其优化

你可能感兴趣的:(笔记)

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
解决Obsidian写笔记中的＜img＞标签无法显示图片的问题全能全知者笔记
Obsidian中写md笔记如果使用标签会显示不出图案，后来才知道因为Obsidian的问题导致只能用绝对路径定位。所以我本人写了一个py插件，将md笔记里的img标签批量替换成Obsidian能够读取的形式。安装FixObsImgDpy:pipinstallFixObsImgDpy安装完成后在需要修复的md文件的父目录下运行命令:FixObsImgDpy就会自动修复父目录以下的全部md文件仓库
2021年周总结 03 Ruby之家
这周的生活过得也是比较快，因为暂时住的离公司有点距离，所以通勤时间相对较长一点，而在地铁上的一个半小时如何充分利用起来，则是我最近一直在思考的问题，2021年想让自己的生活都运行在计划中。(有时候自己想干一件事情就总是给自己找很多借口，想着以后怎么怎么样？然而哪有那么多的以后，能够方便当下的工作生活就立马执行就OK，这仅仅只是我此时想到背的很重的老人机笔记本电脑，也算是陪伴我快8年的—当时买的时候
2021-12-11 人生导演
今天读到佛学书籍的一段话：初学者很难直接体验到无我，但可以经常提醒自己：一切事物都是无我的。不断强化这个观念，也会相当有帮助。比如生病了我们一般会说：“我不舒服！我很痛！我很惨！”这时候如果我们提醒自己：没有我，只是这个肉体的某些部分、某些功能出了问题，不舒服、疼痛也只是一时的感受，而感受随时在变化。仅仅是知道没有一个实存的我在生病、在受苦。然后把“一切事物都是无我的”这句话，记到笔记上，并且朗读
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
LeetCode github集合，附CMU大神整理笔记 Wesley@ LeetCode github
GithubLeetCode集合本人所有做过的题目都写在一个java项目中，同步到github中了，算是见证自己的进步。github目前同步的题目是2020-09-17日之后写的题。之前写过的题会陆续跟新到github中。目前大概400个题目Github项目链接：https://github.com/sunliancheng/leetcode_github附上一份优秀的教材整合：这是卡内基梅隆(C
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro