THE WHY

HBase学习笔记（1）—— 知识点总结

HBase概述

HBase 基本架构

HBase安装部署启动

HBase Shell

HBase数据读写流程

HBase 优化

HBase概述

HBase是以 hdfs 为数据存储的，一种分布式、非关系型的、可扩展的 NoSQL 数据库

关系型数据库和非关系型数据库的区别：

关系型数据库和非关系型数据库是两种不同的数据库类型，它们在存储方式、数据结构、查询语言等方面存在显著差异。

存储方式和结构：

关系型数据库以二维表格形式存储数据，结构比较规整固定。

非关系型数据库的存储格式可以是key-value形式、文档形式、图片形式等，结构更加灵活和可扩展。

数据结构和表的关系：

关系型数据库最典型的数据结构是表，由二维表及其之间的联系所组成的一个数据组织。在关系型数据库中，必须定义好表和字段结构后才能添加数据。

非关系型数据库一般不确保遵照ACID标准的数据储存系统，可以是文档或键值对等，结构更加灵活。

优点和应用场景：

关系型数据库易于理解和维护，使用SQL语言通用，可用于复杂查询，适用于需要事务支持和复杂查询的应用。

非关系型数据库速度快，效率高，使用灵活，适用于需要大规模数据的读写和高并发访问的应用。

代表产品：

关系型数据库的主要代表有SQL Server，Oracle, Mysql, PostgreSQL等。

非关系型数据库的代表包括MongoDB、Cassandra、Redis等。

总体来说，关系型数据库和非关系型数据库各有优势和局限，选择哪种类型的数据库取决于具体的应用需求和场景。

逻辑结构

存储数据稀疏，数据存储多维，不同的行具有不同的列；数据存储整体有序，按照RowKey的字典序排列

物理存储结构

物理存储结构即为数据映射关系，而在概念视图的空单元格，底层实际根本不存储

像row_key11的name列，底层不进行存储

数据模型

Name Space

命名空间，类似于关系型数据库的 database 概念，每个命名空间下有多个表；HBase 两个自带的命名空间，分别是 hbase 和 default，hbase 中存放的是 HBase 内置的表，default表是用户默认使用的命名空间

Table

类似于关系型数据库的表概念。不同的是，HBase 定义表时只需要声明列族即可，不需要声明具体的列。因为数据存储是稀疏的，所以往HBase 写入数据时，字段可以动态、按需指定。因此，和关系型数据库相比，HBase 能够轻松应对字段变更的场景

Row

HBase 表中的每行数据都由一个 RowKey 和多个 Column（列）组成，数据是按照 RowKey的字典顺序存储的，并且查询数据时只能根据 RowKey 进行检索，所以 RowKey 的设计十分重要

Column

HBase 中的每个列都由 Column Family(列族)和 Column Qualifier（列限定符）进行限定，例如 info:name，info:age。建表时，只需指明列族，而列限定符无需预先定义

Time Stamp

用于标识数据的不同版本（version），每条数据写入时，系统会自动为其加上该字段，其值为写入HBase 的时间

Cell

由{rowkey, column Family：column Qualifier, timestamp} 唯一确定的单元。cell 中的数据全部是字节码形式存储

总结：

HBase 定义表时只需要声明列族即可，不需要声明具体的列，因为数据的存储是稀疏的；也因此能轻松应对字段变更的场景
HBase是NoSql数据库，数据的查询只能通过RowKey 进行检索，不能通过SQL语句查询
通过哪些字段可以唯一确定一条数据？ RowKey（行键）、Column Family(列族)、Column Qualifier（列限定符）、timestamp（数据写入HBase的时间）

HBase 基本架构

Master

实现类为 HMaster，通常部署在namenode上，负责监控集群中所有的 RegionServer 实例。主要作用如下：

（1）管理元数据表格 hbase:meta，接收用户对表格创建修改删除的命令并执行

（2）监控 region 是否需要进行负载均衡，故障转移和 region 的拆分。

通过启动多个后台线程监控实现上述功能：

①LoadBalancer 负载均衡器：

周期性监控 region 分布在 regionServer 上面是否均衡，由参数 hbase.balancer.period控制周期时间，默认 5 分钟。

②CatalogJanitor 元数据管理器：

定期检查和清理 hbase:meta 中的数据

③MasterProcWAL master 预写日志处理器：

把 master 需要执行的任务记录到预写日志 WAL 中，如果 master 宕机，让 backupMaster（高可用）读取日志继续工作

有关meta表格：

在meta表中进行元数据的存储，其表格式如下：

一共有三个列族：

查看表中具体存储的内容：

RowKey：组成格式为[table],[region start key],[region id])，即表名，region 起始位置和 regionID
info:regioninfo 为 region 信息，存储一个 HRegionInfo 对象
info:seqnumDuringOpen：打开表时的序列号；如果该属性未设置或设置为空字符串，则使用当前最大序列号作为起始序列号；否则，使用指定的序列号作为起始序列号

这个属性通常用于优化表的读取性能。通过将起始序列号设置为一个较大的值，可以跳过大量的早期数据，从而提高查询效率。但是，需要注意的是，如果指定的起始序列号过大，可能会导致错过一些重要的数据。因此，在使用该属性时需要谨慎选择起始序列号的值。

info:server：当前 region 所处的 RegionServer 信息，包含端口号
info:serverstartcode：当前 region 被分到 RegionServer 的起始时间

如果一个表处于切分的过程中，即 region 切分，还会多出两列 info：splitA 和 info：splitB，

存储值也是 HRegionInfo 对象，拆分结束后，删除这两列

什么时候客户端连接master？

在客户端对元数据进行操作的时候才会连接 master，如果对数据进行读写，直接连接zookeeper读取目录/hbase/meta-region-server 节点信息，会记录 meta 表格的位置。直接读取即可，不需要访问 master，这样可以减轻 master 的压力，相当于 master 专注 meta 表的写操作，客户端可直接读取 meta 表

Region Server

Region Server 实现类为 HRegionServer，通常部署在datanode上，主要作用如下:

（1）负责数据 cell 的处理，例如写入数据 put，查询数据 get 等

（2）拆分合并 region 的实际执行者，由 master 监控，由 regionServer 执行

如何理解Region？

Region是HBase中数据管理的基本单位，每个Region由其所属的表、第一行和最后一行组成，每个Region都有一个唯一的RegionID来标识；Region代表特定rowkey区间内的数据片段，每个Region存储着1到多个存储Store，每个Store对应Table中的一个ColumnFamily，并且每个Store中包含一个MemStore的写缓存

MemStore

写缓存，由于 HFile 中的数据要求是有序的，所以数据是先存储在 MemStore 中，排好序后，等到达刷写时机才会刷写到 HFile，每次刷写都会形成一个新的 HFile，写入到对应的文件夹 store 中

每一个region的store都要有一个单独的写缓存

WAL（预写日志）

由于数据要经 MemStore 排序后才能刷写到 HFile，但把数据保存在内存中会有很高的概率导致数据丢失，为了解决这个问题，数据会先写在一个叫做 Write-Ahead logfile 的文件中，然后再写入 MemStore 中。所以在系统出现故障的时候，数据可以通过这个日志文件重建

BlockCache

读缓存，每次查询出的数据会缓存在 BlockCache 中，方便下次查询

Zookeeper

HBase 通过 Zookeeper 来做 master 的高可用、记录 RegionServer 的部署信息、并且存储有 meta 表的位置信息。

HBase 对于数据的读写操作是直接访问 Zookeeper 的，在 2.3 版本推出 Master Registry模式，客户端可以直接访问 master。使用此功能，会加大对 master 的压力，减轻对 Zookeeper的压力

HDFS

HDFS 为 Hbase 提供最终的底层数据存储服务，同时为 HBase 提供高容错的支持

HBase安装部署启动

安装流程

前置要求：安装部署Hadoop及zookeeper，并启动
将安装包解压到某一目录下，如/opt/module

解压完成后文件目录如下：

配置环境变量：vim /etc/profile.d/my_env.sh(自定义的环境变量文件)，添加以下内容：

#HBASE_HOME
export HBASE_HOME=/opt/module/hbase #hbase的安装路径
export PATH=$PATH:$HBASE_HOME/bin

使用source指令使环境变量生效：source /etc/profile.d/my_env.sh
修改配置文件：（配置文件文档：https://hbase.apache.org/book.html#config.files）

1.修改hbase-env.sh文件，添加：export HBASE_MANAGES_ZK=false（意为不需要使用hbase中自身的zookeeper）

2.修改hbase-site.xml文件：



    hbase.cluster.distributed
    true




	hbase.zookeeper.quorum
	hadoop102,hadoop103,hadoop104




 hbase.rootdir
 hdfs://hadoop102:8020/hbase

3.修改regionservers文件，添加以下内容（部署regionservers的服务器）：

hadoop102
hadoop103
hadoop104

4.解决 HBase 和 Hadoop 的 log4j 兼容性问题，修改 HBase 的 jar 包，使用 Hadoop 的 jar 包：mv /opt/module/hbase/lib/client-facing-thirdparty/slf4j-reload4j-1.7.33.jar /opt/module/hbase/lib/client-facing-thirdparty/slf4j-reload4j-1.7.33.jar.bak

.bak是备份文件，这里将hbase的log4j设置为备份，就会自动使用hadoop的log4j文件

启动

单点启动：bin/hbase-daemon.sh start master； bin/hbase-daemon.sh start regionserver
群启：bin/start-hbase.sh
停止：bin/stop-hbase.sh
通过jps查看是否启动成功：
启动成功后查看 HBase 管理页面（默认端口16010）：http://hadoop102:16010

注意：hbase安装过程中并没有指定master部署在哪台服务器上，而是在哪台服务器上群启或单点启动master，master就在哪台服务器上工作；

高可用

在 conf 目录下创建 backup-masters 文件：touch conf/backup-masters
在 backup-masters 文件中配置高可用 HMaster 节点（hadoop103）：echo hadoop103 > conf/backup-masters
重启 hbase

HBase Shell

进入客户端命令行：bin/hbase shell

查看帮助命令：help

主要使用的命令有 namespace 命令空间相关，DDL 创建修改表格，DML 写入读取数据

namespace

创建命名空间：create_namespace name

查看所有的命名空间：list_namespace

查看命令如何使用：help 'create_namespace'

DDL

创建表

create 'ns1:t1', {NAME => 'f1', VERSIONS => 5}

ns1：命名空间；t1：表名；{}表示一个列族，NAME：列族名称，VERSION：数据维护的版本数（如果不写默认为1

注意：如果不设置命名空间，默认在default命名空间下创建表；

查看create语法：help 'create'

查看表

list：可以看到所有的表及其所在的命名空间

describe：查看一个表的详情

注意：如果不写命名空间，默认从default命名空间下查找表；

修改表

alter 'ns1:t1', {NAME => 'f1', VERSIONS => 3}

修改和添加列族都通过alter实现；

如果该列族之前已经存在，则覆盖之前的信息来进行修改；如果不存在，则新增列族

删除某一列族：alter 'student1', NAME => 'f1', METHOD => 'delete'

或者：alter 'student1', 'delete' => 'f1'

删除表

shell 中删除表格,需要先将表格状态设置为不可用：disable 'student1'

然后再删除表：drop 'student1'

DML

写入数据

put：

r1：行键值；

c1：cell名称，一般是"列族名：列名"的格式

ts1：timestamp时间戳，推荐不写，默认使用当前的系统时间

注意：如果重复写入相同 rowKey，相同列的数据，会写入多个版本进行覆盖

读取数据

get

获取某一行的数据：get 'ns1:t1', 'r1'

根据列进行过滤：get 't1', 'r1', {COLUMN => 'c1'}

这里的'c1'是列族:列限定符的形式

多列过滤：get 't1', 'r1', {COLUMN => ['c1', 'c2', 'c3']}

指定时间范围进行过滤：get 't1', 'r1', {TIMERANGE => [ts1, ts2]}

指定版本进行过滤：get 't1', 'r1', {COLUMN => 'c1', VERSIONS => 4}

最多能够读取当前列族设置的维护版本数条数据

比如说，bigdata:student的info这一列族设置的维护版本数为5

接下来向同一RowKey中依次插入6条数据：

put 'bigdata:student','1001','info:name','zhangsan'

put 'bigdata:student','1001','info:name','lisi'

put 'bigdata:student','1001','info:name','wangwu'

put 'bigdata:student','1001','info:name','4'

put 'bigdata:student','1001','info:name','5'

put 'bigdata:student','1001','info:name','6'

接下来查询info:name这一cell中的数据：

get 'bigdata:student','1001' , {COLUMN => 'info:name', VERSIONS => 1}

可以看到value为6，即最新插入的数据；

如果VERSIONS为5，则可以查询到最新的5条数据：

但VERSIONS再增加，也查询不到'zhangsan'这条数据了，因为族设置的维护版本数为5

scan

用于扫描数据，可以读取多行数据；可以通过startRow 和stopRow 来控制读取的数据，默认范围左闭右开

scan 'bigdata:student',{STARTROW => '1001',STOPROW => '1002'}

删除数据

delete：表示删除一个版本的数据，即为 1 个 cell，不填写版本默认删除最新的一个版本

语法：delete 'bigdata:student','1001','info:name'

deleteall：表示删除所有版本的数据，即为当前行当前列的多个 cell

语法：deleteall 'bigdata:student','1001','info:name'

注意：执行命令会标记数据为要删除，不会直接将数据彻底删除，删除数据只在特定时期清理磁盘时进行

HBase数据读写流程

写流程

（1）首先访问 zookeeper，获取 hbase:meta 表由哪个 Region Server管理；

meta表的修改是由master负责的，而所有regionServer都可以读取meta表中的数据

（2）访问对应的 Region Server，获取 hbase:meta 表，将其缓存到连接中，作为连接属性 MetaCache，由于 Meta 表格具有一定的数据量，导致了创建连接比较慢；之后使用创建的连接获取 Table，这是一个轻量级的连接，只有在第一次创建的时候会检查表格是否存在而访问 RegionServer，之后在获取 Table 时不会访问 RegionServer；

连接需要保存读取的meta表，所以创建的连接是重量级的

（3）调用Table的put方法写入数据，此时还需要解析RowKey，对照缓存的MetaCache，查看具体写入的位置有哪个 RegionServer；

（4）将数据顺序写入（追加）到 WAL，此处写入是直接落盘的，并设置专门的线程控制 WAL 预写日志的滚动（类似 Flume）；

（5）根据写入命令的 RowKey 和 ColumnFamily 查看具体写入到哪个 MemStore，并且在 MemStore中排序；

（6）向客户端发送 ack；

（7）等达到 MemStore 的刷写时机后，将数据刷写到对应的 store 中

MemStore Flush

MemStore 刷写由多个线程控制，条件互相独立

文件大小限制

当某个 memstroe 的大小达到了 hbase.hregion.memstore.flush.size（默认值 128M），其所在 region 的所有 memstore 都会刷写
当 memstore 的大小达到了hbase.hregion.memstore.flush.size*hbase.hregion.memstore.block.multiplier（默认值4）时，会向store刷写，同时阻止继续往该 memstore 写数据

占用内存限制

由 HRegionServer 中的属性 MemStoreFlusher 内部线程 FlushHandler 控制。标准为LOWER_MARK（低水位线）和 HIGH_MARK（高水位线），意义在于避免写缓存使用过多的内存造成 OOM（Out Of Memory）

OOM：当Java虚拟机因为没有足够的内存来为对象分配空间，并且垃圾回收器也已经没有空间可回收时，就会抛出这个错误

当 region server 中 memstore 的总大小达到低水位线java_heapsize * hbase.regionserver.global.memstore.size（默认值 0.4）* hbase.regionserver.global.memstore.size.lower.limit（默认值 0.95），region 会按照其所有 memstore 的大小顺序（由大到小）依次进行刷写。直到 region server中所有 memstore 的总大小减小到上述值以下
当 region server 中 memstore 的总大小达到高水位线java_heapsize hbase.regionserver.global.memstore.size（默认值 0.4）时，会同时阻止继续往所有的 memstore 写数据

用时限制

为了避免数据过长时间处于内存之中，到达自动刷写的时间，也会触发 memstoreflush

由HRegionServer 的属性 PeriodicMemStoreFlusher 控制进行，由于重要性比较低，5min才会执行一次（注意是执行一次判断是否需要刷写）

自动刷新的时间间隔由该属性进行配置：hbase.regionserver.optionalcacheflushinterval（默认1 小时）

文件数量限制

当 WAL 文件的数量超过 hbase.regionserver.max.logs，region 会按照时间顺序依次进行刷写，直到 WAL 文件数量减小到 hbase.regionserver.max.logs 以下（该属性名已经废弃，现无需手动设置，可以自动调整，最大值为 32）

读流程

HFile 结构

HFile 是存储在 HDFS 上面每一个 store 文件夹下实际存储数据的文件

里面存储多种内容。包括数据本身（keyValue 键值对）、元数据记录、文件信息、数据索引、元数据索引和一个固定长度的尾部信息（记录文件的修改情况）

在HFile中，数据（键值对）按照块大小（默认 64K）保存在文件中，数据索引按照块创建，块越多，索引越大。每一个 HFile 还会维护一个布隆过滤器

布隆过滤器的主要功能是判断一个元素是否在一个集合中——每有一种 key，就在对应的位置标记，读取时可以大致判断要 get 的 key 是否存在 HFile 中

KeyValue 内容如下:

rowlength -----------→ key 的长度
row -----------------→ key 的值
columnfamilylength --→ 列族长度
columnfamily --------→ 列族
columnqualifier -----→ 列名
timestamp -----------→ 时间戳（默认系统时间）
keytype -------------→ Put

如何查看hfile的元数据内容？

bin/hbase hfile -m -f /hbase/data/命名空间/表名/regionID/列族/HFile名

例如：

bin/hbase hfile -m -f /hbase/data/why/student/fdccb396f319649ec0faa839c70fde56/info/29823e6596434a87b619c8e25d534c8e

可以查看到以下内容：

读流程

首先访问zk创建连接，与写流程完全相同；

（1）创建 Table 对象发送 get 请求

（2）优先访问 Block Cache，查找是否之前读取过，并且可以读取 HFile 的索引信息和布隆过滤器

（3）不管读缓存中是否已经有数据了（可能已经过期了），都需要再次读取写缓存和store中的文件

（4）最终将所有读取到的数据合并版本，按照get的要求返回即可

合并读取数据优化

每次读取数据都需要读取三个位置（Block Cache、Mem Store和Store），最后进行版本的合并。效率会非常低，所有系统需要对此优化：

（1）HFile 带有索引文件，读取对应 RowKey 数据会比较快。

（2）Block Cache 会缓存之前读取的内容和元数据信息，如果 HFile 没有发生变化（记录在 HFile 尾信息中（Trailer）），则不需要再次读取。

（3）使用布隆过滤器能够快速过滤当前 HFile 不存在需要读取的 RowKey，从而避免读取文件（布隆过滤器使用 HASH 算法，不是绝对准确的，出错会造成多扫描一个文件，对读取数据结果没有影响）

StoreFile Compaction

由于 memstore 每次刷写都会生成一个新的 HFile，文件过多读取不方便，所以会进行文件的合并，清理掉过期和删除的数据，会进行 StoreFile Compaction

Compaction 分为两种，分别是 Minor Compaction 和 Major Compaction：

Minor Compaction会将临近的若干个较小的 HFile 合并成一个较大的 HFile，并清理掉部分过期和删除的数据，由系统自动控制

Major Compaction 会将一个 Store 下的所有的 HFile 合并成一个大 HFile，并且会清理掉所有过期和删除的数据，由参数 hbase.hregion.majorcompaction控制，默认 7 天

Minor Compaction 控制机制

参与到小合并的文件需要通过参数计算得到，有效的参数有 5 个

（1）hbase.hstore.compaction.ratio（默认 1.2F）合并文件选择算法中使用的比率。

（2）hbase.hstore.compaction.min（默认 3）为 Minor Compaction 的最少文件个数。

（3）hbase.hstore.compaction.max（默认 10）为 Minor Compaction 最大文件个数。

（4）hbase.hstore.compaction.min.size（默认 128M）为单个Hfile文件大小最小值，小于这

个值会被合并

（5）hbase.hstore.compaction.max.size（默认 Long.MAX_VALUE）为单个Hfile文件大小最大

值，高于这个值不会被合并

小合并机制为拉取整个 store 中的所有文件，做成一个集合。之后按照从旧到新的顺序遍历。判断条件为：

① 过小合并，过大不合并

② 文件大小/ hbase.hstore.compaction.ratio < (剩余文件大小和) 则参与压缩。

所以把比值设置过大，如设置为10，会导致最终合并为1个特别大的文件，相反设置为0.4，会最终产生 4 个storeFile。不建议修改默认值

③ 满足压缩条件的文件个数达不到个数要求（3 <= count <= 10）则不压缩

Region Split

Region 切分分为两种，创建表格时候的预分区即自定义分区，同时系统默认还会启动一个切分规则，避免单个 Region 中的数据量太大

预分区（自定义分区）

每一个 region 维护着 startRow 与 endRowKey，如果加入的数据符合某个 region 维护的rowKey 范围，则该数据交给这个 region 维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高 HBase 性能

1.手动设置：create 'staff1','info', SPLITS => ['1000','2000','3000','4000']

2.生成 16 进制序列预分区：create 'staff2','info',{NUMREGIONS => 15, SPLITALGO => 'HexStringSplit'}

NUMREGIONS参数表示预分区的region个数，其值一般按照每个region使用6~8 GB的存储量来计算设定。当表格的数据大小达到hbase.max.filesize属性中定义的阈值（默认10GB）时，表格将会进行split操作，分裂成与NUMREGIONS设定数量相同的区域

SPLITALGO参数则是用来指定Rowkey分割的算法，它决定了如何根据rowkey的范围来划分regions。例如，可以使用HexStringSplit算法，该算法会将数据从“00000000”到“FFFFFFFF”之间的数据长度按照n等分后计算出每一段的实际rowkey和结束rowkey，以此作为拆分点

3.使用 JavaAPI 创建预分区：

admin.createTable方法中可以填写分区参数

系统拆分

Region 的拆分是由 HRegionServer 完成的，在操作之前需要通过 ZK 汇报 master，修改

对应的 Meta 表信息添加两列 info：splitA 和 info：splitB 信息。之后需要操作 HDFS 上面对

应的文件，按照拆分后的 Region 范围进行标记区分；

实际操作为创建文件引用，不会挪动数据。刚完成拆分的时候，两个 Region 都由原先的 RegionServer 管理。之后汇报给 Master，由Master将修改后的信息写入到Meta表中。等待下一次触发负载均衡机制，才会修改Region的管理服务者，而数据要等到下一次压缩时，才会实际进行移动

HBase2.0之后最新的系统拆分策略：

如果当前 RegionServer 上该表只有一个 Region，按照 2 * hbase.hregion.memstore.flush.size(128M) 分裂，否则按照 hbase.hregion.max.filesize(10G) 分裂

HBase 优化

RowKey设计

一条数据的唯一标识就是 rowkey，那么这条数据存储于哪个分区，取决于 rowkey 处于哪个一个预分区的区间内，设计 rowkey的主要目的，就是让数据均匀的分布于所有的 region中，在一定程度上防止数据倾斜

RowKey设计常用策略：

1）生成随机数、hash、散列值

2）时间戳反转（使得新数据能写在前面）

注意这里的时间戳反转不是简单的字符串reverse，而是用9999999999999减去当前的时间戳（hbase的timestamp是13位的）

3）字符串拼接

实例分析

现有数据如下所示：

需求：使用 hbase 存储下列数据，要求能够通过 hbase 的 API 读取数据完成两个统计需求

统计张三在 2021 年 12 月份消费的总金额
统计所有人在 2021 年 12 月份消费的总金额

那么如何来设计RowKey？

需求1分析

对于需求1，要统计某个人在某个月份的消费总金额，可以直接使用scan指令扫描所有的消费记录，然后进行累加即可；要使用scan指令，需要明确其startRow和endRow；

需要从user和date两个维度去考虑，RowKey设计如下：

scan : startRow -> zhangsan^A^A^A^A-2021-12 
 	   endRow -> zhangsan^A^A^A^A-2021-12.

为了避免扫描数据混乱，需要解决字段长度不一致的问题，可以使用相同阿斯卡码值的符号进行填充

框架底层填充使用的是阿斯卡码值为 1 的^A

最后的日期结尾处需要使用阿斯卡码略大于'-'的值

所以最终的RowKey设计为：

rowKey: user-date(yyyy-MM-dd HH:mm:SS)

附：ASCII码表如下：

需求2分析

需求2中要求统计所有用户12月份的消费金额，与1相比只用考虑date这一个维度

我们会发现如果采用需求1中设计的RowKey，会完全无法确定scan的范围；这也是RowKey设计的一大特点：适用性强泛用性差能够完美实现一个需求但是不能同时完美实现多个需要；

所以需要对1中的设计进行调整，调整原则如下：可枚举的放在前面

比如说，该需求中，date是可枚举的，而user是不可枚举的，所以设计时date应该在前面

最终设计如下：

rowKey 设计格式 => date(yyyy-MM)user^A^A^A^A-date(-dd hh:mm:ss ms)

（1）统计张三在 2021 年 12 月份消费的总金额
scan: startRow => 2021-12zhangsan^A^A^A^A
stopRow => 2021-12zhangsan^A^A^A^A.
（2）统计所有人在 2021 年 12 月份消费的总金额
scan: startRow => 2021-12
stopRow => 2021-12.

预分区优化

针对以上需求，可以进行预分区优化，预分区的分区号同样需要遵守 rowKey 的 scan 原则。所有必须添加在 rowKey 的最前面，前缀为最简单的数字。同时使用 hash 算法将用户名和月份拼接决定分区号

使用hash算法的原因：单独使用用户名会造成单一用户所有数据存储在一个分区，使用hash算法可以防止数据倾斜

设计步骤：

1、添加预分区优化（一共120个分区）
startKey stopKey
001
001 002
002 003
...
119 120

2.获取分区号：分区号=> hash(user+date(MM)) % 120
3.分区号填充 如果得到 1 => 001
4.rowKey 设计格式 => 分区号-date(yyyy-MM)-user^A^A^A^A-date(-dd hh:mm:ss ms)

缺点：实现需求 2 的时候，由于每个分区都有 12 月份的数据，需要扫描 120 个分区

改进：提前将分区号和月份进行对应，如下：

1、对应方法：
000 到 009 分区 存储的都是 1 月份数据
010 到 019 分区 存储的都是 2 月份数据
...
110 到 119 分区 存储的都是 12 月份数据


2、示例分析：
假设是9月份的数据
分区号=> hash(user+date(MM)) % 10 + 80
分区号填充 如果得到 85 => 085

得到9月份所有人的数据
扫描 10 次
scan: startRow => 0802021-12
stopRow => 08902021-12.
...
startRow => 0822021-12
stopRow => 0822021-12.
..
startRow => 0892021-12
stopRow => 0892021-12.

参数优化

Zookeeper 会话超时时间

文件：hbase-site.xml

属性：zookeeper.session.timeout

解释：默认值为 90000 毫秒（90s）。当某个 RegionServer 挂掉，90s 之后 Master 才能察觉到。可适当减小此值，尽可能快地检测 regionserver 故障，可调整至 20-30s。

同时可以调整重试时间和重试次数

hbase.client.pause（默认值 100ms）

hbase.client.retries.number（默认 15 次）

设置 RPC 监听数量

文件：hbase-site.xml

属性：hbase.regionserver.handler.count

解释：默认值为 30，用于指定 RPC 监听的数量，可以根据客户端的请求数进行调整，读写请求较多时，增加此值

手动控制 Major Compaction（大合并）

文件：hbase-site.xml

属性：hbase.hregion.majorcompaction

解释：默认值：604800000 秒（7 天）， Major Compaction 的周期，若关闭自动 MajorCompaction，可将其设为 0

如果关闭一定记得自己手动合并，因为大合并非常有意义

优化 HStore 文件大小

文件：hbase-site.xml

属性：hbase.hregion.max.filesize

解释：默认值 10737418240（10GB），如果需要运行 HBase 的 MR 任务，可以减小此值，因为一个 region 对应一个 map 任务，如果单个 region 过大，会导致 map 任务执行时间过长。该值的意思就是，如果 HFile 的大小达到这个数值，则这个 region 会被切分为两个 Hfile

优化 HBase 客户端缓存

文件：hbase-site.xml

属性：hbase.client.write.buffer

解释：默认值 2097152bytes（2M）用于指定 HBase 客户端缓存，增大该值可以减少 RPC调用次数，但是会消耗更多内存，反之则反之。一般我们需要设定一定的缓存大小，以达到减少 RPC 次数的目的

指定 scan.next 扫描 HBase 所获取的行数

文件：hbase-site.xml

属性：hbase.client.scanner.caching

解释：默认值：2147483647（nteger.MAX_VALUE）；用于指定 scan.next 方法获取的默认行数，值越大，消耗内存越大

BlockCache 占用 RegionServer 堆内存的比例

文件名：hbase-site.xml

属性：hfile.block.cache.size

解释：默认 0.4，读请求比较多的情况下，可适当调大

MemStore 占用 RegionServer 堆内存的比例

文件：hbase-site.xml

属性：hbase.regionserver.global.memstore.size

解释：默认 0.4，写请求较多的情况下，可适当调大

HBase 使用经验法则

官方给出了权威的使用法则：

（1）Region 大小控制 10-50G

（2）cell 大小不超过 10M（性能对应小于 100K 的值有优化），如果使用 mob（Medium-sized-Objects 一种特殊用法）则不超过 50M。

（3）1 张表有 1 到 3 个列族，不要设计太多。最好就 1 个，如果使用多个尽量保证不会同时读取多个列族。

（4）1 到 2 个列族的表格，设计 50-100 个 Region。

（5）列族名称要尽量短，不要去模仿 RDBMS（关系型数据库）具有准确的名称和描述。

（6）如果 RowKey 设计时间在最前面，会导致有大量的旧数据存储在不活跃的 Region中，使用的时候，仅仅会操作少数的活动 Region，此时建议增加更多的 Region 个数。

（7）如果只有一个列族用于写入数据，分配内存资源的时候可以做出调整，即写缓存不会占用太多的内存。

说明：本学习笔记根据基于尚硅谷课程进行整理，课程链接：hbase

未完待续~

你可能感兴趣的:(数据库,大数据,hbase,nosql,时序数据库,数据库)

大数据之-hdfs+hive+hbase+kudu+presto集群(6节点) 管哥的运维私房菜大数据 hdfs hive kudu presto hbase
几个主要软件的下载地址：prestohttps://prestosql.io/docs/current/index.htmlkudurpm包地址https://github.com/MartinWeindel/kudu-rpm/releaseshivehttp://mirror.bit.edu.cn/apache/hive/hdfshttp://archive.apache.org/dist/ha
hbase快照同步到目标集群出现ERROR Multiple regions have the same startkey问题分析 spring208208 hbase hbase python 前端
问题现象源集群表split/merge过程中创建快照，该快照同步到目标集群，目标集群恢复快照后，进行hbck检查，就会出现异常报错：ERRORMultipleregionshavethesamestartkey;问题分析首先，出现上述问题可能有如下两种原因：源集群中snapshot表本身就存在这种问题，没有修复就执行snapshot，导出快照到目标集群，然后恢复表也会存在这种问题。在执行split
【python学习】深度解析 Python 的 .env配置与最佳实践：温格高的环境变量配置之道 NLP仙人 python python 学习开发语言人工智能
1.文章简介在开发和部署Python项目时，环境变量配置对于管理敏感信息如数据库连接字符串、API密钥至关重要。本文将以温格高（2023年环法冠军）的项目为例，详细介绍如何通过.env文件简化环境配置，并分享多环境管理、Docker集成等热门功能。我们还将覆盖一些小技巧和常见错误，帮助你避免开发中的踩坑。2.使用.env文件的好处温格高团队正在开发一个记录自行车赛事的应用，涉及多个开发环境和敏感信
网络安全入门信息收集与漏洞扫描（二）挣扎与觉醒中的技术人网络安全入门及实战 web安全网络安全 c++程序人生
主动信息收集1Nmap扫描端口与服务（1）Nmap是什么？定义：网络探测工具，用于扫描开放端口、识别服务及操作系统。典型用途：发现目标存活主机（ping扫描）。识别开放端口和运行的服务（如SSH、HTTP、数据库）。探测操作系统类型（Windows/Linux）。（2）基础扫描命令快速扫描常用端口：nmap-sV-T4192.168.1.100#-sV探测服务版本，-T4加速扫描示例输出：PORT
DeepSeek 如何获取数据库中的表信息（表名和字段名称） Python测试之道数据库 python
问题背景在测试或开发过程中，了解数据库的表结构（包括表名和字段名称）是非常重要的一环，尤其是当我们需要测试数据库相关的功能或验证数据时。然而，手动查看数据库结构可能耗时且容易出错。如果能够通过DeepSeek与数据库直接交互，自动获取表名和字段信息，将大大提升测试效率。本文将介绍如何利用DeepSeek模型结合数据库查询，自动生成表结构信息（包括表名和字段名称）。此外，还会展示如何通过自然语言描述
spring boot整合kettle调用数据库资源库中的job 机智的小小岳 kettle
前言上篇文章记录了springboot如何调用文件资源库下的job，这篇文章会记录如何调用数据库资源库的job1.导入jar包在调用文件路径下的job需要导入如下jar包而调用数据库资源库的job需要多导入2个jar包否则会报http错误，jar包如下2.运行代码代码如下：@TestpublicvoidexcuteDBTrans()throwsKettleException{//初始环境EnvUt
python创建sqlite3数据库_SQLite – Python | 菜鸟教程 weixin_39683144
SQLite-Python安装SQLite3可使用sqlite3模块与Python进行集成。sqlite3模块是由GerhardHaring编写的。它提供了一个与PEP249描述的DB-API2.0规范兼容的SQL接口。您不需要单独安装该模块，因为Python2.5.x以上版本默认自带了该模块。为了使用sqlite3模块，您首先必须创建一个表示数据库的连接对象，然后您可以有选择地创建光标对象，这将
linux下使用mysql(上) It塔塔开 linux mysql 运维
1、安装mysqlaptsearchmysql-server...#查询结果mysql-server-8.0/focal-security,focal-updates8.0.41-0ubuntu0.20.04.1amd64MySQLdatabaseserverbinariesandsystemdatabasesetup...aptinstallmysql-server-8.0...2、连接数据库m
使用Docker搭建Flink集群 O_1CxH Flink大数据 Kafka大数据 docker flink 容器
目录使用Docker搭建Flink集群docker-compose一键搭建步骤附录参考资料使用Docker搭建Flink集群在学习大数据框架的时候，需要一个真实的环境。我们知道，像spark、flink这些计算框架都有多种运行模式：在本地使用多线程模拟集群真正的分布式集群如果直接在IDE（Intellj）里面编译和运行写好的程序，实际上是用的前一种运行模式；如果想尝试真正的生产环境中任务的提交和管
python如何将数据生成excel_Python如何将数据导出excel的技巧分享 weixin_39528697
本篇文章主要介绍了python技能之导出excel的实例代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧本文介绍了python技能之导出excel的实例代码，正好能用到，写出来分享给大家作为一个数据分析师，下面的需求是经常会遇到的。从数据库或者现有的文本文件中提取符合要求的数据，做一个二次处理，处理完成后的数据最终存储到excel表格中供其他部门的人继续二次分析。在
使用 MySQL 从 JSON 字符串提取数据 m0_66323401 面试学习路线阿里巴巴 mysql json oracle
使用MySQL从JSON字符串提取数据在现代数据库管理中，JSON格式因其灵活性而广泛使用。然而，当数据存储在JSON中时，我们经常需要将其转换为更易于处理的格式。本篇文章将通过一个具体的SQL查询示例，展示如何从存储在MySQL中的JSON字符串提取数据并重新格式化。1.背景知识JSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，易于阅读和编写，同时也易于机器
国家网络安全宣传周 | 2024年网络安全领域重大政策法规一览网安加社区安全网络安全政策法规
随着我国网络安全政策法规不断健全，网络安全工作机制也日渐成熟，各项工作已稳步步入法治化的轨道，与此同时，网络安全标准体系逐步清晰，安全防线日益坚固，为国家的网络安全建设提供了坚实的基础。网安加社区特为大家整理了2024年国内发布的网络安全领域相关政策法规，希望能为广大从业者与关注者提供相关参考，共同促进网络安全生态的健康发展。2024年网络安全重大政策法规一览◉1.《旅游大数据安全与隐私保护要求（
实验报告一：IT项目与技术实践朱佳顺
本文还有配套的精品资源，点击获取简介：实验报告是记录科学和技术实验过程、结果与分析的重要文件。本报告"01-实验报告一.zip"为系列报告中的第一份，包含实验目的、方法、数据、观察和结论。它可能涉及文件压缩、实验设计、数据处理和可视化、以及科学报告撰写等关键技能。实验内容可能包括编程、网络、数据库和软件开发等领域，要求学生了解实验流程，掌握数据分析方法，以及学术写作规范。1.文件压缩与ZIP格式使
Java面试八股文：Memcached面试题专场（持续更新中......） Java凤梨 Java金三银四面试题 memcached java 面试
全套Java金三银四面试题持续更新可文末自取，建议关注收藏不然下次找不到哟~目录1、Memcached是什么，有什么作用？memcached服务在企业集群架构中有哪些应用场景？一、作为数据库的前端缓存应用二、作业集群的session会话共享存储。2、Memcached服务分布式集群如何实现？3、Memcached服务特点及工作原理是什么？4、简述Memcached内存管理机制原理？SlabAllo
【计算机毕设选题】2025计算机毕业设计选题推荐-高通过率选题指南（二）计算机YiDian 计算机毕设实战案例毕业设计选题/开题源码计算机毕业设计选题毕业设计选题计算机毕设选题计算机毕业设计
计算机毕业设计作为大学生涯的收官之作，承载着对学生专业技能、创新思维及实践能力的全面考验。随着信息技术的飞速发展，计算机毕业设计的形式也日益多样化，从传统的网站（Web）开发到新兴的小程序、APP构建，再到大数据分析与处理，每一种形式都代表着不同的技术挑战与实现路径。本文旨在探讨这些多样化的毕业设计形式及其背后的技术支撑，为即将踏上毕业设计征程的学子们提供一份详实的参考指南，对毕设开发需要帮助，以
redis 使用 m0_74825634 面试学习路线阿里巴巴 redis 数据库缓存
文章目录补充说明语法选项参数实例连接服务端添加数据查询数据删除数据补充说明yum安装的redis.conf在/etc/redis/redis.conf语法redis-cli(选项)(参数)选项-a输入密码-n选择数据库若无此参数默认选中0数据库参数set添加数据keys用于查询此参数后可输入正则查询|keys"*"del删除数据实例连接服务端无密码链接:redis-cli有密码链接:redis-c
Python图形界面 Tkinter入门6 数据库sqlite3 mango大侠 Python python 数据库 sqlite3 tkinter
6.1数据库sqlite3基础fromtkinterimport*importsqlite3importosroot=Tk()root.title('数据库sqlite3操作')root.geometry('400x400')#sqlite3-------------------------------------------------##检查数据库文件是否存在，不存在就创建，user表：ifn
Mongodb主从模式最佳方案 Christian Bai mongodb 数据库
我整理的一些关于【Java】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/bLN8S1MongoDB主从模式最佳方案MongoDB是一款开源的文档型数据库，被广泛应用于许多现代应用中。其强大的性能和灵活的数据结构使得它特别适合处理大数据和高并发访问。本文将介绍MongoDB的主从模式，并提供最佳方案和示例代码，帮助你更好地理解这种模式的运作原理。什么
关于django __str__ 与 __unicode__ 问题 weixin_40105587 python
因为所有字符串都作为Unicode字符串从数据库返回，基于字符的模型字段(CharField、TextField、URLField等)在Django从数据库检索数据时将包含Unicode值。即使数据可以放入ASCII字节字符串，也总是如此。您可以在创建模型或填充字段时传入bytestring，并且Django会在需要时将其转换为Unicode。¶选择__str__()和__unicode__()请
go hive skynet_MMORPG游戏服务器技术选型参考-Go语言中文社区 weixin_39908948 go hive skynet
游戏服务器一般追求稳定和效率，所以偏向于保守，使用的技术手段也是以已经过验证、开发人员最熟悉、能HOLD为主要前提。1、典型按场景分服设计开发语言：c++数据库：mysql架构：多个网关：维持与玩家间的SOCKET连接，可处理广播、断线重连等逻辑。一个或多个账号登陆验证服务器：处理登陆、排队等逻辑。多个场景服务器：处理在本地图上能解决的逻辑，如：打怪、玩家间战斗、接任务、完成任务等各种不需要跨地图
flask实现mysql连接池_如何在python flask中使用mysql.connection数据库池 weixin_39710396 flask实现mysql连接池
Traceback(mostrecentcalllast):File"/home/myuser/virtualenv/py2.7-myapp-server-logger/lib/python2.7/site-packages/flask/app.py",line1836,in__call__returnself.wsgi_app(environ,start_response)File"/home/
DeepSeek推荐未来好就业的十大专业东锋1.3 人工智能 deepseek推荐就业
一、人工智能与数据科学专业聚焦人工智能、大数据技术、计算机科学与技术、机器学习、数据科学与大数据技术等专业，构成了这一前沿领域的核心。这些专业旨在培养学生掌握从数据收集、处理到模型构建、算法优化的全流程能力。就业前景洞察人工智能已广泛渗透到医疗、金融、制造、交通等众多领域。在医疗领域，AI辅助诊断系统帮助医生更精准地识别疾病；金融行业里，智能风控模型有效防范风险。未来，算法工程师负责开发和优化各种
微服务es搜索关键词，实现关键词高亮，来自黑马头条的总结菜鸡且互啄69 elasticsearch 大数据搜索引擎 java
为了加快搜索效率从es数据库中查询实现的效果，要求从标题和内容中搜索关键词，然后让关键词高亮步骤ElasticSearch环境搭建索引库创建文章搜索多条件复合查询索引数据同步ElasticSearch环境搭建这些都是死步骤，直接cvik分词器下载地址：https://github.com/medcl/elasticsearch-analysis-ik下载完后，解压安装包到ElasticSearch
云桌面主流架构解析与应用场景分析一休哥助手架构
引言随着云计算、大数据和虚拟化技术的快速发展，云桌面作为一种高效、安全、便捷的办公方式，逐渐被企业、教育和政府等多个领域广泛采用。云桌面通过虚拟化技术将计算资源集中管理，并将桌面操作系统、应用程序和数据存储在云端。用户通过终端设备访问云桌面，从而实现随时随地的灵活办公。云桌面架构的设计是其性能、安全性和用户体验的关键因素。目前主流的云桌面架构有多种类型，包括集中式架构、分布式架构、混合式架构等。本
python flask django在线投票系统 md14i 专注分享bishe530 python flask django
文章目录具体实现截图项目技术介绍论文写作思路核心代码部分展示可定制开发功能创新亮点django项目示例源码/演示视频获取方式具体实现截图项目技术介绍Python版本：python3.7以上框架支持：flask/django开发软件：PyCharm数据库：mysql数据库工具：Navicat浏览器：谷歌浏览器(PycharmFlaskDjangoVuemysql)论文写作思路第一部分绪论，主要介绍所
mysql表误删回复_恢复mysql数据库误删数据 weixin_39655689 mysql表误删回复
前言某一天，天朗气清；突然传来消息：数据库被删库了！这简直不亚于8级大地震呀；一找原因，服务器宕机造成了数据库数据丢失。于是，通过日志恢复数据的救援开始了。正文在数据库开启binlog功能找到/etc/my.cnf并编辑(没有my.cnf的时候就找my.ini)；添加log-bin=mysql-binexpire_logs_days=7(日志保留天数)然后重启mysql注意：log_bin是生成的
mysql数据误删恢复_MySQL数据库误删除后如何恢复？啟潍 mysql数据误删恢复
原标题：MySQL数据库误删除后如何恢复？在日常运维工作中，对于数据库的备份是至关重要的！数据库对于网站的重要性使得我们对MySQL数据库的管理不容有失！然而是人总难免会犯错误，说不定哪天大脑短路了，误操作把数据库给删除了，怎么办？下面，就MySQL数据库误删除后的恢复方案进行说明。一、工作场景(1)MySQL数据库每晚12:00自动完全备份。(2)某天早上上班，9点的时候，一同事犯晕drop了一
中科院空天院的面试题总结-Java web18285997089 面试学习路线阿里巴巴 java 开发语言
JAVA1.谈谈ajax的异步请求，与同步请求的区别答：同步是指：发送方发出数据后，等接收方发回响应以后才发下一个数据包的通讯方式。异步是指：发送方发出数据后，不等接收方发回响应，接着发送下个数据包的通讯方式。自己说了一堆，面试官直接这两句回我，简洁明了，这就是功力，惭愧2.数据库中有成绩字段，给出查询排名前10的语句答：select*from(select*from表orderby成绩desc)
微信视频号中的“多位朋友看过”是真的有朋友看过，还是系统分析过大数据后推荐的？ cda2024 微信大数据
不知道你有没有注意到，在微信视频号里，经常会出现“多位朋友看过”的提示。这一行小字往往能勾起人们的好奇心，让人不由自主地想要点击观看。那么，这究竟是不是真的意味着我们的朋友确确实实地浏览过这些视频呢？今天，我们就来聊聊这个话题。一、社交网络背后的算法在探讨这个问题之前，我们首先得了解一下社交网络平台背后的算法原理。社交网络平台的推荐机制主要依赖于大数据分析技术，通过用户的行为习惯、兴趣偏好等多维度
云计算、大数据、人工智能、物联网、虚拟现实技术、区块链技术 2301_79098963 程序员云计算大数据人工智能
物联网一、物联网的基本概念二、物联网的特征(一)物体感知(二)信息传输(三)智能处理三、物联网关键技术(一)射频识别技术(二)产品电子编码(三)短距离通信技术(四)互联网(五)感知控制技术(六)无线网络技术(七)中间件技术(八)智能处理技术四、物联网的应用领域虚拟现实技术一、VR的基本概念二、VR的特征(一)沉浸性(二)人交互性(三)多感知性(四)想象性(五)自主性三、VR的技术应用(一)在影视娱
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s