无尘道长

HFile格式说明

原文地址：http://my.oschina.net/zhengyang841117/blog/188723

在这里主要分析一下HFile V2的各个组成部分的一些细节，重点分析了HFile V2的多级索引的机制，接下去有时间的话会分析源码中对HFile的读写扫描操作。

HFile和流程：

如下图，HFile的组成分成四部分，分别是Scanned Block（数据block）、Non-Scanned block（元数据block）、Load-on-open（在hbase运行时，HFile需要加载到内存中的索引、bloom filter和文件信息）以及trailer（文件尾）。

在HFile中根据一个key搜索一个data的过程：
1、先内存中对HFile的root index进行二分查找。如果支持多级索引的话，则定位到的是leaf/intermediate index，如果是单级索引，则定位到的是data block

2、如果支持多级索引，则会从缓存/hdfs（分布式文件系统）中读取leaf/intermediate index chunk，在leaf/intermediate chunk根据key值进行二分查找（leaf/intermediate index chunk支持二分查找），找到对应的data block。

3、从缓存/hdfs中读取data block

4、在data block中遍历查找key。

接下去我们分析一个HFile的各个组成部分的详细细节，重点会分析一下HFile V2的多级索引。

1 Hbase的KeyValue结构

KeyValue结构是hbase存储的核心，每个数据都是以keyValue结构在hbase中进行存储。KeyValue结构是一个有固定格式的byte数组，其结构在内存和磁盘中的格式如下：

The KeyValue格式:

Keylength
valuelength
key
value

其中keylength和valuelength都是整型，表示长度。

而key和value都是byte数据，key是有固定的数据，而value是raw data。Key的格式如下。

The Key format:

rowlength
row (i.e., the rowkey)
columnfamilylength
columnfamily
columnqualifier
timestamp
keytype

keytype有四种类型，分别是Put、Delete、 DeleteColumn和DeleteFamily。

特别说明：在key的所有组成成员中，columnquallfier的长度不固定，不需要用qualifier_len字段来标示其长度，因为可以通过key_len - （（key固定长度） + row_len + columnFamily_len）获得，其中Key固定长度为 sizeof(Row_len) + sizeof(columnFamily_len) + sizeof(timestamp) + sizeof(keytype)。KeyValue是字节流形式，所以不需要考虑字节对齐。

2 File Trailer

fixedFileTrailer记录了HFile的基本信息、各个部分的偏移值和寻址信息。fileTailer拥有固定的长度，下图是HFile V1和HFile V2的差别。在FileTrailer中存储着加载一个HFile的所有信息。FileTrailer在磁盘中的分布如下图所示：

HFile V2见图右边。下面列举一下各个字段的含义和作用

BlockType：block类型。

FileInfoOffset：fileInfo的起始偏移地址。

LoadOnOpenDataOffset：需要被加载到内存中的Hfile部分的起始地址。

DataIndexEntriesNum：data index的root index chunk包含的index entry数目。

UncompressedDataIndexSize：所有的未经压缩的data index的大小。

TmetaIndexEntriesNum：meta index entry的数目。

totalUncompressedBytes：key value对象未经压缩的总大小。

numEntries：key value对象的数目。

compressionCodec：编解码算法。

numDataIndexLeves：data block的index level。

firstDataBlockOffset：第一个data block的起始偏移地址。Scan操作的起始。

lastDataBlockOffset：最后一个data block的之后的第一个byte地址。记录scan的边界。

version：版本号。

读取一个HFile的流程如下：

1、首先读取文件尾的4字节Version信息（FileTrailer的version字段）。

2、根据Version信息得到Trailer的长度（不同版本有不同的长度），然后根据trailer长度，加载FileTrailer。

3、加载load-on-open部分到内存中，起始的文件偏移地址是trailer中的loadOnOpenDataOffset，load-on-open部分长度等于（HFile文件长度 - HFileTrailer长度）

如下图所示：

Load-on-open各个部分的加载顺序如下：

依次加载各部分的HFileBlock（load-on-open所有部分都是以HFileBlock格式存储）：data index block、meta index block、FileInfo block、generate bloom filter index、和delete bloom filter。HFileBlock的格式会在下面介绍。

3 Load on open

这部分数据在HBase的region server启动时，需要加载到内存中。包括FileInfo、Bloom filter block、data block index和meta block index。

3.1 FileInfo

FileInfo中保存一些HFile的基本信息，并以PB格式写入到磁盘中。在0.96中是以PB格式进行保存。

3.2 HFileBlock

在hfile中，所有的索引和数据都是以HFileBlock的格式存在在hdfs中，

HFile version2的Block格式如下两图所示，有两种类型，第一种类型是没有checksum；第二种是包含checksum。对于block，下图中的绿色和浅绿色的内存是block header；深红部分是block data；粉红部分是checksum。

第一种block的header长度= 8 + 2 * 4 + 8;

第二种block的header长度=8 + 2 * 4 + 8 + 1 + 4 * 2；

图3.1 不支持checksum的block

图 3.2 支持checksum的block

BlockType：8个字节的magic，表示不同的block 类型。

CompressedBlockSize：表示压缩的block 数据大小（也就是在HDFS中的HFileBlock数据长度），不包括header长度。

UncompressedBlockSize：表示未经压缩的block数据大小，不包括header长度。

PreBlockOffset：前一个block的在hfile中的偏移地址；用于访问前一个block而不用跳到前一个block中，实现类似于链表的功能。

CheckSumType：在支持block checksum中，表示checksum的类型。

bytePerCheckSum：在支持checksum的block中，记录了在checksumChunk中的字节数；records the number of bytes in a checksum chunk。

SizeDataOnDisk：在支持checksum的block中，记录了block在disk中的数据大小，不包括checksumChunk。

DataBlock

DataBlock是用于存储具体kv数据的block，相对于索引和meta（这里的meta是指bloom filter）DataBlock的格式比较简单。

在DataBlock中，KeyValue的分布如下图，在KeyValue后面跟一个timestamp。

3.3 HFileIndex

HFile中的index level是不固定的，根据不同的数据类型和数据大小有不同的选择，主要有两类，一类是single-level（单级索引），另一类是multi-level（多级索引，索引block无法在内存中存放，所以采用多级索引）。

HFile中的index chunk有两大类，分别是root index chunk、nonRoot index chunk。而nonRoot index chunk又分为interMetadiate index chunk和leaf index chunk，但intermetadiate index chunk和leaf index chunk在内存中的分布是一样的。

对于meta block和bloom block，采用的索引是single-level形式，采用single-level时，只用root index chunk来保存指向block的索引信息（root_index-->xxx_block）。

而对于data，当HFile的data block数量较少时，采用的是single level(root_index-->data_block)。当data block数量较多时，采用的是multi-level，一般情况下是两级索引，使用root index chunk和leaf index chunk来保存索引信息(root_index-->leaf_index-->data_block)；但当data block数量很多时，采用的是三级索引，使用root index chunk、intermetadiate index chunk和leaf index chunk来保存指向数据的索引（root_index-->intermediate_index-->leaf_index-->data_block）。

所有的index chunk都是以HFileBlock格式进行存放的，首先是一个HFileBlock Header，然后才是index chunk的内容。

Root Index

Root index适用于两种情况：

1、作为data索引的根索引。

2、作为meta和bloom的索引。

在Hfile Version2中，Meta index和bloom index都是single-level，也都采用root索引的格式。Data index可以single-level和multi-level的这形式。Root index可以表示single-level index也可以表示multi-level的first level。但这两种表示方式在内存中的存储方式是由一定差别，见图3.3和3.4。

图3.3 single-level root index

图3.4 multi-level root index

Single-level

root索引是会被加载到内存中。在磁盘的格式见图3.4。

index entry的组成含义如下：

1、Offset (long)：表示索引对应的block在Hfile文件中的偏移值。

2、On-disk size (int)：表示索引对应的block在disk（Hfile文件）中的长度。

3、Key：Key是在内存中存储的byte array，分成两部分，其中一部分是key长度，另一部分是key数据。 Key值应该是index entry对应的data block的first row key。不论这个block是leaf index chunk还是data block或者是meta block。

Mid-key and multi-level

对于multi-level root index，除了上面index entry数组之外还带有格外的数据mid-key的信息，这个mid-key是用于在对hfile进行split时，快速定位HFile的中间位置所使用。Multi-level root index在硬盘中的格式见图3.4。

Mid-key的含义：如果HFile总共有n个data block，那么mid-key就是能定位到第(n - 1)/2个data block的信息。

Mid-key的信息组成如下：

1、Offset：所在的leaf index chunk的起始偏移量

2、On-disk size：所在的leaf index chunk的长度

3、Key：在leaf index chunk中的位置。

如下图所示：第(n – 1)/2个data block位于第i个LeafIndexChunk，如果LeafIndexChunk[i]的第一个data block的序号为k，那么offset、on-disk size以及key的值如下：

Offset为 LeafIndexChunk[i] 的offset

On-disk size为LeafIndexChunk[i] 的size

Key为(n – 1)/2 – k

图 3.6 mid-key示意图

NonRoot index

当HFile以multi-level来索引数据block时，会引入nonRoot index与root index一起构建整个索引。Nonroot索引包括Intermediate index和leaf index这两种类型，这两种索引在disk中的格式一致，都统一使用NonRoot格式进行存放，但用途和存放的位置不同。

Intermediate index是在当HFile的数据block太多或内存存在限制时，使用两级数据索引时导致root index chunk超过其最大值，所以通过增加索引的级数，将intermediate index作为second level，以此来保证root index chunk的大小在一定限制内，减少加载到内存中时的内存消耗。

intermediate index chunk中的每个index Entry都指向一个leaf index chunk。Intermediate index chunk在加载时不会被加载到内存中。Intermediate index chunk在HFile中存储的位置是紧挨着root index chunk。在写入root index chunk时，会检查root index chunk的容量是否超过最大值，如果超过，那么将root index chunk划分成多个intermediate index chunk，然后重新生成一个root index entry，新root index entry中的每一个index entry都是指向intermediate index chunk。先将各个intermediate index chunk写入到disk中，然后再写入root index chunk，如下图所示。

HFile使用multi-level index来索引data block时，Leaf index chunk是作为最末一级，leaf index chunk中的index entry是保存指向datablock的数据。Leaf index chunk也是以nonRoot格式来进行存储的，见图3.4，与intermediate index chunk一样，都样不会在加载hfile时被加载到内存中。

nonRoot索引增加了secondIndexOffset，作为二级索引，用于实现二分查找；而而nonRoot索引不会加载到内存中。增加nonRoot索引的目的就是解决在存储数据过大时导致索引的数量量也增加，无法加载到内存中，从而增加了seek和read时的开销。NonRoot index在磁盘中的格式如下图：

图 non Root index

1、BlockNumber：索引条目的数目。

2、secondaryIndexOffset：每一个secondaryIndexOffset都是表示index entry在leaf索引block中的相对偏移值（相对于第一个index entry），它是作为index entry的二级索引，用于实现快速搜索（二分法查找）。如下图所示，第一个secondaryIndexOffset的偏移值为0，往后都是index entry在disk中的长度相加。

3、curTotalNonRootEntrySize：leaf索引块中所有index entry在disk中总的大小。

4、Index Entries：每一个条目都包含三个部分

Offset：entry引用的block在文件中的偏移地址

On-disk size：block在硬盘中的大小

Key：block中的first row key. key不需要像在root索引中按照key length和keyvalue进行保存，因为有secondaryIndexOffset的存在，已经不需要通过key length来识别各个index entry的边界。

NonRoot索引的二分查找实现

1、首先NonRoot索引中的Index_entry需要按照顺序排列，这个顺序是通过key值的大小来决定的。key值应该就是row的key值。

2、使用secondaryIndexOffset实现二分查找。

二分查找的原理

如果要查找一个InputKey所处的位置

首先将位置初始化，row为0,high为BlockNumber - 1

循环：

mid= (low + high) / 2

定位到中间位置的index Entry

将index Entry的key值与InputKey进行比较

如果 key > inputKey

Row = mid + 1

如果 key == inputKey

找到正确对象，返回

如果 key < inputKey

High = mid – 1

快速定位

3.9 indexEntry偏移值计算

每一个secondaryIndexOffset是四个字节，secondaryIndexOffset的值是index Entry的相对偏移。见上图，对于一个序号为i的index entry，其在leaf索引chunk中的绝对偏移值为

“( BlockNumber + 2 ) * sizeof( int ) + secondaryIndexOffset[i]”

图 3.10 key值相对于index Entry的偏移

见上图，那么key的长度等于indexEntryOffset[i + 1] - （indexEntryOffset[i] + 4 * 8）

Bloom filter

在HFile中，bloom filter的meta index也是作为load-on-open的一部分保存，bloom fiter有两种类型，一种是generate bloom filter，用于快速确定key是否存储在hbase中；另一种是delete bloom filter，用于快速确定key是否已经被删除。

Bloom filter meta index在硬盘中的格式如下：

Bloom meta index在磁盘中的格式如上图所示。

Version：表示版本；

totalByteSize：表示bloom filter的位组的bit数。

HashCount：表示一个key在位组中用几个bit位来进行定位。

HashType：表示hash函数的类型。

totalKeyCount：表示bloom filter当前已经包含的key的数目.

totalKeyMaxs：表示bloom filter当前最多包含的key的数目.

numChunks：表示bloom filter中包含的bloom filter block的数目.

comparatorName：表示比较器的名字.

接下去是每一个Bloom filter block的索引条目。

hbase:meta 表解析有数的编程笔记 HBase
hbase:meta表中存储了Hbase集群中全部表的所有的region信息，在Hbase2.x之后新增了表的状态信息。hbase:meta表的结构非常简单，在Hbase2.x之前整个表只有一个名为info的ColumnFamily。在Hbase2.x新增表状态信息后，增加了名为table的ColumnFamily。HBase保证hbase:meta表始终只有一个Region，这是为了确保meta
Hadoop等大数据处理框架的Java API 扬子鳄008 Java hadoop java 大数据
Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。此外，还有许多其他组件，如YARN（YetAnotherResourceNegotiator）、HBase、Hive等。下面详细介绍Hadoop及其相关组件的JavaAPI及其使用方法。HadoopHad
手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」 AAA建材批发王师傅数据库 sqoop 大数据 hive hdfs
一、Sqoop是什么？——数据界的「超级搬运工」兄弟们，今天咱们聊个大数据圈的「搬运小能手」——Sqoop！可能有人会问：这玩意儿跟Flume啥区别？简单来说：Flume是专门搬日志数据的「快递员」而Sqoop是搬数据库数据的「搬家公司」它的名字咋来的？SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核
【请关注】hBase要用的顺畅的思路 DoWeixin6 数据相关数据库
玩楞一下HBase，要让这玩意儿在大数据量下跑得顺，索引和优化可都是实打实的硬活。先说索引这块。HBase就认RowKey这个主索引，所有数据都按它排得明明白白。平时查数据，只要RowKey设计得好，直接就能定位到对应的Region，速度快得很。但RowKey要是拍脑袋瞎写，比如全按时间戳排序，那准得出大问题——数据全往一个Region挤，妥妥的热点，集群直接卡住。所以设计RowKey时，我一般会
【赵渝强老师】HBase的体系架构赵渝强老师 NoSQL数据库 hbase 架构数据库大数据 hadoop hdfs nosql
HBase是大表（BigTable）思想的一个具体实现。它是一个列式存储的NoSQL数据库，适合执行数据的分析和处理。简单来说，就是适合执行查询操作。从体系架构的角度看，HBase是一种主从架构，包含：HBaseHMaster、RegionServer和ZooKeeper，下图展示了这一架构。其中：HBaseHMaster负责Region的分配及数据库的创建和删除等操作。Regionserver负
大数据学习（141）-分布式数据库 viperrrrrrr 大数据学习分布式 clickhouse hdfs hbase
在分布式数据库中主要有hdfs、hbase、clickhouse三种。HDFS（HadoopDistributedFileSystem）、HBase和ClickHouse都是处理大数据的分布式系统，但它们的设计目标、架构和适用场景有所不同。一、HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生态系统的一部分，是一个高度容错的系统，适合存储大量数据。它被设计为
TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能 TiDB 社区干货传送门 tidb hbase 架构数据库大数据
作者：数据源的TiDB学习之路原文来源：https://tidb.net/blog/c687d474第一章：HBase的历史使命与技术瓶颈1.1HBase的核心价值与经典场景作为Hadoop生态的核心组件，HBase凭借LSM-Tree存储引擎和Region分片机制，在2010年代成为海量数据存储的标杆。其典型场景包括：日志流处理：支持Kafka每日TB级数据持久化，写入吞吐达百万级QPS（如某头
【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8 TTBIGDATA ambari bigtop hdp hidataplus edp 大数据 el8
如果有其他系统部署需求可以参考原文https://doc.janettr.com/install/manual/Step3—安装JDK17与JDK1.8Ambari3.0及部分Bigtop/Hadoop新组件强制要求JDK17，而HBase/Hive/Spark生态仍有组件长期依赖JDK1.8。因此推荐双版本共存方案，让集群灵活兼容各种大数据组件，满足未来升级和遗留需求。JDK17与JDK1.8可
时序数据管理的新维度：解析IoTDB与HBase的技术边界时序数据说 iotdb hbase 数据库时序数据库分布式开源
在物联网与工业大数据场景中，数据的时序特性对存储与计算提出了独特挑战。面对海量设备生成的高频时序数据，如何在有限的资源内实现高效写入、灵活查询与实时分析，成为企业技术选型的核心考量。本文将从架构设计、数据建模、性能表现及场景适配等角度，对比分析IoTDB与HBase的技术差异，探索时序数据库的演进方向。一、设计哲学的分野：专用时序与通用存储HBase作为经典的NoSQL数据库，以宽表模型和LSM-
大数据领域HBase的数据压缩技术应用 AI天才研究院 AI大模型企业级应用开发实战 AI Agent 应用开发大数据 hbase 数据库 ai
大数据领域HBase的数据压缩技术应用关键词：大数据、HBase、数据压缩技术、压缩算法、性能优化摘要：本文深入探讨了大数据领域中HBase的数据压缩技术应用。首先介绍了HBase的背景以及数据压缩技术在其中的重要性，详细阐述了常见的压缩算法原理，包括LZO、Snappy、Gzip等。通过数学模型和公式分析了不同压缩算法的性能指标，如压缩比和压缩速度。给出了在HBase中应用数据压缩技术的项目实战
大数据、数据挖掘技术收集（Vivo互联网技术） XiaoQiong.Zhang 数据挖掘大数据
Hudi在vivo湖仓一体的落地实践用户行为分析模型实践（四）——留存分析模型用户行为分析模型实践（三）——H5通用分析模型用户行为分析模型实践（二）——漏斗分析模型用户行为分析模型实践（一）——路径分析模型AB实验遇到用户不均匀怎么办？——vivo游戏中心业务实践经验分享HBaseCompaction原理与线上调优实践vivo游戏黑产反作弊实践Kafka实时数据即席查询应用与实践Hive和Spa
Python 100个常用函数全面解析东皇太星 python 开发语言
Python100个常用函数全面解析1.类型转换函数1.1int()将字符串或数字转换为整数。#基本用法int('123')#123int(3.14)#3#指定进制转换int('1010',2)#10(二进制转十进制)int('FF',16)#255(十六进制转十进制)#临界值处理int('')#ValueError:invalidliteralforint()withbase10:''int(N
HBase安装与基本操作指南 weixin_47233946 大数据 hbase 数据库大数据
##1.安装准备首先确保您的系统已经安装了以下组件：-JavaJDK8或更高版本-Hadoop（HBase可以运行在独立模式下，但建议配合Hadoop使用）##2.下载与安装HBase```bash#下载HBase（以2.4.12版本为例）wgethttps://downloads.apache.org/hbase/2.4.12/hbase-2.4.12-bin.tar.gz#解压文件tar-xz
HBase实战：大数据存储技术——学习HBase数据库的应用场景和使用技巧 AI天才研究院 Python实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介1.1HBase介绍ApacheHBase是一个分布式、可扩展、高性能的NoSQL数据库。它是一个列族数据库，由Apache基金会所开发。它支持稀疏和密集存储，提供了一个高度可伸缩的系统，并能够在线地进行横向扩展。HBase提供了一个高效率的数据访问接口，可以使用SQL或JavaAPI访问HBase数据库。HBase采用了Google的BigTable设计理念，
HBase MOB简介以及使用 qq_35254726 学习总结 HBase 大数据 hbase
背景视图数据现在发展都比较快，数据量也越来越多，数据价值也越来越大，通过数据挖掘分析，可以产生越来越多的价值。所以这种大对象的存储需求也越来越多，HBase2.0发布了很多新的特性，其中一个非常值得关注的是中等对象存储的特性，即HBaseMOB（MediumObjectStorage）特性。HBase2.0MOB的引入（由HBASE-11339这个issue引入），扩宽了HBase在人工智能、物联
HBase安装配置和使用的实验报告椰奶茸茸 hbase 数据库大数据
代码来源和对照来自：HBase2.2.2安装和编程实践指南_厦大数据库实验室博客实验目的1.学会如何安装和使用HBase。2.熟练使用HBase操作常用的Shell命令。3.熟悉HBase操作常用的JavaAPI。4.了解HBase的运行模式，包括单机模式、伪分布式模式。5.熟悉eclipse的使用。实验环境操作系统：Linux环境版本：ubuntu-18.04.6Hadoop版本：hadoop3
HDFS异构存储机制风筝Lee 大数据专栏 hadoop hdfs 异构存储
目录：1.异构存储介绍2.存储介质3.HDFS存储策略（异构存储）4.HDFS异构存储原理5.HDFS异构存储的使用一，异构存储介绍异构存储是Hadoop在2.6.0版本中引入了一个新特性，HBase也从1.1.0开始支持WAL的异构存储策略。异构存储可以根据各个存储介质读写特性的不同发挥各自的优势.一个很适用的场景就是冷热数据的存储.针对冷数据,采用容量大的,读写性能不高的存储介质存储,比如最普
Hbase集群部署（三个节点）河西帝王蟹 hbase zookeeper hadoop
概述HBASE–HBase–HadoopDatabase，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库–利用HadoopHDFS作为其文件存储系统,利用HadoopMapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务–主要用来存储非结构化和半结构化的松散数据（列存NoSQL数据库）Hbase的架构图如下所示1、Client包含访问HBase的
HBase学习：通俗易懂的实例解析 BigData_001_Lz 笔记 hbase 学习数据库
1.数据模型：Excel表格类比HBase的数据结构就像一个无限扩展的Excel表格：行键(RowKey)：相当于Excel第一列的序号（如A001，A002），是唯一标识列族(ColumnFamily)：相当于Excel的工作表标签（如"基本信息"、"交易记录"）列限定符(ColumnQualifier)：相当于每个工作表中的具体列（如"姓名"、"年龄"）版本(Version)：相当于Excel
HBase深度解析：从部署到深度原理北漂老男人 HBase hbase 数据库大数据学习方法
HBase深度解析：从部署到深度原理一、架构与设计思想1.1HBase整体架构HBase架构采用主从分布式设计模式，主要组件有：HMaster（主节点）：负责RegionServer的管理、元数据维护、负载均衡和Region分裂迁移。HRegionServer（从节点）：负责存储和管理实际数据，处理客户端的读写请求。ZooKeeper：分布式协调服务，负责选主、故障转移、元数据一致性等，采用观察者
HBase 架构与数据模型深度解析北漂老男人 HBase hbase 架构数据库学习方法
HBase架构与数据模型深度解析一、前言在大数据时代，HBase以其高扩展性和实时读写能力，成为电商、金融、物联网等行业的核心NoSQL数据库。本文将系统梳理HBase的架构、数据模型、底层原理与最佳实践，助你“知其然，亦知其所以然”。二、HBase架构全景图+-------------------++----------------------+|Client||REST/Thrift|+---
六、Sqoop 导出 IvanCodes Sqoop教程 sqoop hadoop 大数据
作者：IvanCodes日期：2025年6月7日专栏：Sqoop教程ApacheSqoop不仅擅长从关系型数据库(RDBMS)向Hadoop(HDFS,Hive,HBase)导入数据，同样也强大地支持反向操作——将存储在Hadoop中的数据导出(Export)回关系型数据库。这在数据分析结果回写、数据仓库ETL、业务系统数据填充等场景中非常有用。一、Sqoop导出基础核心目标：将HDFS上的文件数
ELK高级搜索七Spring boot 接入Elasticsearch yangyanping20108 搜索 elk spring boot elasticsearch 分布式微服务
目录Javaapi实现文档管理一、maven依赖二、使用步骤创建索引ESAPI的操作步骤查询文档测试异步查询文档测试分页查询文档信息创建文档测试异步创建文档编辑文档删除文档创建索引异步创建索引索引是否存在删除索引Javaapi实现文档管理es技术比较特殊，不像其他分布式、大数据课程，haddop、spark、hbase。es代码层面很好写，难的是概念的理解。最重要的是他的restapi。跨语言的。
Spring Boot 2.x ：通过 spring-boot-starter-hbase 集成 HBase weixin_43770982 java Spring 职场 Spring Boot java java程序员
本文内容HBase简介和应用场景spring-boot-starter-hbase开源简介集成HBase实战小结一、HBase简介和应用场景1.1HBase是什么？HBase是什么？HBase是在Hadoop分布式文件系统（简称：HDFS）之上的分布式面向列的数据库。而且是2007最初原型，历史悠久。那追根究底，Hadoop是什么？Hadoop是一个分布式环境存储并处理大数据。Hadoop使用Ma
记一次·Spark读Hbase
记一次·Spark读Hbase一、背景过年回来，数仓发现hive的一个表丢数据了，需要想办法补数据。这个表是flume消费kafka写hive。但是kafka里只保存最近7天数据，有部分数据kafka里已经没有了。不过这份数据会同时被消费到HBase内存储一份，并且HBase内的数据是正常的。所以这次任务是读HBase数据写Hive表。HBase表内，只有一个列族info，列族内只有一个列valu
企业项目实战hadoop篇---HBase高可用集群部署（四）张一不二 hadoop linux学习 hadoop 大数据分布式 hbase java
HBase高可用集群部署一.Hbase分布式部署二.故障切换一.Hbase分布式部署hbase配置解压hbase压缩包tarzxfhbase-1.2.4-bin.tar.gz配置hbase环境变量，加入java、hadoop路径vimhbase-env.sh由于已经配置好zk集群，因此不采用hbase提供的zk，设置为false配置regionservers文件，加入集群节点[hadoop@ser
面试专区|【68道Hbase高频题整理(附答案背诵版)】尺小闹面试专区面试 hbase 职场和发展
简述什么是Hbase数据库？Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，它利用HBase技术在HDFS上提供了类似于Bigtable的能力。换句话说，Hbase是ApacheHadoop生态系统中的一部分，可以为大数据应用提供快速的随机读写访问。为了更好地理解，我们可以将Hbase想象成一个巨大的表格，这个表格可以存储数十亿行和数百万列的数据。但与传统的关系型数据库不同，Hb
头歌 HBase高级特性：过滤器（一）敲代码的苦13 头歌 hbase 数据库大数据
头歌HBase高级特性：过滤器（一）第1关：使用过滤器查询指定行的数据编程要求请补全函数query(StringtName)，需要你查询的数据如下，表名会作为方法的参数传入：1、查询basic_info列族gender列，且行键为2018的值；2、查询school_info列族college列，且行键大于2018的值；3、查询basic_info列族name列，且行键小于等于2020的值。代码行：
Hbase 蓝色的猴子 hbase 数据库大数据
HBASEhbase是一个分布式的基于列式存储Nosql数据库，基于Hadoop的hdfs存储，zookeeper进行管理；适合存储半结构化或者非结构话数据，1.hbase的原理？hbase主要是通过LSM－tree算法，是将一个大树拆封为多个小树，在内存中将一个个小树进行合并，当小树进行合并，当到达一定数量，就会刷新到磁盘中，磁盘中数据合并到一定程度就会变成Hfile。2.hbase的写过程？H
【赵渝强老师】HBase的逻辑存储结构
HBase的逻辑存储结构主要包括：命名空间（NameSpace）、表（Table）和列族（ColumnFamily）。视频讲解如下：https://www.bilibili.com/video/BV1T3BrYcE8a/?aid=113529894410...下面分别进行介绍。一、命名空间（NameSpace）HBase的命名空间相当于Oracle和MySQL中的数据库，它是对表的逻辑划分。不同的
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1