hbase源码系列（九）StoreFile存储格式

从这一章开始要讲Region Server这块的了，但是在讲Region Server这块之前得讲一下StoreFile，否则后面的不好讲下去，这块是基础，Region Sever上面的操作，大部分都是基于它来进行的。

HFile概述

HFile是HBase中实际存数据的文件，为HBase提供高效快速的数据访问。它是基于Hadoop的TFile，模仿Google Bigtable 架构中的SSTable格式。文件格式如下：

文件是变长的，唯一固定的块是File Info和Trailer，如图所示，Trailer有指向其它块的指针，这些指针也写在了文件里，Index块记录了data和meta块的偏移量，meta块是可选的。

下面我们从原来上来一个一个的看它们到底是啥样的，先从入口看起，那就是StoreFile.Writer的append方法，先看怎么写入的，然后它就怎么读了，不知道怎么使用这个类的，可以看看我写的这篇文章《非mapreduce生成Hfile，然后导入hbase当中》。

往HFile追加KeyValue

不扯这些了，看一下StoreFile里面的append方法。

    public void append(final KeyValue kv) throws IOException {

      //如果是新的rowkey的value，就追加到Bloomfilter里面去

      appendGeneralBloomfilter(kv);

      //如果是DeleteFamily、DeleteFamilyVersion类型的kv

      appendDeleteFamilyBloomFilter(kv);

      writer.append(kv);

      //记录最新的put的时间戳，更新时间戳范围

      trackTimestamps(kv);

    }

在用writer进行append之前先把kv写到generalBloomFilterWriter里面，但是我们发现generalBloomFilterWriter是HFile.Writer里面的InlineBlockWriter。

generalBloomFilterWriter = BloomFilterFactory.createGeneralBloomAtWrite(

          conf, cacheConf, bloomType,

          (int) Math.min(maxKeys, Integer.MAX_VALUE), writer);

//在createGeneralBloomAtWriter方法发现了以下代码

......

CompoundBloomFilterWriter bloomWriter = new CompoundBloomFilterWriter(getBloomBlockSize(conf),

        err, Hash.getHashType(conf), maxFold, cacheConf.shouldCacheBloomsOnWrite(),

        bloomType == BloomType.ROWCOL ? KeyValue.COMPARATOR : KeyValue.RAW_COMPARATOR);

    writer.addInlineBlockWriter(bloomWriter);

我们接下来看HFileWriterV2的append方法吧。

public void append(final KeyValue kv) throws IOException {

    append(kv.getMvccVersion(), kv.getBuffer(), kv.getKeyOffset(), kv.getKeyLength(),

        kv.getBuffer(), kv.getValueOffset(), kv.getValueLength());

    this.maxMemstoreTS = Math.max(this.maxMemstoreTS, kv.getMvccVersion());

}

为什么贴这段代码，注意这个参数maxMemstoreTS，它取kv的mvcc来比较，mvcc是用来实现MemStore的原子性操作的，在MemStore flush的时候同一批次的mvcc都是一样的，失败的时候，把mvcc相同的全部干掉，这里提一下，以后应该还会说到，继续追杀append方法。方法比较长，大家展开看看。

private void append(final long memstoreTS, final byte[] key, final int koffset, final int klength,

      final byte[] value, final int voffset, final int vlength)

      throws IOException {

    boolean dupKey = checkKey(key, koffset, klength);

    checkValue(value, voffset, vlength);

    if (!dupKey) {

      //在写每一个新的KeyValue之间，都要检查，到了BlockSize就重新写一个HFileBlock

      checkBlockBoundary();

    }

    //如果当前的fsBlockWriter的状态不对，就重新写一个新块

    if (!fsBlockWriter.isWriting())

      newBlock();



    // 把值写入到ouputStream当中，怎么写入的自己看啊

    {

      DataOutputStream out = fsBlockWriter.getUserDataStream();

      out.writeInt(klength);

      totalKeyLength += klength;

      out.writeInt(vlength);

      totalValueLength += vlength;

      out.write(key, koffset, klength);

      out.write(value, voffset, vlength);

      if (this.includeMemstoreTS) {

        WritableUtils.writeVLong(out, memstoreTS);

      }

    }



    // 记录每个块的第一个key 和 上次写的key

    if (firstKeyInBlock == null) {

      firstKeyInBlock = new byte[klength];

      System.arraycopy(key, koffset, firstKeyInBlock, 0, klength);

    }



    lastKeyBuffer = key;

    lastKeyOffset = koffset;

    lastKeyLength = klength;

    entryCount++;

  }

View Code

从上面我们可以看到来，HFile写入的时候，是分一个块一个块的写入的，每个Block块64KB左右，这样有利于数据的随机访问，不利于连续访问，连续访问需求大的，可以把Block块的大小设置得大一点。好，我们继续看checkBlockBoundary方法。

  private void checkBlockBoundary() throws IOException {

    if (fsBlockWriter.blockSizeWritten() < blockSize)

      return;



    finishBlock();

    writeInlineBlocks(false);

    newBlock();

  }

简单交代一下

1、结束一个block的时候，把block的所有数据写入到hdfs的流当中，记录一些信息到DataBlockIndex（块的第一个key和上一个块的key的中间值，块的大小，块的起始位置）。

2、writeInlineBlocks(false)给了一个false，是否要关闭，所以现在什么都没干，它要等到最后才会输出的。

3、newBlock方法就是重置输出流，做好准备，读写下一个块。

Close的时候

close的时候就有得忙咯，从之前的图上面来看，它在最后的时候是最忙的，因为它要写入一大堆索引信息、附属信息啥的。

public void close() throws IOException {

      boolean hasGeneralBloom = this.closeGeneralBloomFilter();

      boolean hasDeleteFamilyBloom = this.closeDeleteFamilyBloomFilter();

      writer.close();

}

在调用writer的close方法之前，close了两个BloomFilter，把BloomFilter的类型写进FileInfo里面去，把BloomWriter添加到Writer里面。下面进入正题吧，放大招了，我折叠吧。。。

public void close() throws IOException {

    if (outputStream == null) {

      return;

    }

    // 经过编码压缩的，把编码压缩方式写进FileInfo里面

    blockEncoder.saveMetadata(this);

    //结束块

    finishBlock();

    //输出DataBlockIndex索引的非root层信息

    writeInlineBlocks(true);



    FixedFileTrailer trailer = new FixedFileTrailer(2,HFileReaderV2.MAX_MINOR_VERSION);



    // 如果有meta块的存在的话

    if (!metaNames.isEmpty()) {

      for (int i = 0; i < metaNames.size(); ++i) {

        long offset = outputStream.getPos();

        // 输出meta的内容，它是meta的名字的集合，按照名字排序

        DataOutputStream dos = fsBlockWriter.startWriting(BlockType.META);

        metaData.get(i).write(dos);



        fsBlockWriter.writeHeaderAndData(outputStream);

        totalUncompressedBytes += fsBlockWriter.getUncompressedSizeWithHeader();



        // 把meta块的信息加到meta块的索引里

        metaBlockIndexWriter.addEntry(metaNames.get(i), offset,

            fsBlockWriter.getOnDiskSizeWithHeader());

      }

    }



    //下面这部分是打开文件的时候就加载的部分，是前面部分的索引

    //HFileBlockIndex的根层次的索引

    long rootIndexOffset = dataBlockIndexWriter.writeIndexBlocks(outputStream);

    trailer.setLoadOnOpenOffset(rootIndexOffset);



    //Meta块的索引

    metaBlockIndexWriter.writeSingleLevelIndex(fsBlockWriter.startWriting(

        BlockType.ROOT_INDEX), "meta");

    fsBlockWriter.writeHeaderAndData(outputStream);

    totalUncompressedBytes += fsBlockWriter.getUncompressedSizeWithHeader();



    //如果需要写入Memstore的最大时间戳到FileInfo里面

    if (this.includeMemstoreTS) {

      appendFileInfo(MAX_MEMSTORE_TS_KEY, Bytes.toBytes(maxMemstoreTS));

      appendFileInfo(KEY_VALUE_VERSION, Bytes.toBytes(KEY_VALUE_VER_WITH_MEMSTORE));

    }



    //把FileInfo的起始位置写入trailer，然后输出

    writeFileInfo(trailer, fsBlockWriter.startWriting(BlockType.FILE_INFO));

    fsBlockWriter.writeHeaderAndData(outputStream);

    totalUncompressedBytes += fsBlockWriter.getUncompressedSizeWithHeader();



    // 输出GENERAL_BLOOM_META、DELETE_FAMILY_BLOOM_META类型的BloomFilter的信息

    for (BlockWritable w : additionalLoadOnOpenData){

      fsBlockWriter.writeBlock(w, outputStream);

      totalUncompressedBytes += fsBlockWriter.getUncompressedSizeWithHeader();

    }



    //HFileBlockIndex的二级实体的层次

    trailer.setNumDataIndexLevels(dataBlockIndexWriter.getNumLevels());

    //压缩前的HFileBlockIndex的大小

    trailer.setUncompressedDataIndexSize(

        dataBlockIndexWriter.getTotalUncompressedSize());

    //第一个HFileBlock的起始位置

    trailer.setFirstDataBlockOffset(firstDataBlockOffset);

    //最后一个HFileBlock的起始位置

    trailer.setLastDataBlockOffset(lastDataBlockOffset);

    //比较器的类型

    trailer.setComparatorClass(comparator.getClass());

    //HFileBlockIndex的根实体的数量，应该是和HFileBlock的数量是一样的

    //它每次都把HFileBlock的第一个key加进去

    trailer.setDataIndexCount(dataBlockIndexWriter.getNumRootEntries());



    //把Trailer的信息写入硬盘，关闭输出流

    finishClose(trailer);



    fsBlockWriter.release();

  }

View Code

和图片上写的有些出入。

1、输出HFileBlocks

2、输出HFileBlockIndex的二级索引（我叫它二级索引，我也不知道对不对，HFileBlockIndex那块我有点儿忘了，等我再重新调试的时候再看看吧）

3、如果有的话，输出MetaBlock

下面的部分是打开文件的时候就加载的

4、输出HFileBlockIndex的根索引

5、如果有的话，输出MetaBlockIndex的根索引（它比较小，所以只有一层）

6、输出文件信息（FileInfo）

7、输出文件尾巴（Trailer）

Open的时候

这部分打算讲一下实例化Reader的时候，根据不同类型的文件是怎么实例化Reader的，在StoreFile里面搜索open方法。

this.reader = fileInfo.open(this.fs, this.cacheConf, dataBlockEncoder.getEncodingInCache());



 // 加载文件信息到map里面去，后面部分就不展开讲了

metadataMap = Collections.unmodifiableMap(this.reader.loadFileInfo());

我们进入F3进入fileInfo.open这个方法里面去。

    FSDataInputStreamWrapper in;

    FileStatus status;



    if (this.link != null) {

      // HFileLink

      in = new FSDataInputStreamWrapper(fs, this.link);

      status = this.link.getFileStatus(fs);

    } else if (this.reference != null) {

      // HFile Reference 反向计算出来引用所指向的位置的HFile位置

      Path referencePath = getReferredToFile(this.getPath());

      in = new FSDataInputStreamWrapper(fs, referencePath);

      status = fs.getFileStatus(referencePath);

    } else {

      in = new FSDataInputStreamWrapper(fs, this.getPath());

      status = fileStatus;

    }

    long length = status.getLen();

    if (this.reference != null) {

      hdfsBlocksDistribution = computeRefFileHDFSBlockDistribution(fs, reference, status);

      //如果是引用的话，创建一个一半的reader

      return new HalfStoreFileReader(

          fs, this.getPath(), in, length, cacheConf, reference, dataBlockEncoding);

    } else {

      hdfsBlocksDistribution = FSUtils.computeHDFSBlocksDistribution(fs, status, 0, length);

      return new StoreFile.Reader(fs, this.getPath(), in, length, cacheConf, dataBlockEncoding);

    }

它一上来就判断它是不是HFileLink是否为空了，这是啥情况？找了一下，原来在StoreFile的构造函数的时候，就开始判断了。

this.fileStatus = fileStatus;

    Path p = fileStatus.getPath();

    if (HFileLink.isHFileLink(p)) {

      // HFileLink 被判断出来它是HFile

      this.reference = null;

      this.link = new HFileLink(conf, p);

    } else if (isReference(p)) {

      this.reference = Reference.read(fs, p);

      //关联的地址也可能是一个HFileLink，snapshot的时候介绍了

      Path referencePath = getReferredToFile(p);

      if (HFileLink.isHFileLink(referencePath)) {

        // HFileLink Reference 如果它是一个HFileLink型的

        this.link = new HFileLink(conf, referencePath);

      } else {

        // 只是引用

        this.link = null;

      }

    } else if (isHFile(p)) {

      // HFile

      this.reference = null;

      this.link = null;

    } else {

      throw new IOException("path=" + p + " doesn't look like a valid StoreFile");

    }

View Code

它有4种情况：

1、HFileLink

2、既是HFileLink又是Reference文件

3、只是Reference文件

4、HFile

说HFileLink吧，我们看看它的构造函数

public HFileLink(final Path rootDir, final Path archiveDir, final Path path) {

    Path hfilePath = getRelativeTablePath(path);

    this.tempPath = new Path(new Path(rootDir, HConstants.HBASE_TEMP_DIRECTORY), hfilePath);

    this.originPath = new Path(rootDir, hfilePath);

    this.archivePath = new Path(archiveDir, hfilePath);

    setLocations(originPath, tempPath, archivePath);

}

尼玛，它计算了三个地址，原始位置，archive中的位置，临时目录的位置，按照顺序添加到一个locations数组里面。。接着看FSDataInputStreamWrapper吧，下面是三段代码

this.stream = (link != null) ? link.open(hfs) : hfs.open(path);

//走的link.open(hfs)

new FSDataInputStream(new FileLinkInputStream(fs, this));

//注意tryOpen方法

public FileLinkInputStream(final FileSystem fs, final FileLink fileLink, int bufferSize)

        throws IOException {

      this.bufferSize = bufferSize;

      this.fileLink = fileLink;

      this.fs = fs;

      this.in = tryOpen();

}

tryOpen的方法，会按顺序打开多个locations列表。。

for (Path path: fileLink.getLocations()) {

        if (path.equals(currentPath)) continue;

        try {

          in = fs.open(path, bufferSize);

          in.seek(pos);

          assert(in.getPos() == pos) : "Link unable to seek to the right position=" + pos;

          if (LOG.isTraceEnabled()) {

            if (currentPath != null) {

              LOG.debug("link open path=" + path);

            } else {

              LOG.trace("link switch from path=" + currentPath + " to path=" + path);

            }

          }

          currentPath = path;

          return(in);

        } catch (FileNotFoundException e) {

          // Try another file location

        }

}

View Code

恩，这回终于知道它是怎么出来的了，原来是尝试打开了三次，直到找到正确的位置。

StoreFile的文件格式到这里就结束了，有点儿遗憾的是HFileBlockIndex没给大家讲清楚。

补充：经网友"东岸往事"的提醒，有一个地方写错了，在结束一个块之后，会把它所有的BloomFilter全部输出，HFileBlockIndex的话，如果满了默认的128*1024个就输出二级索引。

具体的的内容在后面说查询的时候会说，下面先交代一下：

通过看继承InlineBlockWriter的类，发现了以下信息

1、BlockIndexWriter 不是关闭的情况下，没有超过默认值128*1024是不会输出的，每128*1024个HFileBlock 1个二级索引。

HFileBlockIndex包括2层，如果是MetaBlock的HFileBlock是1层。

二级索引 curInlineChunk 在结束了一个块之后添加一个索引的key（上一个块的firstKey和这个块的firstKey的中间值）。

byte[] indexKey = comparator.calcIndexKey(lastKeyOfPreviousBlock, firstKeyInBlock);
curInlineChunk.add(firstKey, blockOffset, blockDataSize);

一级索引 rootChunk 输出一次二级索引之后添加每个HFileBlock的第一个key，这样子其实二级索引里面是包括是一级索引的所有key的。

firstKey = curInlineChunk.getBlockKey(0); 

rootChunk.add(firstKey, offset, onDiskSize, totalNumEntries);

2、CompoundBloomFilterWriter也就是Bloom Filter，在数据不为空的时候，就会输出。

对于HFileV2的正确的图，应该是下面这个，但是上面的那个图看起来好看一点，就保留了。

hbase源码系列（九）StoreFile存储格式

大数据面试问答-HBase/ClickHouse 孟意昶数据开发面试经验记录大数据面试 hbase
1.HBase1.1概念HBase是构建在HadoopHDFS之上的分布式NoSQL数据库，采用列式存储模型，支持海量数据的实时读写和随机访问。适用于高吞吐、低延迟的场景，如实时日志处理、在线交易等。RowKey（行键）定义：表中每行数据的唯一标识，类似于关系数据库的主键。特点：数据按RowKey的字典序全局排序。所有查询必须基于RowKey或范围扫描（Scan）。示例：user_123_orde
关于unbuntu启动hadoop时报错org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block的解决方案小李汶子 hadoop hdfs 大数据
关于unbuntu启动hbase时报错org.apache.hadoop.hdfs.BlockMissingException:Couldnotobtainblock的解决方案背景报错情况解决初步检查进一步检查删除损坏的block背景虚拟机安装Hadoop3.1.3，并运行了HDFS将网上查询到的资料的所有解决方法都试了一遍，下面这个解决方案成功解决了我的问题。报错情况启动HDFS后，执行统计词频
大数据Hadoop+HBase+Spark+Hive集群搭建教程：一站式掌握大数据技术贾诺翼
大数据Hadoop+HBase+Spark+Hive集群搭建教程：一站式掌握大数据技术【下载地址】大数据HadoopHBaseSparkHive集群搭建教程七月在线1本资源文件提供了关于如何搭建大数据集群的详细教程，涵盖了Hadoop、HBase、Spark和Hive等关键技术的配置与部署。教程内容由七月在线提供，旨在帮助用户快速掌握大数据集群的搭建方法，并能够在实际项目中应用这些技术项目地址:h
最全大数据学习路线指南：大数据知识点汇总保姆级教程（2万字长文）大模型大数据攻城狮大数据知识大数据思维导图大数据学习大数据入门大数据入行大数据面试大数据BI
目录第一章大数据基础篇1.1Linux基础学习1.2SQL基础学习1.3Java与Scala基础学习第二章数据采集与存储技术2.1Hadoop基础及实战2.2Hive与Hbase技术2.3ETL流程及原理第三章数据管理与查询技术3.1数据仓库体系搭建3.2数据治理体系方法论3.3OLAP查询技术第四章大数据开发工具与平台4.1分布式协调工具Zookeeper4.2消息队列Kafka4.3任务调度工
HBase学习笔记等等等等等再等大数据 linux hadoop hbase
HBase简介Hbase(HadoopDatabase)，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库；利用HadoopHDFS作为其文件存储系统,利用HadoopMapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务；主要用来存储非结构化和半结构化的松散数据（列存NoSQL数据库）。HBase数据模型ROWKEY决定一行数据；按照字典顺序排序
欧拉安装docker 顿顿有鱼有虾 docker 容器运维
1.建立docker-ce.repo在/etc/yum.repos.d/下的使用vidocker-ce.repo建立文件后将下面的内容粘贴进去保存。[docker-ce-stable]name=DockerCEStable-$basearchbaseurl=https://repo.huaweicloud.com/docker-ce/linux/centos/7/$basearch/stablee
纯手动搭建大数据集群架构_记录016_微服务架构选型_RuoYi-Cloud-Plus-master_Job如何使用_Es如何使用_Kafka如何使用---大数据之Hadoop3.x工作笔记0177 添柴程序猿大数据架构微服务 RuoYi-Plus
这里选型也是弄了很久,用的微服务架构,刚开始自己捣鼓半天....最后找到了,这个框架:开源框架~作者说他们公司用的这个框架~几百台机器在使用没问题RuoYi-Cloud-Plus-master这个是在若依基础上做的增强,里面自带了很多功能,具体就不多说了,来看看怎么下载,部署,跑起来,并且,测试一下,kafka功能,es功能,还有看一下如何,把大数据的hbase集成进去.https://gitee
HBase(15) -- 聊聊高级HBase erainm 大数据学习数据结构 hbase 数据结构
题记：---对于大数据来说，现阶段HBase还是应用很广泛的，之前聊了那么多HBase，还是有很多细节没懂，再接着啃一啃。1.重要工作机制相关前面已经聊过，对于前面的也修改了，这里就不再赘述了。附：HBase(9)–Hbase原理、工作机制(读写数据流程、Region管理、Master工作机制、数据flush及合并过程2.HBase批量装载——Bulkload2.1简介很多时候，我们需要将外部的数
探索Hadoop生态圈：核心组件介绍放。756 hadoop 大数据分布式
Hadoop生态圈包括多个组件，如HDFS提供分布式存储，MapReduce处理大数据计算，YARN管理资源调度，HBase支持非结构化数据存储，Hive实现数据仓库功能，Pig提供高级数据流处理，Sqoop实现数据迁移，Flume处理日志收集等。这些组件共同构建起强大的大数据处理框架。
数据一致性：MySQL、HBase和HDFS的协同爱编程的王小美 mysql hbase hdfs
数据一致性：MySQL、HBase和HDFS的协同一、数据一致性的挑战在分布式系统中，确保MySQL、HBase和HDFS之间的数据一致性面临以下挑战：不同存储系统的特性差异MySQL：关系型数据库，支持ACID事务HBase：列式存储，适合大规模数据HDFS：分布式文件系统，适合存储大文件数据更新时序问题数据在不同系统间传输存在延迟网络故障可能导致更新失败系统负载不均影响同步速度系统故障风险单点
解决maven版本冲突——maven-shade 士弘毅大数据 Java maven maven java spring
目录背景maven-shade-plugin介绍解决问题1.环境准备2.解决方案3.引入依赖一些需要注意的坑背景在maven项目中引入新的第三方组件时，组件中的依赖可能会与项目已有组件依赖的jar包（其他组件）发生冲突。比如新添加的milvus-sdk-java是2.0.3，依赖的protobuf-java版本得是3.12.0；而项目中已有的hbase版本是1.2.0.x，依赖的protobuf-
flume 负载均衡详解 goTsHgo flume 大数据分布式 flume 负载均衡大数据
ApacheFlume是一个分布式、可靠且可用的系统，旨在有效地从多个数据源收集、聚合和移动大量日志数据到集中存储系统（如HDFS、HBase等）。在数据传输过程中，负载均衡是Flume的一个重要功能，它有助于确保多个节点间的负载均匀分布，从而提高系统的稳定性和吞吐量。从Flume的架构角度来看，它的负载均衡涉及多个组件，包括Source、Channel和Sink，下面我们逐层从底层原理和部分源代
Datax-web 添加达梦数据库蝈蝈噶蝈蝈噶数据库 java 前端
环境JDK1.8node10.24.1python2.XDatax分支tag202309版本后端项目分支使用2.1.3-alpha-releaseGitHub-WeiYe-Jing/datax-web:DataX集成可视化页面，选择数据源即可一键生成数据同步任务，支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源，批量创建RDBMS数据同步任务，集成开源调度系统，支
拉卡拉 x Apache Doris：统一金融场景 OLAP 引擎，查询提速 15 倍，资源直降 52% 数据库大数据金融数据仓库离线
导读：拉卡拉早期基于Lambda架构构建数据系统面临存储成本高、实时写入性能差、复杂查询耗时久、组件维护复杂等问题。为此，拉卡拉选择使用ApacheDoris替换Elasticsearch、Hive、Hbase、TiDB、Oracle/MySQL等组件，实现了OLAP引擎的统一、查询性能提升15倍、资源减少52%的显著成效。拉卡拉（股票代码300773）是国内首家数字支付领域上市企业，从支付、货源
SpringBoot集成Couchbase开发与实践随风九天 spring java 匠心数据库 spring boot 后端 java Couchbase
1前言1.1什么是CouchbaseCouchbase是一个高性能的NoSQL数据库，支持文档存储、内存缓存和分布式计算。它结合了内存数据库的速度和灵活性与传统数据库的持久性和查询能力。1.2Couchbase的特点与优势高性能：利用内存缓存加速数据访问。可扩展性：支持水平扩展，能够轻松处理大规模数据。灵活性：支持多种数据模型（JSON文档、键值对）。高可用性：内置复制和故障转移机制。1.3Spr
Hbase的学习笔记（3）白居不易. hbase 学习 java
Hbase的学习笔记（3）本次主要学习Hbase与Java的配合使用，即通过Java语言完成对Hbase表的增删改查。1.所需依赖jar包org.apache.hadoophadoop-clientorg.apache.hadoophadoop-common注意：有些时候程序报错，跟maven的jar包加载顺序有关，具体的可以去了解下相关知识。我在测试时，虽然有的类导包进来是importorg.a
Linux下安装Zookeeper教程 .猫的树 Linux java-zookeeper zookeeper linux
ZooKeeper简介ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。一、下载ZooKe
阿里开源的免费数据集成工具——DataX 遇码大数据开源 datax 数据集成大数据 seatunnel kettle flinkcdc
企业里真实的数据流转是什么样子的呢？左侧描述了一个企业真实的样子，我们总是需要把数据从一个地方搬到另一个地方，最后就是搬来搬去搬成了一张张解不开的网。右侧则表达了使用DataX为中心实现数据的同步。什么是DataXDataX是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功
HBase理论_HBase架构组件介绍 Matrix70 #HBase hbase 数据库大数据
近来有些空闲时间，正好最近也在开发HBase相关内容，借此整理一下学习和对HBase组件的架构的记录和个人感受，付出了老夫不少心血啊，主要介绍的就是HBase的架构设计以及我的拓展内容。内容如有不当或有其他理解matirx70@163.comHBase架构设计HBasemaster架构介绍hbasemaster采用主备架构，master与regionserver采用主从架构（即一个HMaster会
java实现hbase表创建、数据插入、删除表 zhuiwenwen hadoop
近日查看了相关资料后，梳理了一下用java实现hbase的表创建、数据插入、删除表，代码如下：1、需要的jar包：commons-codec-1.4.jarcommons-logging-1.0.4.jarhadoop-0.20.2-core.jarhbase-0.20.6.jarlog4j-1.2.15.jarzookeeper-3.2.2.jar2、代码：packageorg.myhbase;
Couchbase 存储引擎介绍：Couchstore和Magma PersistDZ 数据存储数据库
下面对两种存储模式进行总结：相似之处同属Couchbase存储引擎：两者都是CouchbaseServer提供的后端存储机制，都负责持久化文档数据，并支持数据库的基本操作（如文档的读写、变更流等）。服务支持：在Couchbase7.1及以上版本中，两个引擎均能支持大部分服务（例如查询、索引、XDCR、备份等），尽管某些高级服务在特定版本下可能对存储引擎有要求。不同之处设计架构：Couchstore
Hbase的命令行操作白杨Shayne HBASE hbase java 大数据
1.连接hbase：hbaseshell2.查看表清单：list3.创建表：create"employee","info"4.查看表结构：describe'表名'5.给表插入数据：put"employee","1001","info:sex","male"6.扫描查看表数据：scan'表名'7.更新指定字段的数据：put"employee","1001","info:name","Nick"8.查
HBase 命令行坠月川
hbase是一款分布式数据库.其对数据的索引只通过rowkey进行.在存储数据的时候,通过rowkey的排序进行存储.在面对一个新的数据库时,深究其原理并不知一个明智的选择,正如开车一般,大多数人都是先学会开车,然后在开车的过程中车子出故障了,再慢慢学着去修理.不管怎么说,第一步都是要先会使用.这篇文章主要为了整理hbase命令行的使用,留待以后用到时翻阅.读取数据因为一个数据库使用,通常最复杂的
HBase 进阶操作 Ssaty. hbase
第1关：HBase-shell命令任务描述使用HBaseshell命令创建表：exam_tb1，向表中添加数据，表的数据与结构如下：相关知识Hbaseshell操作create:创建表创建表t1，3个列族分别为f1、f2、f3，命令如下：hbase>create‘t1’,{NAME=>‘f1’},{NAME=>‘f2’},{NAME=>‘f3’}或使用如下等价命令hbase>create‘t1’,
HBase RowKey设计原理与代码实例讲解 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
HBaseRowKey设计原理与代码实例讲解文章目录HBaseRowKey设计原理与代码实例讲解1.背景介绍1.1HBase简介1.2RowKey的重要性2.核心概念与联系2.1RowKey设计的核心思想2.2与HBase数据模型的联系3.核心算法原理具体操作步骤3.1生成递增序列RowKey3.2散列前缀RowKey3.3复合RowKey4.数学模型和公式详细讲解举例说明4.1MD5散列4.2M
hbase表无法删除，命令行卡住问题处理 spring208208 大数据组件线上问题分析 hbase 数据库大数据
问题现象hbase表无法删除，命令行卡住1.activemaster日志出现超时WARNorg.apache.hadoop.hbase.master.procedure.TruncateTableProcedure:Retriableerrortryingtotruncatetable=xxxstate=TRUNCATE_TABLE_PRE_OPERATIONorg.apache.hadoop.h
使用Couchbase实现高效的AI应用缓存与数据存储 scaFHIO 人工智能缓存 python
在当今AI应用的开发中，除了模型本身的性能，数据存储和缓存的效率也至关重要。Couchbase作为一款分布式NoSQL云数据库，其性能、可扩展性以及对AI、边缘计算应用的支持能力，使其成为优秀的选择。在本文中，我们将探讨如何通过Couchbase来实现高效的数据存储与缓存，尤其是在AI应用中。技术背景介绍随着AI应用规模的扩大和复杂度的增加，我们需要可靠的数据存储解决方案来满足实时性要求，同时减少
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
HBase安装 lianhedaxue Hadoop hbase
HBase安装本章将介绍如何安装HBase和初始配置。需要用Java和Hadoop来处理HBase，所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前，需要建立和使用LinuxSSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先，建议从Unix创建一个单独的Hadoop用户，文件系统隔离Hadoop文件系统。按照下面给出创建
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

hbase源码系列（九）StoreFile存储格式

HFile概述

往HFile追加KeyValue

Close的时候

Open的时候

你可能感兴趣的:(hbase)