HBase—Compaction之详解

1.概述

  • Compaction核心功能是合并小文件,HBase的Compaction分为Minor Compaction和major Compaction两类

    • Minor Compaction选取部分小的,相邻的HFile文件进行合并

    • Major Compaction是将一个Store中的所有HFile文件合并成一个更大的HFile

2.合并流程

  • HBase启动一个独立线程从对应的Store中选取要合并的HFile
  • 从这些HFile中依次读出KeyValue,进行归并排序处理写到./tmp目录下的临时文件
  • 将临时文件移动到Store的数据目录
  • 将Compation的输入文件路径和输出文件封装成KeyValue写入HLog,并标记为Compation,强行执行sync
  • 合并成新的HFile取代之前的HFile对外提供服务
  • 删除已经被合并的HFile文件

3.触发时机

  • MemStore Flush:每次MemStore Flush都会检查当前Store的文件数量,如果达到阈值则触发Compaction,此时整个Region的所有Store都会执行Compact检查
  • 后台周期性检查:后台线程CompactionChecker定期触发检查对应的Store是否需要执行Compation,先检查Store的文件数量然后检查是否满足Major Compation条件(默认7天执行一次)
  • 手动触发

4.合并策略

  • 合并前检查
    • 排除正则执行Compation的文件以及比这些文件更新的所有文件
    • 排除某些过大文件,默认Long.MAX_VALUE
  • 合并策略
    • RatioBasedCompactionPolicy(基于比列的合并策略),从老到新逐一扫描HFile文件,满足以下条件之一停止扫描
      • 当前文件大小<比当前文件新的所有文件大小总和*ratio(高峰期1.2,非高峰期5)
      • 当前所剩候选文件数<=阈值(默认为3)
    • ExploringCompactionPolicy策略(默认策略)
      • 基于Ratio策略,不同之处在于Ratio策略找到一个合适文件集合就停止扫描,而Exploring策略会记录所有合适的文件集合,然后寻找最优解,待合并文件数最多或者待合并文件数相同的情况下文件较小的进行合并
    • FIFO Compaction策略
      • 收集过期文件并删除,对应业务的列簇必须设置有TTL
    • Tier-Based Compaction策略(分层策略)
      • 针对数据热点情况设计的策略,根据候选文件的新老程度将其划分为不同的等级,每个等级都有对应的Ratio,表示该等级文件比选择为参与Compation的概率
    • Stripe Compation策略(条纹策略)
      • 将整个Store中的文件按照key划分为多个range,此处称为stripe,一个Stripe内部就类似于一个小Region,可以执行Minon Compation和major Compation

你可能感兴趣的:(hadoop生态,hadoop)