HBase学习大纲

Hbase

  • 简介

    • 是什么
      –分布式、面向列存储的开源数据库
    • 特点
      • 低延迟的数据查询能力
      • NoSQL数据库、非关系型数据库
      • 基于列存储的数据库
  • 掌握

    • 列存储的优点

    • API

      • 过滤器
        • 正则
        • 列值
    • 存储原理

      • Table(表)
        • HRegion
          • HStore(存储一个列族)
            • memStore(缓存)
              • LSM-TREE算法
                –保证顺序写磁盘
            • StoreFile(Hfile)
              • DataBlock
                • 大小可调优
                  • 大:利于顺序扫描
                  • 小:利于随机找,但索引多
    • 系统架构

      • Zookeeper
        –存储.META的位置信息

      • HMaster

        –管理RS

        • HRegionServer

          –存储.META

          • BlockCache

          • WAL(日志)

          • .META

            –存储HBase的元数据信息

            • 元数据信息
              • 表名
              • 此表被切分成几个HRegion
              • 每个HRegion的startKey
              • 每个Hregion所归属的RS的信息
    • 读写流程

        • Client->Zookeeper->RS->WAL->Memstore->HFile->HDFS
        • Client->Zookeeper->Meta RS->RS->BlockCache->Memstore->HFile(index+bloom)
    • HBase Compact

      • Minor Compact
      • Major Compact
    • HBase表设计

    • HBase优化

你可能感兴趣的:(大数据)