Hbase总结

1、Hbase

                是一个分布式的列式数据库:分布式、可扩展、面向列存储、存储松散数据的、向下提供存储,向上提供计算,数据存储与数据计算完美结合的数据库

2、体系结构:主从服务器结构

Hbase总结_第1张图片

说明:

  • 一张完整的表可能是不保存在多个HRegion中
  • 一台机器一般一个HRegion服务器
  • 不涉及数据的直接删除和更新---都是追加,增加一个版本
  • HFile的数量达到阈值-----合并-----更新


3、ROOT表和META表

     ROOT表(一个HRegion)------扫描---------META表(可以分多个HRegion)-------管理元数据------分配HRegion服务器


4、数据模型

                        稀疏的长期存储的多维度的排序的映射表

                       行健、列族、列、时间戳----单元

                      都是字符串

                     同一个列族存储在同一个目录中

            

5、与关系型数据库比较

  • 数据类型:字符串
  • 操作:只含简单的插入、查询、删除、清空
  • 可伸缩性:根据硬件的数量
  • 存储模式:列式存储
  • 维护:无更新只有插入
6、应用场景
  • 适应不同种类的数据格式和数据源,适应不能预先定义模式,大规模的数据;
  • 不强调数据间联系,数据为半结构化或非结构化
  • 稀疏数据
  • 希望有更好的扩展的时候
7、设计原则

  • 列族的数量越少越好,不同的列族记录的数量尽量平衡;
  • 避免时序和单调行健;
  • 尽量最小化行健和列族
  • 版本的数量设置不要太大

你可能感兴趣的:(数据库和数据仓库)