PB级企业电商离线数仓项目实战

  • 项目背景:人类从IT走向DT时代。人们往往可以收集到更多的数据。到2020,全球数据总量将超过40ZB,是2011年的22倍。正在呈爆炸式增长。

  • PB级企业电商离线数仓项目实战_第1张图片
  • PB级企业电商离线数仓项目实战_第2张图片
  • PB级企业电商离线数仓项目实战_第3张图片
  • 数据仓库的四大特征:面向主题、集成的、稳定的、反映历史变化的。
  • 数据仓库作用:整合企业业务数据,建立统一的数据中心;产生业务报表,了解企业的经营状况; 为企业运营、决策提供数据支持;可以作为各个业务的数据源,形成业务数据互相反馈的良性循环; 分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果;开发数据产品,直接或间接地为企业盈利。
  • 数据仓库与数据库的区别 数据库与数据仓库的区别实际讲的是 OLTP OLAP 的区别。OLTP On-Line Transaction Processing 联机事务处理 ),也称面向交易的处理系统。OLAP On-Line Analytical Processing 联机分析处理 ),一般针对某些主题的历史数据进行分析,支持管理决策。 数据仓库的出现,并不是要取代数据库: 解决企业级的数据分析问题或者说管理和决策、为分析数据而设计、面向分析,面向主题设计的,即信息是按主题进行组织的,属于分析型、数据仓库中的数据来源于多个异构的数据源,而且保留了企业的历史数据。
  • 数据库是面向事务的设计,数据仓库是面向主题设计的 数据库是为捕获数据而设计,数据仓库是为分析数据而设计、数据库存储有限期限的业务数据,数据仓库存储的是企业历史数据 。
    • PB级企业电商离线数仓项目实战_第4张图片
  • 数据集市:分别反映各个子主题的局部性数据组织,部门数据仓库。
  • 按照主题组织的数据集合,用于支持部门级的数据分析决策。如多个不同部门的数据集市。
    每个事业部的数据就像一个个孤岛一样无法 ( 或者极其困难 ) 和企业内部的其他数据进行连接互动。 这样的情况称为数据孤岛 ,简单说就是数据间缺乏关联性,彼此无法兼容。
  • 数据仓库建模:模型就是数据的组织和存储方法,它强调从业务、数据存取和使用角度存储数据。

  • PB级企业电商离线数仓项目实战_第5张图片
  • PB级企业电商离线数仓项目实战_第6张图片
  • PB级企业电商离线数仓项目实战_第7张图片
  • PB级企业电商离线数仓项目实战_第8张图片
  • PB级企业电商离线数仓项目实战_第9张图片
  • PB级企业电商离线数仓项目实战_第10张图片
  • PB级企业电商离线数仓项目实战_第11张图片
  • PB级企业电商离线数仓项目实战_第12张图片

你可能感兴趣的:(hive)