数据分析 2017-02-04

Inmon 《构建数据仓库》《DW 2.0》
Kimball 《数据仓库生命周期工具箱》
Inmon偏向于从底层的数据集成出发,而Kimball则趋向于从上层的需求角度出发,这可能跟两者从事的项目和所处的位置有关

数据仓库的技术解决方案

  1. 用传统RDBMS 为主导的数据库管理数据
    1. 优势:严谨的数据结构,对数据的管理更加规范,数据处理过程中出现非人为的误差极小,标准的 SQL 接口使获取数据的成本较低,数据的查询和获取更加灵活和高效
    2. 劣势:对海量数据的处理和存储能力不足,当数据量到达一定的程度就会出现明显的瓶颈
  2. 基于文本的分布式处理引擎
    1. 优势:强大的数据处理能力,分布式的架构支持并行计算,并且具备超强的扩展延伸能力;
    2. 劣势:上层接口不方便,因此Hadoop上层的 Hive & greenplum上层的 postgresSQL都是为了解决数据接口的问题,并且数据的查询和获取很难做到实时响应,灵活性不足。

数据仓库是否就应该保存聚合数据,细节数据不应该放到数据仓库中?

一方面从技术层面,数据仓库存储细节数据可以释放前台数据库的查询压力,同时对于文本类数据和外部文档类数据入库之后管理更加规范,数据仓库保留历史和不可变更的特性可以让信息不被丢失;另一方面就是从数据的使用上,数据仓库让数据的获取和使用更加简便,集成细节数据让大量的文本型数据可查询,可关联,而面向主题的设计让数据的展现和分析更有方向性和目的性,而且细节数据是支持数据分析和数据挖掘应用所必不可少的。所以,如果数据仓库要不断地催生出更大的价值,细节数据的存储是必不可少的

数仓分为几层,每层的作用是什么?

没有标准答案,根据数据仓库中数据的复杂性和对数据使用的需求程度,数据仓库可以有不用的层级划分。

一般会把数据仓库划成三层:最底层的细节数据,管理策略是优化存储,一般存储导入的原始数据,便于进行向上的统计汇总,因为数据量较大所以需要优化存储;中间层是多维模型,管理策略是优化结构和查询,面向主题的多维模型的设计,需要满足OLAP和数据查询的多样需求,同时保证查询的便捷性,关键在与维表的设计和维度的选择及组合,事实表需要关注存储和索引的优化;最上层是展现数据,管理策略是优化效率,一般会存放每天需要展现的汇总报表,或者根据多维模型拼装的视图,展现层的数据需要以最快的速度展现出来,一般用于BI平台的Dashboard和报表。

源自:网站数据分析的一些问题3

准备读:网站数据仓库

你可能感兴趣的:(数据分析 2017-02-04)