数据仓库

1.数据仓库
定义1:数据仓库是一种信息系统,它能给一个组织或机构提供商务智能(business intelligence)以支持管理决策的制定。
定义2:数据仓库是面向主题的集成的稳定的随时间增量的数据集合,用以支持管理决策。
定义3:为给数据集市装载数据提供基础组件, 并用数据集市为最终用户提供数据。

2.数据仓库和数据库有什么区别?

3.什么是OLAP,有什么用途?
联机分析处理OLAP(On-Line Analytical Processing)
OLAP是一种自上而下、不断深入的分析工具:用户提出问题或假设,OLAP负责从上至下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。与DM相比,OGAP更多地依靠用户输入问题和假设,但用户先入为主的局限性可能会限制问题和假设的范围,从而影响最终的结论。因此,作为验证型分析工具,QLAP更需要对用户需求有全面而深入的了解。

4.什么是维度、度量值/指标?
维度:维度用于描述用户及其会话和操作的特征
度量值/指标:是量化衡量标准

5.什么是缓慢变化维(有的会直接叫SCD)?有什么解决办法?
(1)缓慢变化维(Slowly Changing Dimensions):维度表里面的数据并非是始终不变的,总会随着时间发生变化
(2)解决方案:
方案一:与业务数据保持一直,同样为直接update。这样就难以记录历史变化
方案二:保留历史变化,这样就存在多条记录
方案三:有时需求中并非所有字段的变化都进行记录并且不需要每次变化都记录,比如我们可能只关心address(所在地)的最近两次变化,那么可以存两个字段

6.星型模型和雪花模型的差别是什么?
星型模型是由单个事实数据表和一些维度表组成的构架模型。在这种模型中每个维度表均联接到事实数据表上。
雪花型架构比星型模型增加了次要维表,有一个或多个维表是联接到其它维表上,而非事实数据表上。

7.ETL是什么,一般怎么做?
定义:ETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

8.元数据
定义:关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。
元数据:数据仓库的核心。关于数据的数据,可理解为数据仓库的数据字典。存储数据模型、定义数据结构、转换规则、仓库结构和控制信息等。
功能:描述仓库数据的来源信息
描述有关数据模型的信息
描述业务数据与仓库数据结构间的映射
描述仓库中信息的使用情况
好的元数据是数据仓库开发成功的关键因素

9.粒度
定义:数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级别就越小;相反,细化程度越低,粒度级别就越大。

10.数据集市
(1)定义:是一种具有特定应用的更小/更集中的数据仓库
(2)两种数据集市: 依赖型和非依赖型
依赖型数据集市中的数据来自于数据仓库; 非依赖型数据集市中的数据来自业务应用环境。
依赖型数据集市在建造和结构上是合理、可靠的; 非依赖型数据集市还存在一些问题。
(3)特点:
规模小,面向部门,而不是整个企业;
有特定的应用,不是满足企业所有的决策分析需求;
主要由业务部门定义、设计和实现;
可以由业务部门管理和维护;
成本低,开发时间短,投资风险较小;
可以升级到完整的企业级数据仓库。

11.Kimball多维度体系结构的三个重要概念:
总线结构:多维体系结构(总线架构) 数据仓库领域里,有一种构建数据仓库的架构,叫Multidimensional Architecture(MD),中文一般翻译为“多维体系结构”,也称为“总线架构”(Bus Architecture)。
一致性维度:同一个集市内,一致性维度的意思是两个维度如果有关系,要么就是完全一样的,要么就是一个维度在数学意义上是另一个维度的子集。
一致性事实:一致性事实是指事实表一般不会在多个数据集市间复制,主要需要保证两点。第一个是定义及计算方法要一致,第二个是事实的单位要一致性。

12.ODS定义及其特点
定义:ODS是用于支持企业日常的全局应用的数据集合
四个基本特点:面向主题,集成的,可变的,数据是当前或接近当前的。

13.数据仓库的结构
(1)数据仓库的逻辑结构:数据仓库从传统数据库或其他数据源获得原始数据,先按辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层(又分为轻度综合层和高度综合层)。随着时间的推移,由时间控制机制将当前基本数据层转为历史数据层。
(2)数据仓库的物理结构:数据仓库的物理存储基于多维数据模型(所以在逻辑上数据仓库就是一个多维数据库)
在实现中一般有两种途径:基于多维数组的数据库/基于关系数据库的星型模式(由关系型事实表和维表组成)
三种变型:雪花模式,多层分维结构,事实表族
(3)数据仓库系统(DWS)的体系结构:
源数据:数据仓库的数据来源于多个数据源,包括企业内部数据、市场调查报告、政府统计部门提供的统计数据及各种文档之类的外部数据;
仓库管理:在确定数据仓库的信息需求后,首先进行数据建模,然后确定从源数据到数据仓库的数据抽取、清理(净化)和转换过程,最后划分维数及确定数据仓库的物理存储结构;
数据仓库:包括对数据的安全、归档、备份、维护、恢复等工作,这些工作需要利用数据库管理系统,即DBMS的功能;
分析工具:用于完成实际决策问题所需的各种查询检索工具、多维数据的OLAP分析工具、数据挖掘(DM)工具等,以实现决策支持系统(DSS)的各种要求。

你可能感兴趣的:(数据仓库)