数据仓库与OLAP相关
一、数据仓库的定义
(一)数据仓库的定义
数据仓库的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合
1.面向主题的
是相对传统数据库面向应用而言的,面向应用就是指的系统实现过程中主要围绕一些应用或功能,而面向主题,我们可以这样理解,因为数据仓库就是为了解决一个问题,而把数据集成在一起的,而这个问题就可以理解为主题。
2.集成的
我们可以理解为数据仓库中的数据来自各个不同的数据源,他们的结构可能是不同的,所以在这些数据进入到数据仓库之前,必须经历一个集成的过程。把数据转换为统一的表达方式,比如表示性别,可以为男/女,也可以表示为f/m。
3.与时间相关的
我们可以理解为数据仓库中的数据以时间为一个维度进行组织。
4.不可修改的
数据仓库中的数据一般不进行,数据仓库中的数据仅限于数据的初始导入和记录查询。
(二)数据仓库与数据库的区别
我的理解是:这两者是平级的技术,只不过他们的应用不同,数据库是针对操作性数据,也就是针对增删改查,为了存储与业务相关的数据的一项技术,而数据仓库则是为了解决某一个问题,而把相应数据集成在一起,从而进行对决策进行支持的一项技术。
(三)数据仓库结构
数据仓库由近期基本数据、历史基本数据、轻度综合数据、高度综合数据。
1.这里要知道一个概念,就是元数据,我们可以理解其为描述数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。也就是说元数据是描述了数据仓库的数据。
2.此外这里的综合数据和基本详细数据的区别就在于粒度上,比如基本详细数据是记录每次电话记录情况的数据,而综合数据则是记录一个月的数据。
(四)数据集市及其结构
1.什么是数据集市,就是部门级的数据仓库,一般只为某个局部范围内的管理人员服务。但要注意数据集市不是单纯的更小的数据仓库。尺寸的大小并不是区分数据仓库和数据集市的本质特质,数据集市的数据模型一定是满足应用的特定的需求的。
(五)数据仓库系统结构
1.这里要区分数据仓库结构,数据仓库结构是说数据仓库中的数据的结构,而这里是数据仓库系统的结构,包含,数据仓库,仓库管理和分析工具。
2.数据仓库的运行结构:典型的C/S结构,这里要注意OLAP的三层C/S结构,在普通客户端和数据仓库服务器之间加了一个OLAP服务层,加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器德部分工作,降低了系统数据传输量。
3.数据仓库的数据模型
数据仓库的数据等于事实数据加维度数据,事实表(大表)存放大量关于企业的事实数据,维表(小表)存放描述性数据。
我的理解是事实表是联系事实与维度表的表,事实表不应该包含描述性信息,而维度表恰恰就是描述事实表中的数据。具体可参见
http://www.blogjava.net/fanjs2000/archive/2012/05/03/377309.html
4.数据抽取、转换、装载:数据仓库中的数据来源于不同的数据源,所以数据仓库的数据获取需要经过抽取,转换,装载三个过程。
二、联机分析处理
OLAP是数据仓库系统中的一个十分重要的工具.它是以数据仓库为基础的分析技术。
(一)OLAP的概念
1.注意OLAP的两个特点,一个是在线,也就是基于C/S这种结构,第二是多维处理。所以,OLAP,联机分析处理是共享多维信息的快速分析。
2.OLAP和数据挖掘的比较,首先,他们都是数据库(数据仓库)的分析工具,不同之处在于在实际中,前者是验证型的,后者是挖掘型的,此外OLAP重视执行效率和对用户请求的及时响应,而且数据源一般是仓库,而后者是建立在各种数据源的基础上,并不要求执行效率和速度,旨在发现对我们有用的模式,或者说对我们有用的信息。
(二)多维数据分析的
1.切片:三维数据,通过“切片” ,分别从城市和产品等不同的角度观察销售情况。也就是固定住一个维度,去进行分析
2.切块:在多维数组的某一个维上选定某一区间的维成员的操作。
3.钻取:钻取有向下钻取(drill down )和向上钻取(drill up,也称为上卷 )操作,向下就是细化,向上是总结。
4.旋转:通过旋转可以得到不同视角的数据。旋转操作相当于平面数据将坐标轴旋转。例如,旋转可能包含了交换行和列,或是把某一个行维移到列维中去。或是把页面显示中的一个维和页面外的维进行交换。