企业常见的数据处理工作:
传统的关系型数据库的主要应用。
数据仓库的主要应用,支持复杂的分析操作,侧重决策支持,提供直观易懂的查询结果。
1 OLAP
OLTP是传统关系型数据库的重要应用,主要是日常的事务处理,如银行交易、电信计费、民航订票等,对相应时间要求比较高,强调的是密集数据更新处理的性能和系统的可靠性以及效率。OLTP用短小或中等复杂程度的查询语句,读取或修改数据库中比较小的部分,数据访问方式是小的随机磁盘访问。
OLTP是事件驱动、面向应用的。
基本特点:
OLAP使得数据分析人员能够从多角度对数据进行快速、一致、交互地存取,从而获得对数据更深入的了解。OLAP的目标是满足决策支持或在多维环境下特定的查询和报表需求。
OLTP | OLAP | |
用户 | 操作人员,低层管理人员 | 决策人员,高级管理人员 |
功能 | 日常操作处理 | 分析决策 |
DB设计 | 面向应用 | 面向主题 |
数据 | 当前的,最新细节的,二维分布的 | 历史的,聚集的,多维集成的,统一的 |
存取 | 读写数十条记录 | 读上百万记录 |
主要工作 | 简单的事务处理 | 复杂的查询 |
用户数 | 上千 | 百位以下 |
DB大小 | 100MB-GB | 100GB-PB |
OLAP的技术核心是“维”的概念。
维是人们观察客观世界的角度,是一种高层次的类型划分。
维一般包含着层次关系,通过把一个实体的多项重要的属性定义为多个维,使用户能对不同维上的数据进行比较。
OLAP是多维数据分析工具的集合。
OLAP的基本多维分析操作:
OLAP工具是针对特定问题的联机数据访问和分析,通过多维的方式对数据进行分析、查询和报表。多维分析是指以多维形式组织起来的数据采取切片、切块、钻取、旋转等分析操作,以求剖析数据,使用户从多角度、多侧面观察数据库中的数据,从而深入理解包含在数据中的信息。
2 数据仓库的概念
数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、且随时间变化的数据集合,用于支持管理决策。
数据仓库特征:
数据仓库反映历史变化的属性表现在:
数据仓库分类:
数据聚集和立方:
数据仓库中多维的交点就是数据仓库用户要观察的事务。
聚集是指按照维度粒度、指标和计算元的不同,依据实际分析需要对底层数据进行记录行压缩、表连接、属性合并等预处理,是对底层的详细数据进行相应的统计的数据加工形式,包括求和、求平均值等。
聚集计算的结果是根据用户可能的查询预先计算好的汇总数据。汇总可以沿着数据仓库中的多维数据的任何一维或多维进行。给定维度集合的所有方体形成的方体格成为该维集合的数据立方(data cube)。数据立方的建立是通过聚集实现的。数据仓库中的立方也成为多维立方,数据立方的维数超过3时成为超立方体或超维数聚集。
数据聚集用于提升数据仓库系统进行OLAP时的性能。通过在问题提出之前就准备好答案来缩短查询相应时间,是OLAP技术能够快速相应的基础。聚集降低了直接访问基础数据对前段应用的影响,减少了对基础数据的重复计算,使用聚集可以在一定程度上保证数据一致性。
数据仓库的结构
数据仓库系统要包含数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。
数据仓库建立后,首先要从数据源中抽取相关的数据到数据准备区,在数据准备区中经过净化处理后再加载到数据仓库数据库,最后根据用户的需求将数据导入数据集市和知识挖掘库中。当用户使用数据仓库时,可以利用OLAP在内的多种数据仓库应用工具向数据集市/知识挖掘库或者数据仓库进行决策查询分析或知识挖掘。数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。
数据仓库的参考框架由数据仓库基本功能层、数据仓库管理层和数据仓库环境支持层组成。
(1)数据仓库基本功能层。包含数据源、数据准备区、数据仓库结构、数据集市或知识挖掘库,以及存储和使用部分。本层的功能是从数据源抽取数据,对所抽取的数据进行筛选、清理,将处理过的数据导入或者加载到数据仓库中,根据用户的需求设立数据集市,完成数据仓库的复杂查询、决策分析和知识的挖掘等。