数据仓库的基本概念

1数据仓库
1.1概念
数据仓库(DataWarehouse)的概念是E.F.Codd于1993年的一篇文章中提出的。
数据仓库的主要功能是提供企业决策支持系统(DSS)或行政信息系统(EIS)所需要的信息,它把企业日常营运中分散不一致的数据经归纳整理之后转换为集中统一的、可随时取用的深层信息,这种信息虽然也是按关系数据库的存储结构存储起来的,但与面向逐条记录的OLTP不同,在数据仓库中的一条记录,有可能是基础数据中若干个表、若干条记录的归纳和汇总。因此,数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。与联机事物处理(OLTP)相比,它是一种完全新型的信息管理方式。
从体系结构上看,数据仓库系统由三部分组成:数据仓库、数据仓库管理系统和数据仓库工具。在整个决策支持系统中,数据仓库是进一步进行信息开采的基础。
1.2数据仓库的基本特点
数据仓库是将历史数据、现有数据库中的数据、外部数据源的数据清理后,消除数据冗余和不一致性,进行统一管理。由于数据库的数据已与应用数据库中的数据分离,因此它具有更强的灵活性、开放性和主观性。可采用诸多可视化数据分析和处理工具对其进行处理,而不会影响应用数据库中的数据。其特点可概括如下:
(1)数据仓库存储的信息是面向主题来组织的。它根据所需要的信息,分不同类、不同角度等主题把数据整理之后存储起来(按横向对数据进行分类存储)。
(2)数据仓库中要有一处专门用来存储5至10年或更久的历史数据,以满足比较、预测之用的数据需求(按纵向对数据进行分类存储)。
(3)不论数据来源于何处,进入数据仓库之后都具有统一的数据结构和编码规则,数据仓库中的数据具有一致性特点。
(4)数据仓库是一个信息源,它只是为在其上开发的DSS或EIS等提供数据服务,因此它应是只读数据库,一般不轻易做改动,只能定期刷新。
1.3据仓库的基本结构
数据仓库中的信息存储,是根据对数据的不同深度处理来分成不同层次的。其结构一般划分为以下几个方面:
(1)历史性详细数据层———它存储历史数据,供分析、建模、预测之用。
(2)当前详细数据层———存储最新详细数据,是进一步分析数据的基础。
(3)不同程度的归纳总结信息层———可包含多个层次,根据所需分类和归纳的不同深度而定。如按周、月、年统计的数据。
(4)专业分析信息层———进一步专业分析的结果,如统计分析、运筹分析、时间序列分析以及表面数据的内部规律分析等。
(5)结构信息———数据仓库的内部结构信息,反应各种信息在数据库中的位置分布和处理方式等,以便检索查询之用。
1.4建造数据仓库的五个步骤
以下步骤中前三步是从应用系统向数据仓库迁移的过程。查询是决策支持系统对数据仓库进行访问、对数据进行分析的过程。元数据是用于控制与管理数据仓库的数据。
(1)数据源分析(Source)应用数据库和外部数据源中存储着大量的业务数据与各类可利用的商业信息。在数据仓库的分析与设计阶段,需进行应用数据库与数据仓库之间的数据映象、数据集成分析、数据质量评价等工作。即在满足商业规则的前提下,如何从己有的应用数据库中提炼数据。这是一项深入细致的工作,往往需要占用整个项目的75%到80%的时间。目前还没有也难开发出有力的工具来自动完成。
(2)数据加载(Load)数据加载包括数据提炼、数据清理、数据转换、仓库数据加载等工作。
(3)数据存储(Storage)数据仓库中的数据有两种主要的存储方式。一种是多维数据库(MDDBMS),其中的数据以n维阵列的方式存储,其优点是便于数据仓库的用户理解与访问,但它往往只能覆盖某个商业领域,很难满足决策支持所要求的全面的需求。另一种是目前流行的关系数据库(RDBMS),它是集成的数据库,能够提供覆盖所有商业领域的数据共享。
(4)查询(Query)建造数据仓库的目的是以集成的、高质量的数据满足决策支持系统的需要。查询就是利用数据仓库进行企业管理方面的预测分析的过程。用户可以利用多维的OLAP的查询工具访问数据仓库。
数据仓库的建立与应用,对于原有的业务系统来说具有闭环反馈作用。其分析预测结果将用于进一步完善业务系统及商业原则。
(5)元数据(Meta-Data)元数据是数据仓库的基石。它包括了数据仓库中所有数据的有效性、取值范围、生成方式、以及从业务系统数据转化为数据仓库数据的规则。数据仓库的性能及监探数据也被作为元数据保存。同样,还可将有关数据质量的指示数据作为元数据。
1.5数据仓库所面临的主要问题
数据仓库是随企业对于DSS或EIS不断增长的市场需求,以及现实中存在的大量重复工作等问题应运而生?。目前,大多数DSS或EIS的数据处理工作都是由系统本身完成的,这是一种极不经济和效率低的做法。一个好的决策支持系统,其90%以上的数据处理工作应在数据仓库中完成。然而,要建造一个实用的数据仓库,必须首先解决以下几个问题:
(1)对大量的不同格式、跨越不同软硬件平台的企业中一般营运数据要能及时、有效地访问到。
(2)对访问到的基本数据要能进行有效的分类、合并、归纳、整理以及深层次的分析和处理。
(3)必须具备一个合理的数据存储结构。
(4)建造的数据仓库具有开放性,使其不仅能为某一专门系统提供服务,更能被其他应用系统访问到,成为众多信息系统的物理信息源。
1.6数据仓库的应用
一个成功的数据仓库可能会给企业带来巨大的收益,使其在激烈的市场竞争之中立于不败之地。在国外,这方面的成功实例已有很多。正是由于这一原因,在1993年,全球前2000家企业中只有5%采用数据仓库技术,而在1995年,这一数字已增至95%。
例如,世界著名的万事达信用卡公司只用了5个月的时间快速建立了一个全球范围的数据仓库系统。提供给它的22,000个成员银行查询及分析客户购买方式的数据,目的是开拓特殊的业务,并且分析市场上购买方式的新发展趋势。

你可能感兴趣的:(数据结构,工作,项目管理,F#,企业应用)