数据仓库的特性

目录

1、面向主题

2、集成性

3、不可更新

4、时变性


1、面向主题

数据仓库中的数据是按照一定的主题域进行组织的。
主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。而操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离。
每一个主题基本对应一个宏观分析领域
主题(Subiect)是对应企业中某一宏观分析领域所涉及的分析对象(重点是分析的对象,对象,仔细理解一下对象的含义)。例如:"销售分析"就是一个分析领域,这个"销售分析"所涉及到的分析对象为商品、供应商、顾客、仓库等,那么数仓主题可以确定为商品主题、供应
商主题、顾客主题、仓库主题;联系到下文"销售分析"可以作为一个主题域:如果"产品分析"是一个分析领域,"产品分析"所涉及到的分析对象为商品、地域时间,类别等,那么数仓的主题确定为商品主题,地域主题。时间主题,类别主题,"产品分析"可以作为一个主题
域。

2、集成性

数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性
以保证数据仓库内的信息是关干整个企业的一致的全局信息。面向事务外理的操作型数据库通常与某些特定的应用相关,数据库之间相
独立,并且往往是异构的。
数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓车,这一步时数据仓库中最关键、最复杂的一步,所有完成的工作有:
1、要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等;
2、进行数据综合和计算数据仓库中的数据综合工作可以在从源数据库中抽取时生成,但许多是在数据仓库内部生成的

3、不可更新

操作型数据库主要服务于日常的业务操作,使得数据库需要不断的对数据进行实时更新,以便迅速获得当前最新数据,不至于影响正常的业务运作。数据仓库中的数据通常包含历中信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库的数据反应的是一段相当长的时间内的历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据。
数据非易失性主要针对于应用而言,数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

4、时变性

数据仓库中包含各种粒度的历史数据,数据仓库中的数据可能和特定的某个日期、星期、月份、季度和年份有关。数据仓库的目的是根据企业过去一段时间里业务的经营状况,挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据,但并不是说数据仓库中的数据是永远不
变的。分析结果只是反应过去的情况,当业务发生变化后,挖掘出的模式就会失去失效性。因此数据仓库中的数据需要更新,以适用决策
的需要。从这个角度讲,数据仓库建设是一个项目,更是一个过程。数据仓库的数据随时间的变化表现在以下几个方面:
1、数据仓库的数据时效一般要远远长于操作型数据库数据的时效。
2、操作性数据库存库的是当前数据,而数据仓库中存储的是历史数据。
3、数据仓库中的数据是按照时间顺序进行追加的,它们都带有时间属性

你可能感兴趣的:(数据仓库,数据仓库)