备注:根据网络资源整理(数仓分层部分待进一步研究)
一. 定义
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。(来自百度百科)
理解:数据仓库是数据库一种概念上的升级,为满足业务需求而设计,提供了各种类型的数据支持,容纳更多的数据。为企业所有级别的决策制定过程,提供所有类型数据支撑的战略集合,主要是用于数据挖掘和数据分析,以建立数据沙盘为基础,为消灭消息孤岛和支持决策为目的而创建的。
二. 数据仓库的特征
数据仓库的特征在于面向主题、集成性、稳定性和时变性。
1)面向主题
操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2)集成性
数据仓库的数据是从原有分散的数据库中的数据抽取而来的。(过程中包含ETL处理)
数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
3)数据仓库的数据是不可更新的
数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询,没有传统数据库的增删改操作。数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。
4)随时间变化
数据仓库中的数据不可更新是针对应用来说,从数据的进入到删除的整个生命周期中,数据仓库的数据是永远不变的。但数据仓库的数据是随着时间变化而不断增加新的数据。数据仓库随着时间变化也不断删去久的数据内容(数据库的数据时限一般是60 ~ 90天,而数据仓库的数据一般是5年~10年)。
三. 数据仓库和数据库的区别
数据库:是一种逻辑概念,用来存放数据的仓库。通过数据库软件来实现。数据库由很多表组成,表是二维的,一张表里可以有很多字段。字段一字排开,对应的数据就一行一行写入表中。数据库的表,在于能够用二维表现多维关系。目前市面上流行的数据库都是二维数据库。如:Oracle、DB2、MySQL、Sybase、MS SQL Server等。
业务数据库中的数据结构是为了完成交易而设计的,不是为了而查询和分析的便利设计的。
业务数据库大多是读写优化的,即又要读(查看商品信息),也要写(产生订单,完成支付)。
数据仓库:是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现的存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大得多。数据仓库主要用于数据挖掘和数据分析,辅助领导做决策。
数据仓库的表结构是依照分析需求,分析维度,分析指标进行设计的。
四. 数据仓库分层/常用系统架构
1. 分层
2. 技术实现
五. 缩写
业务系统 OLTP
数据转换 ETL
操作数据 DDS
数据仓库 DW
多维分析 OLAP
报表分析 RPT
前端展现 EIS
数据挖掘 DM--Data Mining
元数据管理 MD--metadata
六. 其他