数据仓库与数据挖掘 1

基础知识篇

什么是数据仓库

数据仓库诞生原因?

1.历史数据积存
2.企业数据分析需要

历史数据积存:历史数据使用频率低,堆积在业务库中,导致性能下降;
企业数据分析需要:各个部门自己建立独立的数据抽取系统,导致数据不一致。

简单的说,在普通的数据库(操作型数据库)中,每时每刻都在产生数据,而对于这样的数据往往历史数据不重要,以当前的操作数据为重点,以项目为主。传统数据库内存较小,经常需要删除数据,保留最新的数据。现在的数据时代需要对数据进行挖掘分析,从而提供政策支持,也就应运而生数据仓库数据仓库的数据来源于数据库,且多为多个数据库,那么不同的数据库中面临着数据不一致等问题,那么**抽取过程(ETL)**就变得尤为重要了。

数据仓库(Data Warehouse,DW)定义

由数据仓库之父比尔·恩门(Bill Inmon)提出,*数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,主要用于组织积累的历史数据,*并使用分析方法(OLAP、数据分析)进行分析整理,进而辅助决策,为管理者、企业系统提供数据支持,构建商业智能

数据仓库特点

面向主题:为数据分析提供服务,根据主题将原始数据集合在一起

数据仓库与数据挖掘 1_第1张图片

集成:原始数据来源于不同数据源,要整合成最终数据,需要经过抽取、清洗、转换的过程

数据仓库与数据挖掘 1_第2张图片

非易失:保存的数据是一系列历史快照,不允许被修改,只允许通过工具进行查询、分析

数据仓库与数据挖掘 1_第3张图片

时变性:数仓会定期接收、集成新的数据,从而反映出数据的最新变化

ps:这里的时变并不像操作型数据库(业务更新)时刻更新,DW定期抽取存入数据

数据仓库 VS 数据库

数据库面向事务设计,属于OLTP(在线事务处理)系统,主要操作是随机读写;在设计时尽 量避免冗余,常采用符合范式规范来设计数据仓库是面向主题设计的,属于OLAP(在线分析处理)系统,主要操作是批量读写;关注数据整合,以及分析、处理性能;会有意引入冗余,采用反范式方式设计。
数据仓库与数据挖掘 1_第4张图片

总结

用简单的话讲:数据仓库的数据来源于若干个数据库,为分析主题而存在。

例如我有一个销售数据库,里面有用户信息表,有商品信息表,有销售订单表,有商家信息表等等,对于这样的数据库关心的就是订单业务,没产生一个业务,对应的表格就会增加一条记录。

而对于数据仓库而言,倘若关心的主题是销售量,那么DW就着重于销售量这个度量,而其他的维度都是观察这个度量的维度。例如:某年某月在某地区某商品的销售量(并不是单个订单记录(业务)可以完成的)

这就是业务(事务)和主题的区别。

因为需求不一样,那么数据的存取方式自然就不一样了,这是后话。

下一篇:数据仓库与数据挖掘 2

参考

数据仓库
[0] 陈志泊 主编. 数据仓库与数据挖掘(第二版). 清华大学出版社,2019
[1] 陈立伟著,数据仓库与数据挖掘教程,清华大学出版社,2006
[2] 林宇编著. 数据仓库原理与实践,人民邮电出版社,2003。
[3] 彭木根著 数据仓库技术与实现,电子工业出版社,2002.6。
[4] [加]韩家炜、[加]坎伯,范明等译,数据挖掘概念与技术,机械工业出版社,2005。
[5] 张云涛、龚玲著,数据挖掘原理与技术,电子工业出版社,2003。

你可能感兴趣的:(数据仓库与数据挖掘,数据挖掘,数据库,big,data,数据仓库)