数据仓库是一个面向主题的、集成的、不可更新的、随时间而变化的数据集合,它用于支持企业或组织的决策分析处理
数据仓库中的数据是按照一定的主题进行组织的。
主题指的是用户根据数据进行决策时,所关注的重点的方面。
比如,商品推荐系统,是根据数据仓库构建并处理出来的,那么我们关注的主题就是商品信息。
第二数据仓库是一个集成的数据库,也就是说数据仓库中的数据来自于分散的,操作性的数据。我们把分散型的操作的数据,从原来的数据当中抽取出来进行加工和处理,然后满足一定的要求,这样的数据才能够进入我们的数据仓库。那么原来的数据他可以来自于Oracle数据库,也可以来自于满三口数据库,也可以来自于一个文本文件,或者是一个其他的一个文件系统,我们把不同的数据集成起来,这样就形成了一个数据仓库。
也就是说,数据仓库主要是为了决策分析所提供数据。所以涉及到的操作主要是查询。我们一般不会在数据仓库中做更新和删除。因为数据
这个数据有可能是存在我们关系型数据库当中,比如说Oracle或者MySQL数据库。
数据可能来自于一个文档资料,比如说STL文件或者是一个TXT文件。
第二资料包含我们的数据。数据其他的数据我们可以把它叫做数据源,
接下来要对不同的数据进行一个抽取转换和加载的过程,也就是我们通常所说的ETL的过程。
就是把一个数据来的数据按照一定的方式读取出来
然后呢,需要进行转换,为什么要转换?是因为不同数据源的数据的格式可能会有所不同,不一定能满足我们要求,所以要按照一定的规则进行转换,只有转换后符合要求的数据才能被精装版。
最后一步装胆就是将满足格式的数据存到我们的数据库当中,数据仓库就建立起来了。
最后当然就是对外提供服务,所以我们需要数据仓库的引擎,而在数据仓库的引擎当中,包含有不同的服务器,不同的服务器会提供不同的服务
比如我们的服务里面有数据的查询。或者是报表的一些数据,还有数据的分析之后还有其他的应用,这些功能都把它叫做前端的展示,前端展示的数据来自于我们数据仓库中的引擎的各个服务,而服务就读取我们数据库中的数据。
它通常会涉及到那些存储和管理与系统/公司日常运营有关数据的数据库。
在过去,OLTP通常与正在运行的关系数据库相关联,其主要关注点是从给定环境正在发生的事情中收集数据。
简而言之:OLTP用于存储和管理日常运营的数据。
通常涉及到那些存储和管理与分析和决策相关的数据的数据库。
OLAP与商业智能(BI)紧密相关,BI是一种专门的软件开发模式,用于交付业务分析应用程序。换句话说,BI的目标是允许高层管理人员在没有IT人员参与的情况下查询和研究数据。
简而言之:OLAP用于分析数据并做出决策。
为了能够对数据仓库中的数据进行分析,数据存储于一个多维结构中,叫做星型模式。如果将星型模式扩展,就会得到雪花模式。
星型模式的基本思想就是保持立方体的多维功能
星型模式的维度是独立的表
星型模式使用事实 商品信息 表示了一个 4 维方块(Passenger、Menu、Flight Schedulet 和 Time)。基本上,事实必须指定一个维度,以将其放入立方体的单元中。
基本的星型模式并不能满足数据挖掘的所有需要。我们需要更复杂的维度,例如时间。分析员希望根据周、月、季度等识别模式。维度必须进行规范化。我们不需要冗余的维度表,这只会使数据切片变得更加复杂。这种过程中我们得到的模式被称为雪花模式。