数据仓库

数据仓库(Data Warehouse)是一个面向主题(Subject Oriented))的、集成(Integrate)的、稳定(Non-Volatile)的、反映历史变化(Time Variant)的数据集合。

数据仓库侧重于数据分析工作,主要用于对企业的发展历程和未来趋势做出定量分析预测,所以数据仓库中的数据按照一定的主题进行组织和储存,会对原有分散的数据库数据经过系统加工、整理,消除源数据中的不一致性。

数据仓库根据其作用的不同,最少分为3个层级,即ODS(Operational Data Store)层、DSA(Data Staging Area)层和EDW(Enterprise Data Warehouse)层。

其中ODS层用来储存业务数据库在一个时间范围内新增或更新的数据,相当于业务数据库的一个非实时的缓存,因此其结构和原表结构类似,会对来自不同业务系统所产生的数据进行初步的整理,如帅选分析所需的字段、统一不同来源的数据的编码等。

层用于存储ODS层数据经过了抽取、清晰、转换等流程后所产生的格式和类型统一的数据。

层用于存储DSA层数据在根据维度和度量对数据进行重新抽象和冗余化简之后利于分析数据抽取和展示的库表。

常用的的开源数据仓库有由Apache基金会所开发的Hadoop,该数据仓库使用Hive作为数据分析系统,其查询语法HiveSQL类似于SQL,使得就算不熟悉数据仓库的用户也可以使用SQL对数据进行查询、汇总和分析。

商业数据库方便美国软件开发公司Teradata所开大的Teradata以其远胜Hive的超高的性能配置、可靠的大规模并行处理及高速处理海量数据的能力,成为世界500强企业的首选。

你可能感兴趣的:(数据仓库)