数据仓库简介

  1. 什么是数据仓库?
    数据仓库其实就是一个数据库。数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。
    什么是主题?主题就是用户使用数据仓库在进行决策时所关心的重点方面。
    什么是集成?意思就是说数据库中的数据是来源于分散型的操作数据,我们把分散的数据从原来的数据中抽取进行加工和处理,然后满足了一定的要求,这样的数据才能够进入我们的数据仓库。那么原来的数据可以来自于ORACLE数据库,也可以来自于MySql数据库等这样的关系型数据库,也有可能来自于一个文本文件,或者来自于其他系统。我们把不同的数据集成起来形成了数据的仓库。
    什么是不可更新?数据仓库主要是为了决策分析所提供数据的,所以所涉及到的操作主要是指数据的查询,我们一般不会在数据仓库中做更新和删除,因为数据仓库就是做查询操作。

  2. 数据仓库的结构和建立过程。
    数据源的来源不同,我们要对不同的数据进行抽取(Extract)、转换(TransForm)、装载(Load),也就是通常所说的ETL开发。把这里的数据单独存在一个数据库里面,这个数据库就是一个数据仓库。
    什么是抽取(Extract)?就是把数据源的数据按照一定的方式读取出来,然后进行转换。
    为什么要进行转换?因为不同的数据源它们的数据格式可能不一样,不一定满足我们的要求,所以我们按照一定的规则进行转换,只有满足要求的数据才能进行装载。
    什么装载?将满足格式的数据存入数据仓库里面。这样就建立了数据仓库。
    建立数据仓库之后就是提供对外的服务。这里就是数据仓库引擎中包含不同的服务器,不同的服务器提供不同的服务,比如我们的服务里面包括:数据的查询、数据报表、数据分析、各类应用等。
    数据仓库简介_第1张图片

  3. OLTP应用与OLAP应用
    OLTP指的是联机事务处理,它所关注的焦点是我们事务的处理,最典型的OLTP的应用就是银行的转账。OLTP面向的是事务,操作的频率会非常高。
    OLAP指的是联机分析处理,最典型的应用就是商品推荐系统,这种分析是借用于历史数据,从而进行数据的分析和挖掘,然后提供给别的系统所使用,OLAP主要面向的是查询,在这样的系统中,我们一般不会做更新或者删除或者插入的操作,因为里面的数据都是属于历史的数据。

  4. 搭建数据仓库的数据模型
    星形模型:是搭建数据仓库最基本的一种数据模型。但是星型模型在某些场景下会不满足我们的要求,于是发展出了雪花模型。
    数据仓库简介_第2张图片
    雪花模型:在星型模型的基础上发展起来的,雪花模型适用于更复杂的场景。
    数据仓库简介_第3张图片
    在搭建数据仓库的时候可以选择适合的模型进行数据仓库的搭建。

你可能感兴趣的:(大数据)