2018-12-04

一,数据仓库计数产生的背景

1.1960s:数据采集,数据库创建阶段

  (1)  集中于原始文件的处理

  (2)层次数据库和网状数据库

1970s:关系数据库管理系统

  关系数据模型和关系数据库管理系统

  E-R模型,SQL语言,查询处理和优化,OLTP(恢复和并发技术)

1990s:数据仓库,联机分析处理和数据挖掘

    数据仓库,联机分析处理和数据挖掘,多媒体数据库,Web数据库,Data Stream

二,现有数据库系统的侧重点

现有数据库系统,主要用于事务处理

强调多用户并发环境,数据的一致性,完整性

三,信息化建设的趋势

发展趋势:数据集中化,业务综合化,管理扁平化,决策科学化

四,现有数据库系统处理分析型应用存在的问题

1.数据可信性

(1)数据没有同一时间基准

(2)算法不同

(3)多次抽取,扩大上述两个问题

(4)外部数据进入系统后,失去“身份”

(5)开始时就不是同一个公共的数据源

2.生产率

生产一个企业报表要经过:

(1)获得源数据

(2)定位和分析数据:由于同名不同义,同义不同名,很难准确定位和分析,可能造成进一步的混乱

(3)把数据加工成报告

        要写许多程序,每个程序必须客户化

        程序会涉及公司具有的各种技术

        由于定位数据困难,检索所要的数据时一种很麻烦的事

(4)完成任务需要很长时间

        定位数据+获取数据+集成报告,完成任务所需要时间较长

        每份报告自需求不同,因此每份报告所需要的时间都很长

3.不可能把数据转换成信息

(1)涉及大量应用:存储应用,贷款,信托,而这些应用并未集成

(2)没有足够的历史数据

(3)数据不一致

(4)外部数据和非结构化数据

4.数据动态集成问题

5.历史数据问题

6.数据综合问题:非细节数据,多种程度的综合

五,操作型环境和分析型环境

1.不同需求,要求将操作型环境和分析型环境相分离

(1)在操作型环境中支持分析应用太困难,太复杂

(2)操作型环境不支持域之间的联系,仅仅支持表之间的连接

(3)不同数据环境要求从数据组织和操作上进行工作。

2.两种数据的区别

3.提升现有信息

(1)企业范围内的信息共享

(2)准确,一致的集成数据

(3)面向整个企业和最终用户,针对分析需要,进行数据重组,形成一套全新的,相对完整的数据视图。

4.数据仓库要解决的基本问题

(1)全局范围内统一数据视图

    数据内容:数据完整性,数据准确性,数据一致性

    数据组织:面向分析决策。

(2)数据仓库的建立

    需要针对多个数据源的数据集成

    考虑“重要”的业务分析问题

    选择合适的数据源

    数据仓库系统的建设永无止境

    数据仓库系统的建设是一项工程,同时也是一个过程。

六,什么是数据仓库

1,数据仓库的定义:是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策和信息的全局共享。

2.对数据仓库的理解:

(1)数据仓库用于支持管理和决策,面向分析数据处理,它不同于企业现有的面向交易的操作型数据库

(2)数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据

3.数据仓库的特点

(1)面向主题: 操作型数据库是面向特殊处理任务,进行组织,由各个不同的系统独立维护

                      数据仓库是面向不同的主题域进行组织。一个主题通常于多个操作型信息系统相关

      (i)面向主题的数据组织

              主题:宏观分析领域所涉及的分析对象

              面向主题的数据组织方式:在较高的层次上对分析对象的数据的一个完整,一致的描述

              采用面向事务进行数据组织特点是:

                    充分考虑企业的部门组织结构和业务活动

                    反映企业内部数据流动情况,业务处理的数据流程

                    与业务处理流程中的单据,票证,文档有良好的对应

                    数据与应用有一定的对应

(2)面向主题的数据组织的特点

          各个主题有完整,一致的信息内容,便于在此基础上做分析处理

          主题之间有重叠的内容,反映主题间的联系

        重叠是逻辑上的,不是物理上的;重叠仅在细节层

        各主题的综合方式不同

        主题域应该具有独立性,完备性

            独立性:有明确界限,数据是否属于该主题

            完备性:对该主题进行分析所涉及的内容均要在主题域内

(3)面向主题数据组织的实现

      (️️i)多个表,公共码键(把各个表统一联系起来),但同一主题的表可存放在不同介质上

      (ii)综合信息,多个层次

      (iii)面向主题数据组织方式独立于数据的事务处理逻辑。即可以支持分析型环境数据,又可用于ODS(操作数据存储)系统

(2)数据仓库的特点:集成的

操作型数据库:面向特殊应用

      每一个数据库面向特定的应用,各类应用之间相互独立

      系统的发展经历一个长期的过程

数据仓库:集成的

  数据仓库中的数据从建立时开始,面向整个企业的分析处理,数据仓库中的数据是已经集成了的,消除了数据的不一致型

  在某个时间点完成设计,实现需要经历一个长期的不断迭代的过程

      (i)消除冲突:不一致,同名异义,异名同义,单位不统一等,需要进行数据清理(因为来源于不同的子系统,与不同的主要逻辑捆绑)

      (ii)数据的综合和计算:可在抽取数据时,也可以在进入DW后

(3)数据仓库的特点:相对稳定的

操作型数据库—实时更新:随时更新数据根据需要进行变化,并不是按照一定周期进行修改

数据仓库—在某个时间点保持不变:定期加载,加载后的数据极少更新,并不意味着数据仓库的数据不更新

                                                一般不修改,只追加;过期限的数据可从DW中移走

                                                对DW,主要是查询DWMS比DBMS要简单

                                                        可不考虑并发控制

                                                      要考虑性能(因为查询数据量大)和界面友好(对高层管理者)       

(4)数据仓库的特点:反映历史变化

操作型数据库:主要关心当前数据

数据仓库:通常关心历史数据

              码键包含时间项

              不断增加新的数据内容

              删去过时的数据

              与时间有关的综合数据:随时间变化而重新组合

七,数据库技术与相关技术的比较和联系

1.数据库技术和数据仓库技术

(1)数据库技术在系统功能和性能需求

      强调的是多用户环境下如何针对并发用户的增删改操作,保证数据的一致性和可恢复性,并发用户的吞吐量为数据库管理系统的重要性能指标

(2)数据仓库技术在系统功能和性能需求

        强调的是大数据量环境下的高效,快速查询,查询的吞吐量为数据仓库管理系统的重要性能指标

2.数据的抽取,转化和加载

3.数据集成是大问题

数据仓库是多个数据源数据的综合

数据必须转换成一个一致的格式

对于一个典型的数据仓库系统建设项目中,数据集成工作通常占到整个系统建设的80%

4.集成困难的原因:

缺乏源数据或者根本不存在

数据质量很差

    存在大量的空缺值

    存在大量的同名异义或者同义异名的问题

语义不一致

八,数据集成的方法:MQS

MQS:Mediated Query System—查询驱动方法

其目标是实现对信息智能,能动的使用

1.Mediator是一个软件模块,实现对数据的抽象与表示,具有相当的智能。

2.Mediator具有某些数据集的知识,为高层应用服务。

3.Mediator本身还可以进一步抽象成MetaMediator,来描述关于Mediator的信息

九,数据仓库的数据集成

十,联邦数据库

1.数据仓库

(1)对于所有数据创建一个备份

(2)基于备份上重构的数据,执行分析查询

2.联邦数据库

(1)从数据源中检索所需要的数据一回答各类查询

十一,数据仓库与联邦数据库

1.数据仓库

(1)不需要冗余数据的拷贝

(2)查询的结果反映所涉及数据的实时情况

(3)安全策略更加方便

2.联邦数据库

(1)分析查询对于事务系统增加了额外的“Load”数据的开销

(2)查询优化很难做得很好

(3)历史数据可能不存在或者不可用

(4)“wrappers”的功能很复杂,需要在分析服务器和数据源系统之间进行沟通

3.在实践中数据仓库方法变得更加普通

(1)更好的性能

(2)更低的复杂度

(3)对于分析来说,缺少部分实时的数据是可以接受的

你可能感兴趣的:(2018-12-04)