BI-数据仓库、联机分析出来、数据挖掘

BI-数据仓库、联机分析处理、数据挖掘

  • 数据仓库
  • 联机分析处理(OLAP)
    • 与数据仓库的关系
      • ROLAP
      • MOLAP
      • HOLAP
  • 数据挖掘

BI-数据仓库、联机分析出来、数据挖掘_第1张图片

数据仓库

数据仓库就是面向主题的(subject oriented)、集成的(Integrated)、稳定的(nonvolatile)、随时间变化的(Time variant)数据的集合,用以支持经营管理中的决策指定的过程。
数据仓库的四个特征和简历数据仓库的母的:
**1.主题与面向主题。**主题是一个抽象的概念,是在较高层次上对数据进行综合、归类、分析、利用的抽象。逻辑定义为某一个宏观分析领域所涉及的分析对象。面向主题是指数据的一种组织方式,他是较高层次上对分析对象的数据一个完整的、一致的描述,并统一的刻画着分析对象所涉及的数据项及数据项之间的联系。
举例:一个商场中有N个信息系统,在传统的应用的组织方式:
采购子系统:订单(订单号,供应商号,总金额,日期…)
销售子系统:顾客(顾客号,姓名,地址,电话…)
库存子系统:领料单(领料单号,领料人,商品号…)
进料单(进料单号,订单号,验收人,…)
库存(商品号,库存号,库存量…)
库房(库房号,管理员…)
人事子系统:员工(员工号,姓名,性别…)
这里面就可以抽象出三个主题:商品,供应商、顾客
面向这三个主题的组织形式:
商品固有信息:(商品号,商品名,类别,颜色)
商品采购信息:(商品号,供应商号)
**2、数据是集成的。**数据仓库中的数据是综合数据,不能从原有的数据库系统直接得到,即数据是从原有分散的数据库中抽取来的,在进入数据库之前,必须经过统一、清楚消息的矛盾与冲突,并经过综合和计算,形成不同程度的汇总数据。这一步是数据仓库建设中最关键,最复杂的一步,即ETL。
3、数据是稳定的。数据仓库中的数据主要是供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作,数据仓库的数据反映的是一个段相当长的时间内历史数据的内容,是不同时间的数据库快照的集合,以及基于这些快照进行统计,综合和重组的导出数据,而不是联机处理的数据。数据仓库中的数据是稳定的,即指数据是只供查询,一般是不可更新的。因此,DWMS较DBMS的完整性,并发控制技术简单,但由于数据仓库的查询数据往往很大,所以对数据查询提出了更高的要求他要求采用各种复杂的索引技术,同时由于数据仓库面向的是企业的高层管理者,他们会对数据查询的界面友好性和数据表示提出了更高的要求。
**4、数据随时间变化。**随着时间的延续而增加新的数据内容,随着时间的延续而删除过期(5-10年)的数据内容,而且,数据仓库中包含有大量的综合数据,这些综合数据中很多与时间有关,将随着时间的延续而进行重新综合。所以,数据仓库中数据的码键常常包含时间项,表名数据的时间性。

联机分析处理(OLAP)

详细发展背景见以下百科链接
https://baike.baidu.com/item/%E8%81%94%E6%9C%BA%E5%88%86%E6%9E%90%E5%A4%84%E7%90%86/423874?fromtitle=OLAP&fromid=1049009&fr=aladdin
大意路线为:
OLTP(数据库加业务系统产生的业务数据/操作数据)–数据加工需求–支持决策管理分析应用(使用的数据为信息数据)。
提出概念
联机分析处理的概念最早由关系数据库之父E.F.Codd于1993年提出。Codd认为,联机事务处理已不能满足终端用户对数据库查询分析的要求,SQL对大容量数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量的计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,Codd提出了多维数据库和多维分析的概念,即OLAP。OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互的存取,从而获得对数据更深入了解的一类软件技术。
结构体系
OLAP展现在用户面前的是一幅幅多维视图。
维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。
维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。
维的成员(Member):维的一个取值,是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)。
度量(Measure):多维数组的取值。(2000年1月,上海,笔记本电脑,0000)。
OLAP的基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等。
钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。
旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

与数据仓库的关系

数据仓库与OLAP的关系是互补的,现代OLAP系统一般以数据仓库作为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。
OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(RelationalOLAP,简称ROLAP)、多维OLAP(MultidimensionalOLAP,简称MOLAP)和混合型OLAP(HybridOLAP,简称HOLAP)三种类型。

ROLAP

ROLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择的定义一批实视图作为表也存储在关系数据库中。不必要将每一个SQL查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。对每个针对OLAP服务器的查询,优先利用已经计算好的实视图来生成查询结果以提高查询效率。同时用作ROLAP存储器的RDBMS也针对OLAP作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube,rollup)等等。

MOLAP

MOLAP将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP(PhysicalOLAP);而ROLAP主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟OLAP(VirtualOLAP)。

HOLAP

由于MOLAP和ROLAP有着各自的优点和缺点(如下表所示),且它们的结构迥然不同,这给分析人员设计OLAP结构提出了难题。为此一个新的OLAP结构——混合型OLAP(HOLAP)被提出,它能把MOLAP和ROLAP两种结构的优点结合起来。迄今为止,对HOLAP还没有一个正式的定义。但很明显,HOLAP结构不应该是MOLAP与ROLAP结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。

数据挖掘

数据挖掘(Data mining)又译为资料探勘、数据采矿。
它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。

你可能感兴趣的:(数据,BI)