商业智能提供的解决方案能够从多种数据源获取数据并且能够把各种数据转化成同一格式数据进行存储,最终达到让用户可以快速访问解读数据,为用户分析和制定决定提供有效的数据支持。可以人为的把商业智能分为以下几层:
数据源层:公司日常工作中会存在多种格式的数据,如文本文档,excel文件,access数据库文件,SQL Server数据库文件等。
数据转换层:由于数据源存在多样化,为了方便分析,需要对它们进行一定的加工,使其数据格式相同,最终存入数据存储系统。
数据存取层:关系数据库管理系统(RDBMS)中创建数据仓库,保存数据。
数据分析层:多维联机分析处理数据库做为数据分析层,负责把数据转换成信息。
数据表示层:表示层的应用程序可以直接访问数据仓库或多维联机分析处理数据库等,可以用不同风格(表格、图形等)展示数据的魅力。可以用EXCEL来秀数据,也可以用adomd.net开发asp.net(winform)等来秀数据,总之,熟悉后,可以根据实际需求想怎么秀就怎么秀。
度量值
在商业智能中,用来监控公司运行的可概括的数值被称作度量值(measure)。如“SalesAmount”、“OrderQuantity”都被称作度量值。如图
“SalesAmount”标签被称为元数据,“100”为销售数量。如果没有“SalesAmount”这个元数据,“100”将只是一个数值而且这个数值将显得毫无意义。
属性
看下面一张产品属性表,
“产品”、“模型”、“颜色”、“尺寸”被称为属性,而“Mountain-500”、“Road-750”、“Hitch Rack”被称为属性“模型”的成员,同样,“黑色”和“银色”也是“颜色”属性的成员。“产品”属性被称为关键属性,因为它可以唯一地确定其他属性(颜色,尺寸等),在上表“产品“属性列中也是唯一的,不存在重复值。如“Mountain-500 Black,40“就可以准确的定位到上表第一行,但是”模型“属性成员”Mountain-500“在上表中不能确定具体是哪个产品。
看下面这个销售报表,
这份报表中每种模型都有该模型下的相关产品销售额的总和或者叫聚合(aggregation)。“模型“属性和”产品“属性以层次结构(hierarchy)进行组织,“模型”属性的成员作为层次结构高层,“产品”属性的成员作为底层。有了层次结构,我们可以选择查看模型级的销售额或者产品级的销售额。
维度
相同的产品可以在两个不同的州销售,所以可以得到如下报表
这份报表有两个“州”属性成员,三个“模型”属性成员,五个“月份”属性层次结构构成的成员。所有值的最大可能数为:州数目*模型数目*月份数目=2*3*5=30。
报表中独立属性和层次结构称作报表的维度,维度(dimension)包括属性和层次结构。如上图报表,州属性属于地理维度,模型属性属于产品维度,月属性层次结构属于日期维度。一个维度可能不止一个属性,但每个维度只有一个关键属性。其他与关键属性相关的属性都属于同一维度。由于属性属于维度,那么属性成员也即维度成员。维度中可以包含层次结构,用于创建层次结构的属性必须属于同一维度,同时该层次结构也属于该维度。如,模型和产品构成的层次结构由产品维度中的属性组成,而该层次结构也属于产品维度。维度是相关属性和层次结构进行分组的有效方法。
事实表和维度表
在维度数据仓库中,维度存储在维度表中,度量值被称作事实并存储于事实表中。事实表是存储度量值的详细值或事实的表。如图,
这个事实表中,前三列(州键、产品键、月份键)是键列。键列的值将事实表每行中的事实和每个维度表中的一行联系起来。剩下的两列(销售量和销售额)包含了数值事实,是这张事实表的两个度量值。和事实表相关的维度被称作事实表的维数(dimensionality)。
许多维度属性可用来对维度记录进行分组,并可以对每组相关的事实表中的度量值进行汇总。
如上图Product维度表中的记录可被分为自行车和配件两类,每种分组的销售量都能计算出来。可以创建分组的属性是可聚合的,如类别属性、颜色属性等,不可聚合的属性称为成员属性,如价格,因为根据价格分组出来的数据没什么太大的意义 。
度量值组
事实表中包含数据的列对应于维度模型中的度量值,因此,每张事实表都包含一组度量值。
分析服务用一组称作度量值组的逻辑结构组织信息,度量值组与单个事实表及其相关的维度相对应。度量值组不但包含了每个维度的列以及每个度量值的列而且还包含了每个维度中的成员的每个可能的组合所对应的行。与事实表不同的是,事实表只包含单个细节的数据,而度量值组不但包含单个细节的数据,而且还包含更高级细节的聚合数据。如图
上表中只有最后一行和事实表中的某行对应,该行包含了和事实表相同级的详细信息。其他行都不会出现在事实表中,每行中都至少有一个维度层次结构中更高级别的成员。在具有更高级别成员的每一行中,通过累加低级细节数据使事实数据被聚合。上表只是列出了很小一部分的可能值。
本文为SQLServer 2008分析服务从入门到精通的读书笔记,略带加上一些自己的感悟。