SAS数据仓库就是一个适应于对企业级的数据、信息进行重新整合,适应多维、快速查询;进行OLAP操作和决策支持的数据、信息的采集、管理、处理和展现的架构体系。环境(Enviroment) 环境是SAS数据仓库体系结构的总根,它由两大部分组成。一部分是分别含有不同主题内容的若干个数据仓库;另一部分是对数据源的定义。这构成了从数据采集到直接应用完整的支持体系。
数据仓库的加载和更新
从数据源抓取数据不仅有质量问题,还存在有计划地按一定时间节奏从数据源取出和装入、更新数据仓库的问题。因为SAS系统有主动去取外部数据的能力,所以按时间节奏从数据源取出数据的操作在和其它系统管理人员协调好的基础上,就可完全在SAS系统内制定从各系统取用数据的计划了。在此基础上,数据仓库按照数据和信息使用的时间要求 ,准时地加载、更新,就是完全有保障的了。从数据源到数据仓库一气呵成的集成式的操作,这是SAS数据仓库技术的重要特点。
按决策需要重组数据和信息清理好的数据还要进行重组。按照决策的需要组织成不同主题的数据仓库表。这是十分关键性的操作。在再小的企业或组织中,也总是有许多业务和技术环节的。一般来说,原来运行系统数据库的设计也总是针对这些业务和技术环节设置"实体",即数据库的表。这样的设计使OLTP系统在线运行时,发挥了最大限度的工作效率。但在开拓决策支持的OLAP时,特别是对于全企业范围的数据进行操作时,这种数据结构效率极低。这是因为可能要从许多表中取出所需数据,而且还要进行数据的筛选, 对不同表中的数据进行拟合等操作,这是极费时间和资源的。企业范围的决策是对各个环节分别进行业务处理的业务重组,这就需要有相应数据结构的重组,即按决策的需要组织成不同主题的数据仓库表,以及相应的数据视图,汇总表等。SAS为此设置了交互式操作的界面,以最大的主动性帮您完成决策支持所需的数据重组。
丰富的决策数据处理能力
为更有效地支持决策,必须进行广泛、深入的数据挖掘( Data Mining),而不是仅仅提供简单的函数功能供编程使用。 SAS在这方面有世界领先的丰富的决策支持数据分析、处理软件。首先SAS/MDDB可帮您构造最适宜OLAP操作的多维数据结构。 SAS/STAT覆盖了所有的实用数理统计分析方法,是国际上统计分析领域的标准软件。它提供了十多个过程可进行各种不同模型或不同特点的回归分析;为多种试验设计模型提供了方差分析工具;在多变量统计分析方面,为主成分分析,相关分析,判别分析和因子分析提供了许多专用过程;还包括多种聚类准则的聚类分析方法......等。 SAS/ETS提供了丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具。 SAS/OR提供了全面的运筹学方法。 SAS/IML提供了功能强大的面向矩阵运算的编程语言,帮助您研究新算法或解决SAS系统中没有现成算法的专门问题。 SAS/INSIGHT是一个可视化的数据探索工具。它将统计方法与交互式图形显示融合在一起,为您展现了一种全新的使用统计分析方法的环境。还有SAS的人工神经元网络和SAS/ASSIST……等,具有很大伸缩性的,适合各个层次, 各种类型人员使用的工具。灵活多样的结果展现方式 分析结果的展现方式对决策时人的判别有重大的影响。 SAS也有众多的方式,方法供您选择: 在Base SAS中就有从简单列表到比较复杂的统计报表和用户自定义的式样复杂的报表的能力。 SAS/ER(Enterprise Report)更是为企业级的决策过程提供了报告的制作能力。 SAS/GRAPH是一个强有力的图形软件包,可将数据及其包含着的深层信息以多种图形生动的呈现出来……。从各种数据源主动地取出数据;经过清理、整合;再按决策支持的需要分主题、重组数据;按照时序节奏不断地自动装载、更新数据仓库;用世界权威的,丰富的数据处理工具进行决策分析;最后以多种形式将决策支持的意见呈现给您。这就是完整的决策支持数据仓库解决方案! 提醒您:在购买数据仓库产品时必须注意,您所得到的产品是否能够实现决策支持所需的全部技术环节!
SAS数据仓库的体系结构
数据库技术大大推动了计算机应用的迅速发展,特别是建立在E.F.Codd提出的E-R理论基础上的关系型数据库更是为OLTP(联机事务处理)应用开拓了广阔天地。1994年E.F. Codd曾回答一个提问:为什么在对一个运行良好的,基于E-R理论的关系数据库进行查询以制作一个较大的报告时,系统的响应速度特别的慢。他说:运行数据库是为OLTP需求环境设计的,这已有太多的成功事例。但现在我们所面对的是OLAP(联机分析处理,这个概念述语E.F.Codd在此第一次提出)类型的需求。要实现OLAP就要有适应它的、整合的、快速的、多维的信息架构和查询机制。 数据仓库(Data Warehouse) 为了使用上的方便,可以存在多个数据仓库。在一个大的企业或组织中,不同部门在进行决策分析时可能使用徊然不同的数据,重新整合后就没有必要将它们放在一起了。在体系结构层次中的数据仓库主要是管理性的作用,其中有对数据仓库所有组成单元的解释性数据-Metadata。在每个数据仓库中还可以设置若干个主题,这一般是同一部门中支持不同决策内容的数据。主题是较大的数据载体,相对精简或汇总一些的是所谓数据市场,在一个数据仓库中亦可存在若干个数据市场。主题(Subject) 在每个主题中有一个主题表系统,放置与此主题相关的各种数据。为了支持决策,还设置了若干个数据的汇总表组。进一步还有若干个信息市场组,其中放置的是对数据处理后产生的决策支持信息。
主题表系统(Detail) 这里放置的就是从各个数据源中取出,经过清理、整合的原始数据。为了使用和管理的方便,这些数据可放在多个表中。主题表(Detail Table) 从运行系统数据源取出的数据,分别组成这里的若干表。它们可能是实际的表,也可以是一些逻辑视图(View)。从本质上讲,它们和原来各个运行系统数据源的数据内容是一致的。但是为了方便地支持决策数据处理,而对数据的结构进行了重组。为了决策支持数据处理工作的方便和提高工作的效率,在数据重组过程中,可能还要增加一些数据冗余。
汇总表组(Summary Groups) 在汇总表组中定义进行数据汇总处理时的层次维数和所分析的变量。当汇总表组是按SAS数据集和DBMS格式存放时可有六个层次,若是采用SA S 的多维数据库产品MDDB时则可有任意多个层次。实际上数据汇总就是最常用的决策支持数据处理手段,有时还可以在汇总数据的基础上进行进一步的决策支持数据处理。汇总表组可以有若干个,也就是说可以对多种变量分别进行不同方式的汇总处理。
汇总层次(Summary Levels) 汇总一般是按时间进程而执行的。汇总层次表示您所选择的数据汇总处理的时间维,如:日、周、月等。
信息市场(Information Marts) 这是信息市场的分组,在一项主题中可以有若干组信息市场。一般来说是按不同的决策支持内容需要进行分组的。之所以要称之为"信息市场 ",这正是体现了设置这样一个机制的目的:要让决策者象到了一个信息市场一样,能最方便,最快捷的取得决策支持所需要的信息。
信息市场项目(Information Mart Items) 这是信息市场中一项一项具体的信息,它是对数据仓库中的数据进行处理后产生的结果。在一个企业或组织中决策目标并不总是随机的,相反总是有一些要经常反复进行的决策工作,但是随着时间的进程,支持决策的依据在不断发展、变化。利用数据仓库架构就可以自动、及时地执行这样的决策支持数据处理工作。当人们需要决策支持时,马上就可以得到这些信息的支持。信息市场项目可以是一些报表、图形或分析的结果。它也可以是一项应用功能的输出。您在调用这样的项目时,可以是即时启动此项应用功能,也可以将它们设定成在数据仓库更新时作为系统运行的一部分。这样,就在可能的最早时间形成了决策支持的信息, 为支持决策创造最大限度的快捷和方便。