商务智能系统实现数据管理的关键技术

无论是商业企业、科研机构或者政府部门,在过去若干年的时间里都积累了海量的、以不同形式存储的数据资料。但当面对越来越多迅速膨胀的超级数据库时,人们却无从着手去理解数据中包含的信息,更难以获得有价值的知识。然而这些信息数据记载着企业的生命轨迹,蕴含着企业的发展方向,由于采用普通的联机事物处理技术(OLTP)的信息系统无法同时满足高效作业和决策支持的两项需求,造成了海量数据与信息“孤岛”的并存。好在人们已经感受到了危险的降临,商务智能软件已悄然而生并越来越受到世人的重视。

1.商务智能的定义

商务智能(Business Intelligence)的定义众说纷纭,Gartner Group认为“商务智能是将数据转换成信息的过程,然后通过发现将信息转化为知识”;商务智能大师利奥托德认为“商务智能是将存储于各种商业信息系统中的数据转换成有用信息的技术,它允许用户查询和分析数据库,可以得出影响商业活动的关键因素,最终帮助用户做出更好更合理的决策”。

笔者在总结了商务智能的相关定义之后,将商务智能定义为:商务智能是指利用现代信息技术收集、管理和分析存储于各种商业信息系统中的数据,使之转换成有用信息,并以可视化的形式加以表现,使企业的各级决策者获得知识和洞察力,促使他们做出对企业更有利的决策的技术。

目前,各个行业都面对着激烈的竞争,及时、准确的决策已成为企业生存与发展的生命线。随着信息技术在企业中的普遍应用,企业产生了大量富有价值的电子数据。但这些数据大都存储于不同的系统中,数据的定义和格式也不统一,商务智能系统能从不同的数据源搜集的数据中提取有用的数据,并对这些数据进行清洗,以确保数据的正确性,在对数据进行转换、重构等操作后,将其存入数据仓库或数据集市中;再运用适合的查询分析工具、数据挖掘工具、OLAP工具等管理分析工具对信息进行处理,使信息变为辅助决策的知识,并将知识以适当的方式展示在决策者面前,供决策者运筹帷幄。

2.商务智能系统的基本架构

美国数据仓库研究院把商务智能比作“数据炼油厂”,它将商务智能的应用过程描述为“数据一信息一知识一计划一行动”的过程。

根据对商务智能的理解,借鉴美国数据仓库研究院的“数据炼油厂”,给出商务智能系统的架构,如图一所示:

图一 商务智能系统架构


1)数据源层——商务智能系统的数据来源,它存储着系统所需的最原始的数据以及数据之间的关系,保持着历史的真实性。

2)数据整合层——商务智能系统的根本要求,它将来自不同数据源的信息合并为相同的信息结构,消除重复、无效和界外的数据,提取、净化和传递数据到为数据仓库设立的文件中。

3)数据仓库层——商务智能系统的基础,是数据分析的源数据,保存着大量的、面向主题的、集成的数据。

4)数据分析层——体现系统智能的关键,它一般采用OLAP技术和数据挖掘技术对数据进行分析和处理。

5)数据展现层——它向商务智能环境的收益者提供实际的分析结果,同时保证系统分析结果的可视化,形式有报表、图表、数据表等。

3.商务智能系统的关键技术

对商务智能系统的架构进行分析可以看出,商务智能系统对数据实行分析管理的关键技术如下:

3.1 数据仓库技术

数据仓库之父w.H.Inmon博士对数据仓库的定义得到了大多数学者和工程人员的接受:“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,它用以支持经营管理中的决策制定过程。”由此定义可以看出,数据仓库具有如下特性:

(1)面向主题性
面向主题性是数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织和展开的,每个主题对应一个客观分析领域。

(2)数据集成性
数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等,使数据仓库中的数据具有集成性。

(3)数据的稳定性
数据的稳定性说明数据仓库中的数据不会像业务处理系统中的数据库那样进行日常的添加、修改、删除等操作,而是很少发生更新处理,表现出相当程度的稳定性。

(4)数据的时变性
数据仓库的时变性,即数据仓库中的数据应该随着时间的推移而发生变化。数据仓库要能够捕捉业务系统中的数据变化,定期将变化的数据追加到数据仓库中来,还要将达到一定年限或规定时间的历史数据进行删除。

(5)数据的集合性
数据的集合性是指数据仓库必须以某种数据集合的形式存储起来,数据仓库采用的数据集合方式主要有以多维数据库方式存储的多维模式、以关系数据库方式存储的关系模式,以及多维模式和关系模式混合的模式。

(6)决策支持作用
决策支持作用是数据仓库一个核心的应用,建立数据仓库的目的是将企业多年来收集到的数据按照一个统一的规则组织存储,然后通过对海量的数据进行分析提供决策支持,帮助企业及时、准确地把握机会,以在激烈的市场竞争中取得最大的利润。

数据仓库技术是信息技术飞速发展的结果,它与传统的面向操作的数据库技术相比有很大的不同,从结构上看,数据仓库主要包括:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库、管理工具和应用工具等部分。如图二所示:

 


图二 数据仓库的系统结构


数据源——数据仓库的数据来源。
数据准备区——数据源中的数据经抽取、转换最终成为数据仓库所需要的数据。
数据仓库数据库——负责存储用于分析、决策的数据,包含对元数据的管理。
数据集市/知识挖掘库——局部数据仓库或部门数据仓库,为指定的应用提供数据。
管理工具和应用工具——包括各种对数据仓库的数据分析和数据访问,如利用OLAP进行数据分析,数据仓库应用程序等。

3.2 OLAP分析技术

OLAP是独立于数据仓库的一种技术概念,其基本思想是使得企业的管理决策人员能够灵活地操纵企业的数据,以多维的形式从多方面和多角度观察企业的状态和变化趋势。

OLAP最早是由E.F.Codd于1993年提出的,当时,Codd认为联机事务处理(OLTP)已经不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提出了多维数据库和多维分析的概念,即OLAP。它是针对特定问题的联机数据访问和分析。通过对多维数据的多种可能的观察形式进行快速、稳定、一致和交互性的存取,允许管理决策人员对数据进行深入观察。

OLAP的多维分析是指对多维数据集中的数据用切片(二维)、切块(三维)、钻取(向下钻取和向上钻取,钻取的深度与维所划分的层次相对应)、旋转(通过旋转可以得到不同视角的数据)等方式分析数据,使用户从多个角度、多个侧面去观察数据仓库中的数据。通过这种方法能够使分析人员深入的了解数据仓库中数据所蕴含的信息,从而挖掘隐藏在数据背后的商业模式。

在BI的建设过程中,数据仓库和数据集市都是数据的存储区域。都在为数据的在线分析和挖掘提供数据源。数据仓库和数据集市主要是范围的不同。数据仓库面向企业的所有部门,所以它的需求是全企业范围的,一般情况下,它的数据按照第三范式组织。数据集市是面向企业的某一个部门的,需求比较集中,以多维方式的形式管理数据。

3.3 数据挖掘技术

W.J.Frawley,G.PiatetskyShapiro等人指出,数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识,这螳知识是隐含的、事先未知的、潜在有用的信息,提取的知识可表示为概念、规则、规律、模式等形式。

3.3.1 数据挖掘研究的主要内容

数据挖掘所发现的知识最常见的有以下四类。

(1)广义知识
广义知识指类别特征为概括性描述的知识,是根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。

(2)关联知识
关联知识是指反映一个事件和其他事件之间信赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规则发现方法是R.Agrawal提出来的Apriori算法。

(3)分类知识
分类知识是反映同类事物共同性质的特征型和不同事物之间的差异特征型知识。最为典型的分类方法是基于决策树的分类方法,还有统计、粗糙集(Rough Set)、神经网络等方法。

(4)预测型知识
预测型知识根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为它是以时间为关键属性的关联知识。目前,时问序列预测方法有经典的统计方法、神经网络和机器学习等。

此外,还可以发现其他类型的知识,如偏差型知识,它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。

3.3.2 数据挖掘的常用技术

(1)神经网络:它从结构上模仿生物神经元结构,是一种通过训练来学习的非线性预测模型,可以完成分类、聚类、特征采掘等多种挖掘任务。
(2)决策树:代表着决策集的树形结构。
(3)规则推导:从统计意义上对数据中的“如果-那么”规则进行寻找和推导。
(4)遗传算法:基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法的优化技术。
(5)近邻算法:将数据集合中每一记录进行分类的方法。这种技术通过K个与之最相近的历史记录的组合来辨别新的记录。

3.4 数据仓库和OLAP与数据挖掘的关系

数据挖掘不是必须基于数据仓库的,数据挖掘能够通过数据抽取、数据预处理和转换等操作自己完成数据挖掘前的准备工作,继而进行数据挖掘。然而这部分的工作需要耗费大量的时间和精力,而进行数据挖掘又无法避开这些操作,因此将数据挖掘工作基于数据仓库技术来进行,能够省去数据的前期准备等工作,大大提高数据挖掘效率。因为数据仓库在建立的时候,已经完成了数据的抽取、转换和加载等操作。

OLAP作为数据仓库中的关键技术,其可以在使用多维数据模型的数据仓库或数据集市上进行,充分发挥OLAP的联机分析的功能和特性。将OLAP与数据挖掘进行结合,能够为数据挖掘提供基础数据支持,提高数据挖掘的效率,而且还可以实现联机分析数据挖掘的功能。用户常常希望穿越数据库,选择相关数据,在不同的粒度上进行分析,并以不同的形式显示结果。联机分析数据挖掘提供了在不同的数据子集和不同的抽象层上进行数据挖掘的工具,在数据立方体和挖掘的中间结果数据上进行下钻、上卷、旋转、切片、切块等操作,提高数据挖掘探测性的数据分析的能力和灵活性。

采用数据挖掘与数据仓库和OLAP技术有机结合的方式,可以使数据挖掘具有更高的实用性和高效性。

4.结 语

随着市场竞争的日益加剧,国内外众多商务智能软件公司开发了数据分析和数据挖掘软件来分析海量数据,帮助管理者穿越数据迷雾,赋予数据第二次生命,相信在不久的将来,人们在面对大量的数据时不再感到迷茫,而是能够以用户需要的方式重新组织这些数据,并通过对这些数据的分析,挖掘出潜在的模式,有效地预测市场的行为,做出正确的决策。

你可能感兴趣的:(管理)