1.
项目背景与架构说明
a)
项目背景
略
b)
架构说明
数据大集中平台建设后,存在不同地域的重要商业数据进行回迁,通过选择安全的点对点方式进行相关数据传输,在进行数据库集中处理后,在数据库构建的数据仓库、业务系统、主管信息系统中进行数据挖掘、数据采集以及数据多维分析。最终在这些工作的基础上进行
ETL
整合与数据展现。
2.
需求剖析
a)
按处理层次与功能剖析
i.
信息整合与数据传递
1.
信息整合
A.
谁需要信息整合技术
(IBM Information integrator)
?
如果你公司里没有任何数据的话,那么恭喜你!你不需要
IBM
信息整合技术。
如果你公司里:
有数据库,也许还是不同的数据库,比如一个是
Oracle
数据库,一个是
Informix
数据库,一个是
Sybase,
一个是
DB2
等等
你的数据有些在关系数据库中,有些在
Excel
中
,
有些在网上;
你要的数据在不同的数据源而他们又不能有效的共享
(
信息孤岛
!)
你有两个以上的业务系统,采用的不是同一种技术。
你要让不同的数据源的数据一起工作才能解决你的业务问题
你需要
IBM
信息整合技术!
B.
什么是
IBM
信息整合技术?
IBM
信息整合技术把
Oracle, Sybase, SQL Server
和
DB2, Informix
等流行的关系数据库以及其他可用的数据源联起来形成一个统一的数据库。就象在不同的信息孤岛之间搭建的无数桥梁,从而使得公司要用的数据不再互相孤立,而可以形成统一的数据视图。它有三大功能:
接入
几乎所有类型的数据。没有接入不了的信息孤岛!
整合
接入的数据。不是把数据简单的堆砌在一起,而是提供高级的关系数据管理功能。比如
跨数据源实时查询、存储、缓存;数据的转换、复制、搜索和发布。
把孤岛整合成一个高效的城市!
存取
整合好的数据。提供标准的访问方式。可以用
SQL
语言
(
标准的关系数据库语言
)
,
XML
,
Web Service,
甚至以类似关键词索引技术的形式搜索企业的数据。
C. IBM
信息整合解决方案的优势
对原有数据源及应用没有任何影响,不用修改原有应用!
能整合几乎所有的数据源,包括所有的关系数据库,
MQ
、
XML
、
Web Service
等
提供搜索引擎!你可以搜索你的数据!
整合而不是堆砌。给你一个统一的视图,使你能找到客户需要的一切信息!
实现异构数据源之间的可靠复制。比如在广域网中采用基于消息队列的数据复制
跨系统间高效的批量数据交换
独特的数据推送技术,把合适的数据推送到你面前!
实时处理,速度快!
因此,在这个处理层面上
l
IBM WebSphere Application Server Network Deployment
l
IBM WebSphere DataStage Server
成为了您理想的选择。
2.
数据传递
在这个项目中,由于项目背景的需要,数据传递方式没有别的选择——分布式计算与数据传递环境是唯一可行的方式。
为什么这么说呢?这要从分布式计算方式的比较说起:
在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环境下的分布式应用提供有效的通信手段。为了管理需要共享的信息,对应用提供公共的信息交换机制是重要的。
设计分布式应用的方法主要有:远程过程调用
(PRC)
——分布式计算环境
(DCE)
的基础标准成分之一;对象事务监控
(OTM)
——基于
CORBA
的面向对象工业标准与事务处理
(TP)
监控技术的组合;消息队列
(MessageQueue)
——构造分布式应用的松耦合方法。
(a)
分布计算环境
/
远程过程调用
(DCE/RPC)
RPC
是
DCE
的成分,是一个由开放软件基金会
(OSF)
发布的应用集成的软件标准。
RPC
模仿一个程序用函数引用来引用另一程序的传统程序设计方法,此引用是过程调用的形式,一旦被调用,程序的控制则转向被调用程序。
在
RPC
实现时,被调用过程可在本地或远地的另一系统中驻留并在执行。当被调用程序完成处理输入数据,结果放在过程调用的返回变量中返回到调用程序。
RPC
完成后程序控制则立即返回到调用程序。因此
RPC
模仿子程序的调用
/
返回结构,它仅提供了
Client(
调用程序
)
和
Server(
被调用过程
)
间的同步数据交换。
(b)
对象事务监控
(OTM)
基于
CORBA
的面向对象工业标准与事务处理
(TP)
监控技术的组合,在
CORBA
规范中定义了:使用面向对象技术和方法的体系结构;公共的
Client/Server
程序设计接口;多平台间传输和翻译数据的指导方针;开发分布式应用接口的语言
(IDL)
等,并为构造分布的
Client/Server
应用提供了广泛及一致的模式。
(c)
消息队列
(Message Queue)
消息队列为构造以同步或异步方式实现的分布式应用提供了松耦合方法。消息队列的
API
调用被嵌入到新的或现存的应用中,通过消息发送到内存或基于磁盘的队列或从它读出而提供信息交换。消息队列可用在应用中以执行多种功能,比如要求服务、交换信息或异步处理等。
中间件是一种独立的系统软件或服务程序,分布式应用系统借助这种软件在不同的技术之间共享资源,管理计算资源和网络通讯。它在计算机系统中是一个关键软件,它能实现应用的互连和互操作性,能保证系统的安全、可靠、高效的运行。中间件位于用户应用和操作系统及网络软件之间,它为应用提供了公用的通信手段,并且独立于网络和操作系统。中间件为开发者提供了公用于所有环境的应用程序接口,当应用程序中嵌入其函数调用,它便可利用其运行的特定操作系统和网络环境的功能,为应用执行通信功能。
如果没有消息中间件完成信息交换,应用开发者为了传输数据,必须要学会如何用网络和操作系统软件的功能,编写相应的应用程序来发送和接收信息,且交换信息没有标准方法,每个应用必须进行特定的编程从而和多平台、不同环境下的一个或多个应用通信。例如,为了实现网络上不同主机系统间的通信,将要求具备在网络上如何交换信息的知识(比如用
TCP/IP
的
socket
程序设计);为了实现同一主机内不同进程之间的通讯,将要求具备操作系统的消息队列或命名管道
(Pipes)
等知识。
目前中间件的种类很多,如交易管理中间件
(
如
IBM
的
CICS)
、面向
Java
应用的
Web
应用服务器中间件
(
如
IBM
的
WebSphere Application Server)
等,而消息传输中间件
(MOM)
是其中的一种。它简化了应用之间数据的传输,屏蔽底层异构操作系统和网络平台,提供一致的通讯标准和应用开发,确保分布式计算网络环境下可靠的、跨平台的信息传输和数据交换。它基于消息队列的存储
-
转发机制,并提供特有的异步传输机制,能够基于消息传输和异步事务处理实现应用整合与数据交换。
IBM
消息中间件
MQ
以其独特的安全机制、简便快速的编程风格、卓越不凡的稳定性、可扩展性和跨平台性,以及强大的事务处理能力和消息通讯能力,成为业界市场占有率最高的消息中间件产品。
MQ
具有强大的跨平台性,它支持的平台数多达
35
种。它支持各种主流
Unix
操作系统平台
,
如:
HP-UX
、
AIX
、
SUN Solaris
、
Digital UNIX
、
Open VMX
、
SUNOS
、
NCR UNIX
;支持各种主机平台,如:
OS/390
、
MVS/ESA
、
VSE/ESA
;同样支持
Windows NT
服务器。在
PC
平台上支持
Windows9X/Windows NT/Windows 2000
和
UNIX (UnixWare
、
Solaris)
以及主要的
Linux
版本
(Redhat
、
TurboLinux
等
)
。此外,
MQ
还支持其他各种操作系统平台,如:
OS/2
、
AS/400
、
Sequent DYNIX
、
SCO OpenServer
、
SCO UnixWare
、
Tandem
等。
因此,在这个处理层面上
l
IBM WebSphere MQ
成为了您理想的选择。
ii.
数据仓库与数据集市的构建
1.
商业智能
商业智能是指通过对数据的收集、管理、分析以及转化,使数据成为可用的信息,从而获得必要的洞察力和理解力,更好地辅助决策和指导行动。
商业智能的实现涉及到咨询服务、应用,以及信息技术的充分利用。其基本体系结构包括以下部分:
数据仓库:用于抽取、整合、分布、存储有用的信息。
一个企业的信息往往分布在不同的部门和分支机构,管理者要综观全局、运筹帷幄,必须能迅速地找到能反映真实情况的数据,这些数据也许是当前的现实数据,也可能是过去的历史数据。因此,有必要把各个区域的数据集合起来,去其糟粕、取其精华,将真实的、对决策有用的数据保留下来,随时准备管理人员使用。因此,数据仓库不仅仅是个数据的储存仓库,更重要的是它提供了丰富的工具来清洗、转换和从各地提取数据,使得放在仓库里的数据有条有理,易于使用。
多维分析:全方位了解现状。
管理人员往往希望从不同的角度来审视业务数值,比如从时间、地域、功能、利润来看同一类储蓄的总额。每一个分析的角度可以叫作一个维,因此,我们把多角度分析方式称为多维分析。以前,每一个分析的角度需要制作一张报表。由此产生了在线多维分析工具,它的主要功能,是根据用户常用的多种分析角度,事先计算好一些辅助结构,以便在查询时能尽快抽取到所要的记录,并快速地从一维转变到另一维,将不同角度的信息以数字、直方图、饼图、曲线等等方式展现在用户面前。
数据挖掘:发现问题、找出规律,辅助决策。
正如在矿井中可以开采出珍贵的矿石,在数据仓库的数据里也常常可以开采出业务人员意想不到的信息。它比多维分析更进一步。例如,如果管理人员要求比较各个区域某类储蓄在过去一年的情况,可以从多维分析中找答案。但是,如果管理人员要问为何一种储蓄在某地区的情况突然变得特别好或是不好,或者问该储蓄在另一地区将会怎么样,这时数据开采工具可以作出回答。
简单的说,数据挖掘使用统计、分析等数学方法、以及电脑学习和神经网络等人工智能方式,从大量的数据中,找寻数据与数据之间的关系。这种关系,一般显示数据组之间相似或相反的行为或变化。一个细心的分析者,往往能从这些发掘出来的关系得到启示。而这种启示又很可能使得到它的业者,获得其他竞争者所没有的先机
。
商业智能(
Business Intelligence
,
BI
)是对于大量数据的收集和分析,以便洞悉如何驱动战略性和策略性商业决策。
BI
是用于将数据转换成信息的过程和技术的集合。它包含了种类繁多的技术,包括数据仓库、多维分析或在线分析处理(
OLAP
)、数据挖掘和数据可视化,以及简单的查询和很多种用于制作报表的分析工具。这些技术允许业务用户收集、存储、访问和分析数据以提高做出业务决策的能力
如上所述,商业智能的手段主要在三方面:抽取,分析及发掘,
IBM
在这三方面都提出了强有力的工具:
l
Warehouse Manager (
数据仓库管理器
)
l
DB2 OLAP Server (DB2
多维服务器
)
l
Intelligent Miner (
数据挖掘
)
2.
数据仓库与数据集市
a)
数据仓库
数据仓库是什么?
数据仓库(
data warehouse
)是一个集中式的存储库(
repository
),包含了综合详细的数据和概要数据,用于从不易变的历史角度提供客户、供应商、业务过程和事务的完整视图。
另一方面,数据集市(
data mart
)包含数据仓库中所存储数据的一个子集,这些数据是特定商业社区、部门或用户群所感兴趣的(例如:市场促销、财政或帐户集合)。
数据集市是由其用户的功能范围而非数据集市数据库的大小定义的,意识到这一点十分重要。在结构良好的
BI
系统中,数据仓库充当多个数据集市的一个源。
数据仓库(
Data warehousing
)是用于管理和交付用于进行决策的完整、及时、正确和可理解信息的过程和工具的设计和实现。它包括使企业可以创建、管理和维护数据仓库或数据集市的所有活动。数据仓库(
Data warehousing
)处理对于数据仓库(
data warehouse
)或数据集市的开发、实现和操作的管理。它包括元数据管理、数据采集、数据清理(
data cleansing
)、数据集成、存储器管理、数据分布、数据归档、操作报表制作、分析报表制作、安全性管理、备份和恢复计划等等。
以下为
IBM
为
DB2
数据仓库提供的解决方案的工具
DEMO
展现,在
1
号工程中,由于中烟已经使用
DB2 V8.2
进行单实例多节点的部署,数据大集中已经构建,因此可以考虑在现有投资的基础上进行数据仓库的构建,即采用
DB2
高级特性来构建数据仓库技术。由此带来的更高的附加值和可用性在
IBM DB2
产品上再一次体现。这里展示几张根据现有
DB2
构建数据仓库的截屏。
分别是:
l
DB2
多个仓库切换
l
定义仓库源
l
定义仓库过程
l
仓库负载实用程序
DB2
多个仓库切换:
注意:
DB2 Data Warehouse Center
的登录窗口将允许您在多个仓库控制数据库中进行切换。当有许多项目或开发人员在同一
DB2
数据仓库(
Data Warehouse
)服务器上工作时,此功能极其有用。
定义仓库源:
仓库源指定将为仓库提供数据的表和文件。
Data Warehouse Center
使用仓库源中的说明来访问数据。
DB2 Data Warehouse Center
支持所有主要平台上的大量关系数据源和非关系数据源
定义仓库过程:
仓库过程包含为特定仓库执行数据转换和移动的一系列步骤。一个过程可以产生一个表或一组总结表(
summary table
)。过程还可以执行一些特定类型的数据转换
仓库负载实用程序:
DB2 Load
转换器可以将大量数据从定界的(
delimited
)文件装入
DB2
表,替换或追加数据库现有的数据。默认情况下,
DB2 Load
仅在日志中记录进度消息,而不是真正地输入数据,因此,在这里不需要考虑日志文件的长度。在数据装入结束之后,表空间会处于暂挂(
pending
)状态;您需要备份该表空间,以使目标表可用。然而,
DB2 Load
转换器为您提供了一个保存输入数据的副本的选项,如果使用该选项,则该表在数据装入之后就立即可用
b)
数据集市
一旦定义了商业目标、数据源和数据模型,就需要开发一个过程来提取源系统的数据,集成和净化来自于多个不同系统的数据,然后将之载入物理数据库中。提出这个意义后,我们就引入到了数据集市中一个非常重要的工具——
ETL
ETL
(
Extract Transformation and Load
)提取转换和加载。
ETL
软件专门完成数据集市中所需的数据提取、转换和加载。与用更为传统的编程语言(如
COBOL
或
C++
)进行的“手工编码”相比,
ETL
软件有两个主要的优点。
ETL
提高了生产率并且是可移植的。生产率是通过在更高层次进行开发而提高的。用图形界面进行开发可以从“指向和点击”菜单中选择命令、函数和字段名。可以选择许多“预先编程的”函数,其中很多都是专门为创建维数模型而准备的。
ETL
使用可视界面而非手工输入来生成
SQL
。这些特性都使得开发更快,错误更少且更容易维护。
ETL
的另一个优点就是其可移植性。将
ETL
逻辑移到不同的服务器上或使用不同的
RDBMS
都只需要进行很少的修改。因此,如果需要迁移到新的平台,
ETL
软件将进行配置修改和测试,但是如果
ETL
软件支持新的平台或
RDBMS
,就只需进行极少的编码修改。
数据管理通常都是项目中最难的工作。如果数据集市项目最先使用
ETL
软件,则在学习过程、开发新标准以及设置新的编码环境方面需要额外的时间。开发一旦完成,就要维护大量新的、复杂的代码,而这通常需要一个兼具数据集市和
ETL
软件知识的技术团队。
一般用户是通过数据访问工具来了解数据集市的,而这些工具将支持信息的访问和分析。数据集市用户可分为三组:普通(
conventional
)用户、专门(
ad hoc
)用户和高级(
power
)用户(图
7
)。
普通用户不加修改地运行预先定义的报表。因为他们不懂技术,所以需要简单的用户界面,其中带有满足他们需求的预定义报表。
专门用户易于将商业问题转换为查询。他们具有一些技术并且理解数据。因此他们需要带有大量功能的直观的数据访问工具。
高级用户很懂技术且理解
SQL
。他们用能最好地满足他们需求的软件(例如
MS Access
、
Excel
或
SAS
)从各种来源采集数据,并且联合和分析数据。为专门用户选择的数据访问工具或许也能满足高级用户,但是他们还可能需要强调分析功能的附加软件。
当选择数据访问工具时,要考虑各种特性。
其中应该考虑必需的和“较好的”的功能以及软件评价功能。理想的是能有一些用户参与数据访问工具的评价,因为他们接受决策才是最重要的。还有一些可考虑的特性是:工具是基于
Web
的还是基于客户端的,报表是否可以预先安排,可用哪些分析功能,用户界面是否友好,销售商占有多少市场份额等等。
数据访问工具的功能丰富且带有许多附加的组件。将为处理实时的、批处理的或基于
Web
的请求配置多个服务器,而该软件就可驻留在这些服务器上。因为该软件与服务器、操作系统和数据库紧密集成,所以安装和监控数据访问工具的人将需要具有非常好的基础知识。相比之下,开发用户界面和任何预定义报表就需要业务知识和较好的交际能力了。
iii.
数据挖掘与多维分析
1.
数据挖掘
数据挖掘是一种通过对企业数据库中的信息进行分析,从而得出新的并且有价值的商业情报的技术。这些情报可以用于鉴别市场环境,支持商业决策。本质上来说,数据挖掘是一种利用发掘企业现有信息来为企业进行长远战略规划的重要手段。
数据挖掘通过使用高级的分析和建模技术揭示了商业智能的奥妙。用户通过数据挖掘能够得到的信息比使用常规查询方法能够得到的信息要丰富得多。使用数据挖掘得到的信息能够极大地改善商业决策的成功率和可信度。
一个完整的解决方案所面临的新的挑战就是,能否从数据中提取出更多知识,从而使解决方案更有价值。这组基于实际使用经验撰写的教程可以帮助读者定位商业问题,并感受
IBM Intelligent Miner
在一个商业智能架构中的价值所在。
IBM
将它的挖掘技术定位为
DB2 BI
平台的组成部分。通过
Intelligent Miner
附带的
API
,可以很容易地将挖掘功能集成到你的商业应用程序中。
在
1
号工程中我们将数据挖掘定义为三个层面:
l
发现数据关系
l
计算数据模型
l
可视化数据挖掘过程
发现数据关系:
利用
DB2 Intelligent Miner Modeling
,用户可以发现数据中的隐含关系,而不必将数据导出到专用的数据挖掘计算机或分析几小段数据样本。
DB2 Intelligent Miner Modeling
提供了用于下列建模操作的
DB2 Extender
:
l
关联发现。典型应用包括在购物篮分析中发现产品关联、电子交易站点访问模式或财务产品组合。
l
人口统计分析。典型应用包括市场划分、店面造型设计和购买行为模式。
l
树形分类。典型应用包括根据预定结果分析客户,如在某段时间内的购买倾向、预计的消费水平和因摩擦而可能失去的客户等。
l
DB2 Intelligent Miner Modeling
是
DB2
数据库的一个高级
SQL
扩展,允许将建模功能嵌入业务应用程序中。
l
DB2 Intelligent Miner Modeling
支持按照预测模型标记语言(
Predictive Model Markup Language
,
PMML
)
V2.0
的格式要求开发数据挖掘模型,
PMML V2.0
是新的分析模型行业标准。
l
发现新的关系时,
DB2 Intelligent Miner Scoring
允许用户将数据中的这种新关系实时应用于新的数据。
l
数据挖掘模型分析可以通过
DB2 Intelligent Miner Visualization
(一种基于
Java
的结果浏览器)来进行。它甚至允许非专家查看和评估数据挖掘建模过程的结果。
计算数据模型:
DB2 Intelligent Miner Scoring
扩展了数据功能,允许用户实时部署数据挖掘分析方法。您可以在商业智能和运算应用程序中采用这些方法,以便更好地服务于商业和消费者用户。比如,通过为商业和消费者客户提供更智能的建议、更个性化的服务方式,或者通过提供针对特定情形的连续模型改进。
l
DB2 Intelligent Miner Scoring
提供了无与伦比的记分技术作为数据库扩展:
DB2 Extenders
和
Oracle
接口(
cartridges
)。
l
DB2 Intelligent Miner Scoring
通过简单的
SQL
编程接口和标准开发接口,提供了无与伦比的可伸缩性和强大功能。
l
DB2 Intelligent Miner Scoring
在关系数据库中
XML
对象。实现方式基于数据挖掘的新行业标准。
l
DB2 Intelligent Miner Scoring
根据一组采用数据挖掘模型表达的预置标准来对记录进行记分(
score
),包括分割、分类或这些记录的主题排序。
l
DB2 Intelligent Miner Scoring
支持所有
DB2 Intelligent Miner for Data
记分功能,例如决策树、基于中心和基于分布的群集、多项式回归,以及神经网络。通过隔离挖掘模型和应用程序的记分逻辑,您可以提供连续的模型改进,同时趋势改变或附加信息变得可用,而无需中断应用程序。
l
可以在各种环境中执行
DB2 Intelligent Miner Scoring
,例如
DB2 Extenders
和
Oracle
接口(
cartridges
)、通过
DB2 DataJoiner
对联邦数据的访问,以及不同的服务器。
可视化数据挖掘过程:
DB2 Intelligent Miner Visualization
支持通过基于
Java
的结果浏览器进行数据挖掘模型分析。
DB2 Intelligent Miner Visualization
允许专家和非专家查看和评估数据挖掘模型过程的结果。
l
Java
可视化器提供了交互和展示关联、人口统计群集和树分类模型操作的能力。可视化器的输入是符合
PMML 2.0
的模型。
l
可视化器可以内联操作以支持事务处理,或者也可以作为
Web
浏览器的一个插件。可视化器允许客户对模型结果进行分析,以获得新的业务洞察力。
在数据挖掘中,我们提供了以上三个强大的数据工具来辅助
1
号工程进行数据模型发现,数据关系计算与展现,这三个产品列表如下:
l
DB2 Intelligent Miner Modeling
l
DB2 Intelligent Miner Scoring
l
DB2 Intelligent Miner Visualization
2.
多维分析
通过以上的阶段,我们的信息化集成与数据挖掘已经得到了所有的正确的原始数据以及数据关系,对于中烟这样的分布式工程来说,多维分析便成为
ETL
整合的必由之路。因此,多维分析更显的重要了,那么,什么是多维分析呢?
多维分析是建立在
OLAP
联机分析处理上的。
多维联机分析处理
MOLAP
(
multidimensional online analytical processing
,多维
OLAP
)是一个直接编入多维数据库的联机分析处理(
OLAP
)。一般来说,一个
OLAP
应用程序以多维方式处理数据。用户可以观察数据集合体的不同方面,例如销售时间,地点和产品模型。如果数据贮存在相关的数据库里,那么它能被多维的观察,但是只能用连续的访问和处理数据集合体的一个方面的表格的方式。
MOLAP
处理已经存贮在多维列表里的数据,在列表里数据可能的结合都被考虑,每个数据都在一个能够直接访问的单元里。因为这个原因,对大多数用途来说,
MOLAP
都比主要竞争者相关联机分析处理(
relational online analytical processing
)要更快和更受用户欢迎。也有混合
OLAP,
结合了
ROLAP
和
MOLAP
的一些特性。
多维
OLAP
,基于多维数据存储的在线分析处理,
MOLAP
服务器提供数据存储管理,一般是放在物理的
Cube
当中。
MOLAP
常常用作数据仓库应用程序的一部分。
越来越多的企业随着业务系统的完善,需要建立自己的业务分析系统,以更好了解业务现状,辅助决策,从而实现降低成本、发现机会以增加收入的目标。对于那些还没有建立大规模数据仓库的企业而言,巨大的资金投入和较长的实施周期影响的商业智能应用的推广。
IBM DB2 Alphablox
是一种快速构建并部署定制分析应用的开发平台。基于开放式的架构
DB2 Alphablox
可与现有
IT
基础平台进行集成,从而确保实现企业的投资回报,更为重要的是
DB2 Alphablox
可提供将分析功能集成到现有业务处理和系统中的基于组件的框架,轻松扩展和定制以满足特定用户需求。
通过
DB2 Alphablox
解决方案的三大显著特点,更多的企业可以快速现实定制化的商业智能应用。
n
提供模块化组件方便开发分析应用。
n
零客户端,采用
DHTML
,无需安装,浏览器无需下载组件,无需在浏览器中安装插件,即可实现多维分析,复杂报表和图表。
n
可定制的分析组件能方便的嵌入已存在的业务流程和
WEB
应用中。
企业很早就明白商业智能在更好的业务决策中所发挥的重要作用。为了获得成功,当今的企业不仅需要适用的信息,还需要这些信息及时地提供给整个企业的所有决策者。集成分析有助于利用客户和合作伙伴开发的应用程序来释放信息的威力。
DB2 Alphablox for Unix and Windows
向
IBM
商业智能产品组合中添加了新的功能,这一产品组合是
IBM
随需应变功能的主要基础。该产品:
n
基于开放标准添加了一组组件,使用户能够实现集成分析的构想
n
支持用户跨企业扩展和深化业务绩效管理功能
n
使用户能够动态地了解各自的业务环境
n
使用户能够快速利用新机会并克服挑战,与此同时,还可以作出重大调整
新特性:
DB2 Data Warehouse Editions V8.2.1
中包含了
DB2 Alphablox
。
DB2 UDB Data Warehouse Edition
(
DWE
)
V8.2.1
将
DB2 Alphablox
基于
Web
的分析和报告功能与已经可用的数据挖掘、在线分析处理(
OLAP
)以及提取、转换和加载(
ETL
)功能集成在一起。
DB2 Alphablox
添加到
DWE
中提供了一个运行于数据仓库内部通用数据结构之上的真正全面的
BI
平台。
DB2 Alphablox
所具有的开放架构可以与企业现有的
IT
基础设施集成在一起,从而确保企业可以获得最高的信息投资回报。此外,通过利用现有资源和技能集来提供针对各个用户和角色而定制的的高级分析功能,它还可以进一步降低企业的总体拥有成本。
为了实现应用程序的快速交付和部署,
DB2 Alphablox
得到了优化,并提供了一个基于组件的综合框架,用于将分析集成到现有的业务流程和系统中。通过实施包含
DB2 Alphablox
功能的解决方案,领先的企业可以为适当的决策人员提供业务洞察力,从而实现企业信息资产价值的最大化。
DB2 Alphablox
使企业能够跨所有职能部门和业务部门整合分析工具与功能,并使功能强大的分析解决方案能够用于
一线业务用户,从而改进决策。对于客户及合作伙伴,它能帮助优化其业务解决方案的不同方面,包括:
l
自助式报告和分析应用程序
l
运营分析应用程序
l
财务报表编制与分析应用程序
l
计划应用程序
l
业务绩效和关键绩效指标(
KPI
)显示板
DB2 Alphablox
的开放架构和组件方法可用于进行应用程序开发,在交付分析解决方案时提供高度定制功能,并为应用程序前端界面提供了众多选项,以满足从临时用户直至超级用户的多种需求。
这里为您推荐的产品是:
l
DB2 Alphablox
iv.
ETL
数据整合
在有效地使用数据资料库之前,通常需要从很多数据源创建或者更新资料库。最常见的情况是,在外部系统上累积数据(供以后更新资料库使用),这些数据的格式也与资料库的要求有所不同。获得这些数据并将其转化成有用、一致、准确的数据的过程通常称为
ETL
,其中的三个字母分别代表提取(
Extraction
)、转换(
Transformation
)和加载(
Load
)。
提取
就是从源系统中获取数据(无论是何种格式)。这个过程可能很简单,只需要从数据库或者电子表格转储文本文件(
flat file
);也可能很复杂,需要建立与外部系统的联系,然后控制数据到目标系统的传输。
转换
通常不仅仅是数据格式的转换(虽然这是将数据导入系统的关键一步)。外部系统中的数据可能包含不一致或者不正确的信息,这取决于外部系统上实施的检查和平衡。转换步骤的一部分是
"
净化
"
或
"
拒绝
"
不符合条件的数据。这个阶段常用的技术包括字符检查(拒绝包含字符的数值性数据)和范围检查(拒绝超出可接受范围的数据)。被拒绝的记录通常存放在单独的文件中,然后使用更复杂的工具处理,或者手工改正问题。然后将这些数据合并到已转换集合中。
加载
阶段将获取并转换的数据存放到新的数据存储中(数据仓库、数据集市等)。对于
DB2 UDB
,该过程可以用
SQL
命令(
IMPORT
)、工具(
LOAD
)或集成工具(
Data Warehouse Manager
和
Information Integrator
)来完成。另外,整个
ETL
过程也可使用第三方应用程序来完成,这样做通常可以减少编程,或者不需要自己编程。
ETL
过程可能非常简单,只需要将一些数据从一个表传递到相同系统中的另一个表。也可能非常复杂,需要从数千英里之外的完全不同的系统获取数据,然后重新安排和重新格式化,使其符合完全不同的系统。下面将描述完整的
ETL
到
DB2 UDB
的方法(但不一定没有遗漏)。只要有可能,我会提供有关该方法的详细信息的链接。
IBM
产品中对
ETL
支持最深入的莫过于
IBM WebSphere DataStage Server
产品了。
WebSphere DataStage
支持从简单到高度复杂的数据结构中大量数据的收集、集成和转换。
IBM WebSphere DataStage
是
IBM WebSphere Data Integration Suite
的一个核心组件,它支持您紧密地集成企业信息,而不管有多少数据源、目标以及瞬态框架。
无论您是构建企业数据仓库来支持整个公司的信息需要、构建“实时”数据仓库,还是集成数十个源系统来支持企业应用程序,如客户关系管理
(CRM)
、供应链管理
(SCM)
和企业资源规划
(ERP)
,
WebSphere DataStage
都有助于确保您拥有可以信任的信息。
WebSphere DataStage
交付了使企业数据集成获得成功所需的三个关键功能:最全面的连通性,用于容易且快速地访问任何数据源或目标系统;高级开发和维护工具,可加快实现速度和简化管理;一个可伸缩的平台,可以轻松处理当今的大量公司数据。
WebSphere DataStage
支持从简单到高度复杂的数据结构中的大量数据的收集、集成和转换。
WebSphere DataStage
管理在获得后几秒钟内到达的数据,以及在系统中流动的每天、每星期或每月定期处理的大量数据。
到数据源和目标系统的最全面的连通性
>
WebSphere DataStage
在一项任务中实际上可以支持无限数量的异构数据源和目标,其中包括:
l
文本文件
l
复杂
XML
数据结构
l
企业应用程序系统,包括
SAP
、
Siebel
、
Oracle
和
PeopleSoft
l
几乎所有的数据库,包括分区数据库,比如
Oracle
、
IBM DB2 Universal Database
(具有或没有数据分区特性)、
IBM Informix
、
Sybase
、
Teradata
和
Microsoft SQL Server
l
Web
服务
l
SAS
l
消息传递和企业应用程序集成产品,包括
WebSphere MQ
和
SeeBeyond
该列表还在继续加长。只要它出现在您的企业中,它就会受到支持。
WebSphere DataStage
的企业数据源全面连通性意味着您不再需要开发和维护客户代码与您的重要数据的连接。
因此对于
ETL
与信息,数据整合的功能来说,我们向您推荐
l
IBM WebSphere DataStage Server
v.
OLAP
与数据展现
在前一个阶段后,我们的数据挖掘工作已经结束,如何在
OLAP
联机分析处理的系统的上进行数据展现成为了我们的要点,这里我们为
1
号工程推荐了
DB2 Cube Views
产品。该产品具备以下特性:
n
利用更高效的
DB2
物化查询表加速
OLAP
查询。
DB2
物化查询表可以预先汇总关系数据,并显著提高
OLAP
工具和应用程序的性能。
n
通过在关系数据库和商业智能应用程序之间共享元数据,实现商业智能(
BI
)应用程序和数据仓库的轻松集成。用户无需一一管理每个应用程序,而是可以在数据仓库中对数据进行一次建模,然后将该模型部署到每个应用程序
--
一次建模,随处使用
OLAP
。
n
通过在客户端工具使用的数据库中构建和存储维度元数据,加速
OLAP
部署。
特别需要提出的是
IBM
对中烟公司的分析与展现(集成
DB2 Alphablox
与
DB2 Cube Views
构建多维
OLAP Web
应用程序)具备成熟的技术解决方案。以下文字对该解决方案的技术概述。
在
OLAP Center
中,
DB2 Cube Views
有效地构建
OLAP Metadata Model
,该模型是从
DB2 UDB
中的星形模式转化而来的。同时,使用
Optimization Advisor
,可以在
DB2 UDB
中构建
MQT
来提高查询性能。通过使用
Metadata Bridge
,可以将
Cube
模型导入到
DB2 Alphablox
的
Cube Manager
中,然后进行定制。
DB2 Alphablox
管理和调整这些导入的多维数据集(
cube
)。
Cube Server
定期从
MQT
和事实表中提取数据。当
DB2 Alphablox
应用程序发送
Multidimensional Expressions (MDX)
查询时,
Alphablox
编译并执行该查询。然后
DB2 Alphablox
尝试从内存高速缓存中获取结果集合对象,并将该结果发送回
Web
浏览器。
详细技术参考请通过
IBM
武汉烟草客户代表
廖传震
联系本人
这里向大家推荐的产品是
u
DB2 Cube Views
vi.
异构数据库平台与增值应用的延伸
通过以上的阶段,中烟
1
号工程的产品技术配置已经全部完成,考虑到实施中可能出现的问题,我们对于以下四种可能情况进行的分析并提出了解决方案:
l
数据库扩容,数据仓库规划中包含有非
IBM DB2
数据库系统。在作数据挖掘数据仓库规划中可能涉及到
Oralce
,
Sybase, MS SQL Server
等企业级数据库平台,因此我们需要考虑如何在上述技术不变的情况下合理的使用这些非
IBM
数据库产品。
n
部署产品
DB2 Information Integrator
即可解决此问题
DB2 Information Integrator
产品家族主要包含下面三个产品。
1. DB2 Information Integrator(DB2 II)
该产品主要针对熟悉关系数据库的开发群体
, SQL
是
DB2 II
支持的语言,用户和开发者能够透明地访问分布的数据源而感觉不到这些数据源的差异
.
2.DB2 Information Integrator for Content(DB2IIC)
DB2IIC
主要是针对内容开发者,比如说
DB2 CONTENT MANAGER,
它能够支持对非关系内容的查询和访问
.
除了联邦查询外,它还能从非关系文本中挖掘出新的
元数据和高级的工作流管理
(
基于
Websphere MQ Workflow). DB2IIC
是对
EIP
的重新定位
3.DB2 Information Integrator Classic Federation for z/OS(DB2IICF)
DB2IICF
支持对主机上关系数据源和非关系数据源的读操作和写操作
,
如
IMS, VSAM, Adabas, CA-IDMS, CA-Datacom
l
在解决了上一个问题后,
DB2 Information Integrator
产品能否同数据传递
MQ
产品进行整合?(由于
MQ
的简单、异步传输的特性对
DB2
产品是一个非常好的补充,所以需要考虑整合功能)
n
通过
MQ
的脚本配置即可解决。
MQ
基本上可以说是消息中间件的标准。它简单,异步,能确保消息的传递且只传一次
.
这些功能应该说是对
DB2
很好的补充。
我们可以把
MQ
和
DB2
做一个简单的映射:
MQ == DB2 Information Integrator
对列管理器
==
数据库
队列
==
表
消息
==
行
消息元素
==
列
在
DB2 Information Integrator
中使能
MQ
的简单步骤如下:
1.
安装
DB2 Information Integrator
2.
安装
Websphere MQ
和
MQ AMI.
3. enable
数据库
XML extender
功能。
db2 bind c:/progra~1/sqllib/bnd/@dxxbind.lst
db2 bind c:/progra~1/sqllib/bnd/@db2cli.lst
dxxadm enable_db
数据库名
4. enable
数据库
MQ UDF
功能。
enable_MQFunctions -n database_name -u userid -p password.
5. enable
数据库
MQXML
功能。
db2 bind c:/progra~1/sqllib/bnd/mqxml.bnd
enable_MQXML -n database_name -u userid -p password
6.
您可以用下面的例子来测试
DB2
和
MQ
的整合。
发送消息:
db2 VALUES(DB2MQ.MQSEND('MESSAGE')) //
单条消息发送
DB2 SELECT DB2MQ.MQSEND(FIRSTNME) FROM EMPLOYEE //
批量发送
读取消息:
DB2 VALUES(DB2MQ.MQREAD()) //
读取一条消息
DB2 SELECT SUBSTR(T.MSG,1,50) FROM TABLE (DB2MQ.MQREADALL()) AS T
//
读取所有消息
接受消息:
DB2 VALUES(DB2MQ.MQRECEIVE()) //
接受一条消息
DB2 SELECT SUBSTR(T.MSG,1,50) FROM TABLE (DB2MQ.MQRECEIVEALL()) AS T //
接受所有消息
l
现有的
1
号工程数据规划中采用的是消息中间件
MQ
的分布式方式,这样的数据有几个特点,比如:数据不丢失,数据不重发,数据不要求实时等特点。随着以后的业务的需求,可能需要数据仓库处理实时的数据,那个时候单纯的
MQ
消息方式就不能完全满足这个要求了。
n
DB2 Information Integrator
本身可以支持多种数据接口,不但接受
MQ
方式,同样也接受实时方式。如
IBM WebSphere CICS
产品,部署上述产品即可处理实时数据。
l
增值应用使用数据仓库数据整合的效力。
n
IBM WebSphere
软件产品与
DB2
产品家族的整合可以随需而变的满足未来的需求。具体请参考增值应用本身的需求,分别对待。
b)
按可行性预算进行多种可选方案分析
i.
方案A
IBM WebSphere Application Server Network Deployment
IBM WebSphere MQ
IBM DB2 Alphablox
IBM DB2 Cube Views
ii.
方案B
IBM WebSphere Application Server Network Deployment
IBM WebSphere MQ
IBM DB2 Data Warehouse Enterprise Edition
iii.
方案C
IBM WebSphere Application Server Network Deployment
IBM WebSphere DataStage Server
IBM WebSphere MQ
IBM DB2 Alphablox
IBM DB2 Cube Views
iv.
方案D
IBM WebSphere Application Server Network Deployment
IBM WebSphere DataStage Server
IBM WebSphere MQ
IBM DB2 Data Warehouse Enterprise Edition
c)
产品说明
i.
DB2 Data Warehouse Enterprise Edition
一个强大的商业智能平台,包括
DB2
、联邦数据访问、数据分割、整合在线分析处理
(OLAP)
、高级数据挖掘、增强的提取功能、转换和加载
(ETL)
、工作负载管理,并为台式机提供了轻量级
BI
。在
DB2 Universal Database Data Warehouse Enterprise Edition
中包含的产品有
:
因此在本技术方案中提出的以下产品均包含在
DB2 Universal Database Data Warehouse Enterprise Edition
产品中。
1.
DB2 Universal Database Enterprise Server Edition
2.
DB2 Universal Database Database Partitioning Feature
(支持大型群集服务器)
3.
DB2 Cube Views (OLAP
加速
)
4.
DB2 Intelligent Miner Modeling, Visualization, and Scoring
(
OLTP
应用程序内部的强大的数据挖掘和整合功能。)
5.
DB2 Office Connect Enterprise Web Edition
(针对桌面的电子表格整合)
6.
DB2 Query Patroller
(基于规则的预测查询监视和控制)
7.
DB2 Warehouse Manager Standard Edition
(增强的提取
/
转换
/
加载服务,支持多个代理)
8.
DB2 Information Integrator Standard Edition
—
Limited use only
附带程序提供的
DB2 Information Integrator Standard Edition
副本只能与
DB2 Warehouse Manager Standard Edition
联合使用来提供本地连接器,以便访问来自
Oracle
数据库、
Teradata
数据库
, Sybase
数据库
和
Microsoft SQL server
数据库的数据。每个
DB2 Information Integrator Standard Edition PoE
包括
4
个
DB2 Information Integrator Connector PoE
。如果需要额外的连接,则要求额外的
DB2 Information Integrator Connector
程序权限。
DB2 Information Integrator
™
Standard Edition
(异构数据库访问)
ii.
DB2 Cube Views
1.
DB2 Cube Views
新版本中已经包含了
DB2 OLAP Server
,
DB2 Query Management Facility
的联机分析处理服务器与业务数据展现模块。