几款BI相关的开源工具-ETL-OLAP相关

几款BI相关的开源工具-ETL-OLAP相关 [font=Arial][/font] [font=Arial] 我们都知道“瞎子摸象”的故事。不同的瞎子对大象的认识不同,因为他们只认识了自己摸到的地方。而企业如果要避免重犯这样的错误,那就离不开商务智能(BI)。专家认为,BI对于企业的重要性就像聪明才智对于个人的重要性。欧美企业的经验也证明,企业避免无知和一知半解危险的有效手段就是商务智能。商务智能旨在充分利用企业在日常经营过程中收集的大量数据和资料,并将它们转化为信息和知识来免除各种无知状态和瞎猜行为。 [/font] 支持BI的开源工具数量众多,但是大多数的工具都是偏重某方面的。例如,CloverETL偏重ETL,JPivot偏重多维分析展现,Mondrian是OLAP服务器。而Bee、Pentaho和SpagoBI等项目则针对商务智能问题提供了完整的解决方案。 ETL 工具 ETL开源工具主要包括CloverETL和Octupus等。 (1)CloverETL是一个Java的ETL框架,用来转换结构化的数据,支持多种字符集之间的转换(如ASCII、UTF-8和ISO-8859-1等);支持JDBC,同时支持dBase和FoxPro数据文件;支持基于XML的转换描述。 (2)Octupus是一个基于Java的ETL工具,它也支持JDBC数据源和基于XML的转换定义。Octupus提供通用的方法进行数据转换,用户可以通过实现转换接口或者使用Jscript代码来定义转换流程。 OLAP服务器 (1)Lemur主要面向HOLAP,虽然采用C++编写,但是可以被其他语言的程序所调用。Lemur支持基本的操作,如切片、切块和旋转等基本操作。 (2)Mondrian面向ROLAP包含4层:表示层、计算层、聚集层、存储层。 ● 表示层:指最终呈现在用户显示器上的以及与用户之间的交互,有许多方法来展现多维数据,包括数据透视表、饼、柱、线状图。 ● 计算层:分析、验证、执行MDX查询。 ● 聚集层:一个聚集指内存中一组计算值(cell),这些值通过维列来限制。计算层发送单元请求,如果请求不在缓存中,或者不能通过旋转聚集导出的话,那么聚集层向存储层发送请求。聚合层是一个数据缓冲层,从[b]数据库[/b]来的单元数据,聚合后提供给计算层。聚合层的主要作用是提高系统的性能。 ● 存储层:提供聚集单元数据和维表的成员。包括三种需要存储的数据,分别是事实数据、聚集和维。 OLAP客户端 JPivot是JSP风格的标签库,用来支持OLAP表,使用户可以执行典型的OLAP操作,如切片、切块、上钻、下钻等。JPivot使用Mondrian服务器,分析结果可以导出为Excel或PDF文件格式。 数据库管理系统 主要的开源工具包括MonetDB、MySQL、MaxDB和PostgreSQL等。这些数据库都被设计用来支持BI环境。MySQL、MaxDB和PostgreSQL均支持单向的数据复制。BizGres项目的目的在于使PostgreSQL成为数据仓库和 BI的开源标准。BizGres为BI环境构建专用的完整数据库平台。 完整的BI开源解决方案 1.Pentaho 公司的Pentaho BI 平台 它是一个以流程为中心的、面向解决方案的框架,具有商务智能组件。BI 平台是以流程为中心的,其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在 BI 平台上执行的商务智能流程。流程可以很容易被定制,也可以添加新的流程。BI 平台包含组件和报表,用以分析这些流程的性能。BI 平台是面向解决方案的,平台的操作是定义在流程定义和指定每个活动的 action 文档里。这些流程和操作共同定义了一个商务智能问题的解决方案。这个 BI 解决方案可以很容易地集成到平台外部的商业流程。一个解决方案的定义可以包含任意数量的流程和操作。 BI平台包括一个 BI 框架、BI 组件、一个 BI 工作台和桌面收件箱。BI 工作台是一套设计和管理工具,集成到Eclipse环境。这些工具允许商业分析人员或开发人员创建报表、仪表盘、分析模型、商业规则和 BI 流程。Pentaho BI 平台构建于服务器、引擎和组件的基础之上,包括J2EE 服务器、安全与权限控制、portal、工作流、规则引擎、图表、协作、内容管理、数据集成、多维分析和系统建模等功能。这些组件的大部分是基于标准的,可使用其他产品替换之。 2.ObjectWeb 该项目近日发布了SpagoBi 1.8版本。SpagoBi 是一款基于Mondrain+JProvit的BI方案,能够通过OpenLaszlo产生实时报表,为商务智能项目提供了一个完整开源的解决方案,它涵盖了一个BI系统所有方面的功能,包括:[b]数据挖掘[/b]、查询、分析、报告、Dashboard仪表板等等。SpagoBI使用核心系统与功能模块集成的架构,这样在确保平台稳定性与协调性的基础上又保证了系统具有很强的扩展能力。用户无需使用SpagoBI的所有模块,而是可以只利用其中的一些模块。 SpagoBI使用了许多已有的开源软件,如Spago和Spagosi等。因此,SpagoBI集成了 Spago的特征和技术特点,使用它们管理商务智能对象,如报表、OLAP分析、仪表盘、记分卡以及数据挖掘模型等。SpagoBI支持BI系统的监控管理,包括商务智能对象的控制、校验、认证和分配流程。SpagoBI采用Portalet技术将所有的BI对象发布到终端用户,因此BI对象就可以集成到为特定的企业需求而已经选择好的Portal系统中去。 3.Bee项目 该项目是一套支持商务智能项目实施的工具套件,包括ETL工具和OLAP 服务器。Bee的ETL工具使用基于Perl的BEI,通过界面描述流程,以XML形式进行存储。用户必须对转换过程进行编码。Bee的ROLAP 服务器保证多通SQL 生成和强有力的高速缓存管理(使用MySQL数据库管理系统)。ROLAP服务器通过SOAP应用接口提供丰富的客户应用。Web Portal作为主要的用户接口,通过Web浏览器进行报表设计、展示和管理控制,分析结果可以以Excel、PDF、PNG、PowerPoint、 text和XML等多种形式导出。 Bee项目的特点在于: ● 简单快捷的数据访问; ● 支持预先定义报表和实时查询; ● 通过拖拽方式轻松实现报表定制; ● 完整报表的轻松控制; ● 以表和图进行高质量的数据展示。

 

在inf obright 看到一个关于ETL工具选择的一个投票,  结果如下

  • Kettle 75 votes

    18.99%

  • PHP 64 votes

    16.2%

  • Perl 48 votes

    12.15%

  • Other Language 38 votes

    9.62%

  • Python 35 votes

    8.86%

  • Ruby 27 votes

    6.84%

  • C/C++/C# 24 votes

    6.08%

  • Talend 24 votes

    6.08%

  • Other Commercial ETL Tool 18 votes

    4.56%

  • Other Open Source ETL Tool 13 votes

    3.29%

  • Inf ormatica 13 votes

    3.29%

  • DataStage 9 votes

    2.28%

  • Ab Initio 7 votes

    1.77%

Total Votes: 395

 

同时我们也看一下gartner 在2008年12月发布的Data Integration 工具的一个调查报告.

 

总结上面两份资料, 可以看出Informatica 和IBM 的DataStage 仍然都是ETL界的老大, 而且很难有撼动的趋势,尤其是电信,金融,银行,基本都是选用这种工具, 而其他的商业ETL提供商都是各有长短, 尤其是有自己商业产品线的公司如Microsof t ,Oracle ,SAS, SAP 都是能够很好的与自己的产品线补充,

而在开源ETL产品中也不缺乏好的产品支持, 最有名的两个就是Kettle 和Talend 了,基本上都是各有千秋, 而且最总要的两点就是:社区和商业支持, 看看其他成功的开源产品如mysql ,linux , 都是在这两点上做的非常成功,才能成为开源界的典范, 其他也有一些不错的开源ETL 产品虽然在社区和商业支持上没有前两个有名,比如xaware, 在inf oq 上也有几次他的报道.

 

国内也有一个开源的ETL工具dengues (http://code.google.com/p/dengues/ ) ,由国人开发, 基本上还在起步阶段, 可以作为开源ETL爱好者的一个学习项目.

你可能感兴趣的:(数据挖掘,ETL)