Mondrian是一个开源项目。一个用Java写成的OLAP(在线分析性处理)引擎。它用MDX语言实现查询,从关系数据库(RDBMS)中读取数据。然后经过Java API用多维的方式对结果进行展示。
我们都知道,在线分析处理(OLAP)要实时地分析大量数据。“online”这个词的含义就是即使相关的数据量是巨大的——可能以GB为单位——系统也要足够快的响应以显示结果。
OLAP用了多维分析的技术。尽管关系型数据库所存储的所有数据都是以行和列的形式存在的,但一个多维数据集还是可以由轴(axes)和单元(cell)组成。
在上面的例子中,时间是个维度(dimension),而它下面的层次(Hierarchies)又分为半年、季度等级别(Level)。
二、感性认识——运行一个小实例
我们暂时先不讨论Mondrian所用到的一些技术。我们可以先从一个小例子开始,不必在意每个细节,只是希望大家有个感性认识先。在实施这个例子的过程中,或许读者就能见些端倪。
首先应该到http://sourceforge.net/projects/mondrian/下载mondrian的最新版本。这是一个zip包,包括我们要用到的lib和一个例子。
当然,读者完全可以运行mondrian自带的实例,不过这个例子有些纷繁复杂,除了Mondrian本身还有其它技术在里面,不大容易讲清楚,也不太适合初学者学习。所以,笔者在这里设计一个简洁干净的最小化实例。
本文所阐述的实例环境是Windows2000+Tomcat+Oracle。并且认为读者已经针对jdk和Tomcat做了正确的开发环境的设置。
2.1准备工作
将pentaho/mondrian/lib下的mondrian.war解压后放到%Tomcat%/webapp/下面
2.2数据库结构
在这个tiny的系统中,数据库有3个表tb_employee(职员表),tb_time(时间表),tb_salary(薪酬表)。表结构如下:
drop table tb_employee;
create table tb_employee
(
employee_id number, --职员id
employee_name varchar2(10) --职员姓名
);
drop table tb_time;
create table tb_time
(
time_id number, --时间id
the_year char(4), --年
the_month char(2) --月
);
drop table tb_salary;
create table tb_salary
(
employee_id number, --职员id
time_id number, --时间id
salary number(19,4) --薪酬
);
当然,为了使系统能够运行,还需要读者向数据库表中插入一些数据。
insert into tb_employee(employee_id,employee_name)values(001,'娅娅');
insert into tb_time(time_id,the_year,the_month)values(1,'2011','05');
insert into tb_salary(employee_id,time_id,salary)values(001,'1','5000');
insert into tb_employee(employee_id,employee_name)values(002,'梅梅');
insert into tb_time(time_id,the_year,the_month)values(2,'2011','04');
insert into tb_salary(employee_id,time_id,salary)values(002,'2','10000');
insert into tb_employee(employee_id,employee_name)values(002,'芳芳');
insert into tb_time(time_id,the_year,the_month)values(3,'2011','04');
insert into tb_salary(employee_id,time_id,salary)values(003,'3','10000');
2.3根据数据库表的结构,书写schema文件
<?xml version="1.0"?>
<Schema name="Mondrian">
<Cube name="CubeTest">
<Table name="TB_SALARY" />
<Dimension name="Employee" foreignKey="EMPLOYEE_ID" >
<Hierarchy hasAll="true" primaryKey="EMPLOYEE_ID">
<Table name="TB_EMPLOYEE" />
<Level name="employeeId" column="EMPLOYEE_ID" uniqueMembers="true" >
<Property name="employeeName" column="EMPLOYEE_NAME"/>
</Level>
</Hierarchy>
</Dimension>
<Dimension name="Time" foreignKey="TIME_ID" >
<Hierarchy hasAll="false" primaryKey="TIME_ID" >
<Table name="TB_TIME" />
<Level name="year" column="THE_YEAR" uniqueMembers="false" />
<Level name="month" column="THE_MONTH" uniqueMembers="false" />
</Hierarchy>
</Dimension>
<Measure name="Salary" column="SALARY" aggregator="sum" />
</Cube>
</Schema>
文件路径为mywebapp/WEB-INF/test.xml
2.4利用MDX查询 mywebapp/test.jsp
<%@ page import="mondrian.olap.*"%>
<%@ page import="java.io.PrintWriter" %>
<%
Connection connection = DriverManager.getConnection("Provider=mondrian;Jdbc=jdbc:oracle:thin:hibuser/password@localhost:1521:orcl; Catalog=file:///F:/pentaho/biserver-ce/tomcat/webapps/mondrian/WEB-INF/queries/test1.xml; JdbcDrivers=oracle.jdbc.driver.OracleDriver;",null);
String queryStr="select {[Measures].[Salary]} ON COLUMNS,{[Employee].[employeeId].Members} ON ROWS from CubeTest ";
Query query =connection.parseQuery(queryStr);
Result result = connection.execute(query);
PrintWriter pw = new PrintWriter(System.out);
result.print(pw);
pw.flush();
System.out.println("successful!");
%>
2.5运行
这时启动tomcat,在浏览器地址栏中输入
http://localhost:8080/mondrian/test.jsp即可。
三、深入探讨
3.1 API
mondrian为客户端应用程序提供了API接口以进行查询。 而这些API对于任何用过JDBC的人都会觉得似曾相识的。主要的不同点是查询语言的不同:Mondrian用的是MDX('Multi-Dimensional eXpressions'),而JDBC则用的是SQL。
和JDBC一样,也是要经过建立连接,形成查询语句,执行查询得到结果集等几个步骤的。
我们来看看mondriantest.jsp的代码
第1行:import mondrian.olap.*
这是引入我们所需的类,下面要用到的DriverManager、Connection、Query、Result都在这个package内。这个package一般位于mondrian.jar中。
第2行:Connection connection =
DriverManager.getConnection
("Provider=mondrian;
Jdbc=jdbc:oracle:thin:@xxx.xxx.xxx.xxx:1521:dbname;
JdbcUser=dbuser;
JdbcPassword=dbpasswd;
Catalog=file:///c:/Tomcat4.1/webapps/mywebapp/WEB-INF/mondriantest.xml;
JdbcDrivers=oracle.jdbc.driver.OracleDriver;",null,false);
通过DriverManager创建一个Connection的实例,建立起数据库连接。
其中Jdbc=jdbc:oracle:thin:@xxx.xxx.xxx.xxx:1521:dbname; 是设置数据库的ip和库名。JdbcUser=dbuser; 设置数据库用户。JdbcPassword=dbpasswd; 设置用户密码。而
Catalog=file:///c:/Tomcat4.1/webapps/mywebapp/WEB-INF/mondriantest.xml; 就是设置MDX语句查询要对应的schema文件的路径
第3行:String queryStr=
"select {[Measures].[Salary]} ON COLUMNS,
{[Employee].[employeeId].Members} ON ROWS
from CubeTest ";
形成MDX的查询语句。MDX语句的形式和schema文件的设定是密切相关的,当然schema文件的形成也是由数据库结构决定的。
第4行:Query query =connection.parseQuery(queryStr);对MDX语句进行分析处理,是否符合schema文件定义、数据库结构和数据库数据。
第5行:Result result = connection.execute(query);执行查询,得到结果集。
我们发现Query类似于JDBC的Statement,而Result则酷似于ResultSet。
3.2 schema
3.2.1什么是schema
schema定义了一个多维数据库。包含了一个逻辑模型,而这个逻辑模型的目的是为了书写MDX语言的查询语句。这个逻辑模型实际上提供了这几个概念:Cubes,维度(Dimensions), 层次(Hierarchies),级别(Levels),和成员(Members)。
而schema文件就是编辑这个schema的一个xml文件。在这个文件中形成逻辑模型和数据库物理模型的对应。
3.2.2 schema的逻辑结构
3.2.2.1 Cube
一个Cube是一系列维度(Dimension)和度量(Measure)的集合区域。在Cube中,Dimension和Measure的共同地方就是共用一个事实表。
例:
<Cube name="CubeTest">
<Table name="TB_SALARY" />
…….
</Cube>
<Table>标签确定了所用的事实表的表名。
3.2.2.2 Measure
一个度量,简单的说,就是要被计算的值。
例:
<Measure name="Salary" column="SALARY" aggregator="sum" />
<Measure>标签有3个必要的属性name(度量名),column(在事实表中的字段名), aggregation(聚合所用的方法)。
3.2.2.3 Dimenesion
而维度一般有其相对应的维度表。
例:
<Dimension name="Time" foreignKey="TIME_ID" >
<Hierarchy hasAll="false" primaryKey="TIME_ID" >
<Table name="TB_TIME" />
<Level name="year" column="THE_YEAR" uniqueMembers="false" />
<Level name="month" column="THE_MONTH" uniqueMembers="false" />
</Hierarchy>
</Dimension>
一般Dimesion包含层次(Hierarchy),而hierarchy是由级别(Level)组成。
<Dimension>标签的foreignKey是事实表中的字段,<Hierarchy>标签的primaryKey是维度表中的字段,通过这种方式把事实表和维度表关联起来。<Hierarchy>标签下的<Table>标签就指明了维度表名。而若干个Level对应着维度表的若干字段。
3.3 MDX语言
MDX是为了查询多维数据的,而SQL是为了查询关系数据库的。而Mondrian所涉及到的一些MDX概念、MDX语法以及系统定义的MDX函数和微软的MDX十分接近,差别微小。完全可以参考微软的帮助文档进行学习。在此就不在赘述。
四、结语
Mondrian作为基于java的OLAP引擎,而且是开源的项目,为那些基于java的项目而要脱离微软构架但又不得不对大量数据进行分析的项目又提供了一种可行的方案。希望它也能象蒙得里安·皮特对抽象艺术的发展产生影响一样起到一定的作用。