我们开发了湖北省的非税直报系统,开发了全省各地非税系统,积累的大量数据,如何发挥这些数据的作用呢,工作之余,研究了通过olap方法,对数据进行分析处理。我将通过一系列文章,介绍完整的实现方法。
(分析维度)
先介绍几个概念:
维度(dimession) :
和mondrian维度概念基本一致维度,维度可以理解为数据的属性。
维度有层次的概念(Hierarchy),一个维度可以有多个Hierarchy,
一个Hierarchy内有多个层级(Level),使用过程中,使用其中一个Hierarchy,我们的应用当中,一般就一个Hierarchy。
维度类型(dimession type):
在非税分析中,我们用到如下的维度:
年度、版本、组织机构、期间、项目。
版本主要分为预算版本和实际版本。
组织机构即各级财政局
期间指的事季度、月份等。
项目主要是是指非税项目(科目)
分析表单(olapform):
根据业务需要动态构建的olap分析表单;
表单可以简单的理解为分析主题,分析主题当然要进行分类,表单文件夹用来管理这些分析主题。
表单布局:(layout):
public class FormLayout implements Comparable{
private int id;
private int formId; //表单
private int layoutType; //行 列 视点 页面 等
private int ordinal; //序数
private int dimId; //维度
private int layoutGroup; //组
private int readonly; //是否只读
......
public int compareTo(FormLayout o) {
int result = -1;
if (o != null) {
result = this.getLayoutType() - o.getLayoutType();
if (result == 0) {
result = this.getOrdinal() - o.getOrdinal();
}
}
return result;
}
}
分析表单的构建,根据的是行维、列维度、页面、视点的定义,和一个分析表单相关的行、列维度等就是表单布局。
布局定义了展示给用户看的分析表格的结构。
(表单与布局)
布局里的分组,以适应表单中对行维、列维度进行分组的需要;如果不显示对行、维度进行分组,默认只有第一组;
一组当中,需要依次定义维度;
表单布局的属性包括:布局id,分析表单id,维度id,布局组、排序、是否只读等信息。
这其中布局(layout_type)类型分为:行维(2)、列维(3)、页面(1)、视点(0);
例如,我们需要根据行政区划按月度分析全省交罚收入情况,可以设置如下的行、列、页面、视点。
行维:行政区划(各地财政局)
列维:我们用期间作为维度;
页面:我们采用版本、与年度。
视点:交罚项目(科目)。
布局相关数据库表如下图:
(布局的数据库表)
分析表单维度成员:
维度成员有在分析表单中有一定顺序,分析表单维度成员必然在一个布局当中。
维度成员可能有很多,但一些维度成员间存在一定的逻辑关系,
Mdx语法中的descendants()函数,就是用于处理维度关系的,
为方便用户选择,我们把维度间的关系归纳为如下关系:
成员变量
当前成员
后代成员
后代成员(包括自身)
子代成员
子代成员(包括自身)
祖先成员
祖先成员(包括自身)
父级成员
父级成员(包括自身)
兄弟成员
兄弟成员(包括自身)
零级后代
零级后代(包括自身)
如果我们不用关系,选择分析表单维度成员的时候,就可能需要穷举所有成员。
有了关系,我们就只用保存一个维度成员及基于这个成员之上的关系,基于这2个要素,可以批量构造一批成员。
还有一类特殊的成员:变量,入同比环比的时候,需要去年同期等,这时候就应该用变量了,这里不展开描述。
分析主题相关类:
分析主题相关实体类,分为三个部分:
一个是分析维度等;
一个是前端表格类,表示前端表格及数据单元格
一个是当前显示表单的映射类,可以看做表单的模型类
完整的schemal模型:
(完整的schemal)
ps:
Hierarchy hasAll:包含所有的成员;
allMemberName:所有成员的名字;
allMemberCaption:表示在层上显示的内容
ordinalColumn:level上成员的顺序,按这个属性指定
需要注意的是:分析系统对这些维度有2个方面的管理:
一个是逻辑上的层次结构;一个是分析维度,
以期间为例,如下图所示:
上图逻辑关系中,和olap分析层面相关的元素为:12个月+期初+全年,共14个元素。
分析相关数据库表设计:
逻辑部分统一放到COMM_OBJ表当中
表中关键字段为id,name,parnet等。
建立五张表如下,存放5个维度的数据。
五张维度表,数据采取扁平化方式存放。如下图:
逻辑结构和分析结构通过id加以关联。
MDX
mdx语法:“{}”代表集合。
由于我们是根据用户配置生成MDX,我们重点研究一下如何 动态生成 MDX语句。我们是通过生成select、from、where三个字句动态生成mdx字符串,
我们知道,formModel中记录了用户自定义的分析表单信息,或者说用户对分析模型的要求,以我们定义一个列维为例 ,用户定义的 列维度的结构是:组—》选择的维度类型—》维度成员。
结构是:List>>,最外层的集合代表组,中间一层list表示维度(如项目、组织机构、年度等),最里层的集合是具体维度成员的集合。
假设要形成上图的列组合,这个列分三组,(组用不同颜色标注),这个列涉及年度与版本。
Mdx的关于列的部分语句应该为;
{
{[年].[2014年] }*{[版本].[计划] ,[版本].[实际]},//黄色组
{[年].[2016年] }*{[版本].[实际]},//灰色组
{[年].[2017年] }*{[版本].[计划]}//蓝色组
}
动态形成它的代码为:
Listmembers=List
Listdims=List< members > ;//选择的维度,如项目、机构等
Listgroups= List< dims >; //定义的祖
StringBufferstrBuffer=new StringBuffer(); //y用于拼接mdx语句
strBuffer.append("{");//最外层大括号,它里面的括号表示组
For(int k = 0; k < groups.size(); k++){ //遍历祖
List dims= groups.get(k); //获取一个组中选定的维度
for (int i = 0; i < dims.size(); i++) {
strBuffer.append("{");//类似{[年].[2014年] }
List
//遍历维度成员
for (int j = 0; j DimMember member=members.get(j); Dimension dim=member.getDimension(); ……//形成类似[年].[2014年]的结构 } strBuffer.append("}"); if (i != membersList.size() - 1) { strBuffer.append("*"); } } } } 按以上办法,形成列、行、页面等四个方面的字句。不过,页面等只有2层集合(因为他们没有组的概念) 轴: 用 on {axis}语法来把维度分配到轴(Axis,复数 Axes)上,一个查询可以有多个轴。如 A on columns, B on rows跟 B on rows, A on columns 是一样的。 轴用 axis(0),axis(1),axis(2)...表示,前五个轴可以使用别名 Columns,Rows,Pages, Chapters,Sections。因此 on Columns 等价于 on axis(0)。超过 5 个轴时只能用 axis(5),axis(6)...来表示(极少会需要这么多的轴)。 很多实现(包括 Mondrian)支持用数字表示轴,因此 on Columns 可以写成 on 0。 根据MDX查询结果集与后端表单模型形成前端网格模型的方法: 主要构建前端页面需要的五个方面信息: l 构建视点信息 l 构建页面信息 l 构建行信息 l 构建列信息 l 构建列信息 l 构建事实单元格信息 先看几个 API说明: MDX查询返回Result,reuslt中,axis是比较重要的组件。 先看Axis、Position、MemberAPI说明: public interface Axis AAxis is a component of a Result. It contains a list of Positions. Axis是Result一个组件,它是包含Positions的的一个List集合 A Position is an item on an Axis. It containsone or more Members. Position本身是Axis一个项目(item),它包含一个或者多个成员(member). public interface Member extendsOlapElement, Comparable, Annotated AMember is a 'point' on a dimension of a cube. Examples are[Time].[1997].[January], [Customer].[All Customers], [Customer].[USA].[CA],[Measures].[Unit Sales]. Everymember belongs to a Level of a Hierarchy. Members except the root member have aparent, and members not at the leaf level have one or more children. Measuresare a special kind of member. They belong to their own dimension, [Measures]. Thereare also special members representing the 'All' value of a hierarchy, the nullvalue, and the error value. Memberscan have member properties. Their Level.getProperties() defines which areallowed. A Cell is an item in the grid of a Result. It is returned by Result.getCell(int[]). Cell getCell(int[] pos) Returnsthe cell at a given set of coordinates. For example, in a result with 4 columnsand 6 rows, the top-left cell has coordinates [0, 0], and the bottom-right cellhas coordinates [3, 5]. 返回给定坐标系的单元格。 例如,在具有4列和6行的结果中,左上方的单元格具有坐标[0,0],右下方单元格具有坐标[3,5]。 l 构建视点信息: 根据formModel中的信息,取得视点维度的id与维度成员的id信息,把视点中每个维度的第一个成员id,放入int[],同时,把视点维度信息拼接成字符串, l 构建页面信息: 根据formModel中的信息,取得页面维度的id与维度成员的id信息,把页面中每个维度的第一个成员id,放入int[] l 构建行信息: 根据formModel中的信息,取得行维度的id与维度成员的id信息,把页面中每个维度的第一个成员id,放入int[][],和页面、视点不同的是,描述页面行维度信息的是个二维数组,因为行维可以由多个维度组成。同时,叶需要取得行维度id的字符串信息。 int[][] rowDimInfo = null; //存放行维度成员id的二维数组 Result result=null; Axis rowAxis = result.getAxes()[1]; //获取行的数量(行维上) int rowNum =rowAxis.getPositions().size(); //获取列的数量(行维上的) int colNum = rowAxis.getPositions().get(0).size(); rowDimInfo = new int[rowNum][colNum]; for (int i = 0; i < rowNum; i++) { for (int j = 0; j < colNum; j++) { Member member =rowAxis.getPositions().get(i).get(j); …..把mondrian的member,转换为我们自定义的维度成员 rowDimInfo[i][j] =dimMember.getMemberId(); } } ……获取行维度id拼接的字符串 l 构建列信息: 构建列信息和构建行信息类似。不过,在构建列信息数组的时候,可以把行列数组下标的顺序调整一下,这样,可以方便后面的事实数据定位。 构建行信息及构建列信息,特别是构建列信息的时候,有三个概念要注意: 1)如果mdx中,类似 [组织].Members的选择,成员数量会多一个(Al)l,不过,我们系统的设计,事先都选定了成员,不存在这个问题; 2)度量作为特殊维度会出现在列维度当中,因此计算列维度行数的语句为:(Measures area special kind of member) colAxis.getPositions().get(0).size() -1; 3)另外一个是,度量是特殊的维度,会加载列维度当中,如果我们的模型有2个度量,那就的注意int[][]数组的大小: new int[rowNum][colNum / 2] l 构建事实单元格信息 introwCount=result.getAxes()[1].getPositions().size(); intcolCount = result.getAxes()[0].getPositions().size(); FactCell[][]factCells = new FactCell [rowCount][colCount]; 如果有2个度量:则factCells为: FactCell[][]factCells = new FactCell [rowCount][colCount/2]; 根据rowCount、colCount遍历Result,形成factCells 构建基于事实表单元格数据的时候,要注意计算列出现"Infinity"的情形。 构建事实单元格的时候,我们另外定义了FactCell对象,这个对象中,含有每个事实数据的“坐标信息”,坐标信息包括行维度成员、列维度成员、视点成员、页面成员等。 维度管理:mondrian 设计相关概念: 有2个关键的类, 一个是与界面的分析表格视图(view)对应的类:viewGrid 一个是后端分析模型的类:formModel buildViewGrid(formModelf, Result result,PageLayout pageLayout); buildViewGrid的参数为 formModel,Result及前端选择的页面pageLayout buildViewGrid方法用于从formModel构建viewGrid; buildViewGrid 首先是从formModel基础信息中,构建MDX语句, 根据mdx语句查询结果集, 根据结果集+formModel+页面布局当中的信息,构建viewGrid模型; web端就是根据viewGrid在绘制呈现给用户的界面。 下一章节具体描述buildViewGrid方法的实现吧。 private int[] buildViewInfo(FormShadow form, StringBuffer viewDimsBuffer){ try{ //得到视点维度成员的集合,这是一个2维数组 List int count = viewMbrs.size(); int[] gridView =new int[count]; //遍历视点 for (int i = 0; i < count; i++) { //取得视点中的维度成员对象 DimMember member = viewMbrs.get(i).get(0); //取得维度成员对象的id属性,且把它放进数组 l gridView[i] = member.getMemberId(); //对应维度id存放在StringBuffer if(i!=count-1){ viewDimsBuffer.append(member.getDimension().getId()+","); }else{ viewDimsBuffer.append(member.getDimension().getId()+""); } } return gridView; }catch (Exception e) { loggerUtil.log("buildViewInfo", e); } return null; } 下一节:开发配置 > viewMbrs =form.getViewMembers();