某公司基于FineBI数据决策平台的试运行分析报告
一、数据平台的软硬件环境
二、组织机构和权限体系
组织机构:平台中已集成一套组织机构,可以建立部门、人员。也可以与现有系统的组织机构集成,将组织机构导入到平台中。
功能权限:通过配置功能点URL的方式实现各个用户相应的BI访问权限。用户第一次访问受保护的资源(某个功能点)时,会发出访问请求,服务器接收到请求后会验证用户权限,如果没有通过验证则返回登录页面。
数据权限:很多系统的权限认证只是限制模块的使用,使得合法用户能够行使自己的权利。平台在满足这种整体权限认证的同时,权限的控制力度可以达到同一张BI的内容在不同权限下展示的效果不一样,这样就免除了制作大量的BI来实现同样效果,尤其是在企业内部业务繁杂,审批麻烦时,一张BI就可以解决所有问题。平台通过对业务包的权限控制,从数据包层面控制了不同的用户对于数据的权限,以达到数据的细粒度控制。
权限控制的层次:
- 不同用户对于数据业务包的数据权限仅限于自己权限范围内。
- 不同的用户可以访问权限范围内的报表。
- 不同的用户对于同一张报表,只能够访问权限范围内的数据。
三、数据处理
数据源:支持Oracle,DB2,SQLServer,MySQL,SqlServer,Informix等数据源。支持ODBC数据源,支持JNDI数据源,支持共享应用服务器数据源。支持程序数据接口。支持文本数据源。支持内置数据集。
业务数据包:即Cube,是用于即时分析的数据基础。数据业务包由数据管理员创建,其中包含着能够提供给分析人员的所有业务数据表、数据集、接口数据、文本数据等。以文件的形式(后缀名为fcube)存放在服务器目录中。
数据转义
可以对数据业务包中的表名以及字段名进行转义,成为能够让业务人员理解的数据,转义的信息可以直接集成数据库中的注释,也可以直接手动编辑。
数据关联
数据之间的关联是用于给多个表之间建立表间关系,也可以直接继承数据库中定义的外键关系 。参与关联关系的表必须有主键支撑。
四、数据转化
数据转化:提供各种样式的表格和多种图表服务,配合各种业务需求展现数据。包括列表、分组、交叉表格,图表类型包括柱形图、条形图、饼图、面积图、组合图、仪表盘和地图。
新增列:通过自定义数据列来实现数据转换和数据计算。包括根据现有的数据新增列,构建自循环列,根据公式构建自定义数据列。更方便地用于后面的分析。
根据现有的数据新增列:在现有的数据列的基础上,通过自定义分组形成新的列。主要用于建立公用的自定义分组的方式,提供给所有的分析人员使用。
构建自循环列:可以根据一列(数据库中只有一列组织ID)或者两列(数据库中有组织ID和父ID)数据分层,将组织机构的层级关系分层展示。主要用于组织树展示。
新增公式列:公式引擎支持数据类型转化,常用函数、数学和三角函数、文本函数、日期和时间函数、逻辑函数、数组函数、报表函数以及其他自定义函数
。
行列转换:行列转换主要用于将数据库中某一列的字段值与其他指标字段结合成新的字段。
五、定时更新
全量更新:所有的数据业务包建立的时候,数据平台会在后台自动生成对应的cube。数据平台的cube采用MOLAP的形式,所以在处理大数据量的问题上具有优良的支撑。cube中的数据可以设置定时全量更新。
增量更新:只能单独对业务包中的表和数据集进行设置。并且只对新增数据有效。
六、数据分析
维度指标分析:可以灵活地从业务包中选择任意指标、维度进行自主地拖拽分析。由于数据业务包中的数据已经关联在了一起,这就决定了数据平台即时分析的自由度。在分析某个指标的影响因素时,可以选择任意的维度,去分析他们之间的关系。从而确定某个因素对指标的影响大小。
分析组件:组件支持各种样式的表格,配合各种业务需求展现数据。包括列表、分组、交叉表格。组件支持多种图表,图表类型包括柱形图、条形图、饼图、面积图、组合图、仪表盘和地图。页面上生成表格,转换图表、添加钻取、过滤筛选、添加控件等一系列交互设置,操作简单。通过拖拽指标和维度生成的表格,可以一键切换至图表。
平台支持多种图表且类型可以随意切换,支持的图标类型有:柱形图、柱形堆积图、折线图、堆积面积图、组合图、条形图、堆积条形图、饼图、仪表盘、地图。
汇总数据统计方式多样:指标支持求和,平均,最大值、最小值等等一系列统计方式提供选择。
支持多种计算指标的方式:指标可以来自于字段,同时也可以是通过公式计算得来。在计算同比、环比、排名的时候,只需配置一下界面,即可得到想要的结果。无需通过复杂的公式。
数据预警:支持数据预警功能,对于在某个数据区间的数据可以进行红绿灯预警或者数据前景预警。
多维OLAP分析:平台提供了各种常见的OLAP分析操作,可以进行任意多维度的分析,钻取分析、排序、过滤等等分析功能。
任意多维度分析:平台提供任意维度的数据分析,针对要分析的数据,可以任意添加需要分析的维度。图表设置过程类似,需要注意的是绝大多数的图表无需刻意添加分析。支持任意维度切换,可以对已有的表样切换维度来进行自由分析。
多层钻取:由于维度数据的关系在建立数据cube的时候已经建立好,则可以对维度直接通过分组以及层级设置进行多层钻取。设置了数据关联的数据之间,可以进行多层钻取设置,通过多层钻取查看数据的详细值。
排序:基于查询出来的结果的排序,根据维度自身进行排序,根据汇总指标的大小对维度进行排序展示,根据公式值进行排序。可以进行升序、降序和自定义排序。选择了排序方式,数据会根据所选排序方式自动排序。排序为全局排序,分页显示后并不影响排序结果。
七、技术特性
数据平台数据仓库技术要点
- 动态生成的位图索引技术处理字符串等类型. NIO内存映射文件技术,快速读取处理数字类型.
- 支持离线使用的cube数据存储,支持cube数据定时全量以及增量更新. 动态的内存数据立方体技术,并行计算的数据处理模式.
- 基于位图索引的快速分组,过滤,钻取,支持多线程运算,互不干扰. 的位图索引压缩技术. 避免重复计算的缓存机制.
数据平台数据建模及数据应用流程
- 数据库生成Cube文件,该cube文件会根据原始数据建立一定的数据模型。
- 访问设计报表时,预先加载需要使用的字段的位图索引到内存,增大命中率。
- 处理分组时,使用位图索引,对数据进行处理,经过转换生成需要的结果,再使用多线程分组,多线程与内存映射文件生成汇总结果。并将结果建立一定的数据立方体模型,在下次取数,和部分取数时避免重复计算。
数据平台模块
分析数据关联
当最终用户在分析数据时,很可能需要将数据建模时没有建立关联关系的数据关联起来做为整体查看分析,而在处理此类问题时就往往需要技术人员的支持,需要额外的数据建模工作,平台根据用户的语义,提供关联设置,并将数据关联,只要明白语义即可得到所需数据。
指标影响因素分析
某个指标或者汇总数据往往会受到很多因素的影响,例如销售额会受到产品质量,销售地区,时间,销售人员,代理商,销售策略,同类竞争产品价格等等因素的影响,而当最终客户进行分析时需要对全盘的影响因素都有了解。以往的BI工具是提前将这些分析维度加入最终展现层让领导或者业务人员去选择,这样的问题有两个不利因素:沟通成本高,需要让技术人员清晰明了业务需求;修改影响因素复杂,添加删除因素需要通知技术人员。平台的因素分析直接面向最终分析人员,通过优化的算法提供所有影响因素,并且判断重点因素。
八、优势总结
- 大数据量的处理性能优秀
数据平台的数据处理,采用表间自动关联以及手动建立关联来实现数据之间的关系,使得数据根据业务关系有着完整的数据结构。理解业务的用户,只需要根据业务选择相应的数据,即可以进行分析数据。
- 数据平台数据建模及数据应用流程
数据库生成cube文件,该cube文件会根据原始数据建立一定的数据模型。
访问设计报表时,预先加载需要使用的字段的位图索引到内存,增大命中率。
处理分组时,使用位图索引,对数据进行处理,经过转换生成需要的结果,再使用多线程分组,多线程与内存映射文件生成汇总结果。并将结果建立一定的数据立方体模型,在下次取数,和部分取数时避免重复计算。
分组速度快,各个分组,汇总之间互不干扰,利于多线程计算以及分布式部署优化。支持部分计算,分组汇总不需要计算所有的值。列表速度不受限于数据量。
当最终用户在分析数据时,很可能需要将数据建模时没有建立关联关系的数据关联起来做为整体查看分析,而在处理此类问题时就往往需要技术人员的支持,需要额外的数据建模工作,平台根据用户的语义,提供关联设置,并将数据关联,只要明白语义即可得到所需数据。
非IT人员可以进行即时分析
传统BI的繁杂之处主要体现在两个方面:
第一:技术人员需要花费大量时间准备数据。用于分析的底层数据分布在不同的地方,如果要让这些数据百分百地满足业务需求,那么就需要对数据进行额外的处理,根据传统BI提供的工具建立符合其工具的数据模型,而这个过程根据业务的复杂程度所需的时间在几个月不等。
第二:业务人员基于数据偶得的一些分析需求实现过程复杂。传统BI的模式都是预先了解领导和业务人员的所有业务需求,然后基于这些需求准备数据设计以报表形式展现数据的分析过程,当决策分析者在分析过程中有额外的想法时,基于传统的设计模式,她们还需要和技术人员进行沟通,准备新的数据或者设计新的分析过程,然后才能得到自己想要的分析,这个过程还包括了让技术人员理解自己的需求,所以综上看来整个过程是相当复杂的。
平台的Data Service模块,具有的分析设计模式和指标影响因素智能分析模块,能够解决以上问题,让技术人员准备数据时无需任何代码和复杂的设置过程,让非IT人员参与开发编程成为可能。