关于BI引擎

 最近一直在搞实验室和华西出生缺陷中心合作的项目。本来当初我们计划直接在我们当初开发的OpenMiner基础上改进。但是后来在一次开会上,师兄介绍了开源的BI引擎Pentaho(http://www.pentaho.com/) 之后,发现Pentaho正是我们当初开发OpenMiner的时候想做的一切。记得还是本科毕业设计的时候,我们也帮学校教务处的运行科做一套数据分析 的系统。虽然那个时候Weka已经是一个成熟的开源数据挖掘软件,但是Weka始终只是提供了一个软件包,更多的是一个算法包。它还没有成为一个和后台数 据库,前台Web联系在一起的Data Analysis & Mining Engine。而OpenMiner的想法,则是提供一套开源的数据分析引擎的框架。但是现在,不得不说,Pentaho已经做了OpenMiner想做 的一切,而且做得更好,更全面。Pentaho的诞生比较晚,也就最近1-2年才开始走向开发者的,甚至到现在,其中一些模块都还在开发中。不过 Pentaho的开发者似乎已经很想把该软件商业化,成为一个可以赚钱的商业软件。

image

  关于类似BI的大规模数据分析计算平台,我估计会在未来几年内成为各大互联网,银行,电子商务等公司的必备后台系统。从今年的大学校园招聘会就可以看出, 百度,阿里巴巴等很多企业开始建立数据仓库,数据挖掘的部门。当企业,银行等部门累积了大量的数据之后,下一步必然是如何利用这些数据。

  现在感觉,当初在MSRA的时候,学的东西太有用了。从底层的数据存储,计算到上层的数据挖掘算法,几乎都是深入接触到。而且,也在微软的大量真实用户数 据拥有实际的应用。相对于Pentaho, Weka之类的开源Java软件来说,当时我们做的C/C++平台才是真正的平台。毕竟在做大规模数据处理的时候,C/C++效率还是远高于Java。因 为做大规模数据计算,都是很消耗时间的,即便1/2,1/3的效率差异,都可能是几天的时间差异。那么什么时候才会出现基于C/C++的BI引擎呢?

你可能感兴趣的:(数据分析,数据挖掘,BI,数据仓库,平台,引擎)