Greenplum MADlib

MADlib概要

MADlib是一个可扩展数据库分析的开源库。通过Greenplum的MADlib扩展,用户可以在Greenplum数据库中使用MADlib功能。

MADlib为结构化数据以及非结构化数据提供了数学、统计学以及机器学习方法的数据并行的实现。它提供了一整套基于SQL的机器学习、数据挖掘以及统计学算法,只需要运行在数据库引擎中,而不需要在Greenplum和其它工具之间进行数据的传递。

MADlib可以与PivotalR一同使用,一个PivotalR包允许用户使用R客户端同Greenplum的数据进行交互。见关于MADlib、R以及PivotalR。

注意:当使用MADlib,设置配置参数optimizer_control为on (默认值)。如果该参数被设置为off,那么这些MADlib函数将不会工作:决策树、随机森林、LDA、决策树的PMML、随机森林的PMML。参数 optimizer_control控制是配置参数optimizer能够被修改。参数optimizer控制在执行SQL查询时GPORCA优化器是否被打开。一些MADlib安装检查和函数改变optimizer的值来提高性能。如果将optimizer_control设置为off,那么optimizer的值不能修改,同时函数会失败。

你可能感兴趣的:(大数据存储)