TipDM数据挖掘建模平台是基于Python引擎、用于数据挖掘建模的开源平台。平台提供数量丰富的数据分析与挖掘建模组件,用户可在没有编程基础的情况下,通过拖拽的方式进行操作,将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,帮助用户快速建立数据挖掘工程,提升数据处理的效能。平台的界面如图1所示。
TipDM数据挖掘建模平台主要有以下几个特点。
(1) 平台算法基于Python引擎,用于数据挖掘建模。Python是目前最为流行的用于数据挖掘建模的语言之一,高度契合行业需求。
(2) 用户可在没有Python编程基础的情况下,使用直观的可视化图形界面,通过拖拽的方式构建数据挖掘流程,无需编程。
(3) 提供公开可用的数据挖掘示例工程,一键创建,快速运行。支持挖掘流程每个节点的结果在线预览。提供实时日志查看功能,出现问题快速定位。
(4) 提供十大类数十种算法组件,包括数据预处理、统计分析、分类、聚类等常用数据挖掘算法。同时提供Python脚本与SQL脚本,粘贴代码即可运行。
(5) 平台将每个功能模块封装成接口,接口基于标准RESTful设计,可以通过浏览器在线浏览、测试各个接口,方便用户进行二次开发。
平台主要分为模板、数据源、工程和系统组件四个模块。
登录平台后,用户即可看到系统提供的示例工程(模板),如图2所示。
【模板】主要用于常用大数据挖掘案例的快速创建和展示。通过【模板】,用户可以创建一个无需导入数据及配置参数就能够快速运行的工程。同时,用户可以将自己搭建的数据挖掘工程生成为模板,显示在【首页】,供其他用户一键创建。
【数据源】主要用于数据挖掘工程的数据导入与管理,根据情况用户可选择【CSV文件】或者【SQL数据库】。【CSV文件】支持从本地导入CSV类型的数据,如图3所示;【SQL数据库】支持从DB2、SQL Server、MySQL、Oracle、PostgreSQL等关系型数据库导入数据,如图4所示。
【工程】主要用于数据分析与挖掘流程化的创建与管理,如图7所示。通过【工程】,用户可以创建空白工程,进行数据挖掘工程的配置,将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,达到数据分析与挖掘的目的。
【系统组件】主要用于数据分析与挖掘常用算法组件的管理。组件包括输入/输出、统计分析、预处理、脚本类组件、聚类、分类、回归、时序模型、模型评估和模型预测,共十大类,如图8所示。
(1) 【输入/输出】提供配置数据挖掘工程的输入和输出组件,包括:输入源、输出源。
(2) 【统计分析】提供对数据整体情况进行统计的常用组件,包括:数据探索、纯随机性检验、相关性分析、单样本T检验、正态性检验、双样本T检验、主成分分析、频数统计、全表统计、平稳性检验、因子分析、卡方检验。
(3) 【数据预处理】提供对数据进行清洗的组件,包括:特征构造、表堆叠、记录选择、表连接、新增序列、数据集划分、类型转换、缺失值处理、记录去重、异常值处理、数据标准化、数学类函数、排序、分组聚合、修改列名。
(4) 【脚本】提供一个代码编辑框,用户可以在代码编辑框中粘贴已经写好的程序代码,直接运行,无需再额外配置成组件,包括:Python脚本、SQL脚本。
(5) 【分类】提供常用的分类算法组件,包括:CART分类树、ID3分类树、最近邻分类、朴素贝叶斯、支持向量机、逻辑回归、多层感知神经网络。
(6) 【聚类】提供常用的聚类算法组件,包括:层次聚类、DBSCAN密度聚类、K-Means聚类。
(7) 【回归】提供常用的回归算法组件,包括:CART回归树、线性回归、支持向量回归、最近邻回归、LASSO回归。
(8) 【时间序列】提供常用的时间序列算法组件,包括:ARIMA、GM(1,1)、差分。
(9) 【模型评估】提供对通过分类算法或回归算法训练得到的模型进行评价的组件。
(10) 【模型预测】提供对通过分类算法或回归算法训练得到的模型进行预测的组件。
通过开源TipDM数据挖掘建模平台官网(http://python.tipdm.org),如图9所示,进入Github或码云开源网站,如图10所示,同步平台程序代码到本地,按照说明文档进行配置部署。
平台官网还提供了详细的帮助资料,包含【操作文档】【常见问题】【操作视频】,如图12所示,用户可以根据这些资料,轻松入门平台的使用。
Contact Information
联 系 方 式
电话:13902464353(施工)
交流Q群:197738983