可视化数据智能平台功能结构

这是一个工程上在用的可视化数据智能平台的功能结构,可以作为入门机器学习所需掌握的知识体系。

一、源目标

1、读取Hive数据

2、写入Hive数据

二、数据预处理

1、数据合并

       join

       合并列

       合并行

       缺失值处理

2、采样过滤

       分层采样

       加权采样

       过滤映射

       随机采样

3、增加列

4、拆分

5、标准化

6、类型转换

7、自增id

三、统计分析

1、全表统计

2、协方差

3、单样本T检测

4、卡方拟合性检验

5、卡方独立性检验

6、双样本T检验

7、散点图

8、正态校验

9、洛伦茨曲线

10、百分位

11、皮尔逊系数

12、直方图

13、相关系数矩阵

14、离散值特征分析

15、箱线图

四、特征工程

1、特征选择

       过滤式特征选择

2、特征变换

       OneHot编码

       PCA模型

       特征异常检验

       特征离散

       类别特征编码

3、重要性评估

       特征重要性过滤

       随机森林特征重要性

4、特征生成

       特征交叉

       特征多项式展开

5、特征尺度变换

6、特征异常平滑

五、机器学习

1、二分类

       GBDT模型

       GBDT自动调参

       LR模型

       LR自动调参

       SVM模型

       SVM自动调参

       XGBoost模型

       XGBoost自动调参

       随机森林模型

       随机森林自动调参

2、多分类

       LR模型

       决策树模型

       决策树自动调参

       朴素贝叶斯模型

       朴素贝叶斯自动调参

       随机森林模型

       随机森林自动调参

3、推荐

       协同过滤

4、聚类

       GMM模型

       GMM模型自动调参

       Kmeans聚类

       Kmeans聚类自动调参

5、评估

       二分类评估

       回归评估

       多分类评估

       混淆矩阵

6、回归

       GBDT模型

       GBDT自动调参

       决策树模型

       决策树自动调参

       线性回归模型

       线性回归自动调参

       随机森林模型

       随机森林自动调参

7、模型预测

六、工具

1、SQL脚本

你可能感兴趣的:(可视化数据智能平台功能结构)