数据挖掘的概念和步骤

一、数据挖掘概念

       数据挖掘是从大量数据中通过数理统计算法搜索隐藏于其中的信息的过程。

       数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化的分析企业级的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

二、数据挖掘对象

       数据挖掘的对象可以是任何类型,可以是结构化数据、半结构化数据、非结构化数据,数据源可以是关系数据库,也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据等。

三、数据挖掘步骤

数据挖掘的概念和步骤_第1张图片

1、数据提取

        一般从数据仓库、数据湖等中提取与分析任务相关的数据,形成数据集,一般包括训练集、验证集、测试集的数据。

         训练集 (training set):数据集的子集,用于训练模型,也就是建立模型,发现规律。

         验证集 (validation set):数据集的一个子集,模型训练过程中单独留出的样本集,用于调整模型的超参数和用于对模型的能力进行初步评估。

         测试集 (test set):数据集的子集,用来评估最终模型的泛化能力,但不能作为调参、选择特征等算法相关的选择的依据。

2、数据预处理

        数据预处理一是对缺失值,异常值、重复值等进行处理,消除数据噪声和删除不一致的数据。二是对数据进行标准化、归一化处理、数据变量分箱等。

        归一化处理:归一化简单的说就是将任意范围的数据集限定在用户特定的区间内,常用的特定的区间有[0, 1]和[-1, 1]

        数据变量分箱/分桶:将一个特征(通常是连续特征)转换成多个二元特征(称为桶或箱),通常根据值区间进行转换。例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。假设温度数据可精确到小数点后一位,则可以将介于 0.0 到 15.0 度之间的所有温度都归入一个分箱,将介于 15.1 到 30.0 度之间的所有温度归入第二个分箱,并将介于 30.1 到 50.0 度之间的所有温度归入第三个分箱。

3、数据建模

       数据建模使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义。数据建模常用算法有:逻辑回归、决策树、贝叶斯、KNN(k-近邻算法)、SVM、神经网络等

4、模型评估和比较

       模式评估是指对不同模型的评估和比较,因为建模方法很多种,建的模型也会很多,最后选取一个稳定度和识别度高的模型。常用模型评估的方法有:ROC曲线、KS曲线、AUC值、混淆矩阵、P-R曲线等。

5、模型发布和效果跟踪

      数据挖掘模型做为日常运营的一部分,正式发布使用,后续需要持续跟踪模型的执行效果。

你可能感兴趣的:(数据挖掘,数据挖掘,机器学习)