数据挖掘流程

    CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准"。此KDD(Knowledge Discovery in Database 过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%。CRISP-DM强调,DM不单是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。


    知识发现(KDD:Knowledge Discovery Database):  是从数据集中识别出有效的、新颖的、潜在有用的、以及最终可理解模式的非凡过程。知识发现是讲信息变为知识,从数据矿山中挖掘到的知识模型,将为知识创新和知识经济的发展做出贡献。该术语于1989年出现,Fayyad定义为"KDD"是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程"。


CRISP-DM的六个阶段

       CRISP-DM模型为一个KDD工程提供了一个完整的过程描述,一个数据挖掘项目的生命周期包含六个阶段,这六个阶段的顺序不是固定的,工作中经常需要前后调整这个阶段。这依赖每个阶段或是阶段中的特定任务的产物是不是下一阶段必须的输入。

 业务理解(Business Understanding)

    最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。

    数据理解(Data Understanding)

    数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。

    数据准备(Data Preparation)

    数据准备阶段包括从未处理数据中构造最终数据集的所有预处理。这些数据将是模型工具的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。

    建模(Modeling)

    在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。

    评估(Evaluation)

    到项目的这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。

    部署(Deployment)

    通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担部署的工作。







你可能感兴趣的:(DM)