Python数据分析与挖掘实战(一)——数据挖掘基础

数据挖掘基础

  • 从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘;它是利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学、数据库技术和人工智能技术的综合。
1、数据挖掘的基本任务
  • 数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,提取数据中蕴含的价值。
2、数据挖掘建模过程

(1)定义挖掘目标

  • 针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能达到什么样的结果?要想充分发挥数据挖掘的价值,必须对目标有一个清晰明确的定义,即决定到底想干什么。

(2)数据取样

  • 在明确了需要进行数据挖掘的目标后,接下来就需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是动用全部企业,且取样的数据一定要质量过关。常见的数据抽样方式如下:
随机抽样 在采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽样的概率
等距抽样 如按5%的比例对一个有100组观测值的数据集进行等距抽样,则取第20、40、60、80和第100这5组观测值
分层抽样 在这种抽样操作时,首先将样本总体分为若干个层次(子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次可设定不同的概率。这样的抽样结果更具代表性,进而使模型具有更好的拟合精度
从起始顺序抽样 这样的抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者直接给定选取观测值的组数
分类抽样 在前述几种的抽样方式中,并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集。分类抽样的选取方式就是前述的几种方式,只是抽样以类为单位

(3)数据探索

  • 当拿到一个数据样本后,它是否达到原来设想的要求;样本中有没有什么明显的规律和趋势;它们可区分成怎样一些类别…,这都是要探索的内容。
  • 对所获取的样本数据进行探索、审核和必要的加工处理,是保证最终的挖掘模型的质量所必需的。可以说,挖掘模型的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础。

(4)数据预处理

  • 当采样数据维度过大时,如何进行降维处理、缺失值处理等都是数据预处理要解决的问题。
  • 由于采样数据中常常包含许多含有噪声、不完整,设置不一致的数据,对数据挖掘所涉及的数据对象必须进行预处理。
  • 数据预处理主要包括:数据刷选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。

(5)挖掘建模

  • 样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或者智能推荐),选用哪种算法进行模型建模。

(6)模型评价

  • 模型评价的目的之一就是从一些模型中自动找出一个最好的模型,另外就是要根据业务对模型进行解释和应用。
3、常用的数据挖掘建模工具
  • 数据挖掘是一个反复探索的过程,只有将数据挖掘工具提供的技术和实验经验与企业的业务逻辑和需求紧密结合,并在实施过程中不断的磨合,才能取得好的效果。下面介绍几种常用的数据挖掘建模工具。
  • SAS Enterprise Miner
  • IBM SPSS Modeler
  • SQL Server:在SQL Server 2008中提供了决策树算法、聚类分析算法、Naive Bayes 算法、关联规则算法、时序算法、神经网络算法、线性回归算法等9种常用的数据挖掘算法。
  • Python
  • WEKA
  • KNIME
  • RapidMiner
  • TipDM

你可能感兴趣的:(Python数据分析与挖掘实战,数据挖掘)