数据分析数据挖掘的步骤

数据挖掘主要包括以下几个步骤:

1、定义挖掘的目的

【目的】
清楚挖掘的目的是什么?
想要达到的目的是什么?

2、数据取样

【目的】抽取与挖掘目的相关的数据集

抽取数据标准

  • 相关性
  • 可靠性
  • 完整性
  • 有效性

3、数据探索

【目的】保证数据的质量,为模型质量打下基础

数据探索主要包括

  • 异常值分析
  • 缺失值分析
  • 相关性分析
  • 周期性分析

可以从数据质量分析和数据特征分析两个角度对数据进行探索

数据质量分析

【目的】数据质量分析的主要任务是检查原始数据中是否存在脏数据;
数据质量分析要求我们拿到数据后先检测是否存在缺失值和异常值;

脏数据主要包括

  • 缺失数据
    数据的缺失主要包括记录的缺失和记录中某个字段的缺失
    缺失的处理分为删除存在缺失值的记录、对可能值进行插补和不处理3种情况
  • 异常数据
    异常值分析是检验数据中是否有录入错误以及含有不合常理的数据(eg:年龄超过130岁)
    异常值分析常用的方法有:简单统计量分析、3delta原则、箱型图分析等
  • 不一致数据
    数据不一致性是指数据的矛盾性、不形容性;(eg:由于电话号码更新没有同步,一个用户的电话号码在不同的数据集中有不同的值)
  • 重复数据以及含有特殊符号(eg:# ¥ *)的数据

数据特征分析

【目的】数据特征分析要求我们在数据挖掘建模前,通过频率分析、对比分析、帕累托分析、周期分析、相关性分析等方法,对采集的样本数据的特征规律进行分析,以了解数据的规律和趋势,为数据挖掘的后续环节提供支持

特征分析的方法

  • 分布分析
    分布分析能揭示数据的分布特征和分布类型,有定量数据的分布分析和定性数据的分布分析两种方式;
    定量分布分析的主要思想是将数据按照某一特征数据的分布按照特定的“组宽”对数据进行分组,并统计组内数据的频率信息
    定性分布分析的主要思想是按照样本的某个特征的不同取值对样本进行分类并统计其频率
  • 对比分析
    对比分析是指把两个相互联系的指标进行比较,特别适用于指标见的横纵向比较、时间序列的比较分析;
  • 统计量分析
    用统计指标对定量数据进行统计描述,常从集中趋势(均值、中卫市、众数)和离散趋势(极差、标准差、变异系数、四分位数间距)两方面进行分析;
  • 周期性分析
    周期性分析是探索某个变量是否随着时间变化而呈现出某种周期性变化趋势
  • 贡献度分析
  • 相关性分析
    分析两虚变量之间相关性程度的强弱
    可以通过绘制散点图、绘制散点图矩阵、计算相关系数的方法进行分析

4、数据预处理

【目的】
提高数据的质量
让数据更好的适应特定的挖掘技术和工具

数据预处理主要包括

数据清洗
数据集成
数据变换
数据规约

数据清洗

【目的】数据清洗主要是删除原始数据中无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等

  • 缺失值处理:删除记录、数据插补(均值、中位数、众数插补、固定值插补、最近邻差补、回归方法、插值法{拉格朗日插值法、牛顿插值法}等)和不处理3种

数据集成

【目的】将多个数据源合并存放在一个一致的数据存储中;
需要考虑实体识别和属性冗余问题;

数据变换

【目的】对数据进行规范化处理
【方法】简单函数变换、规范化(最小-最大规范化、零-均值规范化、小数定标规范化等)、连续属性离散化、小波变换

数据规约

【目的】产生更小但保持源数据完整性的新数据集
【方法】属性规约(通过属性合并来创建或删除或合并属性)、数值规约(通过选择替代的、较小的数据来减少数据量)

5、挖掘建模

【目的】分析本次建模属于数据挖掘应用种的哪类问题(分类、聚类、关联规则、事需模型或智能推荐等)
根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、事需模型和偏差检测等模型
【方法】

  • 分类与预测
  • 聚类分析
  • 关联规则
  • 时序模型
  • 离群点检测

6、模型评估

【目的】在多个模型中找出一个最好的模型
根据业务对模型进行解释和应用

你可能感兴趣的:(数据分析)