Python数据挖掘过程之数据探索

数据探索

  • 根据观测、调查收集到初步的样本数据集后, 接下来要考虑的问题是:样本数据集的数量和质量是否满足模型构建的要求?是否出现从未设想过的数据状态?其中有没有什么明显
    的规律和趋势?各因素之间有什么样的关联性?
  • 通过检验数据集的数据质量、绘制图表、计算某些特征量等手段, 对样本数据集的结构和规律进行分析的过程就是数据探索。数据探索有助于选择合适的数据预处理和建模方法,
    甚至可以完成一些通常由数据挖掘解决的问题。
  • 本文从数据质量分析和数据特征分析两个角度对数据进行探索。
1 数据质量分析
  • 数据质量分析是数据挖掘中数据准备过程的重要一环, 是数据预处理的前提, 也是数据挖掘分析结论有效性和准确性的基础, 没有可信的数据, 数据挖掘构建的模型将是空中楼阁。

  • 数据质量分析的主要任务是检查原始数据中是否存在脏数据, 脏数据一般是指不符合要求, 以及不能直接进行相应分析的数据。在常见的数据挖掘工作中, 脏数据包括如下内容。

    • 缺失值。
    • 异常值。
    • 不一致的值。
    • 重复数据及含有特殊符号(如#、¥、*)的数据。
  • 本文将主要对数据中的缺失值、异常值和一致性进行分析。

你可能感兴趣的:(数据挖掘)