数据分析与机器学习入门(一)——EDA探索性数据分析(持续更新中...)

      • 与传统的统计分析方法的区别
      • 单变量分析
      • 两个变量的分析
      • 报表

与传统的统计分析方法的区别:

传统:先假定数据服从某种分布,然后运用这种模型进行预测,以概率论为基础,做各种的参数检验。
EDA:“抛开”概率理论,从数据出发,强调数据可视化

单变量分析

基本统计量(中位数、四分位数、偏度、峰度等等)
偏度、峰度:数据的大致分布情况,功能上与直方图类似,其虽然可量化,但不如直方图直观
直方图
- 对称?
- 分散?
- 异常值?
- 有间隙?
箱线图
- 异常值?
- 对称?
- 比较几批数据的形状
正态性检验
- 图示法:
- 直方图钟型?
- 箱线图
- QQ图
- 非参数检验方法

两个变量的分析

线性相关?
秩相关?
关联性如何?
注意
先绘制散点图
要求两变量来自正态总体
出现异常值慎用

报表

在进行了单变量与多变量的分析之后,应该得到一个展示成果性的报表。制作报表时应该思考以下的信息:
- 数据缺失?
- 有异常值?
- 特征有冗余?
- 分布情况?
- 样本是否重复?
- 样本是否平衡? 尤其是在进行机器学习训练分类器的时候,不同类别的样本数量应该大致相同,如果不相同,可采用上采样或者下采样的方法(后文会讲到)
- 是否需要抽样?
- 是否需要降维?
- 能否构造更有价值的特征?
- 连续特征是否需要离散化?
- 是否需要对变量进行重新计算?

你可能感兴趣的:(数据分析,探索性数据分析,EDA)