二手车价格预测比赛-探索性数据分析EDA

目的:
1、看看数据表达了什么
2、看看数据的结构,是结构化数据还是非结构化?是不是时间数据?
3、锁定重要的特征
4、看看数据中是否存在离群的、异常的数据
5、找到一个合适的模型

绘图方法

1、绘制原始数据图像,看看缺失点、时序图
2、绘制统计图,比如箱型图、小提琴图、直方图
3、将多个特征同时画出来,对比差异、相同点

量化方法

1、计算统计性表述,比如偏度、峰度、方差等。求偏度峰度的目的在哪?好像直接看直方图或者概率密度图就可以了。
2、相关性分析
3、取值范围
4、大致分布

绘图方法

  • 时序图
    便于观察是否具有周期性,震荡幅度
  • 直方图
    便于观察数据分布,是不是正态分布
  • 密度曲线图
    可以理解为概率密度函数,跟直方图作用差不多
  • 箱型图
    方便查看数据的异常情况,离群点
  • 小提琴图
    相当于箱型图+概率密度图,可以看出某个值附近分布的频率
  • pair-plot
    可以看到变量之间的两两关系。

量化方法

  • 相关性分析
    如果特征之间的相关性较高,需要考虑删除一个,否则会有共线性的问题。但是对于随机森林、xgboost等模型也不必剔除。
    a) 定类变量,如性别
    b) 定序变量,如教育程度
    c) 定距变量,如价格。
不同类别数据之间的相关性
  • 独立性分析
    独立和相关不一定是取反的关系。因为变量之间没有线性相关性,还可能会存在非线性相关性。
    推荐一种方法:MV test 独立性分析方法。
    也可以绘制散点图,用sns.pairplot方法绘制出特征之间的两两关系。

代码实践

data.describe()
data.info()
data.isnull().sum() 查看缺失值
data.value_counts() 查看数据是不是平衡

你可能感兴趣的:(二手车价格预测比赛-探索性数据分析EDA)