数据挖掘 二手车EDA

二手车EDA

    • 赛题理解
    • 数据理解
    • 分析赛题
  • EDA

零基础入门数据挖掘 - 二手车交易价格预测

赛题理解

拿到赛题之后,首先要看看赛题的类型,是回归,分类,其他?
同时,还要仔细读一下赛题背景,看看是不是已经说明存在数据漂移、异常值、缺失等现象,这样对我们的数据处理很有帮助。

数据理解

字段含义: 接下来开始看一下数据,通过看字段含义,可以知道存在明确的特征,和匿名特征。
对于明确的特征,我们能知道是分类变量,还是连续变量,这有助于我们进行变量间的交互,比如拼接变量。对于匿名特则,尝试进行四则运算,取log,和用统计指标猜测。
**数据量:**如果数据量过大,自己电脑带不起来。
评测标准: 回归常用标准:MAE,MSE,R2.要注意线下验证和线上的模型评价指标保持统一。不同的指标所注重的差异效果是不一样的。
结果提交: 注意列名和行名是否需要。

分析赛题

**经验:**常用模型:XGB,LGBM。sklearn重点掌握
步骤: EDA,特征工程,选模型跑数据
指标: 用sklearn.metrics

EDA

EDA要做什么:

  • 数据大致表达了什么
  • 挖掘数据结构(NLP,CV)
  • 初步分离出一些重要特征
  • 挖掘离群点和异常值
  • 初步确定选择的模型

绘图方法:

  • 时序图-变化规律
  • 直方图-分布
  • 密度曲线-分布
  • 箱型图(查看数据异常情况,不同数据间分布的对比)
  • 小提琴图(进阶版箱型图,某个值附近的概率分布)

量化方法:
相关性分析:

  • 定类变量,性别
  • 定序变量,教育程度
  • 定距变量,价格
  • 数据挖掘 二手车EDA_第1张图片

独立性分析:

  • 变量间无线性相关,还可能存在非线性相关
  • MV test

你可能感兴趣的:(数据挖掘 二手车EDA)