零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA

零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA_第1张图片

这个是DataWhale在本次数据挖掘竞赛提供的学习思路图。

赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA_第2张图片 零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA_第3张图片

 不同的评价指标关注的点不同

零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA_第4张图片

赛题理解究竟是理解什么:回归问题,根据二手车的一些特征做预测。有了赛题理解后能做什么:对数据EDA。赛题背景中可能潜在隐藏的条件:数据缺失、漂移,对特征工程中时序分析的处理。

EDA定义:1、理解数据的特征;2、考虑是什么类型的数据:结构化、非结构化等;3、选取重要度特征;

4、找到异常点 5、为问题寻找合适的方法。

绘图方法: 1、画数据的原始图像是否有规律。 2、画数据的统计图(平均图、盒图、残差图)。3、离散图说明特征。

 量化方法:1、预测区间估计。2、数值的度量。3、数据分布的类型。

时序图:便于观察数据特点,例如,是否具有周期性,震荡性。

直方图:便于观察数据分布。

密度曲线图:可以理解为概率密度函数。

箱型图:便于查看数据的异常状况,以便不同数据间分布的对比。

相关性分析:1、定类变量:名义型变量;性别  。

2、定序变量:不仅分类,还按某种特征排序;两值的差无意义;教育程度 。

3、定距变量:可比较大小、差有意义的变量。           

  定类 定序 定距
定类 卡方类测量 卡方类测量 Eta系数
定序  

Spearman 相关系数

同序-异序对测量

Spearman相关系数
定距     Pearson相关系数

零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA_第5张图片 

代码实战:

数据概览:1、describe种有每列的统计量,个数count、平均值mean、方差std、最小值min、中位数25%50%75%

以及最大值。2、info通过info来了解数据每列的type,有助于了解

是否存在处理Nan以外的特殊符号异常。

判断缺失与异常:1、使用is_null函数查看缺失 2、使用value_count函数查看数据情况。

绘制数据分布:零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA_第6张图片

统计数值变量相关性热力图:零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA_第7张图片

绘制特征之间的关系图:数字特征相互之间的关系可视化

零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA_第8张图片

绘制类别分布图

零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA_第9张图片 

你可能感兴趣的:(零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA)