二手车价格预测-赛题理解

字段

Field Description
SaleID 交易ID,唯一编码
name 汽车交易名称,已脱敏
regDate 汽车注册日期,例如20160101,2016年01月01日
brand 车型编码,已脱敏
brand 汽车品牌,已脱敏
bodyType 车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7
fuelType 燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:6
gearbox 变速箱:手动:0,自动:1
power 发动机功率:范围 [ 0, 600 ]
kilometer 汽车已行驶公里,单位万km
notRepairedDamage 汽车有尚未修复的损坏:是:0,否:1
regionCode 地区编码,已脱敏
seller 销售方:个体:0,非个体:1
offerType 报价类型:提供:0,请求:1
creatDate 汽车上线时间,即开始售卖时间
price 二手车交易价格(预测目标)
v系列特征 匿名特征,包含v0-14在内15个匿名特征(需要进行数据挖掘)

以下是我对数据的简单猜测:
进行简单的观察后,SaleID肯定与price无关的。V系列对price的影响需要进行挖掘。
power,kilometer,Date和price是线性相关。

赛题理解

典型回归问题
我们可以使用传统机器学习的算法进行回归预测,譬如决策树,SVM,线性回归,非线性回归等。还有现在流行的主要应用xgb、lgb、catboost。

评价指标

平均绝对误差

误差对MAE的影响与距离的成正比。
二手车价格预测-赛题理解_第1张图片

均方误差

误差对MSE的影响是幂级数增长。越远,影响越大。
在这里插入图片描述

R2(R-Square)

残差平方和:
在这里插入图片描述
总平均值:
在这里插入图片描述
最后公式:
二手车价格预测-赛题理解_第2张图片

R 2 R^2 R2用于度量因变量的变异中可由自变量解释部分所占的比例,取值范围是 0~1, R 2 R^2 R2越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近,用x的变化来解释y值变化的部分就越多,回归的拟合程度就越好。所以R2R2也称为拟合优度(Goodness of Fit)的统计量。
y i y_i yi表示真实值, y i y_i yi表示预测值, y i ‾ \overline{y_i} yi表示样本均值。得分越高拟合效果越好。

你可能感兴趣的:(数据挖掘)