河北高校数据挖掘比赛之Task1赛题理解

今天是对二手车价格预测比赛的赛题理解,主要内容是了解赛题的数据和目标,清楚评分体系。下载数据并挂载到实验室,熟悉比赛流程。

一、了解学习目标

本次新人赛以二手车市场为背景,要求选手预测二手汽车的交易价格,这是一个典型的回归问题。其中包括数据科学库、通用流程和baseline方案学习三部分。

二、赛题概况

赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

此题为传统的数据挖掘问题,通过数据科学以及机器学习深度学习的办法来进行建模得到结果。并且此题是一个典型的回归问题,主要应用xgb、lgb、catboost,以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务,并通过EDA来挖掘数据的联系和自我熟悉数据。

三、数据概况

SaleID - 销售样本ID
name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,'v_14,'v_15,'v_16,'v_17,'v_18,'v_19,'v_20,'v_21,'v_22,‘v_23’ 【匿名特征,包含v0-23在内24个匿名特征】  
数字全都脱敏处理,都为label encoding形式,即数字形式

四、评测标准

此次比赛因为是典型的回归问题,所以将评价标准定位了为MAE(Mean Absolute Error)。

注: 其中在此种评估指标中,MAE越小,说明模型越准确。

河北高校数据挖掘比赛之Task1赛题理解_第1张图片
当然这只是这次比赛的预测标准,对于不同模型还有其他的预测标准,例如:

  1. 对于分类算法常见的评估指标如下:
    (1)对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。
    (2)对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。
  2. 对于回归预测类常见的评估指标如下:
    平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(R-Square)

五、代码示例和结果提交

  1. 挂载所需数据
    下载所需挂载数据,然后拖到你需要存放的文件夹,像第一天所说的方式进行保存,保存到天池实验室。也可以点击upload按钮来上传自己所需挂载的文件。

    保存天池实验室

    点击天池
    河北高校数据挖掘比赛之Task1赛题理解_第2张图片
    点击刷新状态后点击保存到天池

河北高校数据挖掘比赛之Task1赛题理解_第3张图片

  1. 代码示例
    1.1当然你可以点击文件来查看数据集,但当数据量大的时候就不大适合了,那我们可以使用如下方法来查看数据。

    (pandas可以将数据以索引方式展现,使显示更加直观简洁。)
    河北高校数据挖掘比赛之Task1赛题理解_第4张图片
    1.2 分类指标评价计算示例
    河北高校数据挖掘比赛之Task1赛题理解_第5张图片
    1.3回归指标评价计算示例
    河北高校数据挖掘比赛之Task1赛题理解_第6张图片

  2. 结果的提交依旧是需要保存进天池实验室,上面及以前已经详述过,这里就不再提及了。

六、经验总结

  1. 赛题的理解很重要,不是只看过一遍就可以,还需要认真的去思索赛题所给的各种信息,并从中提取出关键信息,并在后续建立模型的过程中去反复斟酌,以防发生一些无法预估的错误。信息提取对于赛题理解非常重要,寻找关键数据,协调线上线下的一致性,从而从原始特征中构造满意的特征。
  2. 除了信息的提取,还需要有一定的理解分析,比如这题的难点可能在哪里,关键点可能在哪里,哪些地方可以挖掘更好的特征,用什么样得线下验证方式更为稳定,出现了过拟合或者其他问题,估摸可以用什么方法去解决这些问题,哪些数据是可靠的,哪些数据是需要精密的处理的,哪部分数据应该是关键数据。这时是在一个宏观的大体下分析的,有助于摸清整个题的思路脉络,以及后续的分析方向。
  3. 当然赛题也会隐藏一些条件,需要我们仔细去寻找和思考。比如高效性要求,比如对于数据异常的识别处理,比如工序流程的差异性,比如模型运行的时间等等,都会对模型的建立有很大的影响。反过来,模型不准确,也需要反思自己哪些隐藏的条件没有考虑到,从而能够进一步优化自己所建立的模型。

注: 不同评估指标对于预测模型来说,具有不同的误差敏感性,对于后续的预测都会有影响。所以选择评估指标也是非常重要的事情,不过,这次比赛指定了评估标准,我们就用它来建立模型即可。

你可能感兴趣的:(数据挖掘)