数据挖掘入门:(一)题目、数据集与评测标准

参考资料:

【1】零基础入门数据挖掘-二手车交易价格预测 https://tianchi.aliyun.com/competition/entrance/231784/introduction

【2】Datawhale 零基础入门数据挖掘 https://github.com/datawhalechina/team-learning/


(一)题目、数据集与评测标准

https://tianchi.aliyun.com/competition/entrance/231784/information

题目:赛题以预测二手车的交易价格为任务,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

数据集:(见官网)

评测标准:评价标准为MAE(Mean Absolute Error),即平均绝对误差,它表示预测值和观测值之间绝对误差的平均值。

评估指标即是我们对于一个模型效果的数值型量化。

分类算法常见的评估指标如下:

  • 对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC

曲线。

  • 对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。

对于回归预测类常见的评估指标如下:

  • 平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(RSquare)

通过EDA来挖掘数据的联系和自我熟悉数据。主要应用xgb、lgb、catboost,以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。

 

 

你可能感兴趣的:(数据挖掘入门:(一)题目、数据集与评测标准)