二手车交易价格赛题及数据初步分析

二手车交易价格预测数据初步分析

  • 赛题分析
  • 数据分析

赛题分析

训练集共有15万条数据,测试集A有5万条。包含31个变量,Index([‘SaleID’, ‘name’, ‘regDate’, ‘model’, ‘brand’, ‘bodyType’, ‘fuelType’,‘gearbox’, ‘power’, ‘kilometer’, ‘regionCode’, ‘seller’, ‘offerType’,‘creatDate’, ‘price’, ‘v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’,‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’, ‘v_14’],dtype=‘object’)
各变量注释如下:
name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’(根据汽车的评论、标签等大量信息得到的embedding向量)【人工构造 匿名特征】

一般经验来看,二手车的价格受影响最大的应该是车的品牌,行驶公里数,汽车注册时间,和汽车损坏程度。因此,特征选择上可以结合此类经验。此赛题是典型的回归问题,可以采用boosting,stacking等集成方法,非线性回归,深度融合等方法,关键在于数据特征分析(是否高度相关,有无缺失值),特征选择,异常值处理,缺失值处理,以及思考如何构建准确的模型并优化参数,对于外推性上性能如何评价。

数据分析

用python分析150000条数据,运用了数据导入,数据简要分析,数据统计信息浏览
数据导入:运用pandas

Train_data = pd.read_csv('datalab/used_car_train_20200313.csv', sep=' ')

数据简要分析:通过 .info() 简要可以看到对应一些数据列名,以及NAN缺失信息

Train_data.info()

得到dtypes: float64(20), int64(10), object(1)

TestA_data.info()

得到dtypes: float64(20), int64(9), object(1)
数据统计信息浏览:通过 .describe() 可以查看数值特征列的一些统计信息

Train_data.describe()
TestA_data.describe()

二手车交易价格赛题及数据初步分析_第1张图片
得到数据的count个数,mean,min,max
疑问:25%,50%,75%不知道什么意思,类似于中位数的意思?且中间省略号的数据如何让看到?

你可能感兴趣的:(二手车交易价格赛题及数据初步分析)