Datawhale&阿里云天池 二手车交易价格预测 Task3:特征工程

这篇博文后续会再进行补充

在构造特征之前,需要对数据进行异常值处理缺失值处理

记录针对二手车数据集中一些特征的处理。
1. 时间特征
数据集中包含了汽车注册日期regDate 和汽车上线日期creatDate,形式为例如20160101。
处理的方式为:计算上线日期与注册日期的差值,生成新的特征–汽车使用时间。由先验知识可知,二手汽车的价格与使用时间成反比。

2. 地理特征
数据集中包含了地区编码regionCode这一特征,由先验知识可从regionCode中提取出相应的城市信息,作为新的特征。

在人工选择过各特征后,需要进一步对特征进行选择,筛选出对预测起作用较大的特征。主要分为三种方式:
1. 过滤式
先用相关系数法、互信息法、卡方检验法等进行特征选择,然后再投入到学习器中。

2. 包裹式
LVM

3. 嵌入式
结合过滤式和包裹式,学习器在训练时自动进行特征选择,典型方法为lasso回归–L1正则化趋向将特征系数变为0。

你可能感兴趣的:(数据挖掘,python,机器学习,大数据,python,人工智能)