二手车交易价格预测中的特征工程

赛题数据维度包括

Field Description
SaleID 交易ID,唯一编码
name 汽车交易名称,已脱敏
regDate 汽车注册日期,例如20160101,2016年01月01日
model 车型编码,已脱敏
brand 汽车品牌,已脱敏
bodyType 车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7
fuelType 燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:6
gearbox 变速箱:手动:0,自动:1
power 发动机功率:范围 [ 0, 600 ]
kilometer 汽车已行驶公里,单位万km
notRepairedDamage 汽车有尚未修复的损坏:是:0,否:1
regionCode 地区编码,已脱敏
seller 销售方:个体:0,非个体:1
offerType 报价类型:提供:0,请求:1
creatDate 汽车上线时间,即开始售卖时间
price 二手车交易价格(预测目标)
v系列特征 匿名特征,包含v0-14在内15个匿名特征

在EDA过程中,了解到只有power、kilometer、匿名维度属于数值属性。除去对缺失值删除填充、数据规范化之外,这里对根据实际需求构建特征,以及选择特征的过程做以下记录。

对于预测车辆价格而言,就是要找到影响价格的因素。首先可以想到影响全新车辆价格的因素包括品牌、性能、款型、大小等涉及汽车质量的因素。此外,不同时间下经济环境、消费能力、货币价值不同,也会影响车辆价格。

数据中能反映汽车质量性能的数据包括model、brand、bodyType、fuelType、power。这其中品牌 brand 往往因其口碑服务等品牌价值而对价格有非常大的影响。同样车型配置的车辆,高端品牌的价格会高于低端品牌。这种品牌隐含属性可以通过计算训练数据中各 brand 的的平均价格(mean price)来表现。同时,有些品牌可能专注低端或高端产品,而有些品牌则可能覆盖多层次产品,这可以用价格的房产来表现。

所以在可以构造特征“brand_price_mean”,“brand_price_std”来反映品牌的定位情况——这一对价格有较大影响的品牌隐含属性。

时间对价格的影响,实际上也是较的,可以想象1990年与2010年市面上在售车辆的价格一定差距悬殊。这种差距源于市场消费能力,物价水平的影响。所以模型应该考虑车辆 createDate 对价格的影响。

但是,实际上,不同年代汽车售价不同,并不是每款汽车产品的售价不同。几乎不可能哪款车型会连续生产几十年而不变。随着技术进步和设计风格的转变,车企会不断推出新车型,同一车型品牌也会随着时间不断更新换代。旧车型不断被新车型淘汰,而不是不断涨价。所以说,model 车型属性本身就隐含了时间属性。这或许意味着我们就不必将 createDate 作为重要参数进行考虑,因为 createDate 的影响,已经隐含在 model 中了。

而对于二手车来说,车辆的使用时长、使用里程、故障情况,这些反应车辆损耗贬值程度的数据,对价格有决定性影响。所以使用 regDate - createDate 得到使用时长 ,参与模型训练是十分必要的。里程和故障情况由 kilometer 和 notRepairedDamage 直接反应。当然,在实际中,如果能得到零部件的维修记录数据对于预测价格来说就更好了。存在多次维修的部件一定会降低预期价格,而换新的部件则有望提升二手售价。

地区属性由于能反映地区局部市场,也会对价格有所影响。根据地区编码含义,如邮编,截取前几位反映有一定广度的区域即可。

seller、offerType 属性,从常识上理解,一般不会对价格有影响。在EDA过程中,也发现该属性数值上非常几种,故直接删去,不做考虑。而 SaleID、name 属性属于标记数据,对价格无影响,只作为时间标签即可,不参与训练。

你可能感兴趣的:(二手车交易价格预测中的特征工程)