2020-03-28 二手车交易价格预测 task2 总结

总结一:非线性变换的error

为便于拟合将因变量price取对数,但是运行baseline的时候会出现如下错误:


price取对数之后出现的错误

总结原因是stratified抽样适合分类问题,不支持因变量是连续取值的情况,price取对数之后类型由int变为float,就会出现上述错误。

解决方法1:可以将取对数之后的price变量取整,但小数位的缺失可能会造成无法避免的误差

解决方法2:尝试使用cross validation交叉验证

总结二:类别不平衡数据集情况下

方案一:性能指标

使用accuracy和auc并不能全面的衡量模型的表现,使用recall,precision以及二者的调和平均f1分数,甚至是Kappa系数都是不错的选择。

方案二:欠采样/过采样

1.本身都是重采样方法,但是欠采样会浪费很多可用样本,一定程度上使得模型学习到的信息不够完整;

2.过采样smote等可以平衡数据集,引入更多样本,使得模型的效果更好,但是也会影响类别在数据中的真实分布;

3.随机森林,xgboost等树模型可以调整权重参数,增加少数类样本的权重,不需要过采样也可以达到很好的效果。

你可能感兴趣的:(2020-03-28 二手车交易价格预测 task2 总结)