房价预测

这周本该有两篇文章,上半周没有完成Kaggle案例,花了一些时间学习了sklearn库。周日了,先早点将下半周的文章发出来,mark一下~
上周说好这周是汽车行业的案例,奈何目前没有找到相似的案例,所以,依旧来自kaggle案例,关于二手房的预测。


housesbanner.png

(1)定义问题
根据房屋的属性(卧室数量,是否沿街等信息),以及房屋的售价信息,对房屋的价格进行评估。模型可用于二手房,二手车的估价。
初步判定这是一个有监督学习,可选用线性模型。
(2)准备数据

  1. 原始数据包含79条房屋属性信息,1条售价信息(SalePrice),1条数据id信息(不具备 参考意义,剔除)
  2. 将79条属性信息作为特征数据,售价信息作为因变量/研究目标。
    3.处理因变量SalePrice,
    观察发现,原始数据中因变量是一个数字量且数值较大,存在多个不同的自变量/相同的自变量,对应一个因变量的情况,需要寻找一种数据标准化的处理方法,这里选择将数据做平滑处理——log1p():
    log1p()函数用于偏度较大的数据进行转化,使其更加符合高斯分布;同时,还可以避免复值问题(一个自变量对应多个因变量)。总之,该操作是将数据压缩到一个区间,可以看作是数据的标准化。
    4.处理特征数据/自变量
    特征数据的类型比较复杂,有数字类型变量,有离散变量,此外,存在缺失值的情况


    [图片上传中...(Image 6.jpg-7b565f-1552791784449-0)]

(3)建模
关于模型的选择:
通过观察训练数据矩阵,稀疏,尝试采用套索回归,结果对比模型可选用脊回归(最小二乘添加惩罚项)


Image 6.jpg

(4)优化
采用xgboost优化


Image 8.jpg

5)总结分析


Image 9.jpg

Figure_1.png

通过对数据的清洗,以及模型的选择和优化,我们可以实现对一组新的测试数据的输出。分析过程中确定研究的目标,将目标可视化,关联性处理,有助于分析目标。

你可能感兴趣的:(房价预测)