kaggle中的房价预测的一些数据分析方法详解

1.查看某些属性值与预测标签值的关联度

kaggle中的房价预测的一些数据分析方法详解_第1张图片

可以看出属性GrLivArea与SalePrice基本是正相关的关系。

kaggle中的房价预测的一些数据分析方法详解_第2张图片

TotalBsmtSF的系数比上一个更大一些

 

2.查看类别属性与salesprice的关系

kaggle中的房价预测的一些数据分析方法详解_第3张图片

可以看出,overallQual的类别数越大,saleprice也明显越高

kaggle中的房价预测的一些数据分析方法详解_第4张图片

虽然无法完全看出关系,但可以看出salesprice随着年份越新,售价存在逐渐提高的现象。

3.相关矩阵(heatmap style)

kaggle中的房价预测的一些数据分析方法详解_第5张图片

这个图是了解相关程度的很好的方法。我们也能从图中看出多重共线性,而且也能看出上面说过的那几个和saleprice的确存在很大的关联。

saleprice关联矩阵(zoomed heatmap style)

kaggle中的房价预测的一些数据分析方法详解_第6张图片

这是选了最大关联的10个属性绘制的图,所以其实还是很重要的。

从这个图中可以看到,'OverallQual', 'GrLivArea' and 'TotalBsmtSF'与saleprice相关度很高,重点考虑

'GarageCars' and 'GarageArea' 也是关联很大的属性,但是这两个属性本身就像兄弟一样,无法分开看,所以留下一个关联大的就好GarageCars

'TotalBsmtSF' and '1stFloor' 似乎也是双胞胎兄弟,所以也留下一个就好。

然后就是这些属性之间的巨大散点图

kaggle中的房价预测的一些数据分析方法详解_第7张图片

你可能感兴趣的:(kaggle)