最近看到房价预测分析模型,据我自己查找是kaggle上面的入门级项目,所以觉得写一点笔记不会涉及到版权问题之类的。
其他网站上关于房价预测模型的笔记
kaggle House Prices: Advanced Regression Techniques
因为初学,对于配置之类的还不熟悉,使用的是Jupyter Notebook。
目标是房价预测,所以数据探索都以房价为中心。数据是CSV格式的,先用pandas将数据导入。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
%pylab inline
df_train = pd.read_csv('D:/datas/train.csv')
df_train.head()
df_train['SalePrice'].describe()
sns.distplot(df_train['SalePrice'])
房价的数据看起来没什么问题,暂时不需要做什么处理。
接下来对于其中的一些维度,用以下几种常用的图来进行探索
sns.jointplot(x = "GrLivArea", y = 'SalePrice', data = df_train) #综合散点图,默认的图上会有皮尔逊相关系数和p值
sns.lmplot(x= 'GrLivArea', y = 'SalePrice', data = df_train) #线性回归图
sns.boxplot(x = 'OverallQual', y = 'SalePrice', data = df_train) #箱线图
#分组柱状图
grouped = df_train.groupby('OverallQual')
g1 = grouped['SalePrice'].mean()
d1 = g1.reset_index('OverallQual')
sns.barplot(x = "OverallQual",y = "SalePrice",data=d1)
#相关系数热力图
corrmatrix = df_train.corr()
sns.heatmap(corrmatrix,square = True, vmax = 1)
除此之外还有暂时还在研究的sns.pairplot()
数据的初步探索和可视化暂时就这么多,运用了目前学到的python知识。如果单说理论可能还是会有很多想法,但编程水平不够限制了实现。待继续学习,再来继续做这个模型。