房价预测模型数据探索(part 1)python数据分析

最近看到房价预测分析模型,据我自己查找是kaggle上面的入门级项目,所以觉得写一点笔记不会涉及到版权问题之类的。

其他网站上关于房价预测模型的笔记
kaggle House Prices: Advanced Regression Techniques

因为初学,对于配置之类的还不熟悉,使用的是Jupyter Notebook。
目标是房价预测,所以数据探索都以房价为中心。数据是CSV格式的,先用pandas将数据导入。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
%pylab inline

df_train = pd.read_csv('D:/datas/train.csv')
df_train.head()

房价预测模型数据探索(part 1)python数据分析_第1张图片

df_train['SalePrice'].describe()

房价预测模型数据探索(part 1)python数据分析_第2张图片

sns.distplot(df_train['SalePrice'])

房价预测模型数据探索(part 1)python数据分析_第3张图片

房价的数据看起来没什么问题,暂时不需要做什么处理。

接下来对于其中的一些维度,用以下几种常用的图来进行探索

sns.jointplot(x = "GrLivArea", y = 'SalePrice', data = df_train)  #综合散点图,默认的图上会有皮尔逊相关系数和p值
sns.lmplot(x= 'GrLivArea', y = 'SalePrice', data = df_train)  #线性回归图
sns.boxplot(x = 'OverallQual', y = 'SalePrice', data = df_train)  #箱线图

#分组柱状图
grouped = df_train.groupby('OverallQual')
g1 = grouped['SalePrice'].mean()
d1 = g1.reset_index('OverallQual')
sns.barplot(x = "OverallQual",y = "SalePrice",data=d1)

#相关系数热力图
corrmatrix = df_train.corr()
sns.heatmap(corrmatrix,square = True, vmax = 1)

除此之外还有暂时还在研究的sns.pairplot()

数据的初步探索和可视化暂时就这么多,运用了目前学到的python知识。如果单说理论可能还是会有很多想法,但编程水平不够限制了实现。待继续学习,再来继续做这个模型。

你可能感兴趣的:(Python学习中)