小白自学——房价预测(二)

数据准备

https://www.kaggle.com/harlfoxem/housesalesprediction
下载房屋价格和相关因素的数据包,数据包里有10000条train的数据和3000条的test数据。在这里插入图片描述
数据分别是
第一列“销售日期”(date):2014年5月到2015年5月房屋出售时的日期;
第二列“销售价格”(price):房屋交易价格,单位为美元,是目标预测值;
第三列“卧室数”(bedrooms):房屋中的卧室数目;
第四列“浴室数”(bathrooms):房屋中的浴室数目;
第五列“房屋面积”(sqft_living):房屋里的生活面积;
第六列“停车面积”(sqft_lot):停车坪的面积;
第七列“楼层数”(floors):房屋的楼层数;
第八列“房屋评分”(grade):King County房屋评分系统对房屋的总体评分;
第九列“建筑面积”(sqft_above):除了地下室之外的房屋建筑面积;
第十列“地下室面积”(sqft_basement):地下室的面积;
第十一列“建筑年份”(yr_built):房屋建成的年份;
第十二列“修复年份”(yr_renovated):房屋上次修复的年份;
第十三列"纬度"(lat):房屋所在纬度;
第十四列“经度”(long):房屋所在经度。

注:所用到的数据取自于kaggle
datasets,由@harlfoxem提供并分享。我们只选取了其中的子集,并对数据做了一些预处理使数据更加符合回归分析比赛的要求。

接下来导入下载安装好的python库

import import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

然后是提取数据

# 读取数据,依次对应数据中相应的属性
columns = ['date', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot',  'floors', 'grade', 'sqft_above', 
           'sqft_basement', 'yr_built', 'yr_renovated',  'lat', 'long']
           
#从文件中导入数据。(路线视具体情况而定)
kc_train = pd.read_csv('./kc_train.csv', names=columns)
# 删除日期(date)特征。(训练数据的时间对该房价的影响无关,可直接删除)
kc_train.drop('date', axis=1, inplace=True)
# 查看数据集中是否缺失数据。如果有数据缺失,则要做出相应的处理。
print(kc_train.isnull().sum())

python库参考文档

matplotlib.pyplot——API
Seaborn

你可能感兴趣的:(大数据预测)