Python波士顿房价数据集,相关习题

** 波士顿房价数据集(Boston House Price Dataset)包含对房价的预测,以千美元计,给定的条件是 房屋及其相邻房屋的详细信息。
** 该数据集是一个回归问题。每个类的观察值数量是均等的,共有 506 个观察,13 个输入变量和1个输 出变量。**
** sklearn库的datasets包含该数据集( load_boston)****

作业一,子图一 画出TAX和RAD的两列的散点图 子图二 画出TAX和RAD的两列线性回归算法拟合出的折线图

import matplotlib.pyplot as plt       #导入一个绘图模块matplotlib.pyplot
from sklearn.datasets import load_boston  #导入在sklearn.datasets库中的波士顿房价数据集
import pandas as pd
import numpy as np
data_boston=load_boston().data
temp=pd.DataFrame(data_boston,columns=load_boston().feature_names) #所有数据的数据框形式
y=load_boston().target #数据的标签 
plt.subplot(121) #subplot 子图画法,表示为一行两列占用第一个,即第一行第一列
plt.scatter(temp.iloc[:,8],temp.iloc[:,9],s=2) #画散点图

from sklearn.linear_model import LinearRegression  #线性回归算法
linear1=LinearRegression().fit(temp.iloc[:,8].values.reshape(-1,1),temp.iloc[:,9])

plt.subplot(122)
x=np.arange(0,20,0.01).reshape(-1,1)
plt.plot(x,linear1.predict(x))
plt.show()

作业二,画出所有列均值的柱状图,要求标注出对应的数值,并且每一个柱不同颜色

import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets import load_boston
data_boston=load_boston().data

pd.DataFrame(data_boston).mean()

pd.DataFrame(data_boston).describe().iloc[1,:]

m=[data_boston[:,i].mean() for i in range(data_boston.shape[1])]

from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['SimHei']
plt.figure()
for i in range(13):
    plt.bar(i,m[i])
    plt.text(i,m[i]+5,round(m[i],2),ha='center')
plt.show()

作业三,一张图上画出所有列数据85%分位数的折线图,和15%分位数的折线图

import matplotlib.pyplot as plt
data_boston=load_boston().data
num1=pd.DataFrame(data_boston).quantile(0.85)
num2=pd.DataFrame(data_boston).quantile(0.15)

plt.figure()
plt.plot(range(data_boston.shape[1]),num1)
plt.plot(range(data_boston.shape[1]),num2)
plt.show()

作业四,循环画出六个子图,分别对应前六列数据的箱线图

data_boston=load_boston().data

for i in range(1,7):
    plt.subplot(2,3,i)
    plt.boxplot(data_boston[:,i])
    plt.show()

    import numpy as np
    import matplotlib.pyplot as plt

你可能感兴趣的:(大数据分析)