0303简单线性回归-基于波士顿房产数据集

1、回归算法的评价指标有MSE,RMSE,MAE、R-Squared,下面一一介绍。

  • MSE均方误差:
    **加粗样式**
  • MAE平均绝对误差:
    在这里插入图片描述
  • RMSE均方根误差:
    在这里插入图片描述
  • 可决系数(拟合优度)
    在这里插入图片描述
    2、用以上4个指标测评回归算法——基于波士顿房产数据集

(1) 波士顿房产数据集
波士顿房产数据集:使用sklearn.datasets.load_boston即可加载相关数据。该数据集共有 506 个观察,13 个输入变量和1个输出变量。基于该数据对波士顿房产数据集做最简单的线性回归,这里只考虑房间数量一个特征。
每条数据包含房屋以及房屋周围的详细信息。其中包含城镇犯罪率,一氧化氮浓度,住宅平均房间数,到中心区域的加权距离以及自住房平均房价等等。
0303简单线性回归-基于波士顿房产数据集_第1张图片
(2)代码实现

#导入用到的库
import sklearn.datasets as datasets
from sklearn.linear_model import LinearRegression  #线性回归模型
from sklearn.model_selection import train_test_split #切分训练集和测试集
import pandas as pd
import numpy as np

Boston = datasets.load_boston()  #载入数据集
print(Boston.DESCR) #得到关于房价的描述信息
x = Boston.data[:,5]  #得到RM列的数据
x = x.reshape(-1,1) #变为1列
y = Boston.target
y = y.reshape(-1,1) #变为1列

#分割数据集为训练集与测试集
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.25,random_state = 0)
#创建线性回归模型
regr = LinearRegression()
#用训练集训练模型
regr.fit(x_train,y_train)
#用训练得出的模型进行预测
y_pred = regr.predict(x_test)

#根据公式计算所得结果
mse_test = np.sum((y_pred-y_test)**2)/len(y_test)
mae_test = np.sum(np.absolute(y_pred-y_test))/len(y_test)
rmse_test = mse_test ** 0.5
r2_score = 1- (mse_test/ np.var(y_test))
print('根据公式所得结果如下:')
print('均方误差:{},平均绝对误差:{},\n均方根误差:{},可决系数:{}'.format(mse_test,mae_test,rmse_test,r2_score))
print()
from sklearn.metrics import mean_squared_error #均方误差
from sklearn.metrics import mean_absolute_error #平方绝对误差
from sklearn.metrics import r2_score #R square
#调用函数获得结果
mse_test1 = mean_squared_error(y_test,y_pred)
mae_test1 = mean_absolute_error(y_test,y_pred)
rmse_test1 = mse_test1 ** 0.5
r2_score1 = r2_score(y_test,y_pred)
print('直接调用函数所得结果如下:')
print('均方误差:{},平均绝对误差:{},\n均方根误差:{},可决系数:{}'.format(mse_test1,mae_test1,rmse_test1,r2_score1))

输出结果:

根据公式所得结果如下:
均方误差:43.4720416772022,平均绝对误差:4.212526305455822,
均方根误差:6.593333123481795,可决系数:0.4679000543136781

直接调用函数所得结果如下:
均方误差:43.4720416772022,平均绝对误差:4.212526305455822,
均方根误差:6.593333123481795,可决系数:0.4679000543136781

由输出结果可知,可决系数才46.8%,模型的拟合程度不好。

你可能感兴趣的:(0303简单线性回归-基于波士顿房产数据集)