回归问题波士顿房价预测

回归问题波士顿房价预测_第1张图片

线性回归API

sklearn.linear_model.LinearRegression(fit_intercept=True)

  • 正规方程优化
  • 参数:fit_intercept,是否计算偏置
  • 属性:LinearRegression.coef_ (回归系数) LinearRegression.intercept_(偏置)

 sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True, learning_rate ='constant', eta0=0.01)

  • SGDRegressor类实现了随机梯度下降学习,它支持不同的 损失函数和正则化惩罚项 来拟合线性回归模型。
  •  参数:loss(损失函数类型),fit_intercept(是否计算偏置)learning_rate (学习率)
  • 属性:SGDRegressor.coef_ (回归系数)SGDRegressor.intercept_ (偏置)

案例背景介绍 

波士顿房价预测数据集来源于1978年美国某经济学杂志,共包含506个数据点,涵盖了麻省波士顿不同郊区房屋13种特征的信息。这些特征包括: 

  1. CRIM:每个城镇人均犯罪率。
  2. ZN:占地面积超过25,000平方英尺的住宅用地比例。
  3. INDUS:非零售商用地百分比。
  4. CHAS:是否靠近查尔斯河(虚拟变量,1表示靠近,0表示不靠近)。
  5. NOX:氮氧化物浓度(百万分之一)。
  6. RM:住宅平均房间数目。
  7. AGE:1940年前建成自用单位比例。
  8. DIS:到5个波士顿就业服务中心的加权距离。
  9. RAD:无障碍径向高速公路指数。
  10. TAX:每万元物业税率。
  11. PTRATIO:小学师生比例。
  12. B:黑人比例指数。
  13. LSTAT:下层经济阶层比例。

需要注意的是从 scikit-learn 1.2 版本开始,波士顿房价数据集(Boston housing prices dataset)已被移除 ,可以使用较低版本的scikit-learn库。

 回归性能评估,均方误差(Mean Squared Error, MSE):

MSE = (1/n) * Σ(y_i - ŷ_i)^2

其中,n 表示样本数量,y_i 表示第 i 个样本的真实值,ŷ_i 表示第 i 个样本的预测值,Σ 表示求和。MSE 的值越小,表示模型的预测效果越好。MSE 的单位与预测值和真实值的单位相同,因此可以直接比较不同模型之间的性能。

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import SGDRegressor
from sklearn.linear_model import LinearRegression
def linear_model():
    """
    线性回归:梯度下降法
  
    """
    
    data = load_boston()

    
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    
    estimator = SGDRegressor(max_iter=1000)
    estimator.fit(x_train, y_train)

    
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)

    return None

 模型的保存和加载

 sklearn模型的保存和加载API import joblib

  • 保存:joblib.dump(estimator, 'test.pkl')
  • 加载:estimator = joblib.load('test.pkl')
joblib.dump(estimator, 'test.pkl')
estimator = joblib.load('test.pkl')
y_predict = estimator.predict(x_test)
print("预测值为:\n", y_predict)
print("模型中的系数为:\n", estimator.coef_)
print("模型中的偏置为:\n", estimator.intercept_)

总结:

  1. 导入所需的库和数据集:我们导入了 scikit-learn 的线性回归模型、SGD 优化器、数据集和其他辅助库。

  2. 加载波士顿房价数据集:我们使用 scikit-learn 的 load_boston 函数加载了波士顿房价数据集。

  3. 数据预处理:我们对数据集进行了预处理,包括将数据集分为训练集和测试集,以及对特征进行标准化。

  4. 创建线性回归模型:我们使用 scikit-learn 的 SGDRegressor 类创建了一个线性回归模型,并设置了优化器为随机梯度下降(SGD)。

  5. 训练模型:我们使用训练集对模型进行训练。

  6. 评估模型:我们使用测试集评估模型的性能,计算了均方误差(MSE)和均方根误差(RMSE)。

  7. 预测:我们使用训练好的模型对测试集进行预测,并与真实值进行比较。

 sklearn.linear_model.LinearRegression()和sklearn.linear_model.SGDRegressor()

都是线性回归模型,但它们的训练方法和性能有所不同。

  • sklearn.linear_model.LinearRegression():使用最小二乘法(Ordinary Least Squares, OLS)进行线性回归。在训练过程中,它通过最小化损失函数(均方误差)来找到最佳的权重和截距。

  • sklearn.linear_model.SGDRegressor():使用随机梯度下降(Stochastic Gradient Descent, SGD)进行线性回归。在训练过程中,它通过逐步更新权重和截距来最小化损失函数。

 性能:

  • sklearn.linear_model.LinearRegression():在大型数据集上,它可能需要较长时间进行训练,因为它需要计算整个数据集的梯度。

  • sklearn.linear_model.SGDRegressor():在大型数据集上,它的训练速度通常比 LinearRegression 快,因为它每次只使用一个样本来更新权重。这使得它在处理大型数据集时更加高效。

LinearRegression 和 SGDRegressor 都是线性回归模型,但它们的训练方法和性能有所不同。在选择合适的模型时,需要根据数据集的大小、特征数量以及训练时间等因素进行权衡。 

你可能感兴趣的:(回归,数据挖掘,人工智能)