机器学习算法--python实现普通最小二乘线性回归模型

用普通最小二乘法(OLS)(有时也称为线性最小二乘法)估计线性回归线的参数,从而使样本点的垂直距离(残差或误差)之和最小化。

from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('xxx\\housing.data.txt',
                 header=None,
                 sep='\s+')

df.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS',
              'NOX', 'RM', 'AGE', 'DIS', 'RAD',
              'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
print(df.head())

class LinearRegressionGD(object):

    def __init__(self, eta=0.001, n_iter=20):
        self.eta = eta
        self.n_iter = n_iter

    def fit(self, X, y):
        self.w_ = np.zeros(1 + X.shape[1])
        self.cost_ = []

        for i in range(self.n_iter):
            output = self.net_input(X)
            errors = (y - output)
            self.w_[1:] += self.eta * X.T.dot(errors)
            self.w_[0] += self.eta * errors.sum()
            cost = (errors**2).sum() / 2.0
            self.cost_.append(cost)
        return self

    def net_input(self, X):
        return np.dot(X, self.w_[1:]) + self.w_[0]

    def predict(self, X):
        return self.net_input(X)

X = df[['RM']].values
y = df['MEDV'].values

sc_x = StandardScaler()
sc_y = StandardScaler()
X_std = sc_x.fit_transform(X)
# scikit-learn 的大多数转换器期望数据存储在二维阵列
y_std = sc_y.fit_transform(y[:, np.newaxis]).flatten()

lr = LinearRegressionGD()
lr.fit(X_std, y_std)

# 当使用像梯度下降的优化算法时,以训练集迭代次数作为成本函数绘制成本图,
# 来检查算法是否收敛到了最低成本
#(这里指全局性 最小成本值)确实是个不错的主意
plt.plot(range(1, lr.n_iter+1), lr.cost_)
plt.ylabel('SSE')
plt.xlabel('Epoch')
#plt.tight_layout()
#plt.savefig('images/10_05.png', dpi=300)
plt.show()

# 观察线性回归与训练数据的吻合程度
def lin_regplot(X, y, model):
    # s:指定散点图点的大小,默认为20,通过传入新的变量,实现气泡图的绘制
    # c:指定散点图点的颜色,默认为蓝色
    # edgecolors:设置散点边界线的颜色
    plt.scatter(X, y, c='steelblue', edgecolor='white', s=70)
    plt.plot(X, model.predict(X), color='black', lw=2)
    return

lin_regplot(X_std, y_std, lr)
plt.xlabel('Average number of rooms [RM] (standardized)')
plt.ylabel('Price in $1000s [MEDV] (standardized)')

#plt.savefig('images/10_06.png', dpi=300)
plt.show()

# 调用StandardScaler的inverse_transform方法,
# 把价格的预测结果恢复到以1000美元为单位的坐标轴
num_rooms_std = sc_x.transform(np.array([[5.0]]))
# 有五个房间房屋的价格
price_std = lr.predict(num_rooms_std)
print("Price in $1000s: %.3f" % sc_y.inverse_transform(price_std))

# 值得一提的是如果处理标准化变量,从技术角度来说,不需要更新截距的权重,
# 因为在这些情况下,y轴的截距总是0。可以通过打印权 重来快速确认这一点
print('Slope: %.3f' % lr.w_[1])
print('Intercept: %.3f' % lr.w_[0])

运行结果:
CRIM ZN INDUS CHAS NOX … TAX PTRATIO B LSTAT MEDV
0 0.00632 18.0 2.31 0 0.538 … 296.0 15.3 396.90 4.98 24.0
1 0.02731 0.0 7.07 0 0.469 … 242.0 17.8 396.90 9.14 21.6
2 0.02729 0.0 7.07 0 0.469 … 242.0 17.8 392.83 4.03 34.7
3 0.03237 0.0 2.18 0 0.458 … 222.0 18.7 394.63 2.94 33.4
4 0.06905 0.0 2.18 0 0.458 … 222.0 18.7 396.90 5.33 36.2

[5 rows x 14 columns]
Price in $1000s: 10.840
Slope: 0.695
Intercept: -0.000

运行结果图:
机器学习算法--python实现普通最小二乘线性回归模型_第1张图片
机器学习算法--python实现普通最小二乘线性回归模型_第2张图片

你可能感兴趣的:(机器学习算法,算法,python,机器学习)