Python数据分析一条龙(菜鸟上手项目记录--回归分析阶段以及项目总回顾)

往期回顾
爬虫阶段
数据清洗阶段
数据处理阶段

4. 回归分析阶段

因为sklearn封装了大量的函数供我们调用,所以没有特别复杂的逻辑,talk is cheap, show me the code

代码实现

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn import metrics


def main():
    # 加载数据
    data = np.loadtxt('NormalizeData.csv', delimiter=',', dtype=str, encoding='utf-8-sig')
    # 取出所有样本
    X = data[1:, 1:7].astype(np.float)
    # 取出所有样本的标签值
    Y = data[1:, 7].astype(np.float).reshape(-1, 1)

    # 对样本值进行标准化
    scaler_X = StandardScaler().fit(X)
    X = scaler_X.transform(X)

    # 对样本值标签进行标准化
    scaler_Y = StandardScaler().fit(Y)
    Y = scaler_Y.transform(Y)
    # 实例化线性回归模型
    model = LinearRegression()
    RMSE_list = []
    coef = []
    intercept = []
    for i in range(10):
        X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=666)  # 划分数据集,其中测试集占30%

        model.fit(X_train, Y_train)  # 利用训练样本和训练标签进行模型训练

        predict = model.predict(X_test)  # 根据测试样本做出预测

        coef.append(model.coef_)  # 求模型的斜率
        intercept.append(model.intercept_)  # 求模型的截距

        RMSE = np.sqrt(metrics.mean_squared_error(Y_test, predict))  # 该值越小越好
        RMSE_list.append(RMSE)

    idex = RMSE_list.index(min(RMSE_list))
    RMSE_min = min(RMSE_list)
    print('最小的RMSE:', RMSE_min)
    coef1 = coef[idex]
    print('RMSE最小对应的模型斜率:', coef1)
    intercept1 = intercept[idex]
    print('RMSE最小对应的模型截距:', intercept1)


if __name__ == '__main__':
    main()

运行结果:
Python数据分析一条龙(菜鸟上手项目记录--回归分析阶段以及项目总回顾)_第1张图片

总结

通过本次蛇皮项目的练习,发现在爬虫和数据分析中需要掌握的重要知识点如下:

  • json数据格式
  • 正则表达式
  • numpy、pandas、request
  • 字符串相关操作

源码已上传

你可能感兴趣的:(Python爬虫)