Hello 大家好,我是一名新来的金融领域打工人,日常分享一些python知识,都是自己在学习生活中遇到的一些问题,分享给大家,希望对大家有一定的帮助!
今天要给大家介绍一种多元线性回归的机器学习算法,适用于多种特征用于预测标签的情况,话不多说直接上案例。
1.读取数据
今天要使用到的这份数据有四个特征一个标签,我们希望通过机器学习多元线性回归来进行特征的预测。
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression #线性回归模型
import matplotlib.pyplot as plt
读取数据:
简单地进行一些数据探索:
2.分割特征与标签
X = df.iloc[:,:-1] #feature
X.head()
y = df[['PE']] #target
y.head()
3. 拆分训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X, y, random_state=1)
X_train #训练集
4.线性回归模型建模
line = LinearRegression()
line.fit(X_train,y_train)
5.模型评价
我们来查看预测值:
查看误差,代码以及结果如下:
from sklearn import metrics
print("MSE: ", metrics.mean_squared_error(y_test,y_pred))
print("RMSE: ", np.sqrt(metrics.mean_squared_error(y_test,y_pred)))
print('R^2: ', metrics.r2_score(y_test,y_pred))
MSE: 20.83719154722035
RMSE: 4.564777272465805
R^2: 0.9297935741511321
6.整理结果
data = pd.concat([pd.DataFrame(y),pd.DataFrame(y_predicted)],axis=1)
data.columns = ['Measured','Predicted']
data
import plotly_express as px
fig = px.scatter(data,x='Measured',y='Predicted',trendline='ols',trendline_color_override='red')
fig.show()
这张图横坐标是真实值,纵坐标是预测值:我们还可以进一步查看图片的内容:
这张图中甚至写出来拟合线的方程,以及R^2的大小:
总的来说,通过多元线性回归模型得到的预测值和实际值可以很好的拟合上!
好啦今天就分享到这里!