import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
path = r"Salary_Data_Based_country_and_race.csv"#原始字符串
df = pd.read_csv(path)#原始数据源,csv分隔符用逗号分
df.dropna(axis=0, how='any', inplace=True) #数据有空的数据,无返回值(有问题的原因1有空数据,2学习率太大了)
pd_data=df.drop(["Unnamed: 0","Gender","Education Level","Job Title","Country","Race"],axis=1)#以前直接drop列名
pd_data
import numpy as np
orig_data=pd_data.values #得到数据的矩阵形式
cols = orig_data.shape[1]#列,也就是特征数
print(cols)
xx=orig_data[:,:cols-1]#打印特征列,x,y分开,行得要,取到标签之前,索引从0开始,取,0,1,
y=orig_data[:,cols-1:]#打印标签列
yy = y.reshape((-1,1))#多少行都行,变为列向量
print("xx",xx)
print("yy",yy)#标签和特征值拆分
#这里的y是个二维数组,千万注意
#拆分数据集直接调用就行了,不是核心技术
from sklearn.model_selection import train_test_split
xx_train, xx_test, yy_train, yy_test = train_test_split(xx, yy, test_size=0.40, random_state=42)
print("X_train=", xx_train)
print("X_test=", xx_test)
print("y_train=", yy_train)
print("y_test=", yy_test)
# 导入sklearn diabetes数据接口
#加载数据集
from sklearn.datasets import load_iris
# 导入sklearn打乱数据函数
from sklearn.utils import shuffle
# 获取diabetes数据集
iris = load_iris()
# 获取输入和标签
data, target = iris.data, iris.target#直接取
# 打乱数据集
X, y = shuffle(data, target, random_state=13)
# 按照8/2划分训练集和测试集
offset = int(X.shape[0] * 0.8)
# 训练集
X_train, y_train = X[:offset], y[:offset]
# 测试集
X_test, y_test = X[offset:], y[offset:]
# 将训练集改为列向量的形式
y_train = y_train.reshape((-1,1))#进行这个操作变成列向量,行向量就麻烦了
# 将验证集改为列向量的形式
y_test = y_test.reshape((-1,1))
# 打印训练集和测试集维度
print(y_train)
print("X_train's shape: ", X_train.shape)
print("X_test's shape: ", X_test.shape)
print("y_train's shape: ", y_train.shape)
print("y_test's shape: ", y_test.shape)
### 初始化模型参数
def initialize_params(dims):
'''
输入:
dims:训练数据变量维度
输出:
w:初始化权重参数值
b:初始化偏差参数值
'''
# 初始化权重参数为零矩阵
w = np.zeros((dims, 1))
# 初始化偏差参数为零
b = 1000
return w, b
### 定义模型主体部分
### 包括线性回归公式、均方损失和参数偏导三部分
def linear_loss(X, y, w, b):
'''
输入:
X:输入变量矩阵
y:输出标签向量
w:变量参数权重矩阵
b:偏差项
输出:
y_hat:线性模型预测输出
loss:均方损失值
dw:权重参数一阶偏导
db:偏差项一阶偏导
'''
# 训练样本数量
num_train = X.shape[0]
# 训练特征数量
num_feature = X.shape[1]
# 线性回归预测输出
y_hat = np.dot(X, w) + b
# 计算预测输出与实际标签之间的均方损失
loss = np.sum((y_hat-y)**2)/num_train
# 基于均方损失对权重参数的一阶偏导数
dw = np.dot(X.T, (y_hat-y)) /num_train
# 基于均方损失对偏差项的一阶偏导数
db = np.sum((y_hat-y)) /num_train
return y_hat, loss, dw, db
### 定义线性回归模型训练过程
def linear_train(X, y, learning_rate=0.01, epochs=10000):
'''
输入:
X:输入变量矩阵
y:输出标签向量
learning_rate:学习率
epochs:训练迭代次数
输出:
loss_his:每次迭代的均方损失
params:优化后的参数字典
grads:优化后的参数梯度字典
'''
# 记录训练损失的空列表
loss_his = []
# 初始化模型参数
w, b = initialize_params(X.shape[1])
# 迭代训练
for i in range(1, epochs):
# 计算当前迭代的预测值、损失和梯度
y_hat, loss, dw, db = linear_loss(X, y, w, b)
# 基于梯度下降的参数更新
w += -learning_rate * dw
b += -learning_rate * db
# 记录当前迭代的损失
loss_his.append(loss)
# 每1000次迭代打印当前损失信息
if i % 10000 == 0:
print('epoch %d loss %f' % (i, loss))
# 将当前迭代步优化后的参数保存到字典
params = {
'w': w,
'b': b
}
# 将当前迭代步的梯度保存到字典
grads = {
'dw': dw,
'db': db
}
return loss_his, params, grads
# 线性回归模型训练
loss_his, params, grads = linear_train(xx_train, yy_train, 0.0001, 200000)
# 打印训练后得到模型参数
print(params)
### 定义线性回归预测函数
def predict(X, params):
'''
输入:
X:测试数据集
params:模型训练参数
输出:
y_pred:模型预测结果
'''
# 获取模型参数
w = params['w']
b = params['b']
# 预测
y_pred = np.dot(X, w) + b
return y_pred
# 基于测试集的预测
y_pred = predict(xx_test, params)
# 打印前五个预测值
y_pred[:5]