numpy
- 用于基本的数据操作scipy.optimize
中导入 minimize
函数,用于训练模型matplotlib
用于数据可视化import numpy as np
from scipy.optimize import minimize
import matplotlib.pyplot as plt
首先需要设置的参数:
N
– 样本个数d
– 输入样本的维度num_hidden
--隐函层的个数N,d,num_hidden = 100,1,20
接着生成数据:
x
– 区间 [ − 10 , 10 ] [-10,10] [−10,10] 上取 N
个点,这里我们的 N=100
。另外将其设为列向量,即x.shape=(N,1)
y_true
– Mexican Hat 函数y
– Mexican Hat函数的样本点,这里我们使用了 [ − 0.05 , 0.05 ] [-0.05,0.05] [−0.05,0.05] 上的噪声数据生成完成后出图看一下样子:
x = np.linspace(-10,10,N).reshape(-1,1)
y_true = np.sin(x)/x
y = np.sin(x)/x + (np.random.rand(N,1)*0.1-0.05)
plt.plot(x,y,'-b')
plt.plot(x,y,'oy')
plt.show()
Logistic function
这里我们采用 Logistic function
作为激活函数,定义为:
y = 1 1 + e − x y = \frac{1}{1+\mathrm{e}^{-x}} y=1+e−x1
Forward
函数这里我们采用简单的三层神经网络,因此前馈函数的公式为:
Y ^ = ( w ℓ × 1 ( 2 ) ) T f ( ( w ℓ × d ( 1 ) ) T x d × N ( 2 ) + b ( 1 ) ) + b ( 2 ) \hat{Y}=\left(\boldsymbol{w}_{\ell \times 1}^{(2)}\right)^{T} f\left(\left(\boldsymbol{w}_{\ell \times d}^{(1)}\right)^{T} \boldsymbol{x}_{d \times N}^{(2)}+\boldsymbol{b}^{(1)}\right)+b^{(2)} Y^=(wℓ×1(2))Tf((wℓ×d(1))Txd×N(2)+b(1))+b(2)
这里需要特别说明一下,由于scipy.optimize
只能优化第一个 positional argument,因此不能将每层的参数分开传给loss。这里我们为了方便,就在把所有参数放在一个向量 θ \boldsymbol{\theta} θ 中,并且在forward
函数中拆取各层参数。
这里直接采用 MSE作为损失函数:
M S E = 1 N ∥ Y − Y ^ ∥ 2 MSE = \frac{1}{N} \|Y-\hat{Y}\|^2 MSE=N1∥Y−Y^∥2
mse_loss
这个函数有那么一点多余,不过在后面计算loss
时会比较方便。
def logi_func(x):
return 1/(1+np.exp(-x))
def forward(x,theta,d,num_hidden):
w1 = theta[:d*num_hidden].reshape(d,num_hidden)
w2 = theta[d*num_hidden:d*num_hidden+num_hidden].reshape(num_hidden,1)
b1 = theta[d*num_hidden+num_hidden:-1].reshape(num_hidden,1)
b2 = theta[-1]
return logi_func(x.dot(w1)+b1.T).dot(w2)+b2
def nn_loss(theta,x,y,d,num_hidden):
return ((forward(x,theta,d,num_hidden)-y)**2).mean()
def mse_loss(y,y_pred):
return ((y-y_pred)**2).mean()
写完之后简单测试一下,没有什么问题:
theta = np.random.rand(d*num_hidden+num_hidden + num_hidden+1)
forward(x, theta, d, num_hidden)
print(nn_loss(theta,x,y,d,num_hidden))
32.92328775623846
minimize
函数的使用非常简单,第一个参数为loss
的函数名,第二个参数为网络参数的初始值,第三个参数args
是loss
中第一个参数之外的所有参数组成的tuple
。
minize这个函数默认的优化方法为BFGS
,这个算法具有很好的收敛性,不过直接用于神经网络的训练时速度稍慢一点。
本次实验在 MacBook Pro (m1) 上进行,运行时间3.7s,可见比梯度下降要慢很多(通常应该比简单梯度精度要多,但在loss上体现并不见得明显)。
res = minimize(nn_loss, theta, args=(x, y, d, num_hidden))
返回值res
是优化结果的集合,其中参数的最优值在 res.x
中,因此将该参数传给forward
即可算出拟合值。
y_pred = forward(x,res.x,d,num_hidden)
MSE值为 0.00055
,可见训练效果还是不错的:
print(mse_loss(y,y_pred))
0.000552170732918358
这里直接使用matploblib
即可,用三种线型分别表示:函数真实值、样本值、模型拟合值。
可以看到拟合效果是很不错的。
plt.plot(x,y,'oy')
plt.plot(x, y_true, '-r')
plt.plot(x,y_pred,'-b')
plt.legend(['y_samples', 'y_true', 'y_pred'])
plt.show()
为了进一步验证模型的泛化性能,我们在 [ − 5 , 5 ] [-5,5] [−5,5] 随机采100个点,再看一下模型的预测效果。
可以看到在中间这一段的 MSE 仅有0.00033
,可见这种单层神经网络在函数拟合问题上的泛化性能还是很不错的(注意到这里我们只用了20个隐含层节点)。
x_test = np.sort(np.random.rand(100,1)*10-5,axis=0)
y_test_true = np.sin(x_test)/x_test
y_test_pred = forward(x_test, res.x, d, num_hidden)
plt.plot(x_test, y_test_true, 'oy')
plt.plot(x_test, y_test_pred, '-b')
plt.legend(['y_test_true', 'y_test_pred'])
plt.title('mse={0}'.format(mse_loss(y_test_true,y_test_pred)))
plt.show()
scipy.optimize.minimize
完全可以实现简单的神经网络miminize
函数,尤其是对loss
的传参forward
时对参数的重构方式有点麻烦,其实还可以更为简便,读者可自行思考完成