Module的必要性:训练一个神经网络包括以下几个步骤:
将数据送进网络,初始化模型参数,网络前向和反向传播,根据计算的梯度更新权重,设置模型的check points,需要经常重复这些步骤,MXNET框架将将常用的操作模块化成了module package。Module提供了高级和中级的接口来完成这些predefined网络。
- creating a Module
常用的module类是Module,我们通过规定以下参数来创建一个module
- symbol:网路定义
- context:执行网络的设备
- data_names: 输入数据变量名称的列表
- label_names:输入数据标签名称的列表
mod = mx.mod.Module(symbol=net,context=mx.gpu,data_names=['data'],
label_names=['softmax_label'])
- 中级接口
我们已经创建了一个module,现在使用module的中级API来training网络。这些APIs使开发者们能够很灵活的使用前向和反向传播。
为了训练一个module,我们需要执行以下步骤:
- bind:通过分配内存准备计算环境
- init_params:初始化参数
- init_optimizer:初始化优化器,默认是sgd
- metric.create:创建评估标准
- forward: 前向计算
- update_metric:evaluates and accumulates evaluation metric on outputs of the last forward computation
- backward:反向计算
- update:根据反向传播的计算参数更新权重
#allocate memory given the input data and label shapes
mod.bind(data_shapes=train_iter.provide_data, label_shapes=train_iter.provide_label)
mod.init_params(initializer=mx.init.Uniform(scale=.1))
mod.init_optimizer(optimizer='sgd',optimizer_param=(('learning_rate',0.1),))
metric = mx.metric.create('acc')
#train 5 epochs
for epoch in range(5):
train_iter.reset()
metric.reset()
for batch in train_iter:
mod.forward(batch,is_train=True)
mod.update_metric(metric,batch.label)
mod.backward()
mod.update()
print('Epoch %d', Training %s' % (epoch, metric.get()))
- 高级接口
mxnet有高级API,直接调用fit API就可以执行以上步骤:
train_iter.reset()
#create a module
mod = mx.mod.Module(symbol=net,context=mx.gpu(0),data_names=['data'],label_names=['softmax_label'])
#fit the module
mod.fit(train_iter,eval_data=val_data,optimizer='sgd',optimizer_params={'learning_rate':0.1},eval_metric='acc',num_epoch=5)
- 预测和评估(predict and evaluate)
预估module,调用predict()函数:
y = mod.predict(val_iter)
assert y.shape == (4000,26)
如果不需要预测output,只需要评估一个test set,可以调用score()函数。在输入的验证集上进行预测,然后根据给定的input metric评估性能
score = mod.score(val_iter,['acc']
print("Accuracy score is %f" % (score[0][1]))
其他一些使用标准比如:top_k_acc(top-k-accuracy),F1, RMSE, MSE,MAE, ce(CrossEntropy)
- 保存和加载(save and load)
可以使用checkpoint callback来保存每个训练epoch的模型参数
#construct a callback function to save checkpoints
module_prefix = 'mx_mlp'
checkpoint = mx.callback.do_checkpoint(module_prefix)
mod = mx.mod.Module(symbol=net)
mod.fit(train_net,num_epoch=5,epoch_end_callback=checkpoint)
要加载已保存的模型,调用load_checkpoint函数。然后将加载的参数设置进网络
sym, arg_params, aux_params=mx.model.load_checkpoint(model_prefix,3)
assert sym.tojson()==net.tojson()
#assign the loaded parameters to the module
mod.set_param(arg_params,aux_params)
如果我们只想从一个已经保存的checkpoint开始训练,而不是从头开始训练,就不需要调用set_params(),可以直接调用fit(),fit()可以从指定的epoch初始化(通过设置begin_epoch),而不是随机初始化。
mod = mx.mod.Module(symbol=sym)
mod.fit(train_iter,num_epoch=8,arg_params=arg_params,aux_params=aux_params,begin_epoch=3)