数据科学家是人工智能、算法模型、大数据挖掘的专家,也是目前人工智能领域受人羡慕、集万般宠爱于一身的职业,听起来怎么样?高端、大气、上档次。作为高大上的数据科学家当然要附庸风雅一些(数据科学家:你在讽刺我吗?),他们在机器学习、模型训练的枯燥工作闲暇之余,也要听听优美、高雅的音乐放松下心情。在公认的高雅音乐中,有一种四重奏乐曲,它由4种乐器协奏,乐器之间有一定类似的特质和旋律,在四位演奏家的高超技艺、默契良好地协调合作下,演奏出来的乐曲优美动听、音色纯粹美丽,是广大音乐爱好者和艺术家们最喜爱的一种乐曲形式。
在人工智能领域的深度学习过程中,尤其在数据科学家训练神经网络时,经常会对神经网络模型进行调参优化,以获得最佳的模型效果。其中有四类最基本的调参方法,它们分别是:调整隐藏层节点数、增加隐藏层数量、调整激活函数、调整模型复杂度控制。数据科学家经常把这四类调参方法正确有序地组合起来使用,使它们相互作用、交叉融合,让神经网络模型产生了奇妙的效果,此时数据科学家变身成为模型训练的“艺术演奏家”,谱写并奏响了神经网络训练中的调参“四重奏”。
首先,我们来准备数据集和建立训练模型,搭建“四重奏”的“舞台”。本文通过python语言调用scikit-learn库中的红酒数据集,并使用MLP神经网络来进行分类模拟训练。scikit-learn库中的红酒数据集共有178个数据样本,它们被归入三个类别中,分别是class_0,class_1,和class_2,其中class_0中包含59个样本,class_1中包含71个样本,class_2中包含48个样本。我们开始准备数据集,搭建“四重奏舞台”。
输入代码如下:
#导入MLP神经网络
fromsklearn.neural_network import MLPClassifier
#从sklearn的datasets模块载入红酒数据集
fromsklearn.datasets import load_wine
wine_data= load_wine()
#导入数据集拆分工具
fromsklearn.model_selection import train_test_split
X=wine_data['data']
y=wine_data['target']
#将数据集拆分为训练数据集和验证数据集
X_train,X_test, y_train, y_test = train_test_split(X,y,random_state=42)
#定义MLP分类器
mlp= MLPClassifier(solver='lbfgs')
mlp.fit(X_train,y_train)
运行结果如下:
MLPClassifier(activation='relu',alpha=0.0001,batch_size='auto', beta_1=0.9,beta_2=0.999, early_stopping=False,epsilon=1e-08,
hidden_layer_sizes=(100,),learning_rate='constant',
learning_rate_init=0.001,max_iter=200, momentum=0.9,
n_iter_no_change=10,nesterovs_momentum=True, power_t=0.5,
random_state=None,shuffle=True, solver='lbfgs', tol=0.0001,
validation_fraction=0.1,verbose=False, warm_start=False)
其次,我们再通俗理解下神经网络的这四类基础调参的内容,对于四重奏的重要角色——乐器我们可以比喻为这几个基础参数:
下面使用上面搭建好的舞台(数据集和模型),看看调参四重奏的表演效果。
1、缺省参数下的模型测试
print('缺省参数下MLP模型的测试数据集得分:{:.2f}'.format(mlp.score(X_test,y_test)))
输出结果为:
缺省参数下MLP模型的测试数据集得分:0.96
这个数据集和训练出来的MLP模型,表现还不错。
2、小提琴独奏——隐藏层节点数为200的MLP模型
我们尝试一下修改隐藏层参数hidden_layer_sizes的节点数,看看它自己的独奏效果(当然其他参数并不是不起作用,而是在幕后充当了背景音乐):
#修改隐藏层参数hidden_layer_sizes的节点数为200
mlp_200=MLPClassifier(solver='lbfgs',hidden_layer_sizes=[200])
mlp_200.fit(X_train,y_train)
print('节点数为200的MLP模型测试数据集得分:{:.2f}'.format(mlp_200.score(X_test,y_test)))
输出结果为:
节点数为200的MLP模型测试数据集得分:0.71
好像效果一般,我们再接着调整其他参数,开始二重奏。
3、小提琴与中提琴协奏——隐藏层节点数为200、层数为2的MLP模型
#修改隐藏层参数hidden_layer_sizes的层数为2、节点数为200
mlp_2L=MLPClassifier(solver='lbfgs',hidden_layer_sizes=[200,200])
mlp_2L.fit(X_train,y_train)
print('隐藏层数为2、节点数为200的MLP模型测试数据集得分:{:.2f}'.format(mlp_2L.score(X_test,y_test)))
输出结果为:
隐藏层数为2、节点数为200的MLP模型测试数据集得分:0.93
模型效果得到明显的改善,继续增加参数看看三重奏的效果。
4、小提琴、中提琴、钢琴三重奏——隐藏层节点数为200、层数为2、激活函数值为tanh的MLP模型
#增加修改激活函数的值为tanh
mlp_tanh=MLPClassifier(solver='lbfgs',hidden_layer_sizes=[200,200],
activation='tanh')
mlp_tanh.fit(X_train,y_train)
print('隐藏层数为2、节点数为200、激活函数为tanh的MLP模型测试数据集得分:{:.2f}'.format(mlp_tanh.score(X_test,y_test)))
输出结果为:
隐藏层数为2、节点数为200、激活函数为tanh的MLP模型测试数据集得分:0.84
好像有点不和谐了,模型效果反而降低了,也许是这个数据集不能这样来调参吧,继续增加参数,尝试一下四重奏的效果。
5、四重奏——隐藏层节点数为200、层数为2、激活函数值为tanh、模型复杂度控制alpha=1的MLP模型
mlp_4cz=MLPClassifier(solver='lbfgs',hidden_layer_sizes=[200,200],
activation='tanh',alpha=1)
mlp_4cz.fit(X_train,y_train)
print('隐藏层数为2、节点数为200、激活函数为tanh、模型复杂度控制为1的MLP模型测试数据集得分:{:.2f}'.format(mlp_4cz.score(X_test,y_test)))
输出结果为:
隐藏层数为2、节点数为200、激活函数为tanh、模型复杂度控制为1的MLP模型测试数据集得分:0.82
好像效果也没有提高,四重奏没有发挥更大的效果。难道折腾了好一会的四重奏演奏会就这样结束了,好像有点不甘心。
6、正确认识调参
其实,在神经网络训练过程中(其他模型训练也一样),参数调整是通过不断尝试和磨合的,现实情况中,不能是只要觉得调整了参数就会一定有好的效果,就像作曲家谱写的四重奏乐章,如果一定要把不合适的乐器、旋律、节奏搭配在一起,那么再优秀的演奏家,做多大的努力进行协同演奏,也奏不出优美动听的音乐来。
注:本文为了帮助读者朋友方便理解四个基本调参方法做的粗浅比喻,并不是指其他参数就不起作用了,其他参数都做了背景音乐,在幕后当着幕后英雄呢。而且在调参过程中,也可以多增加几个参数一起调节,可以奏响调参的五重奏、六重奏,甚至是交响乐团演奏。
根据上述对MLP神经网络简单的训练过程,我们可以小结如下:
本文对神经网络模型中的四种参数调节方法是常用的优化手段,这四种调参需要不断试验组合,达到模型最佳。其中隐藏层的数量和隐藏层中节点的数量使用最多,但是神经网络的隐藏节点个数选取问题至今仍是一个 世界难题,根据经验,建议神经网络中隐藏层的节点数与训练数据集的特征数量大致相等,但是一般不要超过500。
神经网络训练中的调参还有很多方式,比如loss函数的选择、Regularization、dropout、调节mini-batchsize等等。限于篇幅,这里不再赘述,有兴趣的读者可以在网络上查找资料进行操作演练。
本项目使用的MLP神经网络是一种多层感知器,在实际项目中应用不是太多,读者朋友可以再使用卷积神经网络、递归神经网络等算法模型尝试一下调参效果。
喜欢我们的文章吗?还想了解互联网哪些技术,欢迎留言告诉我们
【AI课工场】互联网知识也能如此好玩~
更多热门互联网技术文章抢先知微信公众号【kgc-cn】