深度学习中的超参数,以及对模型训练的影响

 超参设置对训练的影响:

(1)学习率(learning rate)

学习率(learning rate)是指在优化算法中更新网络权重的幅度大小。学习率可以是恒定的、逐渐降低的,基于动量的或者是自适应的,不同的优化算法决定不同的学习率。为了能够使得梯度下降法有较好的性能,我们需要把学习率的值设定在合适的范围内。学习率过小,会极大降低收敛速度,增加训练时间;学习率过大,可能导致参数在最优解两侧来回振荡,所以学习率对于算法性能的表现至关重要。

(2)学习率调整策略

一般情况下,初始参数所得目标值与要求的最小值距离比较远,随着迭代次数增加,会越来越靠近最小值。学习率调整策略的基本思想是学习率随着训练的进行逐渐衰减,即在开始的时候使用较大的学习率,加快靠近最小值的速度,随着迭代次数的增加使用较小的学习率,提高稳定性,避免因学习率太大跳过最小值,保证能够收敛到最小值。

(3)迭代次数

迭代次数是指整个训练集输入到神经网络进行训练的次数,当测试错误率和训练错误率相差较小时,可认为当前迭代次数合适;当测试错误率先变小后变大时则说明迭代次数过大,需要减小迭代次数,否则容易出现过拟合。

(4)批次大小(batch size)

批次大小是每一次训练神经网络时送入模型的样本数。在神经网络优化过程中,batch size过小代表着每次输入网络的数据样本过少,统计量不具有代表性,噪声也相应的增加,导致网络难以收敛;batch size过大,会使得梯度方向基本稳定,容易陷入局部最优解,降低精度。

(5)数据增强方法

数据增强也叫数据扩增,指在不实质性地增加数据的情况下,采用预设的数据变换规则,在已有数据的基础上进行数据的扩增,让有限的数据产生等价于更多数据的价值。常见的用于医学影像数据增强的算法有旋转、平移、剪裁、缩放和灰度变换等。适当的数据增强操作可为模型增加更多训练数据,提升模型泛化性能,避免模型过拟合;不当的数据增强会破坏原有数据的一致性,导致网络无法收敛,或收敛到一个非最佳值。

(6)anchor设置

Anchor字面意思是锚,在计算机视觉中是锚点或锚框的意思,目标检测中常出现的Anchor box是指锚框,表示固定的参考框。Anchor技术首先预设一组不同尺度不同位置的固定参考框,覆盖几乎所有位置和尺度,每个anchor负责检测与其交并比(IOU)大于阈值 (训练预设值,常用0.5或0.7) 的目标,anchor技术将目标检测任务转换为"这个固定参考框中有没有认识的目标,目标框偏离参考框多远"。Anchor box尺寸、形状、密度、数量等参数的设置至关重要,针对具体的检测目标,要采用合适的尺寸、形状、密度、数量的anchor,一般由于目标的尺寸形状多变,经常会采用多种尺寸和形状的anchor,尺寸或形状设置不当的anchor会导致无法将目标包含在内或包含过多背景区域,密度或数量设置不当会导致无法准确定位目标位置或浪费计算资源。

 

常见的一些深度学习问题:

(1)欠拟合和过拟合

神经网络模型在训练时常出现欠拟合和过拟合的情况。欠拟合是一种不能很好地拟合数据的现象,通常由网络层数不够多、不够深造成,会导致网络训练的准确度不高,不能很好地非线性拟合数据进行分类。过拟合是一种过度拟合训练样本的现象,通常由网络层数过深或训练样本数过少导致模型训练时陷入极小值点造成,会导致网络缺失泛化能力,无法对训练样本之外的样本进行准确分类。

(2)梯度消失和梯度爆炸

层数较多的神经网络模型在训练时有时会出现梯度消失和梯度爆炸问题,梯度消失和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。梯度消失和梯度爆炸问题本质上是由梯度反向传播过程中的连乘效应导致网络权值更新不稳定造成的,梯度消失和梯度爆炸都会导致网络模型训练的失败。

 

你可能感兴趣的:(我的文章,医学人工智能)