百面机器学习 -- No.2 特征工程 -- 训练数据不足的情况下会带来什么问题,如何缓解?

训练数据不足的情况下会带来什么问题,如何缓解?

  • 数据不足会带来什么问题
  • 如何解决 ?

数据不足会带来什么问题

机器学习任务的问题,可以简单的理解成寻找最佳的拟合函数和最佳的泛化函数,拟合函数是用来学习历史信息的,泛化函数是用来外推其他数据的(即,预测未来)。但是这两者并不是可以兼得的,我们前期通过先验知识来学习函数,后期通过后验知识来预测标签。

在机器学习中, 绝大部分模型都需要大量的数据进行训练和学习(包括有监督学习和无监督学习) , 然而在实际应用中经常会遇到训练数据不足的问题。

当训练数据不足时候,就是巧妇难为无米之炊,说明模型从原始数据中获取的信息比较少, 这种情况下要想保证模型的效果, 就需要更多先验信息。

**训练数据不足带来的问题主要表现在过拟合方面,即模型在训练样本上的效果可能不错, 但在测试集上的泛化效果不佳。**因此说明拟合函数并没有很好的泛化能力,也就是没有充分的学习数据。

如何解决 ?

解决的办法主要是分为两个方面:

  1. 模型上: 主要是采用降低过拟合风险的措施, 包括:
  • 简化模型(如将非线性模型简化为线性模型) 、
  • 添加约束项以缩小假设空间(如L1/L2正则项)、
  • 集成学习、
  • Dropout超参数等
    注意:针对NN模型而言,使用BN层并不能解决过拟合问题,可以缓解和降低过拟合,因为**BN层的作用是来对数据进行标准化操作,这种标准化是为了解决梯度爆炸和梯度消失的问题,**是将批次的数据强行的拉到同一分布,(书上写的是: 该操作可以是模型学习到各层输入的最佳缩放和均值,同时也可以重新缩放和偏移每个特征 )。
  1. 数据上:通过数据扩充(Data Augmentation) , 即根据一些先验知识, 在保持特定信息的前提下, 对原始数据进行适当变换以达到扩充数据集的效果。举例:
  • 过采样
  • 增加噪声 ,如高斯白噪声等。
  • 图像的话,还可以进行几何变换(平移,缩放,裁剪等),颜色变换,色调和清晰度变换等
  • 使用预训练模型 + fine-tune(微调)
  • 使用生成模型,直接生成样本

你可能感兴趣的:(百面机器学习/深度学习笔记,机器学习,人工智能,计算机视觉)