机器学习(深度学习)模型训练常用技巧

文章目录

    • 一、特征归一化(对于数值类型)
    • 二、高维特征组合
    • 三、图像数据不足时
      • (1)选择技巧根本原理:模型所能提供的信息主要源于两个方面:
      • (2)根本原因:当数据不足时,说明模型 从原始数据中获得的信息比较少,就需要增加更多的先验信息;
    • 四、解决过拟合的办法(遇到数据不足等问题)
      • (1)在模型上进行改造
      • (2)在数据集上,对原始数据进行适当的变换,直接或者间接的在空间上进行数据增强!!
    • 五、选择合适模型评估方法

一、特征归一化(对于数值类型)

  • 线性函数归一化
  • 零均值归一化;

二、高维特征组合

三、图像数据不足时

(1)选择技巧根本原理:模型所能提供的信息主要源于两个方面:

  • 训练数据中蕴含的先验信息;
  • 模型训练过程中(构造、学习、推理)以及人们提供的先验信息;

(2)根本原因:当数据不足时,说明模型 从原始数据中获得的信息比较少,就需要增加更多的先验信息;

  • 可以增加到模型上;
  • 可以增加到数据集上;

四、解决过拟合的办法(遇到数据不足等问题)

(1)在模型上进行改造

  • 简化模型;
  • 添加正则项(L1、L2)增加模型参数稀疏性;
  • 集成学习(Boosting:串行、Bagging:并行最后投票);
  • Dropout(以一定的概率随机的“临时丢弃”一部分神经元节点);
  • 批量归一化(BN):在网络的每一层输入之前增加归一化处理;

(2)在数据集上,对原始数据进行适当的变换,直接或者间接的在空间上进行数据增强!!

  • 旋转、平移、缩放、翻转、填充等;
  • 添加噪声扰动(椒盐噪声、高斯白噪声);
  • 颜色变换;
  • 改变图像的亮度、清晰度、饱和度、对比度、锐度;
  • 先特征提取后空间变换;
  • 生成对抗网络;
  • 迁移学习

五、选择合适模型评估方法

  • Holdout检验:将原始样本随机划分为训练集、验证集;
  • 交叉检验;
  • 自助法(容量为n,n次有放回抽样,得到容量为n的 训练集,没抽到的做验证集);

你可能感兴趣的:(机器学习,深度学习,神经网络模型训练技巧)