2022.02.16【读书笔记】|基于深度学习的生命科学 第2章 深度学习概论(下)

  • 训练模型
    • 训练集:用来训练模型的一组数据
    • 损失函数
      • y是实际输出,Y是训练集中给定的目标值,L(y_i,Y_i)L(yi,Yi)L(y_i,Y_i)L(yi​,Yi​)越小,说明模型对训练集的识别准确度越高(可能发生过拟合问题)
      • 为每个问题选择一个适当的损失函数,一般选择是使用欧式距离。
        • 如果y表示概率分布时,损失函数长选择交叉熵函数
    • 改进模型,寻找使平均损失最小化的参数值
      • 梯度下降算法
        • \theta ← \theta-\epsilon\frac{\delta}{\delta \theta}θ←θ−ϵδδθ\theta ← \theta-\epsilon\frac{\delta}{\delta \theta}θ←θ−ϵδθδ​
        • L为平均损失,\epsilonϵ\epsilonϵ为学习率,决定每个步骤的参数变化程度,需要谨慎选择:太小会导致学习速度非常慢,太大则会阻碍算法的学习。
        • 局限性:梯度下降的每一步都要便利训练集中的每一个样本,意味着训练模型所需时间与训练集大小成正比。
      • 随机梯度下降(SGD)
        • 通过对更少的样本进行平均来估计,对于每一步,算法从训练集中取一小组样本(批次),并计算损失函数的梯度,仅对该批次中的样本求平均值。
        • 局限性:因为SGD基于梯度的噪音估计,而不是真正基于梯度的方法,所以每一步在减少损失时都是次优的。
        • 两种流行的优化算法:
          • Adam
          • RMSProp
  • 验证
    • 测试集:第二个数据集,与训练集完全相同的形式,且没有任何相同的样本。
    • 原则:设计或训练模型时,不得以任何方式使用测试集。(否则会出现过拟合问题)
  • 正则化
    • 目的:避免过拟合问题。
    • 训练集越大,尽管可以更好地表示“真实”的数据分布,但搜集难度、成本都会产生阻碍
    • 正则化是一个相对概念,算法只能尽可能满足训练集的输出结果,并不清楚训练集和测试集的区别,也不清楚你想要的要求。
    • 本质:使训练过程更偏向于某些类型的模型(你期望的),而偏离其他类型的模型(算法以为的)
    • 常用方法
      • 使用更少的步骤训练模型:获取粗属性
      • 限制模型中的参数大小
      • 剪枝(dropout):对于模型中的每个隐藏层,随机选择其输出向量h_ihih_ihi​中的一个元素子集设置为0,迫使模型往你想要的方向学习。
  • 超参数优化
    • 常用超参数
      • 模型图层数
      • 每层的宽度
      • 执行的训练步骤数
      • 训练期间使用的学习率
      • 使用dropout时要设置为0的元素部分
    • 优化方式:尝试不同的组合
    • 判定优化有效性:
      • 产生的损失函数值是否更小,需要注意是否过度拟合(剪枝率,低误差)
    • 具体优化步骤:
      • 1.对于每组超参数值,在训练集上训练模型,然后计算在验证集上的损失
      • 2.无论那一组超参数只要在验证集上损失最小,都将他们作为最终模型
      • 3.在测试集中评估最终的模型,以得到一个无偏的度量方法来衡量它的工作情况
  • 其他类型的模型(略)
    • 卷积神经网络(CNN)
      • 2022.02.16【读书笔记】|基于深度学习的生命科学 第2章 深度学习概论(下)_第1张图片

    • 递归神经网络(RNN)
      • 2022.02.16【读书笔记】|基于深度学习的生命科学 第2章 深度学习概论(下)_第2张图片

      • 书中没有区分循环神经网络与递归神经网络,此处略过

你可能感兴趣的:(深度学习,基于深度学习的生命科学,读书笔记,算法,人工智能,深度学习)