机器学习 day26(多标签分类,Adam算法,卷积层)

  1. 多标签分类
    机器学习 day26(多标签分类,Adam算法,卷积层)_第1张图片
  • 多标签分类:对于单个输入特征,输出多个不同的标签y
  • 多类分类:对于单个输入特征,输出单个标签y,但y的可能结果有多个
  1. 为多标签分类构建神经网络模型
    机器学习 day26(多标签分类,Adam算法,卷积层)_第2张图片
  • 我们可以构建三个不同的神经网络模型来分别预测三个不同的标签y,但这种方法很低效。
  • 另一种方法,可以构建一个神经网络模型来同时预测三个不同的标签y。
  • 这种情况下,输出层有三个神经元,且每个神经元的激活函数设为sigmoid,因为每个神经元的判断都是独立的,而softmax输出层的所有神经元的概率之和为1
  1. Adam算法
    机器学习 day26(多标签分类,Adam算法,卷积层)_第3张图片
  • 在梯度下降中,学习率α控制着每一步的大小,如果α太小,可能会导致每一步走的太小,从而使梯度下降执行的太慢;相反,如果α太大,可能会导致每一步走的太大,从而使梯度下降来回振荡。
  • Adam算法可以自动调整α的大小,来保证可以用最短、最平滑的路径到达成本函数的最小值,通常它比梯度下降算法的速度要更快
    机器学习 day26(多标签分类,Adam算法,卷积层)_第4张图片
  • adam算法并没有对模型中的所有α都采用同一个值。相反,它使模型中每一个w、b都对应一个α
    机器学习 day26(多标签分类,Adam算法,卷积层)_第5张图片
  • 在w、b参数每次改变都朝着大致相同的方向移动时,adam算法会加大学习率α
  • 在w、b参数每次改变都不断来回振荡时,adam算法会减小学习率α
    机器学习 day26(多标签分类,Adam算法,卷积层)_第6张图片
  • 使用adam算法时,需要在compile()函数中,添加一个参数,指定使用adam优化器
  • adam优化算法需要设定默认的初始学习率α,在实际实践中,可以多试几个默认α值,看看哪个α的速度最快
  1. 卷积层
    机器学习 day26(多标签分类,Adam算法,卷积层)_第7张图片
  • 对于密集层(dense layer)来说,该层每个神经元的输入都是上一层的所有神经元的激活值
    机器学习 day26(多标签分类,Adam算法,卷积层)_第8张图片
  • 对于卷积层中,该层的每个神经元都只能查看前一层的部分神经元的激活值
  • 卷积层的优势:提高了计算速度,需要更少的训练数据,也不容易出现过拟合
    机器学习 day26(多标签分类,Adam算法,卷积层)_第9张图片
  • 在判断病人是否患有心脏病的模型中,前两层采用卷积层,该层的每个神经元都只查看前一层的部分输出,第三层采用sigmoid层,该层查看前一层的所有输出
  • 卷积层的每个神经元之间查看的上一层的输出可以有重复

你可能感兴趣的:(机器学习,学习)