实用机器学习笔记第七章-深度神经网络架构

一、深度神经网络架构

本章内容关于深度神经网络共用的设计模式

1. 深度神经网络调参

  • DL是一门编程语言,用于表达对数据(结构、设计)的理解
    • 里面的一些值(参数)不用确定,可以根据真实数据学习得到的
    • 可导,定义一个损失函数,通过误差反响传播,来进行权重的更新
  • 有许多的设计模式,从层的设计到网络的设计

1.1 批量和层的归一化

1.1.1 批量归一化(Batch Normalization)

1.1.1.1 概念
  • 线性模型中使用 来使得损失函数更加平滑(均值0 方差1 )‘[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lpMEE9Cl-1647094537822)(/Users/wangpeixin/Library/Application Support/typora-user-images/image-20220309233903797.png)]

  • 更小的 β \beta β使得学习率(走的步长)更大

  • 对深度神经网络没有帮助

  • 批量归一化BN:把中间层也做了标准化

1.1.1.2 步骤
  • 变形:把输入X(非二维)变成一个2D
  • 标准化(符合标准正态分布)
  • 还原:可以还原回标准化之前。有可以学习的参数
  • 把输出还原回原来输入的格式

1.1.2 层归一化 Layer Normalization

  • 用于RNN,BN需要在不同时间步,维护不同的均值和方差、超参数
  • 在变形的时候不一样,原来BN是按照列来算归一化,现在按照行(样本个数)进行归一化,若X等于二维,把X转置
  • 在Transformer架构上经常用

1.2 残差连接(待更新)

1.3 注意力机制(待更新)

你可能感兴趣的:(机器学习,dnn,人工智能)