【大模型与机器学习解惑】ResNet 的“恒等映射假设”具体指什么?在数学上怎样表述?

ResNet 的恒等映射假设(Identity Mapping Hypothesis)

目录

  1. 基本概念
  2. 数学表述
  3. 关键推论与优化优势
  4. 扩展分析
    • 4.1 跳跃连接的设计
    • 4.2 梯度传播分析
    • 4.3 与其他结构的对比
  5. 总结

基本概念

恒等映射假设认为:通过跳跃连接(Shortcut)直接将输入传递到残差模块的输出端,可使深层网络更易学习恒等变换。这一假设解决了传统深度网络因层数增加导致的梯度消失/爆炸和性能退化问题。


数学表述

残差模块定义

给定输入 x x x,残差模块的输出 H ( x ) \mathcal{H}(x) H(x) 定义为:
H ( x ) = F ( x ) + x \mathcal{H}(x) = \mathcal{F}(x) + x H(x)=F(x)+x

  • F ( x ) \mathcal{F}(x) F(x):残差函数(由卷积、激活函数等堆叠而成)
  • x x x:跳跃连接传递的恒等映射项

目标函数简化

假设最优映射接近恒等变换(即 H ( x ) ≈ x \mathcal{H}(x) \approx x H(x)x),则残差函数只需学习:
F ( x ) = H ( x ) − x ≈ 0 \mathcal{F}(x) = \mathcal{H}(x) - x \approx 0 F(x)=H(x)x0
这比直接学习 H ( x ) \mathcal{H}(x) H(x) 更容易优化。


关键推论与优化优势

  1. 梯度稳定性
    反向传播时,梯度可绕过残差函数直接传递:
    ∂ H ∂ x = ∂ F ∂ x + I \frac{\partial \mathcal{H}}{\partial x} = \frac{\partial \mathcal{F}}{\partial x} + I xH=xF+I
    其中 I I I 为单位矩阵,避免梯度消失。

  2. 退化问题缓解
    当残差函数 F ( x ) = 0 \mathcal{F}(x) = 0 F(x)=0 时,模块退化为恒等映射,确保深层网络至少不差于浅层网络。


扩展分析

跳跃连接的设计

  1. 维度匹配
    当输入输出维度不同时,引入线性投影矩阵 W s W_s Ws
    H ( x ) = F ( x ) + W s x \mathcal{H}(x) = \mathcal{F}(x) + W_s x H(x)=F(x)+Wsx

    • W s W_s Ws 通常为 1×1 卷积(如 ResNet-50/101 中的下采样模块)
  2. 预激活结构
    改进后的“预激活 ResNet”(ResNet v2)将 BatchNorm 和 ReLU 置于卷积前,进一步强化恒等映射:
    H ( x ) = x + F ( ReLU ( BN ( x ) ) ) \mathcal{H}(x) = x + \mathcal{F}(\text{ReLU}(\text{BN}(x))) H(x)=x+F(ReLU(BN(x)))

梯度传播分析

结构 梯度表达式 特性
传统网络 ∏ i = 1 n W i \prod_{i=1}^n W_i i=1nWi 多层权重连乘,易梯度消失/爆炸
残差网络 ∑ i = 1 n ∂ F i ∂ x + I \sum_{i=1}^n \frac{\partial \mathcal{F}_i}{\partial x} + I i=1nxFi+I 梯度包含恒等项,稳定性增强

与其他结构的对比

结构 核心思想 恒等映射支持 典型网络
ResNet 残差学习 + 跳跃连接 显式支持 ResNet-152
DenseNet 密集跨层连接 + 特征复用 隐式支持 DenseNet-161
HighwayNet 门控机制控制信息流 条件性支持 Highway Net

总结

  1. 核心贡献
    恒等映射假设通过显式叠加输入与残差函数,使网络能高效学习微小扰动,解决了深度模型的优化难题。

  2. 实际影响

    • 支持训练超过 1000 层的网络(如 ResNet-1202)
    • 启发了后续工作(如 PreAct-ResNet、Wide ResNet)
  3. 局限性
    当输入输出维度差异较大时,需额外设计跳跃连接(如 1×1 卷积),可能引入计算开销。
    【哈佛博后带小白玩转机器学习】

你可能感兴趣的:(大模型技术开发与实践,哈佛博后带你玩转机器学习,深度学习,机器学习,人工智能,深度学习,神经网络,python,大模型)