Fine-grained Analysis of Stability and Generalization for Stochastic Bilevel Optimization

论文

《Fine-grained Analysis of Stability and Generalization for Stochastic Bilevel Optimization》 IJCAI’2024
《随机双层优化的细粒度稳定性和泛化性分析》

会议介绍

IJCAI(International Joint Conference on Artificial Intelligence,国际人工智能联合会议)是人工智能领域的一个主要国际学术会议,创办于1969年。它涵盖了广泛的AI研究领域,包括但不限于机器学习、自然语言处理、计算机视觉等。该会议是CCF-A类会议,近些年的论文年接受率约为15%。为全球的研究人员和从业者提供了一个展示和讨论人工智能领域最新进展和未来趋势的平台,促进了跨学科的合作和创新。


研究背景

随机双层优化(SBO)在超参数优化、元学习、强化学习等领域广泛应用,但其泛化性保证在统计学习理论视角下尚未充分研究。现有工作多关注优化收敛性,且泛化分析局限于特定算法(如基于展开微分的方法),需重新初始化内层参数,难以适用于单时间尺度(SSGD)和双时间尺度(TSGD)等常用算法。本文旨在通过平均参数稳定性理论,建立SBO算法的泛化性保证。


核心技术与思想

  1. 平均参数稳定性(On-average Argument Stability)
    提出通过平均参数稳定性量化算法对单样本扰动的敏感性,替代传统的均匀稳定性,放宽了目标函数的假设(如Lipschitz连续性和光滑性)。
  2. 稳定性与泛化性关联
    建立泛化差距与平均参数稳定性的定量关系,推导出基于不同目标函数(非凸-非凸、凸-凸、强凸-强凸)的稳定性上界。
  3. 算法扩展性
    针对SSGD和TSGD算法,分析其在低噪声条件下的稳定性,无需重新初始化内层参数,适用于更广泛的目标函数。

核心贡献

  1. 理论创新
    • 首次系统分析了一阶梯度类SBO算法的泛化性,建立了平均参数稳定性与泛化差距的定量联系。
    • 在非凸、凸、强凸等多种目标函数设置下,推导了SSGD和TSGD的稳定性上界。
  2. 条件放宽
    • 无需重新初始化内层参数,适用于连续更新的优化策略(如TSGD)。
    • 将光滑性假设推广至更弱的Hölder连续性。
  3. 实验验证
    通过超参数优化任务验证了理论结果,表明验证集大小、内外层迭代次数对泛化性的影响。

Fine-grained Analysis of Stability and Generalization for Stochastic Bilevel Optimization_第1张图片
Fine-grained Analysis of Stability and Generalization for Stochastic Bilevel Optimization_第2张图片


解决的问题

  1. 泛化性理论空白
    填补了SBO算法在统计学习理论中泛化性分析的空白,扩展了适用范围。
  2. 算法限制
    解决了现有工作需重新初始化内层参数的问题,支持更通用的优化策略(如TSGD)。
  3. 假设过强
    放宽了目标函数的光滑性要求,允许Hölder连续性和非凸场景。

章节概述

摘要
本文通过平均参数稳定性理论,建立了随机双层优化(SBO)的泛化性保证。针对单时间尺度(SSGD)和双时间尺度(TSGD)算法,推导了非凸-非凸(NC-NC)、凸-凸(C-C)、强凸-强凸(SC-SC)三种目标函数设置下的稳定性上界,并通过实验验证了验证集规模与迭代次数对泛化性的影响。相比现有工作,本文无需内层参数重初始化,且适用于更一般的低噪声目标函数。

引言

SBO在机器学习中应用广泛,但其泛化性分析仍不充分。已有研究基于均匀稳定性,但局限于特定算法(如展开微分法)。本文提出基于平均参数稳定性的分析框架,支持SSGD和TSGD等连续更新策略,为更广泛的双层优化算法提供泛化保证。

问题建模

定义外层风险 R ( x ) R(x) R(x)与内层优化问题,引入验证集 D m 1 D_{m_1} Dm1和训练集 D m 2 D_{m_2} Dm2。通过联合Lipschitz连续性、光滑性、强凸性等条件,构建目标函数的理论假设。

泛化与稳定性的定量关系

定理1表明:若算法满足 l 1 l_1 l1 l 2 l_2 l2平均参数稳定性,则泛化差距可被稳定性参数 β \beta β和函数性质(如Lipschitz常数、光滑系数)上界控制。进一步将光滑性条件推广至Hölder连续性。

SSGD与TSGD的稳定性分析

SSGD:在SC-SC、C-C、NC-NC设置下,推导稳定性上界 O ( K / m 1 ) \mathcal{O}(K/m_1) O(K/m1),表明迭代次数 K K K和样本量 m 1 m_1 m1对稳定性的影响。
TSGD:针对内外层迭代分离的特点,分析梯度累积效应,给出稳定性与 K , T , m 1 K, T, m_1 K,T,m1的显式关系。结果显示,强凸条件下稳定性更优。

实验验证

在MNIST数据集上验证超参数优化的泛化性:

  1. 内外层迭代次数 K K K T T T过大会导致过拟合;
  2. 验证集规模 m 1 m_1 m1增大可降低泛化差距;
  3. 实验结果与理论分析一致,支持低噪声假设下的泛化性结论。

结论

本文提出了基于平均参数稳定性的SBO泛化分析框架,覆盖SSGD和TSGD算法,放宽了目标函数假设。理论结果与实验验证表明,合理选择验证集规模与迭代次数可提升泛化性能。

你可能感兴趣的:(已发表论文分享,机器学习理论知识,泛化理论,双层优化)