Sparse Model Soups稀疏模型汤

ICLR2024| Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging

  • 论文链接:https://arxiv.org/pdf/2306.16788.pdf
  • 源码链接:https://github.com/zib-iol/sms

简介

一些研究表明,通过利用多个模型,而不是保留验证数据集上选择最优的模型并丢弃其余模型,可以显著提高预测其性能。这种集成将单独训练的模型通过平均化输出预测组合在一起。集成预测已经被证明可以提高预测性能,并对预测不确定指标产生积极影响如校准、OOD以及模型公平性。集成学习一个显著缺点是,所有模型必须在部署过程中进行评估,因此推理成本增加了m倍,这个问题已经通过利用稀疏化、更高效的模型集合解决。

一些研究提出将参数平均化以构建用于推理的单个模型。与需要足够多样化的模型提高性能的预测集合相反,这种模型集成需要位于损失景观的线性连接盆地中的模型。用不同随机种子从头开始训练的模型将导致模型参数平均值比单个模型差得多,使用最近的研究探索的神经元排列以使得在单个盆地内对齐。此外,稀疏网络计算优势无法轻易利用,因为具有不同稀疏连通性的平均模型降低了总体稀疏性水平,并且可能需要再次剪枝,可能导致性能进一步下降。

在本文中,本文解决了同时利用稀疏性的挑战,以及将多个模型组合为一个模型的优势。本文从迁移学习领域的最新研究中获得了灵感,该研究表明,微调预训练模型的多个副本,仅在随机种子不同,可以产生足够相似的模型来进行平均,并产生足够多样的模型提高性能。本文方法核心是观察到,标准剪枝后训练策略的单个剪枝再训练阶段,如IMP,与迁移学习范式非常相似。从预训练的模型开始,由于新的目标域或剪枝子空间施加的约束,优化目标突然发生变化,随后进行称为微调的后续训练过程。

本文发现,类似于迁移学习中的微调阶段,在各种超参数配置的探索再配型阶段,可以生成易于平均的模型,同时通过设计共享相同的稀疏连接。与给体对应物以及经过m倍再训练的模型相比,这种稀疏平均化表现出优异的性能。再进一步,从前一阶段的平均模型开始了后续的剪枝再训练循环,这也显著提高了再次平均之前单独再训练运行的性能。本文提出的方法称为稀疏模型汤(Sparse Model Soup,SMP),通过实现独立于m推理复杂度解决上述挑战,利用预训练模型而不需要从头开始训练,在利用稀疏网络优势同时保持稀疏性,并显著提高IMP性能。

本文方法

受迁移学习领域最新研究启发,这些研究表明,从同一个预训练模型中微调的模型,尽管具有不同超参数配置,最终会出现在一个损失盆地中,且可以组合为汤。本文假设,在从同一个剪枝模型中微调或再训练期间,可以实现类似的行为。本文动机源于迁移学习范式和IMP单一阶段之间的相似性。当从源域过渡到目标域时,优化目标会突然变化,需要调整(即调整)以最小化新目标。类似地,硬剪枝会突然改变损失,并需要在新添加的稀疏性约束下进行调整。

Sparse Model Soups稀疏模型汤_第1张图片

图2给出了这个想法的一个阶段。对预训练模型 θ \theta θ进行剪枝,得到模型 θ p \theta_{p} θp,然后将其复制m次。随后m个模型中每一个都用不同超参数配置进行独立的再训练,例如变化的随机种子,权重衰减因子,再训练长度或学习率计划。最终m个预训练模型融合为单一模型。这一流程确保了所有m个预训练模型有相同稀疏范式,因为来自相同的剪枝网络。然而,当在多个剪枝-再训练循环之后组合模型时,不能保证所有模型之间相同的稀疏性连接。为了解决这个问题,本文在每个阶段之后对模型进行平均,并用之前的平均模型开始下一阶段。

SMS提供了几个好处,并解决了关键挑战。首先,最终模型推理复杂度与m无关。该方法高度模块化,允许不同超参数配置和每个阶段的不同m。此外,m个模型的再训练可以完全并行化,从而提高了效率。通过使用迁移阶段的合并模型启用每个阶段,可以保留稀疏性模式,并利用稀疏网络的优势;随着循环次数增加,网络变得更加稀疏,有可能进一步提高效率。此外,SMS有效地利用了大型预训练模型优势,而无需从头开始训练。

融合策略

实践中,有效地组合有提升泛化的模型是有挑战性的。例如使用大范围的权重衰减值时,模型最终可能会相聚甚远,合并它们可能会导致性能下降。原始模型汤算法允许任意的模型参数线性组合,本文主要测试两种凸组合方法:UniformSoup和GreedySoup。前者分配一个相等因子 λ i = 1 / m \lambda_{i}=1/m λi=1/m。相比之下,GreedySoup根据模型验证精度对其进行排序,从性能最好的模型开始,只与在于前一个自己相比,模型包含提高验证精度情况下,才从排序列表中逐步添加模型。

你可能感兴趣的:(计算机视觉,人工智能,剪枝)