AM-LFS: AutoML for Loss Function Search论文解读

AM-LFS: AutoML for Loss Function Search论文解读_第1张图片

一、研究动机

该文章是五月份商汤科技与悉尼大学联合发布在arxiv上的文章,用自动机器学习来获取视觉任务中的最佳损失函数。众所周知,一个有效的损失函数在视觉任务中起了关键作用,然而现在大部分的损失函数都是人为设定,不仅耗时而且一般只能获得次优解。为了缓解上述问题,AM-LFS在训练阶段利用了强化的思想来自动搜索合适的损失函数的超参数,同时又设计了一个搜索空间能够适应于不同的视觉任务,将不同任务的不同损失函数用一种统一的形式表示,最后提出一个双层次优化框架来同时更新损失函数参数分布和网络结构参数。本方法主要针对ArcFace, CosineFace和 SphereFace,原始Softmax和Focal loss这几种常用视觉任务loss进行了分析和拟合,其效果如下所示,虚实线几乎重合,说明其泛化和迁移性能不错。
AM-LFS: AutoML for Loss Function Search论文解读_第2张图片

二、研究方法

常见损失函数分析
针对原始的Softmax损失函数,分解成最后一层连接层权重和该层输入的L2范数之积,如下式,其中fj表示class score f向量的第j个元素。N表示训练数据的数量。log函数的括号里面的内容就是Softmax函数。f各个元素代表各个类别的得分,θ代表全连接权重向量和输入向量的夹角。
在这里插入图片描述
虽然softmax在深度卷积神经网络中有着广泛的应用,但是这种形式并不能够有效地学习得到使得类内较为紧凑、类间较离散的特征。这种形式进而可以拓展出基于间隔的Softmax和Focal loss。基于间隔的是在原始Softmax中添加了一个连续可微的变换t( ),如下式:
在这里插入图片描述
不同的t( )作用在原始的SoftMax可以产生不同的损失函数,如下表:
在这里插入图片描述
除此之外,为了解决样本不均衡问题,Focal loss则在原有的Softmax损失函数乘上一个变换,如下式:
在这里插入图片描述
构建搜索空间
由此可见基于间隔的Softmax损失函数和Focal loss均在原始的Softmax损失函数上添加额外的变换,把两者改造后的形式统一起来如下:
在这里插入图片描述
为了简单,对于两个变换采用分段线性函数构成其搜索空间,其形式如下,搜索空间中的超参数可写成θ:
在这里插入图片描述
优化方法
这是一个很典型的双层优化问题,即同时对损失函数的超参数和视觉任务模型进行优化更新,其超参数优化的目标函数如下,其中约束条件是有关模型参数的优化问题,可见这种双层优化问题中的目标函数和约束条件均存在优化问题:
在这里插入图片描述
采用基于策略梯度的强化学习方法搜寻损失函数超参数,该问题的策略采用高斯策略,可用于连续的行为空间。首先来补充下啥是基于策略梯度的强化学习方法哈:将策略(智能体采取行动的原则)表示成一个连续的函数,然后用连续函数的优化方法(梯度上升)来寻找最优的策略,那么就要找到一个可以优化的目标函数,这里可以用平均价值(某策略下某行动,数学化形式就是某分布下某取值)来充当。平均价值也就是我们寻找最优损失函数的模型时搜寻步骤带来的奖励。为了简化问题我们假定所有参数来自高斯分布,其方差固定,均值是变化的,均值的迭代更新如下式:
在这里插入图片描述
完整的算法流程如下:
AM-LFS: AutoML for Loss Function Search论文解读_第3张图片

AM-LFS: AutoML for Loss Function Search论文解读_第4张图片

三、实验内容及分析

既然本研究是针对不同视觉任务的损失函数的统一搜寻,其泛化性能可以在不同数据集的不同任务上得到体现:首先是针对分类任务的CIFAR-10数据集,其错误率较单独使用交叉熵损失函数和L2T-DLF(另一种动态构建损失函数的方法)降低1.93%和0.71%,如下表:
在这里插入图片描述
针对人脸探测的MagaFace数据集,较其他几种事先设定好的基于间隔的Softmax函数有6.1%,1.0%和1.1%的提升:
在这里插入图片描述对行人重识别任务的Market-1501和DukeMTMC-reID数据集,在最新的取得极佳结果的一些方法上采用我们的损失函数搜索方法均比没使用要有所提升:
AM-LFS: AutoML for Loss Function Search论文解读_第5张图片本方法的两个关键:(1)搜索空间的构建也就是超参数分布的构建(2)搜索的策略,也就是优化的方法。为了研究这两个组成部分的影响,消融实验如下:如果固定超参分布,从中选出的超参构成的损失函数训练出的SphereReID模型在Market-1501数据集上的提升仅有0.4%。除此之外,超参的采样个数也会有影响,其实验结果如下表:

在这里插入图片描述
搜索空间采用的分段线性函数的段数对结果的影响:
在这里插入图片描述

四、总结

本篇文章首先举出了视觉任务中常用的几种损失函数,归纳了它们的结构相似之处和不同之处,然后就此不同之处构建了搜索空间来对这种变换进行分任务的超参设定。在此搜索空间中采用基于策略梯度的强化学习思想更新超参数。重要的是,不同于普通的视觉任务模型训练过程,该过程中除了要更新模型的权重还需不断更新超参分布的参数(基于高斯策略的策略函数)。总之出发点和归纳的思路很不错,置于搜索策略我觉得也还有其它可尝试的方式。

你可能感兴趣的:(CV)