2024年1月16日Arxiv热门NLP大模型论文:A Closed-form Solution for Weight Optimization in Fully-connected ......

颠覆传统!一次迭代,全层并行,新神经网络权重优化方法,让机器学习效率飞跃

引言:机器学习的崛起与发展概述

在21世纪初,强大的计算机硬件和工作站的出现使得机器学习得以迅猛发展。作为人工智能的一部分,机器学习领域不断演进,并吸引了大量的研究兴趣,特别是在成功应用于各种学术和工业问题之后。这些机器的强大处理能力甚至在某些情况下超越了人类的表现。机器学习工具对于那些难以建立精确数学模型的实际问题尤其有趣,因为它们的解决方案通常依赖于对问题的特定实现进行合理准确的求解。

机器学习技术在处理这类问题时更为高效,它依赖于提供一组足够大的样本(训练数据),基于这些数据,机器能够学习并对一组新样本(测试数据)做出决策。解决低收敛率的凸规划问题的方法可以追溯到20世纪的最后几十年。近年来,提出了几种成功最小化在线学习环境中遗憾值(即所做决策与最优决策之间的差值)的算法。所有这些方法都通过使用梯度下降法相互关联,这是一种相对高效的优化方法,只要目标函数对其参数是可微分的。在这种情况下,计算参数的一阶偏导数的计算复杂度与简单评估函数的复杂度相同。

尽管这些解决方案是为更广泛类别的优化问题推导出来的,但它们在神经网络的权重优化中的应用是直接的(并且现在广泛使用),通过将它们作为动态调整学习率的优化器来利用它们进行参数估计。与现有方法形成鲜明对比的是,本工作提出了一种新颖的权重优化方法,其解决方案是闭合形式的,通过使用反向传播(BP)和最小二乘(LS)方法。所提出的方案通过以反向传播的方式(从输出层向输入层)优化每层中每个神经元的一组权重,实现了权重优化。所提出的方案在单次迭代(每层)中实现权重优化,并且在具有单射和非单射输入到输出映射的问题中,分别仅需几次迭代。更进一步提高新方法效率的是,这些计算彼此独立,使得它们可以并行进行。此外,值得一提的是,所提出方案的运行时间是确定的,即我们知道优化所有网络层中的权重所需的确切计算次数(在非单射映射的情况下,每次迭代)。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

论文标题、机构、论文链接和项目地址(如有)

论文标题: A Closed-form Solution for Weight Optimization in Fully-connected Feed-forward Neural Networks

作者: Slavisa Tomic, João Pedro Matos-Carvalho, and Marko Beko

机构: 所有作者均隶属于葡萄牙里斯本的COPELABS, Universidade Lusófona。Marko Beko还隶属于Instituto de Telecomunicações, Instituto Superior Técnico, Universidade de Lisboa。

论文链接: https://arxiv.org/pdf/2401.06699.pdf

传统权重优化方法的局限性

在机器学习领域,传统的权重优化方法,如梯度下降及其变种(包括带动量的梯度下降、随机梯度下降等),虽然在多种优化问题中取得了成功,但它们存在一些局限性。首先,这些方法通常是迭代的,这意味着它们需要多次迭代才能接近最优解,而且通常无法预先知道所需的迭代次数。这种非确定性使得算法的收敛时间难以预测。

其次,这些方法是基于梯度的,需要计算目标函数相对于其参数的一阶偏导数。虽然当目标函数对其参数可微时,这种方法相对高效,但在某些情况下,如目标函数不够平滑或存在噪声时,梯度计算可能会变得困难或不准确。

此外,传统方法通常是次优的,即它们不能保证找到全局最优解。在神经网络的权重优化问题中,这意味着即使算法收敛,也无法保证找到的权重配置是全局最优的。这可能导致模型性能不稳定,特别是在存在多个局部最小值的复杂优化景象中。

最后,传统方法在处理大规模数据集时,尤其是在深度学习应用中,计算成本可能会非常高。尽管引入了动量项和自适应学习率等技术可以提高收敛速度,但这些方法在训练大型神经网络时仍可能需要大量的计算资源和时间。

提出新方法:BPLS算法简介

针对传统权重优化方法的局限性,本文提出了一种新的算法——基于反向传播和最小二乘法(Back-Propagating Least Squares, BPLS)的权重优化方法。BPLS算法的核心思想是利用反向传播(BP)和最小二乘(LS)方法,以闭合形式(closed-form)优化每个神经元的权重。

BPLS算法首先随机初始化网络权重,然后通过已知的网络结构计算输出。接下来,算法从输出层开始,逐层向输入层反向剥离网络,并基于最小二乘法优化每层的权重。具体来说,对于第l层的第i个神经元,算法通过解决一个最小二乘问题来优化连接到该神经元的所有权重。这个过程可以并行执行,因为每层中每个神经元的权重优化计算是独立的。

BPLS算法的一个显著优势是其确定性。在输入到输出映射是单射(injective)的情况下,算法只需要一次迭代就能优化每个神经元的权重,并且可以确定地计算出运行时间。即使在非单射映射的情况下,如分类问题,BPLS算法也能在几次迭代内完成权重优化。

此外,BPLS算法适用于具有单射激活函数的网络,如Sigmoid、双曲正切、指数线性单元、Softmax等。在这种情况下,算法会调整每个神经元/输出的期望值,以考虑激活函数的使用,从而通过计算激活函数的逆来更新神经元的值。

总的来说,BPLS算法通过调整进入每个神经元的权重值,迫使网络产生期望的输出。这种方法简单高效,能够在每层和每个神经元中实现权重的优化。通过使用优化后的权重和已知的网络结构以反向传播的方式推动信息在网络中的流动,BPLS算法在保证精度的同时,显著提高了运行速度,在考虑的网络架构中比现有方法快1000倍以上。

方法详解:BPLS算法的闭合形式解决方案

在机器学习的发展历程中,梯度下降法因其在优化问题中的相对高效性而被广泛应用。然而,这些方法通常是迭代的,且不保证找到全局最优解。本工作提出了一种新颖的权重优化方法,该方法不依赖于导数,而是采用了一种闭合形式的解决方案,称为后向传播最小二乘(BPLS)方法。

1. BPLS算法概述

BPLS算法的核心思想是在全连接前馈神经网络中,通过后向传播的方式,单独优化每个神经元的权重。与传统的基于梯度下降的方法不同,BPLS算法在每层中对每个神经元的权重进行一次性优化,并且可以在几次迭代中完成对具有非单射输入-输出映射问题的优化。

2. 权重优化过程

在权重优化过程中,首先通过随机生成的权重获得网络的输出。然后,从输出层开始,逐层剥离网络,并基于最小二乘法优化相应的权重。具体来说,对于第l层的第i个神经元,其权重通过解决最小二乘问题来优化。这个过程对于所有层都会执行,最终得到的是针对给定数据集在最小二乘意义上的最优权重。

3. 算法的并行性和效率

BPLS算法的一个显著特点是,这些计算是相互独立的,可以并行执行。这大大提高了算法的效率。此外,算法的运行时间是确定的,因为可以精确知道优化所有网络层中权重所需的计算次数。

4. 适用性

BPLS算法同样适用于具有单射激活函数的网络。在这种情况下,每个神经元/输出的期望值的计算需要调整,以考虑激活函数的使用。最终,算法通过后向传播的方式,使用优化后的权重和已知的网络结构,更新每层中每个神经元的值。

实验设置:模型架构与数据集介绍

在验证所提出BPLS算法的性能时,我们与几种基准算法进行了比较,包括AdaGrad、SGD、NAG和Adam。实验首先在一些玩具示例上进行,这些示例具有已知的输入和输出之间的数学模型。此外,还使用了真实世界的数据集,包括MNIST和Fashion-MNIST数据集,用于多类数字和时尚图像识别问题。

1. 网络架构

实验中考虑了一个包含一个隐藏层的全连接网络,隐藏层由一定数量的神经元组成,并具有多个独立的输出。在所有的实验场景中,所有神经元的初始权重都是从[-1, 1]区间上的均匀分布中随机抽取的。所有算法都在CPU上执行。

2. 数据集

  • MNIST数据集:包含4万个训练样本和1万个测试样本的手写阿拉伯数字图像数据集。
  • Fashion-MNIST数据集:包含4万个训练样本和1万个测试样本的时尚图像数据集。

在这两个数据集上,考虑了一个具有50个神经元的隐藏层和10个不同输出的全连接网络。对于这些数据集,分类准确率(CA)被选为主要性能指标。

3. 实验结果

实验结果表明,BPLS算法在准确性方面与现有的最先进方法相匹配,并且在运行时间上显著优于它们(在考虑的网络架构中快了1000多倍)。对于具有单射输入-输出映射的问题,BPLS算法的运行时间是确定的,因为其总的计算次数是精确可知的。

实验结果与分析:BPLS算法的性能评估

在本章节中,我们将对提出的BPLS算法进行性能评估。首先,我们通过一系列数值实验来验证BPLS算法的有效性。这些实验包括了线性和非线性的输入输出关系,并使用了包含一个隐藏层的网络结构。在训练阶段,输入数据集由一系列奇数(从1到9)组成,而测试则是由一系列偶数(从2到10)组成。为了评估算法的准确性,我们采用了均方根误差(RMSE)作为主要的性能指标。

在对随机线性输入/输出关系进行的实验中,所有算法的性能随着噪声功率的增加而下降。BPLS算法在训练阶段与现有最先进方法的性能相当,并且在测试阶段甚至略有超越。这一结果表明BPLS算法在保持准确性的同时,具有显著的运行时间优势。

对于随机非线性输入/输出关系的实验,BPLS算法在测试阶段的性能更为明显地超过了现有方法。这些结果表明,现有方法在与BPLS算法相比可能存在过拟合的问题。

此外,我们还使用了两个大型、公开可用的图像数据集(MNIST和Fashion-MNIST)来评估BPLS算法。在这些实验中,我们考虑了一个包含50个神经元的隐藏层和10个不同输出的全连接网络。分类准确率(CA)被选为主要的性能指标。结果表明,BPLS算法在训练和测试阶段的性能与现有的最先进方法相当,并且只需要很少的迭代次数(MNIST数据集需要9个周期,Fashion-MNIST数据集需要4个周期)即可达到最终解决方案。

在运行时间方面,BPLS算法的平均运行时间远远低于现有方法,超过1000倍的速度优势,这一点在Fashion-MNIST数据集的实验中得到了清晰的展示。

结论与未来展望:BPLS算法的意义与潜力

本工作提出了一种新颖的权重优化方法,用于全连接前馈神经网络。与现有的基于迭代反向传播和一阶梯度优化方案的次优解决方案不同,BPLS算法能够在单次迭代中优化每个神经元的权重,并且其解决方案是闭式的。该算法基于最小二乘准则,通过使用反向传播根据网络结构(从右到左)导出线性方程系统,其中前一层的解被用来获取下一层的输入。新算法适合并行实现,因此可以同时优化单层中所有神经元的权重。

通过数值实验表明,BPLS算法在准确性方面与现有的最先进方法相匹配,并且在运行时间方面大大超过它们(在考虑的网络结构中快1000倍以上)。这一显著的性能优势,加上其解决方案的确定性,使BPLS算法在深度学习领域具有重要的意义和潜力。

未来的研究可以在多个方向上进行扩展。首先,可以探索BPLS算法在更复杂网络结构中的应用,例如卷积神经网络和循环神经网络。其次,可以研究算法在不同类型的问题,如回归、聚类和强化学习中的表现。最后,进一步优化算法的并行计算能力,以充分利用现代计算硬件的能力,可能会进一步提高算法的效率和可扩展性。

总结

本文提出了一种新颖的方法,用于全连接前馈神经网络中的权重优化。与现有的基于迭代反向传播和一阶梯度优化方案的次优解决方案不同,所提出的解决方案能够在单次迭代中优化每个神经元的权重,并且其解决方案以封闭形式给出。该方法基于最小二乘准则,通过使用反向传播根据网络架构(从右到左)导出线性方程组,其中前一层的解决方案用于获取后续层的输入。新算法适合并行实施,因此可以同时优化单层中所有神经元的权重。所呈现的数值实验表明,所提出的解决方案在准确性方面与现有的最先进方法相匹配,并且在运行时间方面大大超越它们(在考虑的网络架构中快了1000多倍)。

1. 方法概述:
所提出的权重优化方法利用了反向传播最小二乘(BPLS)方法,通过调整每个神经元输入的权重值来迫使网络产生期望的输出。这种方法的有趣之处在于,最后一层的优化权重保证了网络将产生期望的输出,但它也允许更新所有层中神经元的值。这是通过利用优化后的权重和已知的网络架构以反向传播的方式来实现的。换句话说,网络的每一层都被视为一组具有已知输入(通过随机权重计算得出的值)和已知输出(期望的输出)的并行系统。因此,权重的优化在每一层和每个神经元中都以简单且高效的方式实现。

2. 性能验证:
所提出的方法的性能通过与AdaGrad、SGD、NAG和Adam等基准算法的比较进行了验证。性能评估包括了几个玩具示例,其中输入和输出之间的数学模型是明确定义的,以及使用MNIST和Fashion-MNIST数据集进行的实际世界数据集实验。在所有情况下,所提出的方法都与现有方法在训练和测试阶段的性能相匹配,且在运行时间上显著优于现有方法。

3. 运行时间优势:
所提出的BPLS算法在运行时间上的优势非常明显。在使用Fashion-MNIST数据集进行的分析中,BPLS算法的运行时间比现有方法快了1000多倍。这一点在CPU上执行所有算法时尤为突出,这表明了所提出方法在效率方面的显著优势。

综上所述,本文提出的权重优化方法为全连接前馈神经网络提供了一种高效、准确且易于并行实施的解决方案。通过在单次迭代中以封闭形式优化权重,该方法在保持与现有最先进方法相当的准确性的同时,大幅度减少了计算时间,为神经网络的训练提供了一种更快的替代方案。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

你可能感兴趣的:(自然语言处理,搜索引擎,人工智能,chatgpt,transformer,深度学习,大模型)