(一)https://blog.csdn.net/qq_51392112/article/details/133748914
鉴于研究的流行和可用的数据集集中于事实知识,作者将其作为作者比较模型编辑技术的主要基础。通过使用如 表 2 所示的两个成熟的事实知识数据集进行初始控制实验,作者对各种方法进行了直接的比较,从而揭示了它们独特的优点和优缺点。
数据集:包括 ZsRE 和 COUNTERFACT。
ZsRE(Levy et al.,2017)是一个问题回答(QA)数据集,使用由反向翻译生成的问题重组作为等价邻域。作者遵循之前的数据分割来评估测试集上的所有模型。对于需要训练的模型,作者利用训练集。根据之前的工作,作者使用自然问题作为范围外数据来评估位置。
COUNTERFACT(Meng et al.,2022)是一个更具挑战性的数据集,它解释了从一开始的反事实与正确的事实相比,得分较低。它通过将主体实体替换为共享一个谓词的近似主体实体来构造作用域外的数据。这种改变使作者能够区分表面的措辞变化和更重要的修改,对应于事实中有意义的变化。
模型:需要注意的是,以前的研究通常是在较小的语言模型(<1B)上进行实验,而忽略了语言模型(lm)中的不一致性。因此,作者选择了两个更大的模型作为基础模型: T5-XL(3B)和GPT-J(6B),包括编码器-解码器和仅解码器的架构。
由于一些原始的实现不支持这两种体系结构,所以作者重新实现了它们以适应这两种模型。然而,作者的实证研究结果表明,ROME和MEMIT只适用于像GPT-J这样的仅限解码器的模型,所以作者没有报道T5-XL的结果。
由于ZsRE数据集采用NQ数据集来评估局部性,在这里,作者使用在NQ数据集上细化的T5-XL模型(Raffel et al.,2020b)作为基线模型。至于GPT-J(Wang和小崎,2021b),作者使用原始的预训练版本来测试局部性的零样本结果。
除了现有的模型编辑技术之外,作者还额外检查了微调(FT)的结果,这是一种模型更新的基本方法。为了防止再训练所有模型层产生的计算费用,作者采用孟等人(2022)提出的方法对Rome识别的层进行微调。这一策略确保了与其他直接编辑方法的公平比较,加强了作者的分析的有效性。
从表2中,作者注意到,
鉴于上述考虑,作者认为以前的评估指标可能太严格,无法充分评估模型编辑能力,因此作者提供了关于可移植性、局部性和效率的更全面的评估。
许多研究评估了通过反向翻译产生的样本的通用性(De Cao et al.,2021),但这往往忽略了知识编辑的影响,而不是简单的释义。这些释义的句子通常只涉及措辞的表面变化,并不反映对事实信息的重大变化。为了确保这些方法能够为现实世界的应用做好准备,确定它们是否能够解释编辑的后果是至关重要的。例如,如果作者把“瓦茨·汉弗莱是上哪所大学的?”从“三一学院”到“密歇根大学”,当被问到“瓦茨·汉弗莱在大学时,模特应该回答“密歇根州的安娜堡”,而不是“都柏林在爱尔兰”学习期间住在哪个城市?”
因此,作者引入了一种新的评估度量,称为可移植性,以评估模型编辑在将知识转移到相关内容方面的有效性,以及编辑后的语言模型将修改后的知识用于下游任务的潜力。作者将一个新的部分,P(xe,ye),合并到现有的数据集ZsRE和反事实中,当应用于P(xe,ye)中的推理示例时,可移植性被计算为编辑模型(fθe)的平均精度:
在数据集构建的过程中,作者使用GPT-4来生成相关的问题和答案(参见图3)。假设在原始编辑中,作者将关于主题s的问题的答案从o改为o∗。
作者根据新提出的评价度量进行了实验,结果如表3所示。如表所示,当前的模型编辑方法在可移植性方面的性能有些次优。大多数的编辑方法,包括KE、KN、MEND 和 CaliNET,都无法将改变后的知识转移到相关的事实中。尽管 ERAC 在之前的指标上显示出了完美的结果,但在可移植性方面的准确率低于10%。这些结果似乎是合理的,因为分类器努力有效地将句子分类为反事实模型,而原始模型中的知识保持不变。如果分类器能够识别出修改后的句子,次要的反事实模型,受到其弱推理能力的限制,可能仍然缺乏必要的相关信息。出乎意料的是,ROME和MEMIT在可移植性方面表现出了相对值得称赞的性能(在ZsRE上超过50%,在反事实上超过45%)。它们不仅能够编辑原始的案例,而且还能够在某些方面修改与它们相关的事实。它们令人印象深刻的可携性进一步证明了它们的定位方法的有效性和实用性,因为该模型将在需要时使用这些知识。MEMIT 比罗马性能更好的一个原因是它编辑了更多的层,使知识在应用程序中被使用的机会更大。
COUNTERFACT 利用与目标知识相同分布的三元组,而 ZsRE 使用来自不同分布的问题,即自然问题任务。除了其他知识之外,技能神经元(Wang et al.,2022)表明,llm中的前馈网络具有特定任务知识的能力,这引发了新的挑战,特别是模型编辑是否会影响其他任务的表现。具体地说,模型编辑对模型的影响是多方面的,具有挑战性。因此,评估模型编辑的局部性需要考虑模型的主要目的以及预期的编辑范围,如图4所示。
尽管这些方法取得了成功,但考虑模型编辑的效率也至关重要对于实际应用。一个高效的模型编辑器应该在不影响模型性能的情况下,最小化计算和评估编辑所需的时间和内存。
编辑时间是指执行模型编辑过程所需的持续时间,其中包括更新模型的参数,以反映所需的更改。从表4中,作者注意到一旦得到训练好的超网络,KE和MEND要快得多。SERAC还可以快速编辑知识,用5秒钟进行10次编辑。但是,这些方法需要每天数小时的额外培训费用。在作者的实验中,
此外,考虑模型编辑对模型存储所需空间的影响是至关重要的。作者在图5中展示了每个方法的内存 Vram 使用消耗量。从图中,作者可以看到,大多数方法消耗的内存量大致相同。引入额外参数的方法会产生一些额外的计算开销。总之,一个高效的模型编辑器应该在模型性能、推理速度和存储空间需求之间取得平衡。
作者进一步进行批编辑分析,因为许多研究通常最多只能更新几十个事实,或只关注单个编辑案例。通常,作者需要同时使用多个知识片段来修改模型。在这里,作者将集中研究支持批处理编辑的方法(包括FT、SERAC、MEND和MEMIT),并在图6中绘制了性能。在这种情况下,作者不评估KE和CaliNET,因为它们在llm上的单一编辑性能是次优的。
作者注意到,MEMIT是一种独特的方法,能够支持对llm的大量知识编辑。它可以同时编辑数百甚至数千个事实,而同时需要最小的时间和内存成本。即使进行多达1000次编辑,这两个指标的性能都保持稳定和优秀(原始论文表示MEMIT可以同时编辑超过10,000个案例)。此外,MEMIT在同时执行广泛的知识编辑时,保持了较高的局部性和通用性。其他方法也支持批处理编辑,但需要大量的内存来处理更多的情况,这超出了作者目前的能力。因此,对于这些方法,作者将批编辑测试限制在100个。SERAC可以支持多达100次的多次编辑,并保持良好的性能,因此作者将作者的测试限制在这个数字上。其余两种方法,FT和MEND,在批处理编辑中表现不佳。随着编辑次数的增加,模型的性能迅速下降。此外,除了性能之外,MEND和SERAC还需要为每批编辑训练一个独特的模型,这在实际上是不可行的。
除了同时进行多次编辑外,按顺序进行编辑的能力也是模型编辑的一个基本特征(Huang et al.,2023)。在实际设置中,在执行新的编辑时,模型应该保留来自以前编辑的更改。为此,分析时,作者在数据流(x1、y1)、(x2、y2)、…,(xs、ys)中编辑模型,在其中模型依次执行编辑。图7中绘制了性能与编辑次数的关系。在本节中,作者将选择具有可靠的单次编辑性能的模型来评估它们在顺序编辑中的能力。结果表明,SERAC和T-Patcher在连续编辑过程中表现出了良好且一致的性能。实际上,冻结模型参数和使用外部参数进行模型编辑的方法在顺序编辑中通常显示出稳定的性能。罗马在达到n = 10时表现良好,但在n = 100时开始退化。MEMIT超过100人的表现也下降了,但不如罗马那么多。类似地,MEND在n = 1时表现令人钦佩,但在n = 10时迅速下降。改变模型参数的方法需要进行顺序编辑,因为它们的编辑算法是基于初始模型的。随着编辑过程的继续,模型越来越偏离初始状态,导致其性能次优。