Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers

总体介绍

本篇论文主要探索in-context learning为什么能够生效的原理。将LLM语言模型当做了元优化器,将ICL当做了隐式的fine-tuning,并且通过实验来验证了ICL和显示的fine-tuning是有类似效果的。基于上面实验的启发,设计了动量base的attention计算机制。

怎么理解ICL是隐式的fine-tuning

通过公式分析可以看到提取下降累计的delta_w和ICL引入的demo产生的delta_w是有类似公式结构的。
论文的后面通过做了6个分类任务,从三个方面分析了显示的fine-tuning和ICL之间的关系。结论就是ICL和显示的fine-tuning有类似的能力。

你可能感兴趣的:(gpt,语言模型,人工智能)