LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy

  • Arxiv日期:2022.9.29
  • 机构:Google DeepMind / Stanford

关键词

  • transformer架构原理
  • 乔姆斯基体系
  • 长度泛化

核心结论

1. 虽然Transformer理论上具有图灵完备性,但在实践中能力受到位置不变性有限记忆的限制

2. Transformer在一些任务中表现较差,例如正则语言任务(如Parity Check),表明其与Chomsky层级的对齐性不佳

3. Transformer在序列长度超出训练范围时表现出较差的泛化能力,这可能归因于位置编码在长序列上的值超出分布范围

主要方法

通过对神经网络在序列预测任务上的泛化能力进行大规模实证研究,探索其在不同Chomsky层级任务上的表现,以及如何通过模型架构的改进提升其能力。

研究主要关注不同神经网络(RNN、LSTM、Transformer等)在处理形式语言任务时的表现,并试图将这些网络与Chomsky层级的理论模型联系起来:

LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy_第1张图片

主要任务和实验结论:

LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy_第2张图片

强调了Transformer和LSTM等先进模型在长序列泛化能力上存在显著不足,尤其是在任务复杂性超过其理论极限时。

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

你可能感兴趣的:(大模型论文阅读,论文阅读,人工智能,深度学习,笔记,语言模型)