LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly
Arxiv日期:2024.2.14机构:GoogleDeepMind/UniversityofToronto关键词长度泛化位置编码数据格式核心结论1.实验结论:十进制加法任务上的长度泛化最佳组合:FIRE位置编码随机化位置编码反向数据格式索引提示(indexhints,辅助定位)2.在适当的配置下,Transformer模型可以泛化到训练序列长度的2.5倍(例如从40位加法训练成功泛化到100位加