Transformer的无限之路:位置编码视角下的长度外推

Transformer的无限之路:位置编码视角下的长度外推_第1张图片

题目

Transformer的无限之路:位置编码视角下的长度外推

内容

  1. 长度外推的定义及研究动机 (5min)

  2. 可外推的位置编码 (20min)

  3. 大模型时代的外推方法 (10min)

  4. 挑战和开放问题 (5min)

  5. QA讨论环节(20mins)

介绍

在自然语言处理领域,Transformer 模型因其在序列建模中的卓越性能而受到广泛关注。然而,Transformer 及在其基础之上的大语言模型(LLMs)都不具备有效长度外推(Length Extrapolation)的能力。这意味着,受限于其训练时预设的上下文长度限制,大模型无法有效处理超过该长度限制的序列。

文本续写和语言延展是人类语言的核心能力之一,与之相对的,长度外推是语言模型智能进化的重要方向,也是在大模型时代最为高效的将模型的能力迁移到长序列数据的重要方法,对该问题的研究兼具理论价值和应用价值。因此,大量的相关工作持续涌现,在不断扩展语言模型能力边界的同时,也呼唤一篇系统性的综述来对这一领域进行概览。

因此,我们从位置编码(Position Encoding, PE)的角度出发,全面地总结了 Transformer 模型在长度外推方面的研究进展,系统地回顾了各种旨在增强 Transformer 长度外推能力的方法,主要包括可外推的位置编码和基于这些位置编码的拓展方法。

主持人

Transformer的无限之路:位置编码视角下的长度外推_第2张图片

华文越
罗格斯大学在读博士,新布朗斯维克分校
导师:张永锋老师
方向:LLM,llm-based agent
论文:ICLR, NeurIPS, EMNLP, TACL
评审:ACL/EMNLP/SIGIR/WWW/WSDM/RecSys
主页:https://wenyueh.github.io

分享嘉宾

Transformer的无限之路:位置编码视角下的长度外推_第3张图片

赵亮,目前是哈尔滨工业大学社会计算与信息检索研究中心的硕士一年级学生,导师为冯骁骋副教授,感兴趣的研究方向为长文本建模与长度外推。

预约

时间

2024.1.20 10:30-11:30
本周六上午不见不散~

视频号和b站都可预约~

Transformer的无限之路:位置编码视角下的长度外推_第4张图片

进群

为了方便讨论,建立了一个交流群,分享嘉宾也在里面,可以面对面探讨更多细节~

Transformer的无限之路:位置编码视角下的长度外推_第5张图片
往期视频

你可能感兴趣的:(transformer,深度学习,人工智能)