上下文扩展技术-详细解释Longformer和BigBird的主要创新;详细说明bert原理,并说一说他的上下文限制是怎么来的
答案LongformerLongformer是为有效处理长文本序列而设计的Transformer模型,它通过结合滑动窗口注意力机制和扩张注意力模式来捕捉局部和远距离的上下文信息,并通过全局注意力来捕捉整个文档的广泛背景和联系1.Keyinnovations:滑动窗口注意力Longformer使用滑动窗口方法处理本地上下文信息1.扩张注意力模式扩张注意力模式能够捕捉到远处的上下文信息,这对于处理冗长