You Only Cache Once: Decoder-Decoder Architectures for Language Models
这篇论文介绍了一种名为YOCO(YouOnlyCacheOnce)的新型解码器-解码器架构,专为大型语言模型设计,以提高推理效率和性能。以下是其核心内容的总结:YOCO架构关键特点:双重解码器结构:YOCO由自解码器和交叉解码器两部分组成,自解码器生成全局键值(KV)缓存,交叉解码器通过交叉注意力机制重用这些缓存。单次缓存:与标准Transformer相比,YOCO只缓存一次KV对,显著减少了GP