squeezeLM

推荐频道

squeezeLM

SqueezeLM 的想法，压缩输入句子潜变量，生成下一句子

又搞了一段时间。还是感觉LongNet那种空洞注意力做编码器有搞头。RetNet等AFT方法，直接生成太长的句子感觉有点难度，不过可以一句句生成，每次生成短句，这样感觉比较合适。启发受MemroyTransformer和GLM启发想了一个类似T5的设计，包含编码器和解码器只使用拼接和CausalSelfAttention，不使用CrossAttention可以等价省去T5的解码器里面的交叉注意力层

ONE_SIX_MIX·2023-08-01 07:25

上一页 1 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他