RWKV入门

主要参考资料
B站视频《【项目原作解读】RWKV Foundation侯皓文:新型RNN模型RWKV,结合Transformer的并行化训练优势和RNN的高效推理》
RWKV官网: https://www.rwkv.com/

目录

  • 前言
  • RWKV由来
  • 模型架构
  • 关键结果
  • 劣势
  • 未来展望

前言

RNN无法并行化,Transformer的二次复杂度,RWKV的改善。
RWKV入门_第1张图片

RWKV由来

RNN的局限是无法进行并行化训练,相较Transformer处于劣势。
RWKV入门_第2张图片

继《Attention is all you need》横空出世后,针对Transformer的二次Attention,苹果提出AFT的线性Attention,RWKV受苹果启发,提出时间衰减向量的概念。
RWKV入门_第3张图片

模型架构

一个Embeding Input进入RWKV,首先会进入Time-mixing模块,会跟之前的文本信息进行一次融合。之后是channel-mixing模块,会对每个词的channel进行混合和非线性,增强非线性能力。
RWKV入门_第4张图片

关键结果

在LAMBADA测试集中,RWKV的劣势在参数量小的时候,与Transformer有一定的差距,因为Transformer可以将过去的数据集都拉出来重算一遍。
但是在7B时RWKV已经接近Tranformer,14B时已经不相上下。因此从模型角度RWKV更有优势。
PS:但是GPT-3已经是175B的数据量了。。。
GPT:无所谓,我有钱
RWKV入门_第5张图片

再次重申,RWKV的优越性,时间复杂度更低。
RWKV入门_第6张图片

数据量7B的RWKV至少需要CPU内存12GB 或者 显卡显存9GB。。。
RWKV入门_第7张图片

劣势

RNN的特性,让RWKV在对前文的记忆很差,因此需要精心设计prompt。
RWKV入门_第8张图片

未来展望

(1)RWKV可以进一步提高效率(遗忘是不是更严重?)
(2)增加多模态,现在只是decoder
RWKV入门_第9张图片

你可能感兴趣的:(AIGC,人工智能)