说明之前的大模型其实有很多都是基于迁移学习的方法。
attention机制的总结,解决了信息瓶颈的问题。 处理词组时BPE的过程 pos表示的是token所在的位置 技巧是layer normalization。