第30章:使用disentangled attention机制Transformer模型DeBERTa架构及完整源码实现

1,使用两个vector来编码每个word的content和position

2,在pretraining阶段使用output enhanced mask decoder取代softmax layer对masked words预测的数学原理剖析

3,DebertaEmbeddings完整源码实现解析

4,DebertaPreTrainedModel完整源码实现解析

5,Disentangled Attention算法剖析

6,DebertaTokenizer完整源码实现解析

7,XDropout完整源码实现解析

8,StableDropout完整源码实现解析

9,XSoftmax完整源码实现解析

10,ContextPooler完整源码实现解析

11,DebertaLayerNorm完整源码实现解析

12,DebertaSelfOutput完整源码实现解析

13,build_relative_position完整源码实现解析

14,DebertaAttention完整源码实现解析

15,DebertaIntermediate完整源码实现解析

16,DebertaOutput完整源码实现解析

17,DebertaLayer完整源码实现解析

18,DebertaEncoder完整源码实现解析

19,DisentangledSelfAttention完整源码实现解析

20,DebertaModel完整源码实现解析

21,DebertaForMaskedLM完整源码实现解析

22,DebertaPredictionHeadTransform完整源码实现解析

23,DebertaLMPredictionHead完整源码实现解析

24,DebertaOnlyMLMHead完整源码实现解析

25,DebertaForSequenceClassification完整源码实现解析

26,DebertaForTokenClassification完整源码实现解析

27,DebertaForQuestionAnswering完整源码实现解析

你可能感兴趣的:(Transformer,NLP,StarSpace,语言模型,架构,自然语言处理)