“Transformer 的一切高级形态归根结底都是基于贝叶斯的线性变换。”
NLP on Transformers 101
(基于Transformer的NLP智能对话机器人实战课程)
One Architecture, One Course,One Universe
本课程以Transformer架构为基石、萃取NLP中最具有使用价值的内容、围绕手动实现工业级智能业务对话机器人所需要的全生命周期知识点展开,学习完成后不仅能够从算法、源码、实战等方面融汇贯通NLP领域NLU、NLI、NLG等所有核心环节,同时会具备独自开发业界领先智能业务对话机器人的知识体系、工具方法、及参考源码,成为具备NLP硬实力的业界Top 1%人才。
课程特色:
第7章: BERT Fine-tuning源码完整实现、调试及案例实战
1,数据预处理训练集、测试集源码
2,文本中的Token、Mask、Padding的预处理源码
3,数据的Batch处理实现源码及测试
4,加载Pre-training模型的BertModel及BertTokenizer
5,模型Config配置
6,Model源码实现、测试、调试
7,BERT Model微调的数学原理及工程实践
8,BERT Model参数Frozen数学原理及工程实践
9,BertAdam数学原理及源码剖析
10,训练train方法源码详解
11,fully-connected neural network层源码详解及调试
12,采用Cross-Entropy Loss Function数学原理及代码实现
13,Evaluation 指标解析及源码实现
14,Classification任务下的Token设置及计算技巧
15,适配特定任务的Tokenization解析
16,BERT + ESIM(Enhanced Sequential Inference Model)强化BERT模型
17,使用BERT + LSTM整合强化BERT 模型
18,基于Movie数据的BERT Fine-tuning案例完整代码实现、测试及调试
第8章: 轻量级ALBERT模型剖析及BERT变种中常见模型优化方式详解
1,从数学原理和工程实践的角度阐述BERT中应该设置Hidden Layer的维度高于(甚至是高几个数量级)Word Embeddings的维度背后的原因
2,从数学的角度剖析Neural Networks参数共享的内幕机制及物理意义
3,从数学的角度剖析Neural Networks进行Factorization的机制及物理意义
4,使用Inter-sentence coherence任务进行模型训练的的数学原理剖析
5,上下文相关的Hidden Layer Embeddings
6,上下午无关或不完全相关的Word Embeddings
7,ALBERT中的Factorized embedding parameterization剖析
8,ALBERT中的Cross-Layer parameter sharing机制:只共享Attention参数
9,ALBERT中的Cross-Layer parameter sharing机制:只共享FFN参数
10,ALBERT中的Cross-Layer parameter sharing机制:共享所有的参数
11,ALBERT不同Layers的Input和Output相似度分析
12,训练Task的复杂度:分离主题预测和连贯性预测的数学原因及工程实践
13,ALBERT中的不同于BERT的 Sentence Negative Sampling
14,句子关系预测的有效行分析及问题的底层根源
15,ALBERT的SOP(Sentence Order Prediction)实现分析及工程实践
16,ALBERT采用比BERT更长的注意力长度进行实际的训练
17,N-gram Masking LM数学原理和ALERT对其实现分析
18,采用Quantization优化技术的Q8BERT模型架构解析
19,采用Truncation优化技术的“Are Sixteen Heads Really Better than One?”模型架构解析
20,采用Knowledge Distillation优化技术的distillBERT模型架构解析
21,采用多层Loss计算+知识蒸馏技术的TinyBERT模型架构解析
22,由轻量级BERT带来的关于Transformer网络架构及实现的7点启示
第9章: ALBERT Pre-training模型及Fine-tuning源码完整实现、案例及调试
1,Corpus数据分析
2,Pre-training参数设置分析
3,BasicTokenizer源码实现
4,WordpieceTokenizer源码实现
5,ALBERT的Tokenization完整实现源码
6,加入特殊Tokens CLS和SEP
7,采用N-gram的Masking机制源码完整实现及测试
8,Padding操作源码
9,Sentence-Pair数据预处理源码实现
10,动态Token Length实现源码
11,SOP正负样本源码实现
12,采用了Factorization的Embeddings源码实现
13,共享参数Attention源码实现
14,共享参数Multi-head Attention源码实现
15,LayerNorm源码实现
16,共享参数Position-wise FFN源码实现
17,采用GELU作为激活函数分析
18,Transformer源码完整实现
19,Output端Classification和N-gram Masking机制的Loss计算源码
20,使用Adam进行优化源码实现
21,训练器Trainer完整源码实现及调试
22,Fine-tuning参数设置、模型加载
23,基于IMDB影视数据的预处理源码
24,Fine-tuning阶段Input Embeddings实现源码
25,ALBERT Sequence Classification参数结构总结
26,Fine-tuning 训练代码完整实现及调试
27,Evaluation代码实现
28,对Movie数据的分类测试及调试