Transformer 综合讲解15-20章

第15: Question Generation综合案例源码、测试及调

1,从TextMultiple choice question数学原理、使用的Transformer知识、架构设

1,自动生成错误的问题选

2,使用GPT2自动生成对错二分类的问

3,使用Transformer生成多选题

4,使用Transformer自动生成完形填空题

5,使用Transformer基于特定内容生成问

6,完整案例调试分析

7,使用fastAPI部署、测试Transformer

8,使用TFX部署、测试Transformer

16章:Kaggle BERT比赛CommonLit Readability Prize赛题解析、Baseline代码解析、及比赛常见问

1,以问题为导向的Kaggle Data Competition

2,为何Kaggle上的NLP 80%以上都是文本分类比赛,并必须使用Neural Networks

3,文本复杂度衡量不同类型实现技术分

4,比赛的Training数据集分析:idurl_legallicenseexcerpttargetstandard_error

5,比赛的评价指标分

6ReadabilityNLP Classification or Regression based on neural networks

7Kaggle比赛通用步骤:Data - Cleaning - Store - GridSearch - Model - Prediction

8,比赛外部数据集分

9,比赛使用的硬件条件分

10Training SetValidation SetTest Set

11,比赛的双层Pretraining技术解

12Pretraining的三大类型解析:ITPTIDPTCDPT

13,传统的Statistics Method建模 + 树模

14Statistical features构建源码分

15,融合统计信息并使用Regression模型解

16,使用RoBERTa模型解

17,使用AutoModelForMaskedLM

18TrainConfig

19,模型的Tokenizer

20,模型加

21,对RoBERTa进行pretrain源码解析解决原声BERT和比赛数据领域Discrepancy的问

22Model weights保存时的jsonbin

23,使用Kaggle Notebook加载第一次pretrain后的模

24,验证集:K-FoldSampling等分

25Early stoping

26,把Examples转为Features

27DatasetRetriever源码实现详

28Input IDsAttention MaskToken type IDs

28CommonLitModel源码之regressor

30CommonLitModel源码之Loss

31CommonLitModel源码之train方法源码解

32finetuning中的AutoModel

33fineturning完整源码解

34Local CV

35RoBERTa Base + RoBERT Large

36,对不同子模型结果的处

37Classification实现解

38,通过Kaggle KernelGPU的使

39Submission过程解

40,为何比赛时不要私下共享数据

41kernel赛能够在本地进行训练和微调,然后在上传到Kaggle上吗

42,如何在kaggle kernel加载外部模型

43RobertaModel提示not initialized的情况下该如何处理

44kernel无法提交应该如何处理

45,提交后报错该如何处理

46CV和公开榜单应该更加注重哪一个

47,使用BERT比赛的时候最重要的Hyper Parameter是什么

48,如何选择GPU训练平台

49,在Kaggle上运行Notebook的时候一直是等待状态该怎么处理

50,在kernel中如何运行脚本文件

51,如何解决BERT训练效果反复波动的情况

52,为何看到的效果并不是最终的结果

17章: BERT CommonLit Readability Prize比赛技术进阶详

1Data Label based on pairwise comparisions between excerpts

2Target中数字为0的原因解

3,文本对比中的技

4targetstd构成联合信

5Coarse Validation Loop

6private test set

7Hold-out validationK-fold CV validationBootstrap resampling

11Diversity of modelsRoBERTaBERTDistilRoBERTa等联合使

12,模型参数多样化:不同来源、不同层次的参数及Hyper parameters

13,多模型结合的traininginference时间复杂度分

14,验证集pretraining的意义分

15,对embeddingssize的处

16FFN代码分

17warmup数学原理及实现剖

18learning rate scheduler

19RoBERTa模型参数结构详

20Data enhancement解析和实

21,外部数据集应该用在two-phase pretraining的具体什么阶段

22,多样性模型背后的数学原理机制深度剖

23,多样性数据来源背后的数学原理剖

24,多层次数据编码数学原理分

25One-hot编码和Dense embeddings的巧妙结

26,对抗网络的使用分

27,长文本处理技巧:head+tail

28,模型训练不收敛的解决技巧:动态learning rate

29,联合使用不同类别的预训练模型作为输入的Embedding层来提高收敛速度及避免过拟合背后的数学原理剖

30,为何concatenationembedding很适合Classification任务

31Trainable Parameters开启与停

32Sentence vectorTFIDF、监督任务、及SIF

33Adversarial trainingFGSM产生Adversary examples

34,为何Adversarial training应用到NLP文本到时候一般都是对Embedding层进行Adversary操作?背后的贝叶斯数学原理及神经网络工作机

35Adversarial training的五步骤详

36Adversarial training能够极大的提升NLP效果的数学原理剖

37Adversarial trainingAdversarial exampleReadability Prize比赛的应

38,对每个Batch进行Adversarial training源码解

39Data augmentation方法Easy Data Augmentation解析及实

40,基于BERT模型生成高质量的增强数

41,孪生网络的使

42Dynamic Padding解析及源码实

43Uniform Length Batching解析及源码实

44Gradient Accumulation解析及源码实

45Freeze Embedding解析及源码实

46Numeric Precision Reduction解析及源码实

47Gradient Checkpoining解析及源码实

48,使用memory-profiler来对进程及Python内存使用逐行分

49,使用subprocess监视GPU使

50Debiasiing Omission in BertADAM

51Re-Initializing Transformer Layers

52Utilizing Intermediate Layers

53LLRDLayer-wise Learning Rate Decay

54Mixout Regularization

55Pre-trained Weight Decay

56Stochastic Weight Averaging

57,将code存储为dataset存储来更好的使用Kaggle的内存和计算资

18章:BERT CommonLit Readability Prize比赛中的高分思路及源码解

1Ensemble methods

2ML中的机器学习:BaggingBoostingGBDT

3Kaggle比赛中的Ensemble methodsVoteBlendStacking

4,为何Kaggle竞赛中的Ensemble methods会获得更好的精度

5Bagging ensemble methodrow-based samplingcolumn-based sampling

6Bagging ensemble method中的并行训练及预

7Boosting串行训练多个模型:多错误样本权重调整、拟合误

8BlendAverage:对结果基于精度进行加权求

9Stackingout of fold及交叉验

10,模型和特征多样

11,比赛对Bagging的使

12,比赛对Boosting的使

13,深度学习中的模型集成方法:Dropout

14,训练阶段调整句子顺序Flipping

15,对Ensemble进行Snapshot

16Stochstic Weight Averaging

17Pseudo Label解析:基于方差的标签构

18KernelPseudo Label和非Kernel赛的Pseudo Lable

19Pseudo Lable实现四步骤详

20Knowlede distillation soft label

21,用于分类的network distillationembedding layertransformer layerprediction layer

22public LBprivate LB

23,借助Roberta-large+和训练集相同books的外部数据

24,使用Pooling解析及代码实现解

25,混合使用不同来源的特征工程结果进行集

26,高分作品1完整源码剖

27,高分作品2完整源码剖

28,高分作品3完整源码剖

29,高分作品4完整源码剖

30,高分作品5完整源码剖

19章:NLP阅读理解MRC(Machine Reading Comprehension)数学原理、技术本质及常见算

1,以一篇119WordsGRE(Graduate Record Examinations)文章及2个相应的阅读理解题目为例来剖析阅读理解的过程及其背后的机

2MRC在智能客服、机器问答、搜索引擎等等广泛应用背后的原因:规模化价值复

3,信息的本质及信息理解的本质数学机制剖

4MRC三元素:Question-Context-Answer数学模型及技术本质剖

5MRC的核心:Attention Computations

6MRC对信息理解三大层次解析及背后对应的数学模

7MRC实现方法之传统特征工程解

8MRC实现方法之深层语意图匹配解

9MRC实现方式之神经网络及Attention机制解

10MRC数据之Single-DocumentMultiple-Document

11MRC的四大核心任务之Cloze Tests数据集、数学原理和技术本质剖

12MRC的四大核心任务之Multiple Choice数据集、数学原理和技术本质剖

13MRC的四大核心任务之Span Extraction数据集、数学原理和技术本质剖

14MRC的四大核心任务之Free Anwering数据集、数学原理和技术本质剖

15Cloze Tests数据集分析:CNN&Daily MailCBT

16Multiple Choice数据集分析:MC TestRACE

17Span Extraction数据集分析:SQuADNewsQA

18Free Answering数据集分析:MS MARCODuReader

19MRC的测试集解析:In-domainOver-sensitivityOver-stabilityGeneralization

20MRC的可回答问题及无答案问题数学原理剖析及BERT

21MRCFeature extraction数学原理及算法分

22,传统Machine Learning AlgorithmsMRC 算法解

23BiDAF (Bi-Directional Attention Flow)下的MRC算法解

24QANet下的MRC算法解

25Transformer架构下的BERTALBERT下的MRC

26Transformer架构下的XLNET下的MRC

20章:MRC通用架构双线模型内核机制、数学原理、及组件内

1,双线模型架构解析:Multiple EncodersInteraction

2,双线模型中为何Interaction环节是实现信息理解的关键

3,双线模型底层数学原理剖

4Embeddings下的One-hot Representation及多层One-hot机制解

5Embeddings下的Word2vecCBOW模型解析及源码实

6Embeddings下的Word2vecSkipgram模型解析及源码实

7MRCGloVe: Global Vectors for Word Representation架构解析及源码实

8MRC 下解决一次多义Elmo架构解析及源码实

9,使用BERT进行Embeddings架构及最佳实践解

10Feature Extraction下的CNN模型解析及源码实

11Feature Extraction下的RNN模型解析及源码实

12Feature Extraction下的Transformer Encoder或者Decoder的架构解析及源码实

13MRC灵魂:Context-Question InteractionQuestion-Context Interaction

14Answer PredictionWord Predictor数学原理及源码实现剖

15Answer PredictionOption Predictor数学原理及源码实现剖

16Answer PredictionSpan Extractor数学原理及源码实现剖

17Answer PredictionAnswer Generator数学原理及源码实现剖

18MRC中的Negative Sampling数学机制及具体实

19BERTMRC中无答案问题处理剖析及实

20MRC on Knowledge Graph

21,对MRC进行Evaluation MetricsAccuracyPrecisionRecallF1

22,对MRC进行Evaluation MetricesRouge-L

23,对MRC进行Evaluation MetricsBLEU

24,提升MRC能力的7大方法详

你可能感兴趣的:(深度学习,人工智能,自然语言处理)