【论文笔记】GPT,GPT-2,GPT-3

【论文笔记】GPT,GPT-2,GPT-3_第1张图片

参考:GPT,GPT-2,GPT-3【论文精读】


GPT

Transformer的解码器,仅已知"过去",推导"未来"

论文地址:Improving Language Understanding by Generative Pre-Training

【论文笔记】GPT,GPT-2,GPT-3_第2张图片

半监督学习:无标签数据集预训练模型,有标签数据集 微调


BERT

Transformer的编码器,完形填空,已知 “过去” 和 “未来”,推导中间值

论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

【论文笔记】GPT,GPT-2,GPT-3_第3张图片
【论文笔记】GPT,GPT-2,GPT-3_第4张图片


GPT-2

zero-ont - 探索 模型泛化能力;兼容 下游任务 的无障碍使用;

论文地址:Language Models are Unsupervised Multitask Learners

【论文笔记】GPT,GPT-2,GPT-3_第5张图片


GPT-3

引入 prompt,提升 GPT-2 的有效性;

论文地址:language models are few-shot learners


【论文笔记】GPT,GPT-2,GPT-3_第6张图片



写在最后:若本文章对您有帮助,请点个赞啦 ٩(๑•̀ω•́๑)۶

你可能感兴趣的:(论文,NLP,论文阅读,gpt)