Fine-tuning Approaches -- OpenAI GPT 学习笔记

1、Fine-tuning Approaches

从语言模型转移学习的一个趋势是,在监督的下游任务中相同模型的微调之前,一个语言模型目标上预训练一些模型体系结构。这些方法的优点是几乎没有什么参数需要从头学习。至少部分由于这一优势,OpenAI GPT在GLUE benchmark的许多句子级别任务上取得了以前最先进的结果。

微调是必须非常精确地调整模型参数以适应某些观察的过程。在没有已知机制来解释为什么参数恰好具有它们返回的观察值的情况下,需要微调的理论被认为是有问题的。

2、OpenAI GPT

该方法主要结合了Transfromer和无监督预训练。

主要分为两个阶段:
(1)首先以无监督的方式在大型数据集上训练一个 Transformer,即使用语言建模作为训练信号。
(2)然后在小得多的有监督数据集上精调模型以解决具体任务。
Fine-tuning Approaches -- OpenAI GPT 学习笔记_第1张图片

这一项研究任务建立在Semi-supervised Sequence Learning论文中所提出的方法,该方法展示了如何通过无监督预训练的 LSTM 与有监督的精调提升文本分类性能。这一项研究还扩展了论文Universal Language Model Fine-tuning for Text Classification所提出的 ULMFiT 方法,它展示了单个与数据集无关的 LSTM 语言模型如何进行精调以在各种文本分类数据集上获得当前最优的性能。

OpenAI 的研究工作展示了如何使用基于 Transformer 的模型,并在精调后能适应于除文本分类外其它更多的任务,例如常识推理、语义相似性和阅读理解。

该方法与 ELMo 相似但更加通用,ELMo 同样也结合了预训练,但需要使用为任务定制的架构以在各种任务中取得当前顶尖的性能。

OpenAI 只需要很少的调整就能实现最后的结果。所有数据集都使用单一的前向语言模型,且不使用任何集成方法,超参配置也与大多数研究成果相同。

附录:
Transformer详解
https://daiwk.github.io/posts/nlp-openai-gpt.html

你可能感兴趣的:(NLP)