GPT论文解读

  GPT:Generative Pre-Training。

文章目录

  • 1. 摘要
  • 2. 结论
  • 3. 损失函数

1. 摘要

  概述(NLU包含多个具体的子任务)->现状导致了挑战(未标注数据远远超过了标记数据)->使用GPT的方法(具体包含discriminative fine-tuning)产生了很大的进步->相比于以前的方法,充分利用了task-aware input transformation->具体产生了哪些提升。

2. 结论

  工作的概述:NLU Framework = GPT+discriminative fine-tune。通过在长文本上进行预训练获取知识,然后再通过迁移学习来更好的解决子任务。

  总分总:在机器学习领域中,通过非监督学习(自监督学习)来提升效果是非常重要的。我们的工作证明了使用Transformer模型+长文本就能发挥出很好的效果。希望能够推动NLU和其他领域的发展。

3. 损失函数

  语言模型的标准目标是将以下似然函数进行最大化(负无穷到0)。 u = { u 1 , … , u n } u=\{u_1, \dots,u_n\} u={u1,,un}
L ( u ) = ∑ i l o g   P ( u i ∣ u i − k , … , u i − 1 ; Θ ) L(u)=\sum _{i} log\ P(u_i|u_{i-k},\dots,u_{i-1};\Theta) L(u)=ilog P(uiuik,,ui1;Θ)

你可能感兴趣的:(深度学习,神经网络,自然语言处理)