论文阅读 (三)BERT学习

视频
BERT 论文逐段精读【论文精读】
https://www.bilibili.com/video/BV1PL411M7eQ?spm_id_from=333.999.0.0
https://www.bilibili.com/video/BV1PL411M7eQ?t=6.4
笔记
https://www.bilibili.com/read/cv14068934?from=note

【来自自评论区】
1.摘要(Abstract):与别的文章的区别是什么?效果有多好?主要与ELMO和GPT对比

2.引言(Introduction):语言模型的简单介绍;摘要第一段的扩充;主要想法;如何解决所遇到的问题;

贡献点:双向信息的重要性(句子从左看到右,从右看到左)、在BERT上做微调效果很好、代码开源

3.结论(Conlusion):无监督的预训练很重要(在计算机视觉领域,在没有标签的数据集上做训练比在有标签的数据集上做训练效果会更好);主要贡献是将这些发现进一步推广到深度双向架构,使相同的预训练模型能够成功处理一系列的 NLP 任务。

在本篇论文的结论中最大贡献是双向性(在写一篇论文的时候,最好有一个卖点,而不是这里好那里也好)。

选了选双向性带来的不好是什么?做一个选择会得到一些,也会失去一些。

缺点是:与GPT(Improving Language Understanding by Generative Pre-Training)比,BERT用的是编码器,GPT用的是解码器。BERT做机器翻译、文本的摘要(生成类的任务)不好做。

但分类问题在NLP中更常见。

完整解决问题的思路:在一个很大的数据集上训练好一个很宽很深的模型,可以用在很多小的问题上,通过微调来全面提升小数据的性能(在计算机视觉领域用了很多年),模型越大,效果越好(很简单很暴力)。

你可能感兴趣的:(论文阅读,bert,自然语言处理,深度学习)