Raki的读paper小记:How to Fine-Tune BERT for Text Classification?

咕咕咕我疯狂的咕咕咕,最近狠狠摆烂了几天,决定写一下blog!

摘要与总结

在本篇paper中,作者做了详尽的实验来研究文本分类中不同Bert的微调方法,并提供了一个通用的解决方案

最终通过实验发现:

  • Bert的最顶层对于文本分类更加有效
  • 在适用层级别的学习率衰减的情况下,Bert可以很好的克服遗忘的问题
  • Within-task和in-domain的预训练可以显著提高表现
  • 一个事先的多任务fine-tuning同样对单任务有效,但是效果弱于预训练
  • Bert能改进小数据量的任务

方法

Fine-Tuning Strategies

  • 文本长度大于512怎么办?
    Raki的读paper小记:How to Fine-Tune BERT for Text Classification?_第1张图片
    head+tail方法是最优的
    Raki的读paper小记:How to Fine-Tune BERT for Text Classification?_第2张图片

  • 选择分类效果最优的层

最后一层…(这不是肯定的吗)
Raki的读paper小记:How to Fine-Tune BERT for Text Classification?_第3张图片

  • 遗忘的问题,选择合适的学习率和衰减率

2e-5 + 0.95达到了最优
Raki的读paper小记:How to Fine-Tune BERT for Text Classification?_第4张图片
Raki的读paper小记:How to Fine-Tune BERT for Text Classification?_第5张图片

Further Pre-training

  • 任务内预训练(在目标任务的训练集上预训练)
  • 领域内预训练(在同领域的目标任务的数据集上预训练)
  • 交叉领域预训练

In-Domain and Cross-Domain Further Pre-Training
Raki的读paper小记:How to Fine-Tune BERT for Text Classification?_第6张图片

Multi-task Fine-Tuning

Bert共享前面的11层,最后一层用于分类,是各任务私有的
Raki的读paper小记:How to Fine-Tune BERT for Text Classification?_第7张图片

Raki的读paper小记:How to Fine-Tune BERT for Text Classification?_第8张图片

Few-Shot Learning

Raki的读paper小记:How to Fine-Tune BERT for Text Classification?_第9张图片

Further Pre-Training on BERT Large

Raki的读paper小记:How to Fine-Tune BERT for Text Classification?_第10张图片

评价

首先这篇paper的实验确实做的很足很足(废话)

提供了bert调参的方法,学到了长文本的截断最优方法,最后一层的分类效果最好(不然呢?)

其他的不知道说什么了,我感觉看起来都挺理所当然的(:

你可能感兴趣的:(NLP,读paper,bert,人工智能,深度学习,自然语言处理,算法)