论文笔记 arxiv 2019|DocBERT: BERT for Document Classification

文章目录

    • 1 简介
      • 1.1 创新
    • 2 方法
    • 3 实验

1 简介

论文题目:DocBERT: BERT for Document Classification
论文来源:arxiv 2019
论文链接:https://arxiv.org/pdf/1904.08398.pdf
代码链接:https://github.com/castorini/hedwig

1.1 创新

  • 第一个将BERT用于文档分类,达到SOAT效果。
  • 使用知识蒸馏(参考链接),将 B E R T l a r g e BERT_{large} BERTlarge转换为较少参数的双向LSTM,可以达到和 B E R T b a s e BERT_{base} BERTbase相同水平的性能。

2 方法

使用BERT最后一层的[CLS]向量进行分类,同时使用知识蒸馏将 B E R T l a r g e BERT_{large} BERTlarge转换为较少参数的双向LSTM,蒸馏的目标是最小化p(学生模型的类别概率)和q(教师模型的类别概率)的kl散度。
在这里插入图片描述

3 实验

进行实验的数据集统计如下:
论文笔记 arxiv 2019|DocBERT: BERT for Document Classification_第1张图片
实验结果如下:
论文笔记 arxiv 2019|DocBERT: BERT for Document Classification_第2张图片
蒸馏后在验证集上的时间效率对比如下:
论文笔记 arxiv 2019|DocBERT: BERT for Document Classification_第3张图片
在验证集上参数的数量与预测的质量的变化,如下图
论文笔记 arxiv 2019|DocBERT: BERT for Document Classification_第4张图片

你可能感兴趣的:(NLP,论文,自然语言处理,深度学习,文档理解)