《Improving BERT-Based Text Classification With Auxiliary Sentence and Domain Knowledge》论文笔记

模型

模型部分与Bert论文完全一致,只是为分类任务的输入样本构建了“辅助序列”——这种方法只适用于“单序列分类”,对于“语句相似性”等句对分类任务不适用。

《Improving BERT-Based Text Classification With Auxiliary Sentence and Domain Knowledge》论文笔记_第1张图片
上图输入部分的 a i a_i ai 表示的是人工构建的辅助序列的token。

作者提出三种构建“辅助序列”的策略,1)辅助序列是一个不包含标签信息的问句, 用BERT4TC-AQ标识;2)辅助序列是只包含一个标签名称的文本描述,用BERT4TC-AA标识;3)辅助序列是一个仅包含一个标签名称与若干其它词的文本描述, 用BERT4TC-AWA标识。

作者后续实验证明,BERT4TC-AQ 与 BERT4TC-AWA的效果比 BERT4TC-AA 差,这里重点记录BERT4TC-AA。 对于 BERT4TC-AA,在 c c c 分类条件下, 每一训练样本,需要转换成 c c c 个0-1二分类,只有一个样本真实标签为1, 其余的为0。在推断阶段,取 c c c 个预测为标签1的概率值, 概率最大的那个辅助序列对应的类就是预测的类别。

《Improving BERT-Based Text Classification With Auxiliary Sentence and Domain Knowledge》论文笔记_第2张图片

实验结果

《Improving BERT-Based Text Classification With Auxiliary Sentence and Domain Knowledge》论文笔记_第3张图片
《Improving BERT-Based Text Classification With Auxiliary Sentence and Domain Knowledge》论文笔记_第4张图片
对于短文本,学习率取2e-5效果; 长文本,学习率取1e-5效果最佳。总的来说较低的学习率比更激进的学习率效果会好些,同时,通过长短数据集上的实验结果,是否可以得到“对于难度越大的任务,取相对更小的学习率具有更好的效果”的结论?

《Improving BERT-Based Text Classification With Auxiliary Sentence and Domain Knowledge》论文笔记_第5张图片

这部分的实验是本论文的核心论证:1)BERT4TC-AQ不仅没能提升效果,反而降低模型效果。原因是引入了无效的信息,反而产生了噪声的负面效果。2)对于二分类任务,无论何种形式的辅助序列,效果均不如原始单序列输入。3)对于多分类任务,BERT4TC-AA 与 BERT4TC-AWA 优于 BERT4TC-S,可能原因除了训练数据量的增加,还可能是“降低易混淆类别的歧义”。 4)置于 BERT4TC-AA 优于 BERT4TC-AWA 表明,构建辅助序列时仅包含“标签名称”已足够,引入额外词汇可能反而加入噪声。

你可能感兴趣的:(NLP,NLP)