多标签文本分类-multi label text classification 推荐论文

多标签分类问题的目标是同时进行多个 label 的识别,且这些 label 是有一定关联的;而传统的 多类别分类问题,仅仅是一个样本包含一个 label。

多标签文本分类也可以用一般的文本分类来做,只不过损失函数需要替换为sigmoid 交叉熵,如果样本单标签占比比较大,则还是选用文本分类任务来做,推荐的论文链接,如果多标签样本比较多,而且标签之间有很强的关联性,则需要特殊对待多标签文本分类,这里推荐几篇做多标签文本分类的论文。

论文题目 发表会议 发表年份 网络结构 论文方法
Semantic-Unit-Based Dilated Convolution for Multi-Label Text Classification EMNLP 2018 seq2seq_MDC_attention 作者利用 Seq2Seq 模型解决 Multi-Label Classific(MLC),通过在 LSTM 产生的 word-level 上的表示进行多级的 Dilated Convolution 来捕获更高级别的 semantic unit的信息,进而增强 Seq2Seq 的效果。进一步地,作者将高层的 attention 和词级别的 attention 做了整合,提出 Hybrid Attention 来兼顾各个级别表示的信息。

SGM: Sequence Generation Model for Multi-label Classification

COLING

 2018

seq2seq_attention

作者提出把MLC任务变为一个序列生成问题,用以把label的相关关系考虑在内。并且提出带有一个新的decoder结构的序列生成模型,这不仅能够捕获标签之间的相关关系,而且在预测的时候自动选择最有信息量的单词。

A Deep Reinforced Sequence-to-Set Model for Multi-Label Text Classification

COLING 2018   在SGM的基础上加了一个Set decoder,利用set的无序性,降低错误的标签排序带来的影响。
Label-Specific Document Representation for Multi-Label Text Classification EMNLP 2019 LSAN 作者提出了一个标签特定注意网络(LSAN),以学习标签特定的文档表示形式。 LSAN利用标签语义信息来确定标签和文档之间的语义联系,以构造标签特定的文档表示形式。 同时,采用selfattention 从文档内容信息中识别标签特定的文档表示形式。 为了无缝集成上述两个部分,提出了一种自适应融合策略,可以有效地输出特定标签的综合文档表示,以构建多标签文本分类器。
Learning to Learn and Predict: A Meta-Learning Approach for Multi-Label Classification EMNLP 2019 gru_attention 对于所有 label 的训练和预测策略,可以看做是一系列的超参数,本文提出一种 meta-learning 的框架来建模这些 label dependency,然后自动的学习训练和测试策略。具体来说,作者引入一种联合 meta-learning 和 multi-label classification 的学习框架。作者用一种基于 GRU 的 meta-learner 在训练阶段来捕获 label dependencies 和 学习这些参数。

Hierarchical Sequence-to-Sequence Model for Multi-Label Text Classification

IEEE 2019 seq2seq_cnn_attention 利用seq2seq解决多标签文本分类,该模型结合了卷积神经网络和并行自注意力作为编码器,以从源文本中提取细粒度的局部邻域信息和全局交互信息。 设计了一个分层解码器来解码并生成标签序列。 
Hierarchical Transfer Learning for Multi-label Text Classification ACL 2019 gru_attention 多标签分层分类可以通过组合多个二进制分类来制定
每个类别的独立分类器存在问题。 作者提出了一种新颖的基于转移学习的策略HTrans,该策略在层次结构中较低级别的二进制分类器上使用父分类器的参数进行初始化,并在子类别分类任务上进行微调。 

 

你可能感兴趣的:(论文)