论⽂种类分类

4.1 任务说明

学习主题:论⽂分类(数据建模任务),利⽤已有数据建模,对新论⽂进⾏类别分类;

学习内容:使⽤论⽂标题完成类别分类;

学习成果:学会⽂本分类的基本⽅法、 TF-IDF 等;

4.2 数据处理步骤

在原始arxiv论⽂中论⽂都有对应的类别,⽽论⽂类别是作者填写的。在本次任务中我们可以借助论⽂的标题和摘要完成:

对论⽂标题和摘要进⾏处理;

对论⽂类别进⾏处理;

构建⽂本分类模型;

4.3 ⽂本分类思路

思路1:TF-IDF+机器学习分类器

直接使⽤TF-IDF对⽂本提取特征,使⽤分类器进⾏分类,分类器的选择上可以使⽤SVM、LR、XGboost等

思路2:FastText

FastText是⼊⻔款的词向量,利⽤Facebook提供的FastText⼯具,可以快速构建分类器

思路3:WordVec+深度学习分类器

WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的⽹络结构可以选择TextCNN、TextRnn或者BiLSTM。

思路4:Bert词向量

Bert是⾼配款的词向量,具有强⼤的建模学习能⼒。


你可能感兴趣的:(论⽂种类分类)