NLP入门 Task01 赛题理解

赛题名称:零基础入门NLP之新闻文本分类 (https://tianchi.aliyun.com/competition/entrance/531810/introduction)

赛题数据:按字符匿名处理后的新闻数据。有14个类别(财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐,依次对应标签0-13)。数据分为训练集(20w条样本)、测试集A(5w条样本)和测试集B(5w条样本)。

评价指标:类别f1_score的均值。(提交结果与测试集类别对比,结果越大越好)

数据读取:Pandas库

解题思路:赛题属于文本分类问题,需要根据每句的字符进行建模,进而完成分类。难点在于所给数据经过了匿名化操作,不能直接用中文分词等操作。文本数据是典型的非结构化数据,可能涉及到特征提取分类模型

组织提供了如下思路:

1. TF-IDF + 机器学习分类器

用TF-IDF提取文本特征,使用分类器分类。分类器可考虑SVM、LR、XGBoost。

2. FastText

Facebook提供的FastText工具,是入门级词向量,可快速构建分类器。

3. Word2Vec + 深度学习分类器

Word2Vec是进阶级词向量,并通过构建深度学习分类器分类。分类器可考虑TextCNN、TextRNN或BiLSTM。

4. Bert词向量

Bert是高配级词向量,有强大的建模学习能力。

你可能感兴趣的:(学习)