Datawhale零基础入门NLP赛事 - Task1 赛题理解

赛题:零基础入门入门NLP赛事-新闻文本分类
比赛地址:https://tianchi.aliyun.com/competition/entrance/531810/introduction*

1.1 赛题理解

1.1.1赛题数据

本赛题数据为匿名处理后的新闻文本数据,按照字符级进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐。
赛题数据由以下几个部分构成:
训练集20w样本,测试集A包含5w样本,测试集B包含5w样本。

1.1.2赛题标签

匿名处理的训练数据如下:
Datawhale零基础入门NLP赛事 - Task1 赛题理解_第1张图片
数据集中标签啊的对应关系如下:
{‘科技’:0, ‘股票’:1, ‘体育’:2, ‘娱乐’:3, ‘时政’:4, ‘社会’:5, ‘教育’:6, ‘财经’:7, ‘家居’:8, ‘游戏’:9, ‘房产’:10, ‘时尚’:11, ‘彩票’:12, ‘星座’:13 }

1.1.3评测指标

评价标准为类别f1_score的均值,结果越大越好。
计算公式:
F 1 = 2 ∗ ( p r e c i s i o n + r e c a l l ) ( p r e c i s i o n ∗ r e c a l l ) F1=2∗ \frac{ (precision+recall)}{ (precision∗recall)} F1=2(precisionrecall)(precision+recall)

这里使用了机器学习里面常用的一个评价分类模型的方法F1-score。这里面precision表示准确率,recall表示召回率:
p r e c i s i o n = T P F P + T P ​ precision = \frac{TP}{FP+TP} ​ precision=FP+TPTP
r e c a l l = T P T P + F N recall = \frac{TP}{TP+FN} recall=TP+FNTP

1.1.4解题思路

本题本质上是一个文本分类的问题,需要根据每句的字符进行分类。但赛题给出的数据是匿名化的,不能直接使用中文分词等操作。这个是赛题的难点。
因此本次萨艾提的难点是需要对匿名化的字符进行建模,进而完成文本分类的过程。由于本文数据是一种典型的非结构化数据,因此会涉及到特征提取和分类模型。可以从以下几个方向解题:
1、思路一:TF-IDF + 机器学习
直接使用TF-IDF对文本提取特征,并使用分类器进行分类。分类器可以使用SVM、LR、随机森林、贝叶斯等传统机器学习方法
2、思路二:FastText
FastText是入门款的词向量,利用Facebook提供的FastText工具可以坤叔构建分类器。
3、思路三:word2vec+深度学习分类器
word2vec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以学着TextCNN、TextRNN或者BiLSTM。
4、思路四:Bert词向量
Bert是高配款的词向量,具有强大的数学建模能力。

你可能感兴趣的:(NLP学习)