NLP—新闻文本分类比赛—Task1赛题理解

学习目标

理解赛题背景与赛题数据
完成赛题报名和数据下载,理解赛题的解题思路
结合datawhale学习小组提出的解决思路,提出自己的解决方案和思路

赛题数据

赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。
赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别进行了匿名处理。
下载数据后,使用pandas读取数据文件得到下图格式:

NLP—新闻文本分类比赛—Task1赛题理解_第1张图片

数据标签

处理后的赛题训练数据如下:
在数据集中标签的对应的关系如下:{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}

评测指标

评价标准为类别f1_score的均值,f1_score评分指标是分类模型的一个评分标准,他兼顾了精确率和召回率,值越大越好!

数据读取

我使用Numpy、Pandas库完成数据读取操作和分析。

解题思路

赛题思路分析:新闻文本分类从本质是看,是一个文本分类问题,我们需要根据文本的字符进行分类,但是由于数据是匿名化了,都是一些数值表示,所以我们不能直接使用中文分词的操作,这个对我们的建模有一定的影响。从向这里出发,我们是要对匿名字符进行建模,但是匿名字符按照个人理解应该是已经分好的词,然后匿名字符就是每个词在全词字典中的序号。所以从这里出发我们可以从词频统计出发,当然也可以使用fasttext进行分类。如果是从常规的机器学习建模流程,我们需要对其中数据进行特征处理,然后再建立分类模型。在这里我选择使用fasttext进行建立模型。由于以前接触过fasttext的建模并参考了datawhale学习小组提出的方案思路。
fasttext建立模型只需要把lable和数据准备好,然后直接调用fasttext的监督学习方法进行建模,能更快速建立模型,看到效果。

你可能感兴趣的:(机器学习)