Task1-天池新闻文本赛题分类理解

 

阿里天池新闻文本分类理解

本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第三场 —— 零基础入门NLP之新闻文本分类挑战赛。

赛题以自然语言处理为背景,要求选手根据新闻文本字符对新闻的类别进行分类,这是一个经典文本分类问题。通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。

先来看看数据集的样子

Task1-天池新闻文本赛题分类理解_第1张图片

                                                                  (数据集展示)

Task1-天池新闻文本赛题分类理解_第2张图片

                                           (数据集的信息)

赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据

本次数据中训练集总共有20000条数据,测试集50000条数据,标签如下

{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}

评价标准为类别f1_score的均值,选手提交结果与实际测试集的类别进行对比,结果越大越好。

未来思路:采用fasttext或word2vec进行处理

你可能感兴趣的:(Task1-天池新闻文本赛题分类理解)