天池新闻文本分类-01赛题

一:背景

  本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第三场 —— 零基础入门NLP之新闻文本分类挑战赛。赛题以自然语言处理为背景,要求选手根据新闻文本字符对新闻的类别进行分类,这是一个经典文本分类问题。通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。

二:赛题数据

赛题数据集脱敏如下:
                                                          text
        label                                                   
         2      2967 6758 339 2021 1854 3731 4109 3792 4149 15...
         11     4464 486 6352 5619 2465 4802 1452 3137 5778 54...
         3      7346 4068 5074 3747 5681 6093 1777 2226 7354 6...
         2      7159 948 4866 2109 5520 2490 211 3956 5520 549...
         3      3646 3055 3055 2490 4659 6065 3370 5814 2465 5...
         9      3819 4525 1129 6725 6485 2109 3800 5264 1006 4...
         3      307 4780 6811 1580 7539 5886 5486 3433 6644 58...
        10     26 4270 1866 5977 3523 3764 4464 3659 4853 517...
        12     2708 2218 5915 4559 886 1241 4819 314 4261 166...
         3      3654 531 1348 29 4553 6722 1474 5099 7541 307 ...
在数据集中标签的对应的关系如下:
{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}

三、评测标准

    分类问题的一个衡量指标。一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数,最大为1,最小为0。
    计算公式如下:
          F1 = 2 *(precision∗recall)/(precision+recall)
          from sklearn.metrics import f1_score
          f1_score(y_test,y_predict)

四、解题思路

      重点在于数据训练分类,通过对于文本分类采用tf-idf+一些常见的分类算法(比如贝叶斯分类等),看了下文本分类的资料,FastText也不错,可以采用实践下
      

你可能感兴趣的:(天池新闻文本分类-01赛题)