Datawhale零基础入门NLP赛事——新闻文本分类

Task01:赛题理解

1. 赛题目标

完成新闻文本分类任务(字符识别问题)

2. 赛题数据

14个类别:{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}

训练集20w,训练集A包括5w条样本,测试集B包括5w条样本

3. 评价指标

f1_score

4. 解题思路

  • TF-IDF+机器学习分类器
  • FastText
  • WordVec + 深度学习分类器
  • BERT

你可能感兴趣的:(Datawhale零基础入门NLP赛事——新闻文本分类)