阿里天池入门NLP——新闻文本分类(赛题理解)

赛题理解

赛题链接:阿里天池新闻文本分类
赛题任务:NLP文本分类任务,一共有14个类别。
赛题数据:数据集包含两个csv文件:训练集train_set.csv、测试集test_a.csv

    赛题数据经过脱敏处理,所以在选用模型时,不能选用预训练模型,需要自己重新训练
阿里天池入门NLP——新闻文本分类(赛题理解)_第1张图片
评价指标:macro F1score

    为了能够评价不同算法的优劣,所以综合考虑Precision和Recall,在Precision和Recall的基础上提出了F1分数的概念,来对Precision和Recall进行整体评价。
F1的定义如下:
F 1 = 2 ∗ p r e c i s i o n ∗ r e c a l l p r e c i s i o n + r e c a l l F1=2*\frac{precision*recall}{precision+recall} F1=2precision+recallprecisionrecall
F1分数是用来评价二元分类器的度量,然而对于多类分类任务将使用macro F1score作为度量指标:
 
1. 计算各类别的精确率: P r e c i s i o n i = T P i T P i + F P i Precision_i=\frac{TP_i}{TP_i+FP_i} Precisioni=TPi+FPiTPi
2. macro精确率即所有分类的精度平均值: P r e c i s i o n m a c r o = T P 1 + T P 2 + . . . + T P n n Precision_{macro}=\frac{TP_1+TP_2+...+TP_n}{n} Precisionmacro=nTP1+TP2+...+TPn
3. macro召回率如同macro精确率计算
4. macro F1score的计算如下: m a c r o    F 1   s c o r e = 2 ∗ p r e c i s i o n m a c r o ∗ r e c a l l m a c r o p r e c i s i o n m a c r o + r e c a l l m a c r o macro\ \ F1\ score=2*\frac{precision_{macro}*recall_{macro}}{precision_{macro}+recall_{macro}} macro  F1 score=2precisionmacro+recallmacroprecisionmacrorecallmacro

    赛题使用macro F1score作为评价指标,关于分类任务的性能度量指标,可以参考我的一篇博客:分类任务的性能度量
 
 
 
模型选用

    主要分为机器学习模型和深度学习模型

  • 机器学习模型:机器学习模型作文本分类

  •   	1. 特征表示:将输入文本表示为特征向量,一般采用TF-IDF提取特征。
      	2. 分类器:将提取的特征向量输入分类器进行分类。
      	3. 分类器选择:逻辑回归,朴素贝叶斯,支持向量机,LightGBM、XGBoost
    
  • 深度学习模型:深度学习模型会将机器学习模型中的(特征表示和分类)两个阶段联合起来进行end2end(端到端)学习,即把特征表示和分类一起训练,最后一层进行分类,其余层对输入文本进行特征表示。

  •   	1. 经典的文本分类模型:FastText、TextCNN、Bi-LSTM、RCNN、ELMO、BERT模型 
    

你可能感兴趣的:(NLP,机器学习,深度学习,人工智能,python)