零基础入门NLP之新闻文本分类_赛题理解_学习笔记


Author: 2tong

Ref: 零基础入门NLP之新闻文本分类


零基础入门NLP之新闻文本分类 赛题理解 学习笔记

        • 基本信息
          • 1. 赛题目标
          • 2. 赛题任务
          • 3. 赛题数据
            • 3.1 数据大小
            • 3.2 数据格式
        • 解题思路
          • 1.赛题本质
          • 2.赛题难点
          • 3.赛题指标
          • 4.赛题分析
        • 技术储备
          • 1.分类问题常用评价指标
          • 2.TF-IDF

基本信息

1. 赛题目标

接触NLP的预处理模型构建模型训练等知识点

2. 赛题任务

以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。

3. 赛题数据
3.1 数据大小
  • train set:20w条样本
  • test_A set:5w条样本
  • test_B set:5w条样本
3.2 数据格式

为了预防选手人工标注测试集的情况,比赛数据的文本按照字符级别进行了**匿名处理*8,处理后的赛题训练数据如下所示:

label text
2 2967 6758 339 2021 1854 3731 4109 3792 4149 1519 2058 3912 2465 2410 1219 6654 7539 264 2456 4811 1292 2109 6905 5 520 7058 6045 3634 6591 3530 6508 2465 7044 1519 3659 2073 3750 3731 4109 3792 6831 2614 3370 4269 3370 486 5770 4109 4125 3750 5445 2466 6831 6758 3743 3630 1726 2313 5906 826 4516 657 900 1871 7044 3750 2967 3731 1757

在数据集中,标签的对应的关系如下所示:

{
	'科技': 0,
	'股票': 1,
	'体育': 2,
	'娱乐': 3,
	'时政': 4,
	'社会': 5,
	'教育': 6,
	'财经': 7,
	'家居': 8,
	'游戏': 9,
	'房产': 10,
	'时尚': 11,
	'彩票': 12,
	'星座': 13
}

解题思路

1.赛题本质

文本分类问题,需要根据每句的字符进行分类

2.赛题难点

赛题给出的数据是匿名化的,需要对匿名字符进行建模,进而完成文本分类的过程

3.赛题指标

评价标准为类别f1_score的均值,提交结果与实际测试集的类别进行对比,结果越大越好。

4.赛题分析

文本数据是一种典型的非结构化数据,因此可能涉及到特征提取分类模型两个部分。
提供了如下四种解决思路:

  • 思路1:TF-IDF + 机器学习分类器
    • 特征提取:使用TF-IDF对文本提取特征
    • 分类模型:使用分类器进行分类,可以使用SVM、LR、或者XGBoost。
  • 思路2:FastText
    FastText作为入门款的词向量,是由Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。
  • 思路3:WordVec + 深度学习分类器
  • 词向量:Word2Vec(进阶款词向量)
  • 深度学习分类:通过构建深度学习分类完成分类,网络结构可以选择TextCNN、TextRNN或者BiLSTM。
  • 思路4:Bert词向量
    Bert是高配款的词向量,具有强大的建模学习能力。

技术储备

1.分类问题常用评价指标

分类问题中的常用评价指标有:

  • Precision:精确率
    预测出来的某类样本中,有多少是被正确预测的。针对预测样本而言。
    P r e c i s o n = T P T P + F P Precison=\frac{TP}{TP+FP} Precison=TP+FPTP
  • Recall:召回率
    针对原先实际样本而言,有多少样本被正确的预测出来了。
    R e c a l l = T P T P + F N Recall=\frac{TP}{TP+FN} Recall=TP+FNTP
  • F1-score:F1分数,又称为平衡F分数(BalancedScore)
    它被定义为精确率和召回率的调和平均数。是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种加权平均,它的最大值是1,最小值是0。
    F 1 = 2 ∗ P r e c i s o n ∗ R e c a l l P r e c i s o n + R e c a l l F_1=2*\frac{Precison*Recall}{Precison+Recall} F1=2Precison+RecallPrecisonRecall
2.TF-IDF

TF-IDF是一种针对关键词的统计分析方法,用于评估一个词对一个文件集或者一个语料库的重要程度。
一个词的重要程度跟它在文章中出现的次数成正比,跟它在语料库出现的次数成反比。
优势:这种计算方式能有效避免常用词对关键词的影响,提高了关键词与文章之间的相关性。
TF-IDF被定义为:
T F − I D F = T F ∗ I D F TF-IDF=TF*IDF TFIDF=TFIDF

  • TF:term frequency(词频)
    某词在文章中出现的总次数,该指标通常会被归一化定义为:
    T F = 某 词 在 文 档 中 出 现 的 次 数 文 档 的 总 词 量 TF =\frac{某词在文档中出现的次数}{文档的总词量} TF=
    这样可以防止结果偏向过长的文档(同一个词语在长文档里通常会具有比短文档更高的词频)
  • IDF:inverse document frequency(逆文本频率指数)
    IDF逆向文档频率,包含某词语的文档越少,IDF值越大,说明该词语具有很强的区分能力,
    I D F = l o g e ( 语 料 库 中 文 档 总 数 包 含 该 词 的 文 档 数 + 1 ) IDF=log_e(\frac{语料库中文档总数}{包含该词的文档数+1}) IDF=loge+1
    其中,+1的原因是避免分母为0。

你可能感兴趣的:(NLP)