NLP以赛代练 Task 1:赛题理解

NLP以赛代练 Task 1

  • 题目
    • 题目求解的是什么
    • 已知什么
    • 要满足哪些条件
  • 解题思路
    • T F − I D F TF-IDF TFIDF + 余弦相似度来进行分类

 


题目

比赛网址:https://tianchi.aliyun.com/competition/entrance/531810/information
 


题目求解的是什么

将一篇文章归入到具体的类别中,一共有 14 14 14 个明确了的候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

这是一个文本分类任务,将文章分门别类的归入到具体的类别中;如果只是把文章归为一类却没有具体的类别(不关心类别),那就是文本聚类

文章的具体类别,也称为【标签】。每篇文章通常只有一个类别,如果一篇文章有多个类别,此时问题就是多标签任务
 


已知什么

数据集下载:

训练集数据 测试集A榜数据 测试集A榜提交样例
https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a.csv.zip https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a_sample_submit.csv

文本分类是一个监督学习任务,除了数据外,还得有标准答案。

 


要满足哪些条件

不得不说,评测标准。

评测标准是准确率评测,也就是问,你的准确率( a c c u r a c y accuracy accuracy)是多少。

当预测与答案的数量相等时,准确率即系统做出正确判断的次数除以总的测试次数。

衡量分类器的准确程度,通常有 3 3 3

  • p r e c i s i o n precision precision:精确率,简称 P P P 值;
  • r e c a l l recall recall:召回率,简称 R R R 值;
  • F 1 F_{1} F1:精确率、召回率的调和平均值,简称 F 1 F_{1} F1 值。

这些名词都属于预测,要理解他们的计算方法,得先理解混淆矩阵。

P N
P TP FP
N FN TN

纵坐标为预测结果,横坐标为标准答案,一共有 4 4 4 种组合:

  • T P TP TP:预测是 P P P,答案是 P P P
  • F P FP FP:预测是 F F F,答案是 N N N;
  • T N TN TN:预测是 N N N,答案是 N N N
  • F N FN FN:预测是 N N N,答案是 P P P

只要混淆矩阵确立了, 3 3 3 个准确指标就都确定了。

  • p r e c i s i o n = 预 测 对 的 情 况 数 / 预 测 的 情 况 数 = T P T P + F P precision = 预测对的情况数/预测的情况数=\frac{TP}{TP+FP} precision=/=TP+FPTP
  • r e c a l l = 预 测 对 的 情 况 数 / 所 有 预 测 的 情 况 数 = T P T P + F N recall = 预测对的情况数/所有预测的情况数=\frac{TP}{TP+FN} recall=/=TP+FNTP
  • F 1 = 2 ∗ P ∗ R P + R F_{1}=\frac{2*P*R}{P+R} F1=P+R2PR

通常 p r e c i s i o n precision precision 越高, r e c a l l recall recall 就越低,反之亦然。

所以,我们需要一个综合性的指标,比如精确率、召回率的调和平均值 F 1 F_{1} F1
 


解题思路

本质是一个文本分类问题,需要根据每句的字符进行分类。

  • 但给出的数据是匿名化的,不能直接使用中文分词等操作,需要对匿名字符进行建模,进而完成文本分类的过程;
  • 由于文本数据是一种典型的非结构化数据,因此可能涉及到特征提取分类模型两个部分。

主要的思路:

  • T F − I D F TF-IDF TFIDF + 余弦相似度来进行分类

    直接使用 TF-IDF 对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用机器学习的 s v m svm svm l r lr lr x g b o o s t xgboost xgboost,也可以使用余弦距离。
     

  • F a s t T e x t FastText FastText

    FastText是入门款的词向量,利用 F a c e b o o k Facebook Facebook 提供的 F a s t T e x t FastText FastText 工具,可以快速构建出分类器。
     

  • W o r d V e c WordVec WordVec + 深度学习分类器

    W o r d V e c WordVec WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择 T e x t C N N TextCNN TextCNN T e x t R N N TextRNN TextRNN B i L S T M BiLSTM BiLSTM
     

  • B e r t 词 向 量 Bert词向量 Bert

    B e r t Bert Bert 是高配款的词向量,具有强大的建模学习能力。
     


T F − I D F TF-IDF TFIDF + 余弦相似度来进行分类

以第一种举例,先把文字的新闻变成一组可计算的数字,然后再设计一个算法来算出任意两篇新闻的相似性

利用 TF-IDF 将某个新闻转换成新闻的特征向量,每一个维度的大小代表每个词对这篇新闻的贡献

向量的夹角是衡量两个向量相似程度的度量,因此可以利用两个向量的夹角来判断对应的新闻主题的相似程度。

有关于向量的使用方法,请猛击:《向量实验:相似度算法》(实验有向量部分的新闻分类自动化、评估用户消费能力、人群聚类、简历筛选自动化、论文查重)

你可能感兴趣的:(#,机器学习)