NLP学习HW1

NLP入门组队学习 题目理解

报名了NLP组队学习,这是第一天的学习。

赛题名称:

零基础入门NLP之新闻文本分类

赛题目标:

入门自然语言处理,熟悉相关机器学习和深度学习的方法和算法。

赛题任务:

对来自互联网的新闻文本进行分类,也是一个典型字符识别的问题。

学习目标

理解赛题背景与赛题数据
下载赛题数据,理解赛题的思路

赛题数据

赛题的数据报名后即可下载,数据为新闻文本,并且进行了字符级别的匿名处理。数据文本中包含14个类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、市政、体育、星座、游戏、娱乐。
赛题数据构成:训练集20w条样本,测试集A包含5w条样本,测试集B包括5w条样本。字符匿名处理是为了预防人工标注测试集。

数据标签

标签与类别对应关系如下:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘市政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}

评测指标

评价标准为类别f1_score的均值,将提交结果和实际类别进行对比,结果当然越大越好.多分类的F1_score 使用marco计算方式

当精确率和召回率都高,f1值就会很高。
使用sklearn的库函数可以完成f1值的计算

读取数据

使用Pandas库读取数据,方便后续进行

解题思路

赛题思路分析:赛题文本分类问题,根据每句的字符进行分类。这个题目已经帮助我们分好词了,由于数据匿名化的,不能直接使用中文分词,因此我们直接对匿名字符进行建模,涉及到特征提取和分类模型两个部分。
可能会用到的解题思路:

思路1:TF-IDF + 机器学习分类器
使用TF-IDF对文本提取特征,并使用分类器分类,分类器可以选择SVM、LR、或者XGboost

思路2:FastText
FastText是入门级的词向量,使用Facebook提供的FastText工具,快速构建分类器

思路3:WordVec + 深度学习分类器
WordVec是进阶级的词向量,深度学习分类网络有TextCNN、TextRNN以及BiLSTM。

思路4:Bert词向量
Bert是高配级词向量,建模学习能力更加强大

你可能感兴趣的:(NLP学习HW1)