NLP入门-新闻文本分类实践

Task0-赛题理解

本次NLP实践是一次新闻文本分类,有监督分类模型,共有14个标签,20w训练集,5w测试集。

分析思路:

(1)EDA数据探索:

首先分析14个标签类别的分布情况,是否为非均衡数据集;

其次探索新闻文本字符长度的分布情况,为后续构造词向量模型的max_feature参数做准备;

最后由于数据集做了匿名处理,无法直接根据词表构建出停用词表,所以只能通过字符覆盖率(>99%)来筛选出停用词;

(2)机器学习建模

TFIDF + 岭回归/SVM/朴素贝叶斯

(3)深度学习建模

fasttext/word2vec+TextCNN/Bert

(4)评估指标

F1值

你可能感兴趣的:(NLP入门-新闻文本分类实践)