中文NLP笔记:6. 如何做中文短文本分类

中文短文本分类

文本分类是一种有监督学习

例如,输入一条数据,能够判断事情的主体是谁


主要步骤 为:

  1. 加载数据
  2. 数据预处理

  分词

  去停用词

  词形标准化

  3. 文本表示

  抽取词向量特征

    可以尝试 2-gram 和 3-gram

    还可以使用 word2vec 和 doc2vec 等

  4. 将数据分成训练集和测试集

  5. 模型

  进行算法建模和模型训练

  评估、计算 AUC 值,进行预测

  模型对比

  这里可以使用的模型有:朴素贝叶斯,SVM,决策树、随机森林、XGBoost、神经网络等


学习资料:

《中文自然语言处理入门实战》

你可能感兴趣的:(中文NLP笔记:6. 如何做中文短文本分类)