文本分类任务特征工程和分类器介绍

文本分类任务基本框架

  • 文本
  • 特征工程:决定模型的上限
  • 分类器:逼近模型的上限
  • 类别

文本特征提取的主要方法分类

1. 经典文本特征——前人研究成熟理论

1). TF 词频
2). TFIDF 词频逆文档
3). Doc2vec 深度学习 词向量按位相加形成一个向量,或者拼接形成长向量
4). Word2vec 深度学习

2. 手工构造新特征——新创可能性的新特征

1). 寻找可能影响分类效果的新特征
例:文章的长度可能会影响分类,所以将其作为一个特征

2). 人工制造可能影响分类的新特征
例: (x,y,z)>(x,y,xy,xz,yz,x2,y2,z2) ( x , y , z ) − − − > ( x , y , x y , x z , y z , x 2 , y 2 , z 2 )

3. 用神经网络提取

神经网络作为特征提取器,用神经网络某一层输出作为特征
注:10W规模数据:传统机器学习方法更好

特征工程(选择)

1. 为什么要特征选择

  1. 减弱维度灾难,计算量降低
  2. 降低学习任务难度

2. 特征选择的方法

  • 包裹式: 一组特征大的集合,挑选子集进行训练和验证,选择效果好的子集。

  • 嵌入式:用分类器进行特征选择,逻辑回归分类器学出来的权重 w w ,w值大表示特征比较重要,如果 w w 为0或比较小,特征即可剔除。

  • 过滤式:在分类器之前最特征进行过滤,例如求取特征的方差信息为0或很小,说明特征所起作用不大,可将其剔除, 类似,可过滤很多特征。

特征降维

  • 目的:减少计算量,降低学习难度
  • 作用:将一组特征经过数学变换形成新的特征,高维向量经过数学变换映射到低维 低维向量抽象出来的信息更有助于学习分类

降维方式分类

  • 有监督降维:使用了样本类别信息
    代表方法:LDA线性判别分析
  • 无监督降维:不使用了样本类别信息
    代表方法:
    • LSA浅层语义分析
    • Ida 对词频矩阵分解
    • NMF 非负矩阵分解

常用分类器

1. sklearn包

  • 逻辑回归
  • SVM
  • 朴素贝叶斯
  • 随机森林
  • bagging

2. Lightgbm

3. xgboost

  • 注:Lightgbm和xgboost是JBT算法实现的工具包,比赛大杀器,效果出众

4. 神经网络

  • 具有强大拟合函数的能力,特征输入到神经网络里进行拟合,训练出优秀的函数作为最终的分类。

优化模型分类结果方法:多个单模型融合

  • 关键:训练多个好而不同的单模型
  • 补充:构造多个不同的训练集
  • 融合方法:
    1. 投票法:少数服从多数加权投票法
    2. 学习法:将全部预测结果放到新的分类器学习,产生新的结果。

你可能感兴趣的:(NLP,特征提取)