文本分类在选择机器学习模型时的特征工程

机器学习与深度学习不同,机器学习需要自己构建特征向量,并且不局限于词,这里看到一篇文章讲到一些机器学习构建词向量如下:

1.向量空间模型

2.LDA的主题词特征提取

3.中文多类别情感分类模型中特征选择方法。

这篇文章设计了基于朴素贝叶斯分类器、使用布尔权重的中文三类别和五类别情感分类模型。

比较常用的特征选择方法有:文档频率(Document Frequency,DF),信息增益(Information Gain, IG),互信息(Mutual information,MI),卡方统计(Chi—Squared, CHI),项频率(Term Frequency,TF)等。DF过滤的方法是假设DF较小的特征对分类的结果影响较小,从而过滤DF值小 的特征:IG是通过计算特征的分类能力,选择分类能力较强 的特征;MI是计算特征和类的相关度,但是计算出来的低频词的MI通常较高;CHI是为每个词计算它与类别的CHI值, CHI值越大越相关。

Yang等¨¨的实验观察了这4种特征选择方法对英文传 统主题分类的影响,发现信息增益和卡方统计的效果最好,而 MI因为对偏向低频特征并且对概率估计误差敏感,效果最 差。文献[12]比较了DF和TF在文本分类中的表现,发现 TF比DF要更有效,特别是在特征规模比较小的时候。

 

情感分类结果是:

文本分类在选择机器学习模型时的特征工程_第1张图片

 

 

 

 

你可能感兴趣的:(文本分类在选择机器学习模型时的特征工程)