中文NLP-常用的特征选取方法

为什么要做特征选取?

构建词向量是为了表征一篇/段文本,方便对文本的分析、分类等操作。对于一个文本,词向量是一维向量,每个单元表征一个特征词。怎么获取这些特征词,简单粗暴的方法就是,对文本集(所有文本)进行分词操作,之后将不重复的词汇构成特征词集合,从而构建词向量。
举例进行说明:

“推动长江经济带发展是党中央作出的重大决策,是关系国家发展全局的重大战略,对实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦具有重要意义。”

进行分词处理后:

推动,长江,经济,带,发展,是,党,中央,作出,的,重大,决策,是,关系,国家,发展,全局,的,重大战略,对,实现,两个,一百,年,奋斗,目标,实现,中华,民族,伟大,复兴,的,中国,梦,具有,重要,意义

去重之后有33个词汇,而根据本人针对5类文本的100个文本集合进行分词去重操作后,仍然有9400多个词汇。而用这近万个词汇作为特征词的话,词向量所占用的空间以及运算的时间将会是个灾难。而且,某些词汇存在的意义对于文本分类十分小,如果其作为特征词的话,对于文本分类效果产生负面影响。因此,有必要在词向量构建前,进行特征选取,也就是特征词的选取。主要方法有以下五种。

常用的五种特征选取方法

  • 基于文档频率的特征提取法
    文档频率(DF)是指出现在某个特征项的文档的频率。当特征项的文档频率大于设定的上界时或者小于设定的下界时,则会在特征项集中去除该特征项。
  • 基于特征项频率的特征提取方法
    特征项频率(TF)是指特征项在文本几何中出现的频率。选择方法、存在问题与上述方法一致。
  • 基于逆文档频率的特征提取法
    逆文档频率(TF-IDF)是指特征项频率与出现特征项的文档逆频率的乘积。
    TF-IDF = TF * IDF = tf * (N/n)
    其中tf为特征项频率,N为训练集文档数目,n为训练集中出现特征项w的文档数。

在介绍下面两种方法前,引入表1特征项分布统计表。其中, A A 为属于 Cd C d 类的文本集合中特征项的文档频率, B B 为非 Cd C d 类的文本集合中特征项的文档频率, C C 为属于 Cd C d 类的文本集合中其它特征项集合的文档频率, D D 为非 Cd C d 类的文本集合中其他特正向集合的文档频率。
表1 特征项分布统计表

特征项\类别 Cd C d ~ Cd C d
wi w i A A B B
~ wi w i C C D D
  • 卡方统计量
    χ2 χ 2 统计量表示特征项与类别的相关程度, χ2 χ 2 统计量值越大,则两者的相关程度越高。其计算公式如下: χ2(wi,Cd)=N(ADCB)(A+C)(B+D)(A+B)(C+D) χ 2 ( w i , C d ) = N ∗ ( A ∗ D − C ∗ B ) ( A + C ) ∗ ( B + D ) ∗ ( A + B ) ∗ ( C + D )
    一般通过选择特征项 wi w i 与某一类别 Cd C d 的最大值作为其 χ2 χ 2 统计量。之后,通过设定阈值或者根据卡方统计量大小排序选择的方式进行特正项的选取。
  • 互信息法
    互信息值表示特征项与类别的共现程度,互信息值越大,则两者的共现概率越大。其计算公式如下:
    I(wi,Cd)logAN(A+C)(A+B) I ( w i , C d ) ≈ l o g A ∗ N ( A + C ) ∗ ( A + B )
    一般通过选择特征项 wi w i 与某一类别 Cd C d 的最大值作为其互信息值。之后,通过设定阈值或者根据互信息值大小排序选择的方式进行特正向的选取。

总结

使用朴素贝叶斯分类器进行文本分类就能达到较好的分类效果,主要优化为特征选取与权重调整两个方面。本次只讨论了简要的分类器构造过程以及特征选取方法,对于权重调整也可以用到特征选取中提到的算法,从而提高分类器的准确率。而且,之后也可以利用深度学习中CNN卷积神经网络实现文本的分类,其性能准确性有待考证。

参考文献

[1]覃世安,李法运.文本分类中TF-IDF方法的改进研究[J].现代图书情报技术,2013(10):27-30.
[2]宗成庆. 统计自然语言处理[M]. 清华大学出版社, 2013:417-421.
[3]孙茂松,李景阳,郭志芃,赵宇,郑亚斌,司宪策,刘知远. THUCTC:一个高效的中文文本分类工具包. 2016.


中文NLP-常用的特征选取方法_第1张图片

你可能感兴趣的:(NLP)