特征选择

1、特征选择

    特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。

    在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的后果:

  • 特征个数越多,分析特征、训练模型所需的时间就越长。

  • 特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广(泛化)能力会下降。

    特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。


2、特征选择的方法

2.1、互信息MI(expected mutual information)

    MI度量的是词项的存在与否给类别c的正确判断所带来的信息量。如果信息量越大,那么特征和这个类别的相关性越大。

2.2、卡方检验,X2

    用于检验两个事件的独立性,分别指词项的出现和类别的出现。

    先假设两个事件是独立的,若卡方值越大,显著性越大,说明两者差别越明显,更可能相互独立。卡方值越小,说明两者相互依赖,词项的出现也会使某个类别的出现更有可能。

2.3、基于频率

    选择那些在类别中频率较高的词项作为特征。

    这里的频率可以定义为文档频率(类别中包含某个词项c的文档数目),或文档集频率(c类别中所有文档中t出现的总次数)。

    文档频率更适合贝努利模型,而文档集频率更适合多项式模型。


    由于X2基于显著统计性来选择特征,因此它会比MI选出更多的罕见词项,而这些词项出现次数太少所提供的信息量是不够的,因为对分类来说是不太可靠的。

你可能感兴趣的:(特征选择)