机器学习之文本特征选择

1.基本概念

1.1 定义

从给定的特征集合中选择出相关特征子集的过程,称为“特征选择”。特征选择是从特征集T={t_1,…,t_s}中选择一个真子集T’={t_1,…,t_(s’ )},满足(s≪s’)。其中,s为原始特征集的大小,s^’为选择后的特征集大小。选择的准则是经特征选择后能有效提高文本准确率。选择没有改变原始特征空间的性质,只是从原始特征空间中选择了一部分重要的特征,组成一个新的低维空间。文本特征选择能够有效降低文本表示的维度。

1.2 为什么需要特征选择?

(1)能够解决属性过多带来的维数灾难问题;
(2)去除不相关特征能够显著降低学习问题的难度。

1.3 特征选择需遵循的原则:

(1)确保不丢失重要特征;
(2)特征选择中的“无关特征”是指与当前学习任务无关。同一给定数据集,若学习任务不同,相关特征很可能不同。
(3)若某个冗余特征恰好对应了完成学习任务所需的“中间概念”(如已知底面长和宽,要求立方体体积,此时“底面积”这个特征是冗余的),则该冗余特征是有益的。

1.4 如何进行特征选择?

特征选择的可行方法是先产生一个“候选子集”,评价出它的好坏,然后基于评价结果产生下一个候选子集,再对其进行评价等等。这里涉及到两个关键环节:如何根据评价结果获取下一个候选特征子集?如何评价候选特征子集的好坏
(1)子集搜索(subset search):给定特征集合{a_1,a_2,…,a_n},我们可将每个特征看作一个候选子集,对这d个候选单特征子集进行评价,假定{a_2}最优,则将{a_2}作为第一轮的候选集;然后,在上一轮的选定集中加入一个特征,构成包含两个特征的候选子集,假定在d-1个候选两特征子集中{a_2,a_4}最优,且优于{a_2},则将{a_2,a_4}作为本轮的候选集;以此类推,假定在第k+1轮时,最优的候选(k+1)特征不如上一轮的选定集,则停止生成候选子集,并将上一轮选定的k特征集合作为特征选择结果。
(2)子集评价(subset evaluation):给定数据集D,假定D中第i类样本所占的比例为p_i (i=1,2,…,|y|).假定样本属性为离散型,对属性子集A,假定根据其取值将D分成了V个子集{D^1,D^2,…,D^V},每个子集中的样本在A上的取值相同,于是可以计算出属性子集A的信息增益为:
Gain(A)=Ent(D)- ∑_(v=1)^V▒〖|D^v |/|D| Ent(D^v)〗
(其中信息熵定义为:Ent(D)=- ∑_(k=1)^|y|▒〖p_k log_2⁡〖p_k 〗 〗)
信息增益Gain(A)越大,意味着特征子集A包含的有助于分类的信息越多。

2.特征选择方法

常见的特征选择方法主要有:特征频度文本频度信息增益法卡方检验法互信息法特征熵特征权等。

2.1特征频度(Term Frequency,tf)

特征频度指训练集中特征t_k出现的次数。这是最简单的特征选择方法。直观上,特征在文本集中出现次数越多,对文本分类的贡献越大。由于原始特征集中绝大部分是低频特征,因此,设定tf阈值对过滤低频特征非常有效,可以获得很大的降维度。就高频特征而言,特征的统计分布决定了文本分类的准确率。即当该高频特征均匀地分布在所有文本中时,对分类的作用将是有限的。因此,tf主要用在文本标引时直接删除某些低频特征

2.2文本频度(Document Frequency,df)

文本频度是训练集中含有词条t_k的文本数在总文本数中出现的概率。其理论假设为稀有词条或者对分类作用不大,或者是噪声,可以被删除。文本频度较特征频度的统计粒度更粗一些,在实际运用中有一定的效果。但是如果某一稀有词条主要在某类文本中出现的情况下,可能会把该类的显著特征错误地过滤掉。通过实验表明,用tf和df的组合进行特征选择可以得到更好的降维效果。

2.3信息增益(Information Gain,IG)

在文本分类中,特征t_k的信息增益如下所示:
这里写图片描述
其中,P(█(-@t)_k )为训练集中不出现特征t_k的文本数除以训练集的文本数,这里写图片描述为类型c_i中出现的文本数除以训练集中出现t_k的文本数。特征在文本中是否出现都将为文本分类提供信息,计算不同情况下的条件概率以确定提供的信息量的大小。信息增益是机器学习领域较为广泛的特征选择方法。利用特征取值情况划分训练样本空间,根据所获得信息量的多少选择相应特征。进行特征选择时,选择信息增益大的特征

你可能感兴趣的:(机器学习,机器学习,特征选择)