机器学习 特征选择笔记 前言

最近学习特征选择,在此记录下学习过程,一是为加强理解,一是为学习交流。本人能力有限,望多多指教。

特征选择  前言

  • 什么是特征选择:本系列学习笔记所说的特征选择是指从已有特征中选择部分特征用以机器学习、数据挖掘,不涉及新特征的构建。
  • 特征选择的意义:有很多资料对特征选择的意义作了总结,不在赘述。在此举例说明下特征选择对算法的影响。
  1.   [1][2]不相关特征对c4.5算法影响很大,如果去除不相关特征,c4.5性能会得到很大提高
  2.   [3][4][5] 朴素贝叶斯对不相关特征不敏感,但是对冗余特征敏感,如果能降低特征冗余则会提高朴素贝叶斯分类性能。
  • 什么是相关特征:做一个通俗解释。如果特征X的出现对标签Y是有影响的,那么X是相关特征。也就是说X与Y不是独立分布的:P(Y=y|X=x)!=P(Y=y)
  • 强相关特征<=>如果特征X被移除会造成最终分类器性能降低,说明了特征的不可或缺性
  • 弱相关<=>如果特征X不是强相关,并且存在特征集S,使得分类器在S上的性能比在S+{X}(+表示并集操作)上的差。说明弱分类在某些情况下能够对分类做出贡献



[1]G.H. John, Enhancements to the data mining process, Ph.D. Thesis, Computer Science Department,
Stanford University, CA ( 1997).
[2]Thrun et al., The Monk’s problems: a performance comparison of different learning algorithms, Tech.
Rept. CMU-CS-91-197, Carnegie Mellon University, Pittsburgh, PA (1991).

[3]P Langley, W. Iba and K. Thompson, An analysis of Bayesian classifiers, in:Proceedings AAAI-94,
Seattle, WA (AAAI Press and MIT Press, 1992) 223-228.
[4]I.J. Good, The Estimation of Probabilities: An Essay on Modern Bayesian Methods (MIT Press,
Cambridge, MA, 1965).

[5] R. Duda and P Hart,Pattern Classification and Scene Analysis(Wiley, New York, 1973).




你可能感兴趣的:(特征选择-机器学习)