特征选择技术导论——以SVM-RFE为例

一直觉得基于机器学习的数据挖掘技术是很有意思的东西,尤其是以统计学习理论为基础的SVM技术更是让人觉得充满科学的创意。在一位优秀老师的指导下学习了一些这方面的皮毛,于是总想动笔写下一点东西,算是与大家分享我的体会。就从我觉得最有意思的特征选择开始吧,说不定慢慢就写成一篇不错的review了。内容会有些学术,有些偏理论,我也会尽力的列出参考文献。鉴于我也是菜鸟,有错误的话还请大家拍砖。

 

特征选择(feature selection)是一种很有实用价值的技术,本质上来说是一种为数据挖掘消除数据噪声的技术。但我们对某件事务进行判断时,我们会根据以往的经验根据某些信息,而不是所有的信息做出判断。比如,判断一辆车的品牌,我们会去看车头车尾的标志,更细致一点会去看车的铭牌,因为这是最权威,也是最容易判断车辆品牌的信息。如果根据车的外形去判断车辆的品牌就有可能把QQ当作Spark,把F3当作花冠;如果根据车的价格去判断,也会把奥迪和大奔弄混。也就是说,人做判断时会选择出最有效的信息来做出自己的抉择。

 

计算机在面对类似问题的却无法根据已有的经验去选择最有效的信息,而大量无效信息对于计算机来说就是噪声,反而会影响计算机的判断结果。如果是前面对车辆品牌进行判断的例子,还可以人工的选择出最有效的信息。但是如果面对的是DNA序列、复杂的图片,那就只能依靠计算机了。于是这就诞生了特征选择技术,选出与结果最相关的特征,从而提高判断的准确率。

 

先列个提纲,有时间再来慢慢写。欢迎拍砖,不屑于拍砖的也欢迎~~~

 

1. 什么是特征选择?

1.1 特征选择的起源

1.2 特征选择的发展历史

1.3 特征选择的研究现状

 

2. 特征选择的分类及基本原理

 

3. SVM以及SVM-RFE的基本原理

3.1 统计学习和SVM

3.2 SVM-RFE的基本原理

 

4. SVM-RFE的应用实例

3.1 SVM-RFE的实现

3.2 数据的编码和预处理

3.3 参数的选择和二重交叉验证

 

5. 特征选择的缺陷

你可能感兴趣的:(研究工作)