林智仁教授关于F-score与SVM的特征选择论文

这个是他指导的硕士生的论文:
目录结构
第一章..................................................................................引言
第二章..................................................................................SVM基本概念
第三章...................................................................................现有特征选择方法
第四章...................................................................................NIPS竞赛
第五章...................................................................................其他基于SVM的特征选择方法
第六章....................................................................................实验
第七章......................................................................................讨论与结论

主要总结第四章-----讨论参加特色选择比赛的经验。
它展示了如何将一些前面的章节中描述的特征选择技术在竞赛数据集。

数据集合有5个两类的数据集,每个数据集都被分割成一个测试集、一个验证集和一个测试集,目的是在测试集上有最好的性能。

比赛过程比赛分为两个阶段: 开发阶段;最后阶段
开发阶段-----在开发阶段只有训练集的标签。参赛人员提交了他们对验证和测试集的预测标签在线法官报告验证集的性能,如平衡错误率。但是,测试集的性能是不可用的,因此参赛人员不能从提交的结果中直接知道哪种策略更适合测试集
最后阶段-------给出验证集的类标。因此参赛人员可以使用这些信息来标记测试集,测试集的性能保密,这个阶段只能提交5次。
特征选择方法:SVM ; SVM+filter ;SVM的wrapper方法
特征评估方法

在竞争数据中引入了一些没有意义的特征。这些特征称为随机探针。选择的随机探针的比例也是判断性能的标准;选择越小,就越容易过滤掉不相关的特性。

分类器评估用BER判断。对于在统计学上没有显著差异的方法中,使用最小数量的特性的方法将会胜出。当误差率和特征数量上没有显著差异的时用探针的分数来评估。在这种情况下,特征集中带有最少量随机探针的方法获胜。

尽管都有集中性能评估,但我们在整个比赛中都集中在如何取得最小的BER林智仁教授关于F-score与SVM的特征选择论文_第1张图片


你可能感兴趣的:(林智仁教授关于F-score与SVM的特征选择论文)