秋招总结问题一:为什么需要特征选择?特征选择有哪些?

1.为什么需要特征选择?特征选择有哪些?
第一个问题
  ①在现实任务中经常会遇到维数灾难问题,属性过多造成的。 ②可以降低学习任务的难度。不相关的特征就是噪声。

第二个问题
  过滤式,包裹式,嵌入式
   特征选择分为两个部分,一个是子集搜索,一个是子集评价。子集搜索有前向搜索,后向搜索,双向搜索,但是都是贪心的。子集评价是通过计算属性的信息增益。即使用该特征后,降低了训练样本的不确定性。信息增益越大表明该特征对于分类作用越好。
  过滤式特征选择:RelifF思想:使类与类之间距离越大,类内差距小。对每个训练数据找到其猜中近邻(near-hit)和猜错近邻(near-miss).
在这里插入图片描述
  从公式可以看出,和猜错近邻的差距越大,那么该特征的重要性越高,和猜对近邻的差距越小,那么该特征的重要性越大。
注:使用RelifF需要对特征进行归一化。
包裹式特征选择:Las Vegas Wrapper(拉斯维加斯包裹):目的选择最多的信息,最少的特征。

你可能感兴趣的:(2019校招)