特征选择综述论文阅读笔记

一 特征选择(feature selection)的简介

  我们现在正处在大数据的时代,大量的高维数据在各种领域中无处不在,如社交媒体、医疗保健、生物信息学和在线教育
  当数据挖掘和机器学习算法应用于高维数据时,一个关键问题被称为维数诅咒:数据在高维空间中变得更加稀疏,对为低维空间设计的算法产生不利影响的现象。用一个例子表示就是如果用one-hot编码来对文章进行编码(即一篇文章为一个正交向量),因为天下很少有两篇一模一样的文章,所以这个特征空间就会很稀疏。此外,由于有大量的feature,学习模型往往会过度拟合。
  数据降维是解决上述问题方法之一。它主要可分为两大部分:
  ①feature extraction特征抽取是将原始的高维特征投影到一个新的低维特征空间中。新构造的特征空间通常是原始特征的线性或非线性组合。
  ②feature selection特征选择则直接选择相关特征的子集来构建模型
  现实世界的数据包含许多无关的、冗余和有噪声的特征。通过特征选择来删除这些特征可以降低存储和计算成本,同时避免了信息的显著丢失或学习性能的下降。具体的情况如下图所示:

你可能感兴趣的:(数据挖掘,数据挖掘,机器学习,算法)