特征工程(1):特征提取、特征构建、特征选择的区别

        特征对于预测而言是相当重要的,在预测建模之前的大部分工作都是在寻找特征,没有合适特征的预测模型,就几乎等于瞎猜,对预测目标而言没冇任何意义。特征通常是指输入数据中对因变量的影响比较明显的有趣变量或属性。

       常见的特征提取、特征构建、特征选择三个概念有着本质不同:

       (1)特征提取:是指通过函数映射从原始特征中提取新特征的过程,假设有n个原始特征(或属性)表示为A1,A2,...,An,通过特征提取我们可以得到另外一组特征,表示为B1,B2,...,Bm(m<n),其中Bi=fi(A1,A2,...,An),i\in [1,m],且f是对应的函数映射,注意到,这里我们用得到的新特征替代了原始特征,最终得到m个特征;

      (2)特征构建:是从原始特征中推断或构建额外特征的过程,对于原始的n个特征A1,A2,...,An,经过特征构建,我们得到m个额外的特征,表示为An+1,An+2,...,An+m,所得到的这些特征都是由原始特征定义的,最终得到n+m个特征。

      (2)特征选择:是指从原始的n个特征中选择m(m<n)个子特征的过程,因此特征选择按照某个标准实现了最优简化,即实现了降维,最终得到m个特征(注意特征并没有发生变化,只是总的数量减少了)。

        特征工程(1):特征提取、特征构建、特征选择的区别_第1张图片

 

你可能感兴趣的:(机器学习,特征工程,机器学习,数据挖掘)