特征工程(机器学习)

特征工程(机器学习)_第1张图片

 

目录

特征构造

特征选择

特征提取

常用的特征提取方法有


特征工程就是一个从原始数据提取特征的过程,这些特征可以很好地描述这些数据,并且利用它们建立的模型在未知数据上的性能可以达到最优;

特征工程主要包括特征构造(Feature construction)、 特征选择(Feature Selection)、 特征提取( Feature Extraction)

特征构造


特征构建指的是从原始数据中构建新的特征,在实际应用中需要手工构建。

特征构建需要很强的洞察力和分析能力,要求能够从原始数据中找出一些具有物理意义的特征。

如果原始数据是表格数据,一般使用混合属性或者组合属性来创建新的特征,或是分解、切分原有的特征来创建新的特征

特征生成前的原始数据可以分单列变量、多列变量、多行样本(时间序列)等三种情况

特征选择


特征选择的目的是从特征集合中挑选一组最具统计意义的特征子集,从而达到降维的效果。

在实际应用中,常用的方法是用一些评价指标单独地计算出单个特征跟类别变量之间的关系。如Pearson相关系数、基尼指数(Gini-index)、 信息增益(Information Gain)等

特征子集选择的方法属于筛选器(iter)方法,它主要例重于单个特征跟目标变量的相关性。优点是计算时间上较商效,对于过拟合问题也具有较高的鲁棒性。缺点就是倾向于选择冗余的特征,因为他们不当虑特征之间的相关性有可能某个特征的分类能力很差,但是它和某些其它特征组合起来会得到不错的效果

特征提取


特征提取目的是自动地构建新的特征,将原始数据转换为一组具有明显统计意义的核心特征。

例如通过变换特征取值来减少原始数据中某个特征的取值个数等,或者减少特征的数量,只选择关键特征。对于表格数据,可以在特征矩阵上使用主成分分析来进行特征提取

常用的特征提取方法有


主成分分析(PCA)

独立成分分析(Independent component analysis, ICA)

线性判别分析(LDA)

 

你可能感兴趣的:(机器学习,特征工程,特征提取)