机器学习——特征工程

目录

特征工程

特征构造

特征选择

特征提取

模拟训练

训练数据收集方法


机器学习——特征工程_第1张图片

 

特征工程

特征工程就是一个从原始数据提取特征的过程,这些特征可以很好地描述这些数据,并且利用它们建立的模型在未知数据上的性能可以达到最优,最大限度减少“垃圾进,垃圾出”。特征提取得越有效,意味着构建的模型性能越出色。

 特征工程主要包括特征构造(Feature construction)、 特征选择(Feature Selection)、 特征提取( Feature Extraction)

特征构造

特征构建指的是从原始数据中构建新的特征,在实际应用中需要手工构建。首先研究真实的数据样本,思考问题的形式和数据结构,如何更好地应用到预测模型中。


特征构建需要很强的洞察力和分析能力,要求能够从原始数据中找出一些具有物理意义的特征。如果原始数据是表格数据,一般使用混合属性或者组合属性来创建新的特征,或是分解、切分原有的特征来创建新的特征。

特征生成前的原始数据可以分单列变量、多列变量、多行样本(时间序列)等三种情况。

特征选择

特征选择的目的是从特征集合中挑选一组最具统计意义的特征子集从而达到降维的效果。在实际应用中,常用的方法是用一些评价指标单独地计算出单个特征跟类别变量之间的关系。如Pearson相关系数、基尼指数(Gini-index)、 信息增益(Information Gain)等。


特征子集选择的方法属于筛选器(iter)方法,它主要例重于单个特征跟目标变量的相关性。优点是计算时间上较商效,对于过拟合问题也具有较高的鲁棒性。缺点就是倾向于选择冗余的特征,因为他们不当虑特征之间的相关性有可能某个特征的分类能力很差,但是它和某些其它特征组合起来会得到不错的效果。

特征子集选取的方法还有封装器(wrapper) 和集成方法(Embeded)。


封装器方法实质上是一个分类器,封装器用选取的特征子集对样本集进行分类,分类的精度作为衡量特征子集好坏的标准,经过比较选出最好的特征子集。常用的有逐步回归(Stepwise regression)、 向前选择(Forward selection)和向后选择(Backward selection)。 它的优点是考虑了特征与特征之间的关联性,缺点是当观测数据较少时容易过拟合,当特征数量较多时,计算时间会较长。


对于集成方法,它是学习器自身自主选择特征,如使用Regularization 做特征选择,或者使用决策树思想,例如应用随机森林和Gradient boosting做特征选择,本质上都是基于决策树的特征选择,只是细节上有些区别。

特征提取

特征提取目的是自动地构建新的特征,将原始数据转换为一组具有明显统计意义的核心特征。例如通过变换特征取值来减少原始数据中某个特征的取值个数等,或者减少特征的数量,只选择关键特征。对于表格数据,可以在特征矩阵上使用主成分分析来进行特征提取。

常用的特征提取方法有
主成分分析(PCA)
独立成分分析(Independent component analysis, ICA)
线性判别分析(LDS)

模拟训练

模型训练常见术语
A/B测试(AB testing
基准(baseline
批次(batch
 批次规模(batch size)是训练过程中一个批次中的样本的数量
周期(epoch
检查点(checkpoint
收敛(convergence
凸函数(convex function
决策边界(decision boundary
泛化(generalization
梯度下降(gradient descent

训练数据收集方法

从专业数据公司购买
免费的公开数据
系统生成、人工标注和交换

你可能感兴趣的:(机器学习,算法,机器学习)