数据挖掘与数据分析(四)—— 预处理理论(1) —— 特征工程 Feature Engineering

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

 

当你想要你的预测模型性能达到最佳时,你要做的不仅是要选取最好的算法,还要尽可能的从原始数据中获取更多的信息,为预测模型得到更好的数据。这就是特征工程要做的事,它的目的就是获取更好的训练数据。

特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。

简而言之,特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)

 

特征工程

①特征构建

      特征构建是指从原始数据中人工的找出一些具有物理意义的特征。需要花时间去观察原始数据,思考问题的潜在形式和数据结构,对数据敏感性和机器学习实战经验能帮助特征构建

②特征提取

       通过特征转换的方式得到一组具有明显物理或统计意义的特征

       如PCA主成分分析、LDA线性判别分析、ICA独立成分分析

③特征选择

      特征选择是剔除不相关或者冗余的特征,减少有效特征的个数,减少模型训练的时间,提高模型的精确度。特征提取通过特征转换实现降维,特征选择则是依靠统计学方法或者于机器学习模型本身的特征选择(排序)功能实现降维

 

 

 

 

 

你可能感兴趣的:(特征工程)