特征抽取与特征选择

特征抽取特征抽取后的新特征是原来特征的一个映射

特征选择:特征选择后的特征是原来特征的一个子集


特征抽取的方法主要是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间。

特征选择的方法是从原始特征数据集中选择出子集,是一种包含关系,没有改变原始的特征空间。


特征抽取:PCA和LDA

主要有两个类别:

信号表示:特征抽取后的特征要能精确地表示样本信息,使样本信息丢失很小。对应的方法是PCA

信号分类:特征抽取后的特征,要使分类后的准确率很高,不能比原来特征进行分类的准确率低。对与线性来说,对应的方法是LDA。


PCA和LDA两种方法的目标不一样,因此导致它们的方法也不一样。PCA得到的投影空间是协方差矩阵的特征向量。

而LDA则是通过求一个变换W,使得变换之后的新均值之差最大,方法最小(也就是最大化类间距离和最小化类内距离),变换W就是特征的投影方向。


特征选择

构造机器学习的模型的目的是希望能够从原始的特征数据集中学习问题的结构和问题的本质,当然此时挑选出的特征就应该能够对问题有更好的解释,所以特征选择的目标大致如下:

提高预测的准确性

构造更快,消耗更低的预测模型

能够对模型有更好的理解和解释


特征选择主要有三种方法:

Filter方法:

主要思想是:对每一维的特征进行“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重进行排序。主要的方法是:Chi-squared test(卡方检验),information gain(信息增益),correlation coefficient scores(相关系数)

Wrapper方法:

其主要思想是:将子集的选择看作是一个搜索寻优问题,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个优化问题,这里有很多的优化算法可以解决,齐次是一些启发的优化算法,如GA,PSO,DE,ABC等。主要方法有:recursive feature elimination algorithm(递归特征消除算法)

Embedded方法:

其主要思想是:在模型既定的情况下学习出对提高模型准确性最好的属性。其实是讲在确定模型的过程中,挑选出那些对模型的训练有重要意义的属性。主要方法有:正则化,岭回归就是在基本线性回归的过程中加入了正则项。



特征筛选与特征处理

在做训练样本前需要挑选样本,需要注意样本不平衡的问题,比如在定向广告预估点击率二元模型中,点击的(正样本)和不点击(负样本)的数据量相差很大,对于最终的预测结果会严重倾向于多数的负样本类,导致对正的分类错误率很高。但从评价指标准确率来看,因正负样本量的差异比较大,准确率不重视正类对分类效果评测的影响,往往分类的准确率从整体看还是比较高的。


解决正负样本不平衡问题的手段,主要有两种:

1.样本采样

对正样本采取上采样up sampling, 对负样本进行下采样 down sampling

上采样可以利用对稀有类样本的分布进行模拟生成和当前稀有样本临近的一些样本

一般更多的方式是利用下采样去除噪音,去除冗余样本,对负样本进行聚类,在每个聚类层上按照比例抽取部分样本,以达到在负样本上抽取的尽量不影响原始分布。


2.算法层面的优化:

划分样本训练集,每个训练集上进行模型训练,再进行分类器融合集成方式

代价敏感学习方式,赋予各个类别不同的错分代价,比如对错分正样本类样本做更大的惩罚

SVM,给样本数量少的正类更大的惩罚因子,表示我们重视这部分样本

在不均衡样本中,由于正类错分代价比负类要高很多,可以对AdaBoost进行改进,对正类样本设置比较高的权重。


当然在样本选择时,需要进行去噪,去噪的技术有很多,比如离群点分析,分箱检测等,当然最直观的私相同的特征,标签不一致。


利用机器学习进行建模,另一个成败的关键因素是特征的选择和特征的预处理


特征选择使得准确性和泛化能力效果更好,在保证经验风险最小化的基础上,尽量降低模型的复杂度,特征过多,模型过于复杂,过拟合,泛化能力差。


特征选择的一些方法:

首先基于业务进行理解,和业务进行讨论,尽可能的评估对因变量有影响的所有自变量。

初步选出自变量后,需要进行特征选择,有以下几种方式(Filter——考虑自变量和因变量之间的关联,Wrapper——离线和在线评估是否增加一个特征,Embedded——利用机器学习自身的筛选功能)


Filter:

对于连续型变量之间的相关性,可以采用相关系数来评估,比如皮尔逊相关系数

对于类别型的可以采用假设检验的方式,比如卡方检验

对于连续型的自变量和二元离散因变量,利用WOW,IV,通过WOW的变化来调整出最佳的分箱阈值,通过IV值,筛选出有较高预测价值的自变量。

R平方,一个变量的变化有百分之多少可以用另一个变量来解释。

还有就是需要避免自变量之间的共线性问题,共线性就是指自变量之间存在较强线性的关系。


Wrapper方式,主要考虑的是离线和在线评估是否增加一个特征,通过选定模型评估的指标(AUC, MAE, MSE)来评价对特征增加和去除后模型的好坏,通常有前向和后向两种特征选择方式


Embedded方式,通过分类学习器本身对特征自动的进行刷选,比如逻辑回归中的L1 L2 惩罚系数,决策树中的基于最大熵的信息增益选择特征。




你可能感兴趣的:(机器学习)