特征处理是特征工程的核心部分,特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样式确定的步骤,更多的是工程上的经验和权衡,因此没有统一的方法,但是sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触到sklearn,通常会被其丰富且方便的算法模型库吸引,但是这里介绍的特征处理库也非常强大!
经过前人的总结,特征工程已经形成了接近标准化的流程,如下图所示(此图来自此网友,若侵权,联系我,必删除)
在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中自己去寻找高级数据特征。
本文中使用sklearn中的IRIS(鸢尾花)数据集来对特征处理功能进行说明。IRIS数据集由Fisher在1936年整理,包括4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度)),特征值都为正浮点数,单位为厘米,目标值为鸢尾花的分类(Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),Iris Virginica(维吉尼亚鸢尾))。导入IRIS数据集的代码如下:
1 2 3 4 5 6 7 8 9 10 |
|
从本地导入数据集的代码如下:
1 2 3 4 5 6 7 8 |
|
其中iris.txt的数据集如下:
+ View Code
对于一个项目,首先是分析项目的目的和需求,了解这个项目属于什么问题,要达到什么效果。然后提取数据,做基本的数据清洗。第三步是特征工程,这个需要耗费很大的精力。如果特征工程做得好,那么后面选择什么算法其实差异不大,反之,不管选择什么算法,效果都不会有突破性的提升。第四步是跑算法,通常情况下,我将自己会的所有的能跑的算法先跑一遍,看看效果,分析一下precesion/recall和f1-score,看看有没有什么异常(譬如有好几个算法precision特别好,但是recall特别低,这就要从数据中找原因,或者从算法中看是不是因为算法不适合这个数据),如果没有异常,那么就进行下一步,选择一两个跑的结果最好的算法进行调优。调优的方法很多,调整参数的话可以用网格搜索,随机搜索等,调整性能的话,可以根据具体的数据和场景进行具体分析,调优后再去跑一遍算法,看有没有提高,如果没有,找原因,数据还是算法问题,是数据质量不好,还是特征问题,还是算法问题??一个一个排查,找解决方法,特征问题就回到第三步再进行特征工程,数据问题就回到第一步看数据清洗有没有遗漏,异常值是否影响了算法的结果,算法问题就回到第四步,看算法流程中哪一步出了问题。如果实在不行,可以搜一下相关的论文,看看论文中有没有解决方法。这样反复来几遍,就可以出结果了,写技术文档和分析报告,最后想产品讲解我们做的东西。然后他们再提需求,不断循环,最后代码上线,该bug。
直观来看,可以使用一个流程图来表示:
为什么要进行数据清洗呢?
我们之前实践的数据,比如iris数据集,波士顿房价数据,电影评分数据集,手写数字数据集等等,数据质量都很高,没有缺失值,没有异常点,也没有噪音。而在真实数据中,我们拿到的数据可能包含了大量的缺失值,可能包含大量的噪音,也可能因为人工录入错误导致有异常点存在,对我们挖掘出有效信息造成了一定的困扰,所以我们需要通过一些方法啊,尽量提高数据的质量。
在实际项目中,当我们确定需求后就会去找相应的数据,拿到数据后,首先要对数据进行描述性统计分析,查看哪些数据是不合理的,也可以知道数据的基本情况。如果是销售额数据可以通过分析不同商品的销售总额,人均消费额,人均消费次数等,同一商品的不同时间的消费额,消费频次等等,了解数据的基本情况。此外可以通过作图的形式来了解数据的质量,有无异常点,有无噪音等。
python中包含了大量的统计命令,其中主要的统计特征函数如下图所示:
通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:
我们使用sklearn中的preprocessing库来进行数据预处理,可以覆盖以上问题的解决方案。
无量纲化使不同规格的数据转换到同一规则。常见的无量纲化方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,例如[0,1]等。
2.2.1 标准化
标准化需要计算特征的均值和标准差,公式表达为:
使用preprocessing库的StandardScaler类对数据进行标准化的代码如下:
1 2 3 4 |
|
StandardScler计算训练集的平均值和标准差,以便测试数据及使用相同的变换,变换后的各维特征有0均值,单位方差(也叫z-score规范化),计算方式是将特征值减去均值,除以标准差。
fit 用于计算训练数据的均值和方差,后面就会使用均值和方差来转换训练数据
fit_transform 不仅计算训练数据的均值和方差,还会用计算出来的均值和方差来转换训练数据,从而把数据转化成标准的正态分布。
transform 很显然,这只是进行转换,只是把训练数据转换成标准的正态分布。
为什么要标准化?
通常情况下是为了消除量纲的影响。譬如一个百分制的变量与一个5分值的变量在一起怎么比较呢?只有通过数据标准化,都把他们标准到同一个标准时才具有可比性,一般标准化采用的是Z标准化,即均值为0,方差为1,当然也有其他标准化,比如0-1 标准化等等,可根据自己的数据分布情况和模型来选择。
标准化适用情况
看模型是否具有伸缩不变性。
不是所有的模型都一定需要标准化,有些模型对量纲不同的数据比较敏感,譬如SVM等。当各个维度进行不均匀伸缩后,最优解与原来不等价,这样的模型,除非原始数据的分布范围本来就不叫接近,否则必须进行标准化,以免模型参数被分布范围较大或较小的数据主导。但是如果模型在各个维度进行不均匀伸缩后,最优解与原来等价,例如logistic regression等,对于这样的模型,是否标准化理论上不会改变最优解。但是,由于实际求解往往使用迭代算法,如果目标函数的形状太“扁”,迭代算法可能收敛地很慢甚至不收敛,所以对于具有伸缩不变性的模型,最好也进行数据标准化。
2.2.2 区间缩放法(最小-最大规范化)
区间缩放法的思路有很多,常见的一种为利用两个极值进行缩放,公式表达为:
使用preproccessing库的MinMaxScaler类对数据进行区间缩放的代码如下:
1 2 3 4 |
|
区间缩放是对原始数据进行线性变换,变换到[0,1] 区间(当然也可以是其他固定最小最大值的区间)
2.2.3 正则化(normalize)
机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfit)。即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具有良好的泛化能力,为了避免过拟合,最常用的一种方法是使用正则化,例如L1和L2正则化。
正则化的思想是:首先求出样本的P范数,然后该样本的所有元素都要除以该范数,这样使得最终每个样本的范数都是1,规范化(Normalization)是将不同变化范围的值映射到相同的固定范围,常见的是[0,1],也称为归一化。
如下例子,将每个样本变换成unit norm。
1 2 3 4 5 6 7 8 9 10 |
|
定量特征二值化的核心在于设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0,公式如下:
使用preprocessing库的Binarizer类对数据进行二值化的代码如下:
1 2 3 4 |
|
给定阈值,将特征转化为0/1,最主要的是确定阈值设置。
由于IRIS数据集的特征皆为定量特征,故使用其目标值进行哑编码(实际上是不需要的)。使用preprocessing库的OneHotEncoder类对数据进行哑编码的代码如下:
1 2 3 4 |
|
One-hot编码是使一种对离散特征值的编码方式,在LR模型中常用到,用于给线性模型增加非线性能力。
缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类,分组,删除或者截断。它指的是现有数据集中某个或者某些属性的值时不完全的。
缺失值在实际数据中是不可避免的问题,有的人看到缺失值就直接删除了,有的人直接赋予0值或者某一个特殊的值,那么到底该如何处理呢?对于不同的数据场景应该采取不同的策略,首先应该判断缺失值的分布情况。
当缺失值如果占了95%以上,可以直接去掉这个维度的数据,直接删除会对后面的算法跑的结果造成不好的影响,我们常用的方法如下:
2.5.1 删除缺失值
如果一个样本或者变量中所包含的缺失值超过一定的比例,比如超过样本或者变量的一半,此时这个样本或者变量所含有的信息是有限的,如果我们强行对数据进行填充处理,可能会加入过大的人工信息,导致建模效果大打折扣,这种情况下,我们一般选择从数据中剔除整个样本或者变量,即删除缺失值。
2.5.2 缺失值填充
随机填充法
从字面上理解就是找一个随机数,对缺失值进行填充,这种方法没有考虑任何的数据特性,填充后可能还是会出现异常值等情况。譬如将缺失值使用“Unknown”等填充,但是效果不一定好,因为算法可能会把他识别称为一个新的类别。一般情况下不建议使用。
均值填充法
寻找与缺失值变量相关性最大的那个变量把数据分成几个组,然后分别计算每个组的均值,然后把均值填入缺失的位置作为它的值,如果找不到相关性较好的变量,也可以统计变量已有数据的均值,然后把它填入缺失位置。这种方法会在一定程度上改变数据的分布。
最相似填充法
在数据集中找到一个与它最相似的样本,然后用这个样本的值对缺失值进行填充。
与均值填充法有点类似,寻找与缺失值变量(比如x)相关性最大的那个变量(比如y),然后按照变量y的值进行排序,然后得到相应的x的排序,最后用缺失值所在位置的前一个值来代替缺失值。
回归填充法(建模法)
把缺失值变量作为一个目标变量y,把缺失值变量已有部分数据作为训练集,寻找与其高度相关的变量x建立回归方程,然后把缺失值变量y所在位置对应的x作为预测集,对缺失进行预测,用预测结果来代替缺失值。
可以用回归,使用贝叶斯形式方法的基于推理的工具或者决策树归纳确定。例如利用数据集中其他数据的属性,可以构造一棵判断树,来预测缺失值的值。
k近邻填充法
利用knn算法,选择缺失值的最近k个近邻点,然后根据缺失值所在的点离这几个点距离的远近进行加权平均来估计缺失值。
多重插补法
通过变量之间的关系对缺失数据进行预测,利用蒙特卡洛方法生成多个完整的数据集,在对这些数据集进行分析,最后对分析结果进行汇总处理
2.5.3 示例——均值填充法
由于IRIS数据集没有缺失值,故对数据集新增一个样本,4个特征均赋值为NaN,表示数据缺失。使用preprocessing库的Imputer类对数据进行缺失值计算的代码如下:
1 2 3 4 5 6 7 |
|
常用的数据变换有基于多项式的,基于指数函数的,基于对数函数的,4个特征,度为2的多项式转换公式如下:
使用preprocessing库的PolynomialFeatures类对数据进行多项式转换的代码如下:
1 2 3 4 5 |
|
基于单变元函数的数据变换可以使用一个统一的方式完成,使用preprocessing库的FunctionTransformer 对数据进行对数函数转换的代码如下:
1 2 3 4 5 6 |
|
异常值我们通常也称为“离群点”,我们在实际项目中拿到的数据往往有不少异常数据,有时候不筛选出这些异常数据很可能让我们后面的数据分析模型有很大的偏差。所以我们应该如何筛选出异常特征样本呢?
简单的统计分析
拿到数据可以对数据进行一个简单的描述性统计分析,譬如最大值最小值可以用来判断这个变量的取值是否超过了合理的范围,如客户的年龄为-20岁或者125岁,显然是不合理的,为异常值。
在python中可以直接使用pandas的describe():
1 2 3 4 5 6 7 8 9 10 11 12 |
|
截断法
数据预处理第一步,通常是对异常值的处理。“截断”方法具体步骤为:首先,求一次过程中原始数据的上四分位值Q3,作为首尾无效数据限界点;然后从原始数据的开头向后和尾部向前,提出所有小于Q3数值,直到碰到第一个不小于Q3的数据,则停止截断。
首先,要得到数据的上四分位数和下四分位数,利用np.percentile(),用法如下:
1 2 3 4 |
|
可能正确的代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
|
假设数据集时x = [1,2,3,98,99,10000],显然最后一个数10000是一个超限点,它的Q1 = 25,Q3 = 75,四分位距IQR(the interquartile range)=Q1 - Q3。若上下界分别扩大0.5倍,令k = 1.5 为high = Q3 + k*(Q3-Q1),下界为low = Q1-k*(Q3-Q1),即上界为-50下界为150,显然10000超限,如果想调整上界下界的范围,调整系数即可。
1 2 3 4 5 6 7 8 9 10 11 12 13 |
|
对于一个矩阵df,按列循环找到每列数据的异常值,如果某个样本含有n个以上的超限特征,返回行号。
注意:在进行这一步之前,先要处理好缺失值的标签量。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
|
经过检查后,假设特征矩阵有10(列)个特征,规范包含大于4列超过了范围,返回行号。
1 |
|
单变量异常值检测(格拉布斯法)
首先,将变量按照其值从小到大进行顺序排列x1,x2.....xn
其次,计算平均值x拔和标准差S,
同时计算偏离值,即平均值与最大值之差和平均值与最小值之差,然后确定一个可疑值,一般是偏离平均值较大的那个。
计算统计量gi(残差与标准差的比值),i为可疑值的序列号。
再者,将gi与格拉布斯表给出的临界值GP(n)比较,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。这里临界值GP(n)与两个参数有关:检出水平α和测量次数n 。
检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
多变量异常值检测(基于距离计算)
基于距离的多变量异常值检测类似与k近邻算法的思路,一般的思路是计算各样本点到中心点的距离,如果距离太大,则判断为异常值,这里距离的度量一般使用马氏距离(Mahalanobis Distance)。因为马氏距离不受量纲的影响,而且在多元条件下,马氏距离还考虑了变量之间的相关性,这使得它优于欧氏距离。
异常点检测方法
主要是使用IForest 或者One Class SVM ,使用异常点检测的机器学习算法来过滤所有的异常点。
3∂原则
如果数据服从正态分布,在3∂原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布,距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂) <= 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。
箱型图分析
箱型图提供了识别异常值的一个标准:如果一个值小于QL01.5IQR或大于OU-1.5IQR的值,则被称为异常值。QL为下四分位数,表示全部观察值中有四分之一的数据取值比它小;QU为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR为四分位数间距,是上四分位数QU与下四分位数QL的差值,包含了全部观察值的一半。箱型图判断异常值的方法以四分位数和四分位距为基础,四分位数具有鲁棒性:25%的数据可以变得任意远并且不会干扰四分位数,所以异常值不能对这个标准施加影响。因此箱型图识别异常值比较客观,在识别异常值时有一定的优越性。
基于模型检测
首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象
优缺点:1.有坚实的统计学理论基础,当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效;2.对于多元数据,可用的选择少一些,并且对于高维数据,这些检测可能性很差。
基于距离
通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象
优缺点:1.简单;2.缺点:基于邻近度的方法需要O(m2)时间,大数据集不适用;3.该方法对参数的选择也是敏感的;4.不能处理具有不同密度区域的数据集,因为它使用全局阈值,不能考虑这种密度的变化。
基于密度
当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。适合非均匀分布的数据。
优缺点:1.给出了对象是离群点的定量度量,并且即使数据具有不同的区域也能够很好的处理;2.与基于距离的方法一样,这些方法必然具有O(m2)的时间复杂度。对于低维数据使用特定的数据结构可以达到O(mlogm);3.参数选择困难。虽然算法通过观察不同的k值,取得最大离群点得分来处理该问题,但是,仍然需要选择这些值的上下界。
基于聚类
基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇。离群点对初始聚类的影响:如果通过聚类检测离群点,则由于离群点影响聚类,存在一个问题:结构是否有效。为了处理该问题,可以使用如下方法:对象聚类,删除离群点,对象再次聚类(这个不能保证产生最优结果)。
优缺点:1.基于线性和接近线性复杂度(k均值)的聚类技术来发现离群点可能是高度有效的;2.簇的定义通常是离群点的补,因此可能同时发现簇和离群点;3.产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性;4.聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。
我们做分类算法训练时,如果训练集里的各个类别的样本数量不是大约相同的比例,就需要处理样本不平衡问题,也许你会说,不处理会怎么样呢?如果不处理,那么拟合出来的模型对于训练集中少样本的类别泛化能力会很差。举个例子,我们是一个二分类问题,如果训练集里A类样本占90%,B类样本占10%。而测试集里A类别样本占50%。B类样本占50%,如果不考虑类别不平衡问题,训练出来的模型对于类别B的预测准确率会很低,甚至低于50%。
如何解决这个问题呢?一般方法是:权重法或者采样法
权重法是比较简单的方法,我们可以对训练集里的每个类别加一个权重class weight。如果该类别的样本数多,那么它的权重就低,反之则权重就高。如果更细致点,我们还可以对每个样本加权重sample weight ,思路和类别权重也是一样,即样本数多的类别样本权重低,反之样本权重高。sklearn中,绝大多数算法都有class weight 和sample weight可以使用。
如果权重法做了以后发现预测效果还不好,可以考虑采样法。
采样法也有两种思路,一种是对类别样本数多的样本做子采样,比如训练集里A类别样本占90%,B类样本占10%,那么我们可以对A类的样本子采样,知道子采样得到的A类样本数和B类别现有样本一致为止。这样我们就只用子采样得到的A 类样本数和B类现有样本一起做训练集拟合模型。第二种思路是对类别样本数少的样本做过采样,还是上面的例子,我们对B类别的样本做过采样,知道过采样得到的B类别样本数加上B类别原来样本一起和A类样本数一致,最后再去拟合模型。
上述两种常用的采样法很简单,但是都有个问题,就是采样后改变了训练集的分布,可能导致泛化能力差。所以有的算法就通过其他方法来避免这个问题,比如SMOTE算法通过人工合成的方法来生成少类别的样本。方法也很简单,对于某个缺少样本的类别,它会随机找出几个该类别的样本,再找出最靠近这些样本的若干个该类别样本,组成一个候选合成集合,然后在这个集合中不停的选择距离较近的两个样本,在这两个样本之间,比如中点,构造一个新的该类别样本。举个例子,比如该类别的候选合成集合有两个样本(x1 , y ) , (x2 , y),那么SMOTE采样后,可以得到一个新的训练样本 ((x1+x2)/2 , y),通过这种方法,我们可以得到不改变训练集分布的新样本,让训练集中各个类别的样本数趋于平衡,我们可以用imbalance-learn这个Python库中的SMOTEENN类来做SMOTE采样。
噪音,是被测量变量的随机误差或方差。我们在上文中提到过异常点(离群点),那么离群点和噪音是不是一回事呢?我们知道,观测量(Measurement) = 真实数据(True Data) + 噪声 (Noise)。离群点(Outlier)属于观测量,既有可能是真实数据产生的,也有可能是噪声带来的,但是总的来说是和大部分观测量之间有明显不同的观测值。。噪音包括错误值或偏离期望的孤立点值,但也不能说噪声点包含离群点,虽然大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而,在一些应用(例如:欺诈检测),会针对离群点做离群点分析或异常挖掘。而且有些点在局部是属于离群点,但从全局看是正常的。
那么对于噪音,我们应该如何处理呢?有以下几种方法:
2.9.1,分箱法
分箱方法通过考察数据的“近邻”(即,周围的值)来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近邻的值,因此它进行局部光滑。
一般而言,宽度越大,光滑效果越明显。箱也可以是等宽的,其中每个箱值的区间范围是个常量。分箱也可以作为一种离散化技术使用.
2.9.2,回归法
可以用一个函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使得一个属性能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个属性,并且数据拟合到一个多维面。使用回归,找出适合数据的数学方程式,能够帮助消除噪声。
以DataFrame数据格式为例:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 |
|
如果数据是列表格式,有以下几种方法可以删除:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 |
|
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:
根据特征选择的形式又可以将特征选择方法分为3种:
我们使用sklearn中的feature_selection库来进行特征选择。
3.1.1 方差选择法
使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下:
1 2 3 4 5 |
|
3.1.2 相关系数法
使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的P值,用feature_selection库的SelectKBest类结合相关系数来选择特征的代码如下:
1 2 3 4 5 6 7 8 |
|
3.1.3 卡方检验
经典的卡方检验是检验定性自变量对定性因变量的相关性。假设自变量有N种取值,因变量有M种取值,考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距,构建统计量:
这个统计量的含义简而言之就是自变量对因变量的相关性,用feature_selection库的SelectKBest类结合卡方检验来选择特征的代码如下:
1 2 3 4 5 |
|
3.1.4 互信息法
经典的互信息也是评价定性自变量对定性因变量的相关性的,互信息计算公式如下:
为了处理定量数据,最大信息系数法被提出,使用feature_selection库的SelectKBest类结合最大信息系数法来选择特征的代码如下:
1 2 3 4 5 6 7 8 9 10 11 |
|
Wrapper方与特征过滤不同,它不单看特征和目标直接的关联性,而是从添加这个特征后模型最终的表现来评估特征的好坏。而在一个特征空间中,产生特征子集的过程可以看成是一个搜索问题。目前主要用的一个Wrapper方法是递归特征消除法。
递归特征消除的主要思想是不断使用从特征空间中抽取出来的特征子集构建模型,然后选出最好的的特征,把选出来的特征放到一遍,然后在剩余的特征上重复这个过程,直到所有特征都遍历了。这个过程中特征被消除的次序就是特征的排序。这是一种寻找最优特征子集的贪心算法。
3.2.1 递归特征消除法
递归特征消除法使用一个基模型来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练,使用feature_selection库的RFE类来选择特征的代码如下:
1 2 3 4 5 6 7 |
|
Embedded方法是在模型构建的同时选择最好的特征。最为常用的一个Embedded方法就是:正则化。正则化就是把额外的约束或者惩罚项加到已有模型的损失函数上,以防止过拟合并提高泛化能力。正则化分为L1正则化(Lasso)和L2正则化(Ridge回归)。
L1正则化是将所有系数的绝对值之和乘以一个系数作为惩罚项加到损失函数上,现在模型寻找最优解的过程中,需要考虑正则项的影响,即如何在正则项的约束下找到最小损失函数。同样的L2正则化也是将一个惩罚项加到损失函数上,不过惩罚项是参数的平方和。其他还有基于树的特征选择等。
3.3.1 基于惩罚项的特征选择法
使用带惩罚项的基模型,除了筛选出特外,同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型,来选择特征的代码如下:
1 2 3 4 5 |
|
L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个,所以没选到的特征不代表不重要,故可以结合L2惩罚项来优化。具体操作为:若一个特征在L1中的权重为1,选择在L2中的权值差别不大且在L1中权值为0的特征构成同类集合,将这一集合中的特征平分L1中的权值,故需要构建一个新的逻辑回归模型:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 |
|
使用feature_selection库的SelectFromModel类结合带L1以及L2惩罚项的逻辑回归模型,来选择特征的代码如下:
1 2 3 4 5 |
|
3.3.2 基于树模型的特征选择法
树模型中GBDT也可以用来作为基模型来进行特征选择,使用feature_selection库的SelectFromModel类结合GBDT模型,来选择特征的代码如下:
1 2 3 4 5 |
|
当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间比较长的问题,因此降低特征矩阵维度也是必不可少的。常见的降维方法除了以上提到的基于L1惩罚项的模型以外,另外有主成分分析法(PCA)和线性判别分析(LDA),线性判别分析本身也是一种分类模型。PCA和LDA有很多的相似点,其本质是要将原始的样本映射到维度更低的样本空间中,但是PCA和LDA的映射目标不一样:PCA是为了让映射后的样本具有最大的发散性,而LDA是为了让映射后的样本有最好的分类性能,所以说PCA是一种无监督的降维方法,而LDA是一种有监督的降维方法。
使用decomposition库的PCA类选择特征的代码如下:
1 2 3 4 5 |
|
主成分分析原理及其Python实现博文:可以点击这里
使用lda库的LDA类选择特征的代码如下:
1 2 3 4 5 |
|
线性判别分析原理及其Python实现博文:可以点击这里
那么我们可以使用sklearn完成几乎所有特征处理的工作,而且不管是数据预处理,还是特征选择,抑或降维,他们都是通过某个类的方法fit_transform完成的,fit_transform要不只带一个参数:特征矩阵,要不带两个参数:特征矩阵加目标向量。这些难道都是巧合吗?还是故意设计成这样?方法fit_transform中有fit这一单词,它和训练模型的fit方法有关联吗?
数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练的工作,上面也提到了这些难道都是巧合吗?还是故意设计成这样?方法fit_transform中有fit这一单词,它和训练模型的fit方法有关联吗?
显然,这不是巧合,这是sklearn的设计风格。我们能够更加优雅的使用sklearn进行特征工程和模型训练工作。此时,我们从一个数据挖掘的场景入手:
我们使用sklearn进行虚线框内的工作(sklearn也可以进行文本特征提取),通过分析sklearn源码,我们可以看到除训练,预测和评估以外,处理其他工作的类都实现了3个方法:fit transform fit_transform 。从命名中可以看到,fit_transform方法是先调用fit然后调用transform,我们只需要关注fit方法和transform方法即可。
transform方法主要用来对特征进行转换。从可利用信息的角度来说,转换分为无信息转换和有信息转换。无信息转换是指不利用任何其他信息进行转换,比如指数、对数函数转换等。有信息转换从是否利用目标值向量又可分为无监督转换和有监督转换。无监督转换指只利用特征的统计信息的转换,统计信息包括均值、标准差、边界等等,比如标准化、PCA法降维等。有监督转换指既利用了特征信息又利用了目标值信息的转换,比如通过模型选择特征、LDA法降维等。通过总结常用的转换类,我们得到下表:
不难看出,只有有信息的转换类的fit方法才实际有用,显然fit方法的主要工作是获取特征信息和目标值信息,在这点上,fit方法和模型训练时的fit方法就能够联系在一起了:都是通过分析特征和目标值 ,提取有价值的信息,对于转换类来说是某些统计量,对于模型来说可能是特征的权值系数等。另外,只有有监督的转换类的fit和transform方法才需要特征和目标值两个参数。fit方法无用不代表没实现,而是除合法性校验以外,其并没有对特征和目标值进行任何处理,Normalizer的fit方法实现如下:
1 2 3 4 5 6 7 |
|
基于这些特征处理工作都有共同的方法,那么试想可不可以将他们组合在一起?在本文假设的场景中,我们可以看到这些工作的组合形式有两种:流水线式和并行式。基于流水线组合的工作需要依次进行,前一个工作的输出是后一个工作的输入;基于并行式的工作可以同时进行,其使用同样的输入,所有工作完成后将各自的输出合并之后输出。sklearn提供了包pipeline来完成流水线式和并行式的工作。
5.1.1 数据初貌
在此,我们仍然使用IRIS数据集来进行说明,为了适应提出的场景,对元数据集需要稍微加工:
1 2 3 4 5 6 7 8 9 10 11 |
|
5.1.2 关键技术
并行处理,流水线处理,自动化调参,持久化是使用sklearn优雅的进行数据挖掘的核心。并行处理和流水线处理将多个特征处理工作,甚至包括模型训练工作组合成一个工作(从代码的角度来说,即将多个对象组成了一个对象)。在组合的前提下,自动化调参技术帮我们省去了人工调参的繁琐。训练好的模型是储存在内存中的数据,持久化能够将这些数据保存在文件系统中,之后使用时候无需再进行训练,直接从文件系统中加载即可。
并行处理使得多个特征处理工作能够并行的进行,根据对特征矩阵的读取方式不同,可分为整体并行处理和部分并行处理。整体并行处理,即并行处理的每个工作的输入都是特征矩阵的整体;部分并行处理,即可定义每个工作需要输入的特征矩阵的列。
5.2.1 整体并行处理
pipeline包提供了FeatureUnion类来进行整体并行处理:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
|
5.2.2 部分并行处理
整体并行处理有其缺陷,在一些场景下,我们只需要对特征矩阵的某些列进行转换,而不是所有列,pipeline并没有提供相应的类(仅OneHotEncoder类实现了该功能)需要我们再FeatureUnion的基础上进行优化:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 |
|
在本文提出的场景中,我们对特征矩阵的第1列(花的颜色)进行定性特征编码,对第2,3,4列进行对数函数转换,对第5列进行定量特征二值化处理。使用FeatureUnionExt类进行部分并行处理的代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
|
pipeline包提供了Pipeline类来进行流水线处理,流水线上除最后一个工作以外,其他都要执行fit_transfrom方法,且上一个工作输出作为下一个工作的输入。最后一个工作必须实现fit方法,输入为上一个工作的输出;但是不限定一定有transform方法,因为流水线的最后一个工作可能是训练!
根据文中提出的场景,结合并行处理,构造完整的流水线的代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 |
|
网格搜索为自动化调参的常用技术之一,grid_search包提供了自动化调参的工具,包括GridSearchCV类。对组合好的对象进行训练以及调参的代码如下:
1 2 3 4 5 6 7 8 |
|
externals.joblib包提供了dump和load方法来持久化和加载内存数据:
1 2 3 4 5 6 7 |
|
注意:组合和持久化都会涉及pickle技术,在Sklearn的技术文档中有说明,将lambda定义函数作为FunctionTransformer的自定义转换函数将不能pickle化。
Python开发中经常遇到报错的情况,但是warning通常不影响程序的运行,而且有时候特别讨厌,下面我们来说下如何忽略warning的错误。
在说忽略warning之前,我们先说下如何主动产生warning错误,这里用到warnings模块,看如下代码:
1 2 3 4 5 6 |
|
这样就产生了warning错误
那么如何来控制警告错误的输出呢?很简单
1 2 3 |
|
这样就忽略了警告错误的输出。
如何忽略命令行下警告输出呢?
1 |
|
参考资料:http://www.cnblogs.com/jasonfreak/p/5448462.html
http://www.cnblogs.com/jasonfreak/p/5448385.html
https://www.cnblogs.com/pinard/p/9093890.html