2019-04-08

一、离散化

简单离散

通过定义一些划分规则,将原来连续的数据划分成不同的类别,从而将数据离散化。

分桶后平滑

先根据数据的情况设置一些阈值,在每个桶中可以分别使用落入该桶中所有收入的平均数、中位数、以及边界值来替代桶中所有的数值,这三种方式分别称为平均平滑、中值平滑、以及边界值平滑。

聚类离散

把相同、相似以及相近的数据进行聚合。对每一个聚类的簇进行命名后就是离散的结果。

回归平滑

对两个有相关性的变量进行拟合,用拟合线上的数值代替原来的数值,本质上是进行数据噪声的处理。进行回归平滑后的数据已经具备了线性条件,因而可以使用非常明确的边界值对其进行划分,分成两个或多个。

二、属性构造

属性、字段、特征其实都是同一个意思,就是excel表头上的内容,比如姓名、年龄、身高。

特征工程

通过属性与属性的连接,构造新的属性,比如每天的上网时间这个属性,就可以构造一周的上网时间这个属性。

随意构造后筛选

任意两个或三个乃至更多的属性都可以组合在一起,加减乘除都没有问题。那么构造了这么多属性,怎么判断该使用哪个属性该不该使用哪个属性呢?这里就可以用到XGboost进行筛选。

你可能感兴趣的:(2019-04-08)