离散化/分箱/分组(Discretization / binning / Interactive grouping)

1、监督离散化(supervised discretization)

考虑类别信息(已知X 的值和Y 的值)。检验方法如:卡方检验(ChiMerge 慢、Chi-square、Chi2、CAIM、CACC、ameva),信息增益,基尼指数,最短描述长度原则(MDLP,基于熵),WoE等。

 

(1)最优准则:基于“树结构准则”查找最佳分组 (条件推理树Conditional Inference Trees, initially excludes missing values(NA) to compute the cutpoints, adding them back later in the process for thecalculation of the Information Value)。

离散化/分箱/分组(Discretization / binning / Interactive grouping)_第1张图片

准则:

(a)熵;

(b)目标和分支节点使用Pearson卡方统计量的p值;

 

(2)单调事件率MonotonicEvent Rate:要求各组的单调事件率呈单调。

(3)约束最优ConstrainedOptimal Binning:基于预定义的约束创建分组。

离散化/分箱/分组(Discretization / binning / Interactive grouping)_第2张图片

 

2、无监督离散化(unsupervised discretization)

不考虑类别信息(已知X的值而未知Y的值)。分箱(binning/split bin)方法如:等宽、等频、聚类。

(1)等宽/等距:将数值属性的值域[ , ]等分为K个区间,即 (Xmax - X min) / K。前提:数值大概服从均匀分布。

(2)等频/等深/分位数(equi-depth):和等宽类似,但它不是要求每个区间宽度一样,而是要求落在每个区间的对象数目相等。即共有M个点,每个区域含有M / K 个点。

分箱后再作数据平滑处理(smoothing)。

e.g.

离散化/分箱/分组(Discretization / binning / Interactive grouping)_第3张图片

 

3、人工定区间,按照需要而定。

 

Structure:

离散化/分箱/分组(Discretization / binning / Interactive grouping)_第4张图片

* 参考:
http://wenku.baidu.com/link?url=W-S_CqJNOb_PFH2w57Y7jhqovwFUnPrcwMDH5qgbQm6SebyldBq5z4n1yZtu7L6B_7F_DbkEIBPREGTk9LxgwrzfNYZHJBuYR0PVM7oyzLe

http://wenku.baidu.com/link?url=9j6zT4pcq6DxuT-D3LeOKninzUBUhlDxfvVaGxNoPwqsnmOQTydiSPj39LqJhQFAyc0b4FSdCmhZrXS0x4wZwo6N0svQRZxHgJ0pgtcL7QO

http://blog.revolutionanalytics.com/2015/03/r-package-smbinning-optimal-binning-for-scoring-modeling.html

你可能感兴趣的:(DataAnalysis)