数据挖掘如何分箱以及如何对每个箱子中的数据进行平滑处理

参考:https://www.cnblogs.com/serena45/p/5559122.html

分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法

数据平滑方法:有3种按平均值平滑、按边界值平滑和按中值平滑

统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。

用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。

例:

客户收入属性income排序后的值(人民币元):

800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。

统一权重:设定权重(箱子深度)为4,分箱后

【就是每个箱子都是装4个数值】

箱1:800 1000 1200 1500

箱2:1500 1800 2000 2300 

箱3:2500 2800 3000 3500

箱4:4000 4500 4800 5000  

 

统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后

如果,设定箱子宽度为W。那么(结合本例)

第一个:800--800+W;第二个:2000--2000+W;第三个:3500--3500+W;第四个:4800--4800+W

箱1:800 1000 1200 1500 1500 1800

箱2:2000 2300 2500 2800 3000

箱3:3500 4000 4500

箱4:4800 5000 

 

用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后

箱1:800 

箱2:1000 1200 1500 1500 1800 2000 

箱3:2300 2500 2800 3000  

箱4:3500 4000 

箱5:4500 4800 5000 

 

数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑

例子:

price 的排序后数据(美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
划分为(等深的)箱:
-箱1: 4, 8, 9, 15
-箱2: 21, 21, 24, 25
-箱3: 26, 28, 29, 34

用箱平均值平滑:
-箱1: 9, 9, 9, 9
-箱2: 23, 23, 23, 23
-箱3: 29, 29, 29, 29

用箱边界值平滑:
-箱1: 4, 4, 4, 15
-箱2: 21, 21, 25, 25
-箱3: 26, 26, 26, 34

⑴按平均值平滑 :对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据

⑵按边界值平滑 :用距离较小的边界值替代箱中每一数据。 

数据挖掘如何分箱以及如何对每个箱子中的数据进行平滑处理_第1张图片

⑶按中值平滑 :取箱子的中值,用来替代箱子中的所有数据。 

你可能感兴趣的:(数据挖掘)